Sesli arayüzler, transkripsiyon veya çok modlu aracılar oluşturuyorsanız, modelinizin sınırlarını verileriniz belirler. Konuşma tanımada (ASR), bu, gerçek dünyadaki kullanıcıları, cihazları ve ortamları yansıtan çeşitli ve iyi etiketlenmiş seslerin toplanması ve disiplinli bir şekilde değerlendirilmesi anlamına gelir.
Bu kılavuz, güvenilir ürünleri daha hızlı teslim edebilmeniz için konuşma eğitimi verilerini nasıl planlayacağınızı, toplayacağınızı, düzenleyeceğinizi ve değerlendireceğinizi tam olarak gösterir.
“Konuşma Tanıma Verisi” Neleri İçerir?
En azından: ses + metin. Pratikte, yüksek performanslı sistemlerin ayrıca zengin meta verilere (konuşmacı demografisi, yerel, cihaz, akustik koşullar), açıklama eserlerine (zaman damgaları, günlük kaydı, kahkaha gibi sözcüksel olmayan olaylar) ve sağlam kapsama sahip değerlendirme bölümlerine ihtiyacı vardır.
Pro ucu: "Veri kümesi" dediğinizde, görevi (dikte, komut veya konuşma ASR), etki alanını (destek çağrıları, sağlık notları, araç içi komutlar) ve kısıtlamaları (gecikme, cihazda veya bulutta) belirtin. Örnekleme hızından açıklama şemasına kadar her şeyi değiştirir.
Konuşma Veri Spektrumu (Kullanım Durumunuza Uygun Olanı Seçin)

1. Senaryolu konuşma (yüksek kontrol)
Konuşmacılar komutları kelimesi kelimesine okur. Komuta ve kontrol, uyandırma sözcükleri veya fonetik kapsam için idealdir. Hızlı ölçeklenir; daha az doğal varyasyon vardır.
2. Senaryo tabanlı konuşma (yarı kontrollü)
Konuşmacılar, bir senaryo dahilinde komutları canlandırır ("bir klinikten glokom randevusu isteyin"). Görevinize odaklanarak çeşitli ifadeler kullanırsınız; bu, alan dili kapsamı için idealdir.
3. Doğal/senaryosuz konuşma (düşük kontrol)
Gerçek konuşmalar veya serbest monologlar. Çok konuşmacılı, uzun biçimli veya gürültülü kullanım durumları için gereklidir. Temizlenmesi daha zordur, ancak sağlamlık açısından çok önemlidir. Orijinal makalede bu spektrum tanıtılmıştı; burada aşırı veya yetersiz uyumu önlemek için spektrumun ürünle uyumlu olmasına vurgu yapıyoruz.
Veri Kümenizi Bir Ürün Gibi Planlayın
Başarıyı ve kısıtlamaları önceden tanımlayın
- Birincil ölçüt: Çoğu dil için WER (Kelime Hata Oranı); net kelime sınırları olmayan diller için CER (Karakter Hata Oranı).
- Gecikme ve kapsam: Cihazda mı çalıştıracaksınız? Bu, örnekleme hızını, modeli ve sıkıştırmayı etkiler.
- Gizlilik ve uyumluluk: PHI/PII'ye (örneğin sağlık hizmeti) dokunursanız, onay, kimlik gizleme ve denetlenebilirlik sağlayın.
Gerçek kullanımı veri özelliklerine eşleyin
- Yerel ayarlar ve aksanlar: örneğin, en-US, en-IN, en-GB; kentsel/kırsal ve çok dilli kod geçişlerini dengeleyin.
- Ortamlar: ofis, sokak, araba, mutfak; SNR hedefleri; yankı ve yakın konuşma mikrofonları.
- Cihazlar: akıllı hoparlörler, cep telefonları (Android/iOS), kulaklıklar, araç kitleri, sabit hatlar.
- İçerik politikaları: küfür, hassas konular, erişilebilirlik ipuçları (kekemelik, dizartri) uygun ve izin verilen yerlerde.
Ne Kadar Veriye İhtiyacınız Var?
Tek bir sayı yok, ancak kapsam, ham saatlerden daha önemlidir. Birkaç katılımcının ultra uzun kayıtlarından ziyade, konuşmacıların, cihazların ve akustiğin genişliğine öncelik verin. Komuta ve kontrol için, yüzlerce konuşmacının binlerce ifadesi genellikle daha az sayıda ve uzun kayıtlardan daha iyidir. Konuşma odaklı ASR için, saat × çeşitliliğe ve dikkatli açıklamalara yatırım yapın.
Güncel manzara: Yüz binlerce saat boyunca eğitilen açık kaynaklı modeller (örneğin Whisper) güçlü bir temel oluşturur; alan, vurgu ve gürültünün verilerinizle uyarlanması hâlâ üretim metriklerini etkileyen şeydir.
Koleksiyon: Adım Adım İş Akışı

1. Gerçek kullanıcı amacından başlayın
Arama kayıtlarını, destek taleplerini, sesli yanıt kayıtlarını, sohbet kayıtlarını ve ürün analizlerini kullanarak komut istemleri ve senaryolar hazırlayın. Böylece, normalde gözden kaçıracağınız uzun kuyruklu amaçları da ele almış olursunuz.
2. Çeşitliliği göz önünde bulundurarak taslak istemler ve senaryolar hazırlayın
- En küçük çiftleri yazın (“oturma odasının ışığını aç” ve “aç…”).
- Tohum tutarsızlıkları ("şey, yapabilir misin...") ve ilgiliyse kod değiştirme.
- Yorgunluğu önlemek için okuma seanslarını yaklaşık 15 dakikayla sınırlayın; temiz segmentasyon için satırlar arasına 2-3 saniyelik boşluklar ekleyin (orijinal kılavuzunuza uygun olarak).
3. Doğru konuşmacıları işe alın
Pazar ve adalet hedeflerine uygun demografik çeşitliliği hedefleyin. Uygunluk, kota ve onayları belgelendirin. Adil bir şekilde ücretlendirin.
4. Gerçekçi koşullar altında kayıt yapın
Bir matris toplayın: hoparlörler × cihazlar × ortamlar.
Örneğin:
- cihazlar: iPhone orta seviye, Android alt seviye, akıllı hoparlör uzak alan mikrofonu.
- ortamlar: sessiz oda (yakın alan), mutfak (cihazlar), araba (otoyol), sokak (trafik).
- Biçimleri: ASR için 16 kHz / 16-bit PCM yaygındır; eğer örneklemeyi azaltacaksanız daha yüksek oranları göz önünde bulundurun.
5. Değişkenliği (kasıtlı olarak) teşvik edin
Doğal tempoyu, kendi kendini düzeltmeyi ve kesintileri teşvik edin. Senaryo tabanlı ve doğal veriler için aşırı koçluk yapmayın; müşterilerinizin yarattığı karmaşayı istersiniz.
6. Hibrit bir boru hattıyla transkripsiyon yapın
- Güçlü bir temel modelle (örneğin Whisper veya şirket içi modeliniz) otomatik transkripsiyon yapın.
- Düzeltmeler, günlük tutma ve olaylar (gülüşmeler, dolgu sözcükleri) için insan QA.
- Tutarlılık kontrolleri: yazım sözlükleri, alan sözlükleri, noktalama politikası.
7. İyi bölün; dürüstçe test edin
- Konuşmacı ve senaryo kopukluğu ile Eğitim/Geliştirme/Test (sızıntıyı önleyin).
- Üretim gürültüsünü ve cihazlarını yansıtan gerçek dünya kör kümesini koruyun; yineleme sırasında buna dokunmayın.
Açıklama: Etiketleri Hendeğiniz Yapın
Net bir şema tanımlayın
- Sözcüksel kurallar: sayılar (“yirmi beş” ve “25”), kısaltmalar, noktalama işaretleri.
- Olaylar: [kahkaha], [çapraz konuşma], [duyulmuyor: 00:03.2–00:03.7].
- Günlükleştirme: İzin verilen yerlerde konuşmacı A/B etiketleri veya izlenen kimlikler.
- Zaman damgaları: Aramayı, altyazıları veya hizalamayı destekliyorsanız kelime veya ifade düzeyinde.
Tren notlayıcıları; onları ölçün
Altın görevleri ve açıklayıcılar arası anlaşmayı (IAA) kullanın. Kritik belirteçlerde (ürün adları, ilaçlar) hassasiyeti/geri çağırmayı ve geri dönüş sürelerini takip edin. Çoklu geçişli kalite güvencesi (akran değerlendirmesi → lider değerlendirmesi), model değerlendirme kararlılığında daha sonra karşılığını verir.
Kalite Yönetimi: Veri Gölünüzü Göndermeyin
- Otomatik ekranlar: kırpma, kırpma oranı, SNR sınırları, uzun sessizlikler, kodek uyumsuzlukları.
- İnsan denetimleri: ortama ve cihaza göre rastgele örnekler; anlık kontrol günlüğü ve noktalama işaretleri.
- Sürümleme: Veri kümelerini kod gibi ele alın; semver, değişiklik günlükleri ve değiştirilemez test kümeleri.
ASR'nizi Değerlendirme: Tek Bir WER'in Ötesinde
WER'i genel ve dilim bazında ölçün:
- Çevreye göre: sessiz vs. araba vs. sokak
- Cihaza göre: düşük seviyeli Android ve iPhone
- Aksan/yerel ayarlara göre: en-IN ve en-US karşılaştırması
- Alan adı terimlerine göre: ürün adları, ilaçlar, adresler
Gerçek zamanlı kullanıcı deneyimi (UX) sağlıyorsanız gecikmeyi, kısmi davranışları ve uç noktalamayı takip edin. Model izleme için, WER tahmini ve hata tespiti üzerine yapılan araştırmalar, her şeyi kaydetmeden insan incelemesine öncelik vermenize yardımcı olabilir.
Oluşturma ve Satın Alma (veya Her İkisi): Birleştirebileceğiniz Veri Kaynakları

1. Hazır kataloglar
Özellikle dilleri veya konuşmacı çeşitliliğini hızlı bir şekilde kapsamak için önyükleme ve ön eğitim için kullanışlıdır.
2. Özel veri toplama
Alan, akustik veya yerel gereksinimler belirli olduğunda, hedeflenen WER'e ulaşmak için özel ayarları kullanırsınız. İstemleri, kotaları, cihazları ve QA'yı siz kontrol edersiniz.
3. Verileri (dikkatlice) açın
Deneyler için harika; lisans uyumluluğunu, PII güvenliğini ve kullanıcılarınıza göre dağıtım değişikliğinin farkında olmayı sağlayın.
Güvenlik, Gizlilik ve Uyumluluk
- Açık rıza ve şeffaf katkıda bulunan şartları
- Uygun durumlarda kimliğin gizlenmesi/anonimleştirilmesi
- Coğrafi olarak sınırlandırılmış depolama ve erişim kontrolleri
- Düzenleyiciler veya kurumsal müşteriler için denetim izleri
Gerçek Dünya Uygulamaları (Güncellendi)
- Sesli arama ve keşif: Büyüyen kullanıcı tabanı; benimsenme pazara ve kullanım durumuna göre değişir.
- Akıllı ev ve cihazlar: Yeni nesil asistanlar, daha fazla konuşmaya dayalı, çok adımlı istekleri destekleyerek, uzak alandaki gürültülü odalar için eğitim verilerinin kalitesinin çıtasını yükseltiyor.
- Müşteri desteği: Günlük kaydı ve ajan yardımı ile kısa dönüşlü, alan ağırlıklı ASR.
- Sağlık diktesi: Yapılandırılmış kelime dağarcığı, kısaltmalar ve sıkı gizlilik kontrolleri.
- Araç içi ses: Uzak alan mikrofonları, hareket gürültüsü ve güvenlik açısından kritik gecikme.
Mini Vaka Çalışması: Ölçekte Çok Dilli Komut Verileri
Küresel bir OEM, cihaz içi komutları desteklemek için 1. ve 2. kademe dillerde 3-30 saniyelik ifade verilerine ihtiyaç duyuyordu. Ekip:
- Uyandırma sözcükleri, gezinme, medya ve ayarları kapsayan tasarlanmış istemler
- Cihaz kotalarına göre bölgeye göre işe alınan konuşmacılar
- Sessiz odalarda ve uzak alanlarda ses kaydı alındı
- Teslim edilen JSON meta verileri (cihaz, SNR, yerel, cinsiyet/yaş grubu) ve doğrulanmış transkriptler
Sonuç: Alan içi komutlarda hızlı model yinelemesini ve ölçülebilir WER azaltımını sağlayan üretime hazır bir veri seti.
Yaygın Tuzaklar (ve Çözümü)
- Çok fazla saat, yetersiz kapsama alanı: Hoparlör/cihaz/ortam kotalarını ayarlayın.
- Sızdıran değerlendirme: Konuşmacı-ayrık bölümleri ve gerçek bir kör test uygulayın.
- Açıklama kayması: Devam eden QA'yı çalıştırın ve yönergeleri gerçek örneklerle yenileyin.
- Uç pazarları göz ardı etme: Kod değiştirme, bölgesel aksanlar ve düşük kaynaklı yerler için hedeflenen verileri ekleyin.
- Gecikme sürprizleri: Sesinizle hedef cihazlardaki modelleri erkenden profilleyin.
Hazır Veriler ile Özel Veriler Ne Zaman Kullanılmalıdır?
Hazır çözümleri kullanarak dil kapsamını hızla genişletin veya ön yükleme yapın; alanınızda WER sabitlendiğinde özel çözümlere geçin. Birçok ekip uyum içinde çalışır: katalog saatleri üzerinde önceden eğitim/ince ayar yapın, ardından üretim huninizi yansıtan özel verilerle uyarlayın.
Kontrol Listesi: Toplamaya Hazır mısınız?
- Kullanım durumu, başarı ölçütleri, tanımlanan kısıtlamalar
- Yerel ayarlar, cihazlar, ortamlar, kotalar sonlandırıldı
- Onay + gizlilik politikaları belgelendi
- Hazırlanan istem paketleri (senaryo + senaryo)
- Açıklama yönergeleri + QA aşamaları onaylandı
- Eğitim/geliştirme/test bölme kuralları (konuşmacı ve senaryo ayrık)
- Lansman sonrası kaymaya yönelik izleme planı
Önemli Noktalar
- Kapsama alanı saatlerden daha önemlidir. Daha fazla dakikaya ihtiyaç duymadan önce hoparlörleri, cihazları ve ortamları dengeleyin.
- Kaliteli bileşiklerin etiketlenmesi. Net şema + çok aşamalı QA, tek geçişli düzenlemelerden daha iyi performans gösterir.
- Dilim bazında değerlendirin. WER'i aksan, cihaz ve gürültüye göre takip edin; ürün riski burada gizlidir.
- Veri kaynaklarını harmanlayın. Kataloglarla önyükleme + özel uyarlama genellikle değere ulaşmada en hızlı yoldur.
- Gizlilik bir üründür. İlk günden itibaren onay, kimlik gizleme ve denetlenebilirlik özelliklerini ekleyin.
Shaip Size Nasıl Yardımcı Olabilir?
Özel konuşma verilerine mi ihtiyacınız var? Shaip, özel toplama, açıklama ve transkripsiyon sağlar ve 150'den fazla dil/çeşitte, konuşmacılara, cihazlara ve ortamlara göre özenle dengelenmiş, kullanıma hazır ses/transkriptler içeren veri kümeleri sunar.