Konuşmaya Dayalı Yapay Zeka: Otomatik Konuşma Tanıma

8'den fazla Ses saati Toplandı, 800 saat Çok Dilde Ses Teknolojisi için Yazıya Dönüştürüldü

Konuşmaya dayalı yapay zeka

Giriş

Hindistan'ın, Hint dillerinde dijital hizmetler sağlamak için çok dilli veri kümeleri ve yapay zeka tabanlı dil teknolojisi çözümleri oluşturmaya odaklanan bir platforma ihtiyacı vardı. Bu girişimi başlatmak için Müşteri, çok dilli konuşma modelleri oluşturmak amacıyla Hint dilini toplamak ve yazıya dökmek için Shaip ile ortaklık kurdu.

hacim

Toplanan Veri Saatleri
10
Açıklamalı Sayfa Sayısı
10 +
Proje süresi
< 1 ay

Zorluklar

Müşteriye Hint dillerine yönelik Konuşma Teknolojisi konuşma yol haritası konusunda yardımcı olmak amacıyla ekibin, yapay zeka modeli oluşturmak için büyük hacimli eğitim verilerini toplaması, bölümlere ayırması ve yazıya dökmesi gerekiyordu. Müşterinin kritik gereksinimleri şunlardı:

Veri koleksiyonu

  • Hindistan'ın uzak konumlarından 8000 saatlik eğitim verisi edinin
  • Tedarikçi, 20-70 Yaş Gruplarından Spontan Konuşmaları toplayacak
  • Yaşa, cinsiyete, eğitime ve lehçelere göre çeşitli konuşmacıların karışımını sağlayın
  • Her ses kaydı en az 16kHz ve 16 bit/örnek olacaktır.
Bilgi toplama

Veri Transkripsiyonu

Karakterler ve Özel Semboller, Yazım ve Dilbilgisi, Büyük Harf Kullanımı, Kısaltmalar, Kasılmalar, Bireysel Konuşulan Harfler, Sayılar, Noktalama İşaretleri, Kısaltmalar ve Baş Harfler, Akıcı Konuşma, Anlaşılmaz Konuşma, Hedef Olmayan Diller, Konuşma Dışı ile ilgili ayrıntılı transkripsiyon yönergelerini izleyin

Veri transkripsiyonu

Kalite Kontrolü ve Geri Bildirim

Tüm kayıtlar kalite değerlendirmesinden ve doğrulamadan geçecektir, yalnızca doğrulanmış konuşma kayıtları teslim edilecektir

Çözüm

Konuşmaya dayalı yapay zeka konusundaki derin anlayışımızla, müşterinin Hindistan'ın uzak bölgelerinden büyük miktarda ses verisi oluşturması için uzman toplayıcılardan, dilbilimcilerden ve açıklayıcılardan oluşan bir ekiple ses verilerini toplamasına ve yazıya dökmesine yardımcı olduk.

Shaip'in iş kapsamı, büyük hacimli ses eğitim verilerinin elde edilmesini, verilerin yazıya geçirilmesini ve meta verileri içeren ilgili JSON dosyalarının [hem konuşmacılar hem de yazıya aktaranlar için] teslim edilmesini içeriyordu ancak bunlarla sınırlı değildi. Meta veriler, her konuşmacı için anonimleştirilmiş bir Konuşmacı Kimliği, cihaz ayrıntıları, cinsiyet, yaş ve eğitim gibi demografik bilgilerin yanı sıra pin kodu, sosyo-ekonomik durumu, konuşulan diller ve yaşamları boyunca kalış sürelerinin bir kaydını içerir. Veriler, her transkripsiyon yapan kişi için anonimleştirilmiş bir Transcriber ID'yi, konuşmacılarınkine benzer demografik ayrıntıları, transkripsiyon deneyim sürelerini ve okuyabildikleri, yazabildikleri ve konuşabildikleri dillerin kapsamlı bir dökümünü içerir.

Şaip toplandı 8000 saatlerce ses verisi / Karmaşık projelere yönelik konuşma teknolojisini eğitmek için gerekli kalite düzeylerini korurken, 800 saat boyunca kendiliğinden konuşma ve yazıya dönüştürülür. Katılımcıların her birinden Açık Onam Formu alındı. Toplanan / Spontane konuşma Üniversite tarafından sağlanan görüntülere dayanıyordu. İle ilgili 3500 görüntüler, 1000 geneldir ve 2500 bölgeye özgü kültür, festivaller vb. ile ilgilidir. Resimler tren istasyonları, pazarlar, hava durumu ve daha fazlası gibi çeşitli alanları tasvir eder.

Veri koleksiyonu

EyaletDistrictsSes SaatiTranskripsiyon
(Saat)
BiharSaran, Doğu Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeşDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarkandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Batı BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kalküta, Jhargram, Kuzey 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaKuzey+Güney Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Toplam8000800

Genel kurallar

oluşturulan

    • 16 kHz'de ses, 16 bit/örnek.
    • Tek kanal.
    • Kod dönüştürme olmadan ham ses.

stil

    • Spontane konuşma.
    • Üniversitenin sağladığı görsellere dayalı cümleler. 3500 görselden 1000'i genel, 2500'ü ise bölgeye özgü kültür, festivaller vb. ile ilgilidir. Görseller tren istasyonları, pazarlar, hava durumu ve daha fazlası gibi çeşitli alanları tasvir etmektedir.

Arka Plan Kaydı

    • Sessiz, yankısız bir ortamda kaydedildi.
    • Kayıt sırasında akıllı telefonda herhangi bir rahatsızlık (titreşim veya bildirim) yok.
    • Kırpılma veya uzak alan efektleri gibi bozulmalar yok.
    • Telefondan gelen titreşimler kabul edilemez; Ses netse harici titreşimler tolere edilebilir.

Hoparlör Özellikleri

    • İlçe başına dengeli cinsiyet dağılımı ile yaş aralığı 20-70 arasındadır.
    • Her bölgede en az 400 anadil konuşucusu.
    • Konuşmacılar kendi ana dilini/lehçesini kullanmalıdır.
    • Tüm katılımcılar için onay formları zorunludur.


Kalite Kontrolü ve Kritik Kalite Güvencesi

QA süreci, ses kayıtları ve transkripsiyonlar için kalite güvencesine öncelik verir. Ses standartları kesin sessizliklere, bölüm süresine, tek hoparlör netliğine ve yaş ile sosyo-ekonomik durumu içeren ayrıntılı meta verilere odaklanır. Transkripsiyon kriterleri etiket doğruluğunu, kelime doğruluğunu ve doğru segment ayrıntılarını vurgular. Kabul kriteri, bir ses grubunun %20'den fazlasının bu standartları karşılayamaması durumunda reddedilmesini gerektirir. %20'den az tutarsızlıklar için benzer profillere sahip yedek kayıtlar gereklidir.

Veri Transkripsiyonu

Transkripsiyon yönergeleri doğruluğu ve birebir transkripsiyonunu yalnızca kelimeler açık ve anlaşılır olduğunda vurgular; belirsiz kelimeler konuya göre [anlaşılmıyor] veya [duyulmuyor] olarak işaretlenir. Uzun sesteki cümle sınırları şu şekilde işaretlenmiştir: ve dilbilgisi hatalarının başka kelimelerle ifade edilmesine veya düzeltilmesine izin verilmez. Verbatim transkripsiyonu hataları, argo sözcükleri ve tekrarları kapsar ancak yanlış başlangıçları, dolgu seslerini ve kekemelikleri atlar. Arka plan ve ön plandaki sesler açıklayıcı etiketlerle yazıya geçirilirken özel adlar, başlıklar ve numaralar belirli yazım kurallarına uyar. Her cümle için konuşmacı etiketleri kullanılmış olup, tamamlanmamış cümleler ile belirtilmiştir.

Proje İş Akışı

İş akışı ses transkripsiyon sürecini açıklar. Katılımcıların katılımı ve eğitimi ile başlar. Bir QA platformuna yüklenen bir uygulamayı kullanarak ses kaydederler. Bu ses, kalite kontrollerinden ve otomatik bölümlendirmeden geçer. Teknik ekip daha sonra bölümleri transkripsiyon için hazırlıyor. Manuel transkripsiyonun ardından bir kalite güvence adımı vardır. Transkripsiyonlar müşteriye teslim edilir ve kabul edilmesi durumunda teslimat tamamlanmış sayılır. Aksi takdirde müşteri geri bildirimlerine göre revizyonlar yapılır.

Sonuç

Uzman dilbilimcilerden alınan yüksek kaliteli ses verileri, müşterimizin, öngörülen sürede farklı lehçelere sahip çeşitli Hint dillerinde çok dilli Konuşma Tanıma modellerini doğru bir şekilde eğitmesine ve oluşturmasına olanak tanıyacaktır. Konuşma tanıma modelleri şu amaçlarla kullanılabilir:

  • Vatandaşları girişimlere kendi ana dillerinde bağlayarak dijital katılımın önündeki dil engelini aşın.
  • Dijital Yönetişimi Teşvik Eder
  • Catalyst, Hint dillerinde hizmet ve ürünler için bir ekosistem oluşturacak
  • Özellikle yönetişim ve politika olmak üzere kamu yararına olan alanlarda daha yerelleştirilmiş dijital içerik

Shaip'in sohbete dayalı yapay zeka alanındaki uzmanlığına hayranlık duyuyoruz. 8000 farklı bölgede 800 saatlik ses verisinin yanı sıra 80 saatlik transkripsiyonun işlenmesi, en hafif tabirle devasa bir görevdi. Böylesine zorlu bir projenin başarılı bir şekilde yürütülmesini mümkün kılan şey, Shaip'in bu alandaki karmaşık ayrıntılara ve nüanslara ilişkin derin kavrayışıydı. Birinci sınıf kaliteyi sağlarken, bu kadar büyük miktarda verinin karmaşıklıklarını sorunsuz bir şekilde yönetme ve bunlar arasında gezinme yetenekleri gerçekten övgüye değerdir.

Altın-5 yıldızlı

Konuşma AI'nızı hızlandırın
%100 uygulama geliştirme