Vaka Çalışması: Konuşmaya Dayalı Yapay Zeka

3 Hint dilinde ASR oluşturmak için 8 saatten fazla Veri Toplandı, Bölümlere Ayrıldı ve Metne Dönüştürüldü

İfade koleksiyonu
Hükümet, Bhashini Projesi ile vatandaşlarına kendi ana dillerinde internet ve dijital hizmetlere kolay erişim sağlamayı hedefliyor.

Hindistan'ın yapay zeka güdümlü dil çeviri platformu BHASHINI, Dijital Hindistan girişiminin hayati bir parçası.

MSME'lere, girişimlere ve bağımsız yenilikçilere Yapay Zeka (AI) ve Doğal Dil İşleme (NLP) araçları sağlamak için tasarlanan Bhashini platformu, bir kamu kaynağı olarak hizmet veriyor. Amacı, Hindistan vatandaşlarının ülkenin dijital girişimleriyle kendi ana dillerinde etkileşim kurmasını sağlayarak dijital katılımı teşvik etmektir.

Ek olarak, Hint dillerinde internet içeriğinin kullanılabilirliğini önemli ölçüde artırmayı hedefliyor. Bu özellikle yönetişim ve politika, bilim ve teknoloji vb. gibi kamu yararına olan alanları hedef almaktadır. Sonuç olarak bu, vatandaşları interneti kendi dillerinde kullanmaya teşvik ederek aktif katılımlarını teşvik edecektir.

Dil engellerini aşmak amacıyla katkıda bulunanlar, ortak kuruluşlar ve vatandaşlardan oluşan çeşitli bir ekosistemi etkinleştirmek için NLP'den yararlanın, böylece dijital içerme ve yetkilendirme sağlayın

Gerçek Dünya Çözümü

Yerelleştirmenin Gücünü Verilerle Ortaya Çıkarma

Hindistan'ın, Hint dillerinde dijital hizmetler sağlamak için çok dilli veri kümeleri ve yapay zeka tabanlı dil teknolojisi çözümleri oluşturmaya odaklanacak bir platforma ihtiyacı vardı. Bu girişimi başlatmak için Hindistan Teknoloji Enstitüsü, Madras (IIT Madras), çok dilli konuşma modelleri oluşturmak üzere Hint dili veri kümelerini toplamak, bölümlere ayırmak ve yazıya dökmek için Shaip ile ortaklık kurdu.

Zorluklar

Müşteriye Hint dilleri için Konuşma Teknolojisi konuşma yol haritasında yardımcı olmak için ekibin yapay zeka modeli oluşturmak için büyük hacimli eğitim verilerini alması, bölümlere ayırması ve yazıya dökmesi gerekiyordu. Müşterinin kritik gereksinimleri şunlardı:

Veri koleksiyonu

  • Dil başına 3000 lehçe ile 8 Hint dilinde 4 saatlik eğitim verisi edinin.
  • Tedarikçi, her dil için Extempore Speech'i toplayacak ve
    18-60 Yaş Gruplarından Sohbet Konuşması
  • Yaşa, cinsiyete, eğitime ve lehçelere göre farklı bir konuşmacı karışımı sağlayın
  • Spesifikasyonlara göre çeşitli kayıt ortamları karışımı sağlayın.
  • Her ses kaydı en az 16 kHz, ancak tercihen 44 kHz olacaktır.

Veri Segmentasyonu

  • 15 saniyelik konuşma bölümleri oluşturun ve bir konuşmadaki her konuşmacı, ses türü (konuşma, gevezelik, müzik, gürültü), dönüşler, ifadeler ve tümceler için sesi milisaniye olarak zaman damgası
  • Başlangıç ​​ve bitişte 200-400 milisaniyelik dolgu ile hedeflenen ses sinyali için her segmenti oluşturun.
  • Tüm segmentler için aşağıdaki nesneler doldurulmalıdır, yani Başlangıç ​​Zamanı, Bitiş Zamanı, Segment Kimliği, Ses Yüksekliği Düzeyi, Ses Türü, Dil kodu, Hoparlör Kimliği, vb.

Veri Transkripsiyonu

  • Karakterler ve Özel Semboller, Yazım ve Dilbilgisi, Büyük Harfler, Kısaltmalar, Kasılmalar, Bireysel Konuşulan Harfler, Sayılar, Noktalamalar, Kısaltmalar, Akıcı Olmayan, Konuşma, Anlaşılmayan Konuşma, Hedef Olmayan Diller, Konuşma Dışı vb. ile ilgili ayrıntılı transkripsiyon yönergelerini izleyin.

Kalite Kontrolü ve Geri Bildirim

  • Tüm kayıtlar kalite değerlendirmesi ve doğrulamasından geçecek, yalnızca doğrulanmış konuşma teslim edilecek

Çözüm

Konuşmaya dayalı yapay zeka konusundaki derin anlayışımızla, müşterinin 8 Hint dilinde büyük bir ses veri kümesi külliyatı oluşturmak için uzman toplayıcılar, dilbilimciler ve yorumculardan oluşan bir ekiple verileri toplamasına, bölümlere ayırmasına ve yazıya dökmesine yardımcı olduk.

Shaip'in çalışma kapsamı, bunlarla sınırlı olmamak üzere, büyük hacimli işitsel eğitim verilerinin alınması, ses kayıtlarının birden fazla parçaya bölünmesi, verilerin yazıya dökülmesi ve meta verileri [SpeakerID, Age, Gender, Language, Dialect,
Ana Dil, Nitelik, Meslek, Etki Alanı, Dosya Biçimi, Frekans, Kanal, Ses Türü, Konuşmacı Sayısı, Yabancı Dil Sayısı, Kullanılan Kurulum, Dar Bant veya Geniş Bant Ses, vb.]. 

Shaip, karmaşık projeler için konuşma teknolojisini eğitmek için gereken istenen kalite düzeylerini korurken, ölçekte 3000 saatlik ses verisi topladı. Katılımcıların her birinden Açık Onay Formu alınmıştır.

1. Veri koleksiyonu

2. Veri Segmentasyonu

  • Toplanan ses verileri, her biri 15 saniyelik konuşma bölümlerine ayrıldı ve bir konuşmadaki her konuşmacı, ses türü, dönüşler, ifadeler ve tümceler için milisaniye olarak zaman damgalandı.
  • Bir ses sinyalinin başında ve sonunda 200-400 milisaniye dolgu ile hedeflenen ses sinyali için her segmenti oluşturdu.
  • Tüm segmentler için, aşağıdaki nesneler mevcuttu ve doldurulmuştu, yani, Başlangıç ​​Zamanı, Bitiş Zamanı, Segment Kimliği, Yükseklik Düzeyi (Yüksek, Normal, Sessiz), Birincil Ses Türü (Konuşma, Gevezelik, Müzik, Gürültü, Örtüşme), Dil Kodu Hoparlör Kimlik, Transkripsiyon vb.

3. Kalite Kontrolü ve Geri Bildirim

  • Tüm kayıtlar kalite açısından değerlendirildi ve yalnızca %90 WER ve %90 TER ile doğrulanmış konuşma kayıtları teslim edildi
  • İzlenen Kalite Kontrol Listesi:
       » Maks. 15 saniye segment uzunluğu
       » Belirli alanlardan transkripsiyon, yani: Hava durumu, farklı haber türleri, sağlık, tarım, eğitim, işler veya finans
       » Düşük Arka Plan Gürültüsü
       » Ses klibi kapalı – Bozulma yok
       » Transkripsiyon için doğru ses segmentasyonu

4. Veri Transkripsiyonu
Tereddütler, dolgu sözcükleri, yanlış başlangıçlar ve diğer sözel tikler dahil olmak üzere tüm konuşulan sözcükler, transkripsiyonda doğru bir şekilde yakalandı. Ayrıca büyük ve küçük harfler, imla, büyük harf kullanımı, kısaltmalar, kısaltmalar, sayılar,
noktalama işaretleri, Kısaltmalar, Akıcı Olmayan Konuşma, konuşma dışı sesler vb. Ayrıca Toplama ve Transkripsiyon için izlenen İş Akışı aşağıdaki gibidir:

Sonuç

Uzman dilbilimcilerden alınan yüksek kaliteli ses verileri, Indian Institute of Technology – Madras'ın öngörülen sürede farklı lehçelere sahip 8 Hint dilinde çok dilli Konuşma Tanıma modellerini doğru bir şekilde eğitmesini ve oluşturmasını sağlayacaktır. Konuşma tanıma modelleri şu amaçlarla kullanılabilir:

  • Vatandaşları girişimlere kendi ana dillerinde bağlayarak dijital katılımın önündeki dil engelini aşın.
  • Dijital Yönetişimi Teşvik Eder
  • Catalyst, Hint dillerinde hizmet ve ürünler için bir ekosistem oluşturacak
  • Özellikle yönetişim ve politika olmak üzere kamu yararına olan alanlarda daha yerelleştirilmiş dijital içerik
Altın-5 yıldızlı

Shaip'in sohbete dayalı AI alanındaki uzmanlığından etkilendik. Sıkı zaman çizelgeleri ve yönergeler dahilinde 8 dilde uzman dilbilimcilerden gerekli eğitim verilerini tedarik etme, bölümlere ayırma, yazıya dökme ve sunma konusundaki genel proje yürütme yeterliliği; kabul edilebilir kalite standardını korurken.”

Konuşma AI'nızı hızlandırın
%100 uygulama geliştirme

Öne Çıkan Müşteriler

Ekipleri, dünya lideri yapay zeka ürünleri oluşturmaya teşvik etmek.