Hindistan gibi kültürel açıdan çeşitli ve dil açısından zengin bir ülkede, kapsayıcı AI inşa etmek temsili, yüksek kaliteli veri kümeleri toplamakla başlar. Bu, arkasındaki vizyondur Proje Vaani—önderliğindeki büyük ölçekli, açık kaynaklı bir girişim SANATPARKI, IISc Bengaluru, ve GoogleHer Hint dili ve lehçesine ses vermeyi amaçlıyor.
Hırslı hedef? Toplamak 150,000+ saatlik konuşma ve 15,000+ saatlik transkripsiyon itibaren 1 milyon kişi dahilinde 773 ilçe Hindistan
Bu ulusal misyonun kilit tedarikçilerinden biri olarak, Saip Spontan konuşma verilerinin düzenlenmesi, transkripsiyon ve meta veri toplamada önemli bir rol oynadı ve gerçek Hindistan'ı gerçekten temsil eden adil ses teknolojilerinin temelini attı.
Project Vaani'nin Arkasındaki Vizyon
Proje Vaani, yapay zeka katılım açığını kapatmak için tasarlanmıştır en büyük çok modlu, çok dilli, açık kaynaklı veri seti Hindistan'da. Bu veriler, çoğu küresel teknoloji ekosistemlerinde yeterince temsil edilmeyen yerel Hint dillerinde doğru konuşma tanıma, çeviri ve üretken AI sistemleri geliştirmek için temel teşkil ediyor.
Uzun vadeli vizyonumuz, şu alanlarda etkili uygulamalara güç sağlamaktır:
- Sağlık hizmeti – Ses tabanlı tele-tıp
- Eğitim – Yerel öğrenme platformları
- Yönetim – Vatandaş hizmetleri için konuşma arayüzleri
- Engellilerin kullanımları için uygunluk – Engelli kullanıcılar için ses araçları
- Afete müdahele – Yerel lehçelerde gerçek zamanlı iletişim
Shaip, Project Vaani için Hindistan'ın En Büyük Açık Kaynaklı Konuşma Veri Kümesinin Oluşturulmasına Nasıl Yardımcı Oldu
Shaip'e koleksiyon emanet edildi 8,000 saat spontan konuşma ve 800 saatlik elle doğrulanmış transkripsiyonlarSorumluluğumuz konuşmacıların katılımını, ses kaydını, meta veri etiketlemeyi, transkripsiyon koordinasyonunu ve kalite kontrolünü kapsıyordu.
En fazla 8,000 saat içerisinde size döneceğiz. kendiliğinden oluşan ses verilerinin
Kayıtlar İlçe başına 400'den fazla anadil konuşanı, farklı yaş gruplarını, cinsiyetleri ve lehçeleri temsil eden
80 ilçe, kaplı
Görüntü tabanlı istem, doğal, bağlamsal konuşma
Yaklaşımımızı benzersiz kılan şey şudur:
İlçe Düzeyinde Çeşitlilik
Bihar, Uttar Pradesh, Karnataka, Batı Bengal ve Maharashtra gibi eyaletlere yayılmış 80 ilçeden kayıtlar aldık. Her ilçe 100 saatlik ses verisi sağladı ve bölgesel dengeyi sağladı. Ana akım AI veri kümelerinde sıklıkla göz ardı edilen bölgesel aksanların ve lehçelerin temsilini sağlayarak ana dili konuşanlarla etkileşime girdik.
Dilsel ve Demografik Temsil
Bihar, Uttar Pradesh, Karnataka, Batı Bengal ve Maharashtra gibi eyaletlere yayılmış 80 ilçeden kayıtlar aldık. Her ilçe 100 saatlik ses verisi sağladı ve bölgesel dengeyi sağladı. Ana akım AI veri kümelerinde sıklıkla göz ardı edilen bölgesel aksanların ve lehçelerin temsilini sağlayarak ana dili konuşanlarla etkileşime girdik.
Görüntüyle İstemli Konuşma
Spontan ve doğal kelime dağarcığını canlandırmak için katılımcılara seans başına 45-90 resim gösterildi ve bunları tanımlamaları istendi. Katılımcılar, kültürel sembollerden günlük nesnelere kadar çeşitli resimler kullanarak kendi ana dillerinde doğal, spontan tepkiler uyandırmaya teşvik edildi. Bu, kayıtların gerçek dünya, bağlamsal konuşmayı yansıtmasını sağladı; bu da gelişmiş NLP sistemlerini eğitmek için olmazsa olmazdır.
Yüksek Kaliteli Transkripsiyon Standartları
Konuşma verilerinin yalnızca %10'u yazıya geçirildi; bu da 800 saate denk geliyor. Yazıya geçirmeler, konuşmacının 20-50 km yarıçapındaki yerel dilbilimciler tarafından gerçekleştirildi ve lehçeler ve nüanslarla aşinalık sağlandı. İkinci katman kontrolü, %5'ten az kelime hatası oranı (WER) sağladı.
Sıkı Kalite Güvencesi
Ses verilerinin yüksek bir çıtayı karşılaması gerekiyordu: arka plan gürültüsü, yankı, telefon titreşimi veya bozulma yoktu. Ses sessiz, yankısız ortamlarda kaydedildi. Dosyalar, konuşma netliği, gürültü seviyeleri, meta veri doğruluğu ve konuşmacı doğrulaması için yönergeleri karşılamak üzere titiz bir incelemeden geçti. Meta veri etiketlemesi tüm dosyalarda doğru olmalıydı ve tüm kayıtlar konuşmacı ve konum hizalaması açısından kontrol edildi.
Çözdüğümüz Zorluklar
- Uzaktan lojistik – 80 ilçede ekipleri yönetmek
- Konuşmacı çeşitliliği – Uzak lokasyonlarda 32,000'den fazla doğrulanmış konuşmacının katılımı
- Kültürel duyarlılık – Yerel gelenek ve lehçelere saygı göstermek
- Veri bütünlüğü – Kalite ve uyumluluk standartlarını karşılamak
- Kalite kontrol – birden fazla dilsel ve kültürel bağlamda
Başarımız titiz planlama, teknoloji odaklı doğrulama ve her bölgenin kültürel nüanslarını anlayan yerel ekiplerle yapılan ortaklıklara dayanıyor.
Etki ve Uygulamalar
Shaip'in katkısı yalnızca Proje Vaani'nin ilerlemesini hızlandırmakla kalmadı, aynı zamanda Hindistan'da kapsayıcı AI için temelleri de attı. Düzenlenen konuşma veri seti halihazırda şu amaçlar için AI modelleri oluşturmak ve ince ayar yapmak için kullanılıyor:
- Yerel sesli asistanlar
- Bölgesel çeviri motorları
- Görme engelliler için erişilebilir iletişim araçları
- Kırsal kesimdeki öğrenciler için yapay zeka destekli edtech platformları
- Kırsal tele tıp
- Ses tabanlı vatandaş hizmetleri
- Gerçek zamanlı çeviri ve transkripsiyon
Sonuç
Proje Vaani, kapsayıcı ve erişilebilir yapay zekaya doğru atılmış cesur bir adımdır ve Shaip bu alanda temel bir rol oynamaktan onur duymaktadır. Shaip'in Proje Vaani'deki çalışması, çeşitliliğe ve temsiliyete dayanan etik ve kapsayıcı yapay zeka sistemleri oluşturma konusundaki kararlılığımızı bir kez daha teyit ediyor. Toplanan 8,000 saatten fazla konuşma ve yazıya geçirilen 800 saatle, Hindistan'ın en vizyoner dijital katılım projelerinden birinde rol oynamaktan gurur duyuyoruz.
Project Vaani, 150,000+ saatlik veriye ulaşma hedefine doğru ilerlerken, her Hintliye hitap eden ve her Hintli için geçerli olan yapay zeka inovasyonunun bir sonraki sınırını desteklemeye hazırız.
Gerçek dünyayı anlayan bir yapay zeka oluşturmak için bizimle ortaklık kurmak ister misiniz? www.shaip.com