Müzik AI Vaka Çalışması

Şarkı Söyleme Sesi Veri Toplama

EQ ve Sıkıştırma Algoritması Eğitimi için Ses Tabanlı Şarkı Söyleme Ses Koleksiyonu: Dilsel ve Müzikal Çeşitliliği Yakalama

Ses Tabanlı Şarkı Söyleme Ses Kayıtları Koleksiyonu

Projeye Genel Bakış

Shaip, dört öncelikli dildeki çeşitli şarkı ses kayıtlarını toplamak için önde gelen bir teknoloji şirketiyle ortaklık kurdu: Çince, Arapça, İspanyolca ve Rusça. Proje, otomatik ses işlemeyi iyileştirmek için gerekli olan AI tabanlı EQ ve sıkıştırma algoritmalarını eğitmek için yüksek kaliteli veriler sağlamayı amaçlıyordu.

Koleksiyonda, farklı türlerden 40 katılımcı (her dil için 10 katılımcı) yer aldı ve farklı mikrofonlar ve ortamlar kullanılarak stüdyo kalitesinde kayıtlar yapılmasına odaklanıldı.

Şarkı Sesleri Koleksiyonu

Anahtar İstatistikler

4 diller: Çince, Arapça, İspanyolca, Rusça

10 şarkıcı başına
dil (toplam 40)

En fazla 20 saat içerisinde size döneceğiz. of
şarkı sesi

Ses formatı: 48 kHz PCM, mono, WAV

Ses transkripsiyon ana dillerinde

Proje süresi:
18 Hafta

Proje kapsamı

Veri koleksiyonu

Kapsam, gerçek sanatçılar tarafından birden fazla müzik türünde kaydedilen dört hedef dilde şarkı seslerinin toplanmasını kapsıyordu. AI modellerini eğitmek için uygun yüksek kaliteli kayıtlar sağlamak amacıyla bir stüdyo ortamı kullanıldı.

Temel Gereksinimler

  • katılımcılar: Her dil için 10 şarkıcı, dengeli bir cinsiyet dağılımına sahip (%50 erkek, %50 kadın).
  • Türler: Sanatçının kendi tanımladığı, tutarlılığı doğrulanmış çeşitli türler.
  • Kayıt Ortamı: Stüdyo kalitesinde, çoklu mikrofon ayarları (dinamik, kondansatör).
  • Ses Biçimi: 48 kHz PCM, mono, WAV dosyaları, herhangi bir işlem yapılmamış (örneğin sıkıştırma, EQ, yankı yok).
  • transkript: Şarkıların söylendiği dilde transkribe edilmesi, iki dilli şarkılar için özel kurallar getirilmesi.
  • Diller: Çince, Arapça, İspanyolca, Rusça
  • Transkripsiyon
    • Transkriptler kayıt dilinde sağlanmalıdır (örneğin, Devanagari dilindeki Hintçe satırların ardından İngilizce).
    • Netlik ve doğruluk için her bölümün 15 saniyeden uzun olmamasına dikkat edin.
  • Ses Kaydı Gereksinimleri
    • Kayıt oturumu başına minimum 3 mikrofon ayarı.
    • Şarkı başına 3 dakika, şarkı başına 3 çekim, böylece her katılımcı için farklı mikrofon kayıtları sağlandı.
    • Arka planda gürültü olmayan stüdyo kalitesinde akustik ortam.

Meydan Okumalar

Katılımcı Çeşitliliği

Şarkıcıların cinsiyet, ses tonu/perdesi ve müzik türüne göre dengeli bir şekilde dağıtılmasını sağlamak karmaşık bir sorundu.

Veri tutarlılığı

Birden fazla dilde çeşitli vokal performanslarını yakalarken tutarlı mikrofon ayarlarını ve ortamını korumak.

Ses Kalitesi Kontrolü

Dışarıdan gelen gürültüler olmadan stüdyo kalitesinde ses ve birden fazla dilde doğru transkripsiyon sağlıyoruz.

Çözüm

Shaip, projenin gereksinimlerini karşılamak için kapsamlı bir çözüm sundu:

  • Dört dilde 40 şarkıcıyı işe almak ve cinsiyet, ses tonu ve müzik tarzı açısından çeşitliliği sağlamak.
  • Çeşitli mikrofon tipleriyle (dinamik, kondansatör) stüdyo kalitesinde kayıtlar yaparak geniş yelpazede ses verisi yakalamak.
  • İki dilli şarkılara ilişkin özel kurallara uyarak, kullanılan dillerde kayıtları doğru bir şekilde yazıya dökmek.
  • Onay: Kayıt öncesinde tüm katılımcılardan onay formları toplanacaktır.

Sonuç

Toplanan çeşitli şarkı söyleme ses verileri, müşterinin otomatik EQ ve sıkıştırma algoritmaları için sağlam bir eğitim seti geliştirmesine olanak tanıyarak ses işleme kalitesini artırdı. Yüksek kaliteli kayıtlar ve ayrıntılı meta veriler, AI modellerinin çeşitli müzik türlerini ve dilsel karmaşıklıkları işleyebilmesini sağladı. Önemli Sonuçlar:

  • Yapay zeka sistemlerinin eğitimi için yüksek kaliteli, çeşitli ses verileri.
  • Analiz için doğru transkripsiyon ve meta veriler.
  • Yapay zeka tabanlı ses işleme araçları için daha güçlü bir temel.

Teslim

  • 20 saat stüdyo kalitesinde ses kaydı (48 kHz PCM, mono WAV dosyaları).
  • Kaydın dilindeki transkripsiyonlar.
  • Meta veri: mikrofon markası/modeli, DAC/ses arabirimi, şarkıcı profili, tür bilgisi.
  • Meta verilerle transkripsiyon için JSON formatı.

Shaip'in müzik yeteneğinin çeşitliliğini ve dil zenginliğini yakalama becerisi, EQ ve sıkıştırma algoritmalarımızın geliştirilmesi için paha biçilmezdi. Ekipleri, sanatçı alımından kayıt kalitesine kadar her yönün hassasiyetle ele alınmasını sağladı ve bu, otomatik ses işleme sistemlerimizi geliştirmede önemli bir adım haline geldi.

Shaip'in süreç boyunca gösterdiği güven ve iş birliği için gerçekten minnettarız. Sıkı ve zorlu teknik gereksinimlerimize rağmen, özverileri, sıkı çalışmaları ve ayrıntılara gösterdikleri dikkat olağanüstüydü. Mükemmelliği sunmaya bu kadar kendini adamış bir ekiple çalışmak bir zevkti

Altın-5 Yıldızlı