Söz Verisi Toplama

Yapay Zekada "Söz" Nedir?: Örnekler, Veri Kümeleri ve En İyi Uygulamalar

'Hey Siri' veya 'Alexa' dediğinizde sohbet robotlarının ve sanal asistanların nasıl uyandığını hiç merak ettiniz mi? Bunun nedeni, programlanan uyandırma sözcüğünü duyar duymaz sistemi etkinleştiren yazılıma gömülü sözcükleri tetikleyen veya metin ifade koleksiyonudur.

Ancak, sesler ve ifade verileri oluşturmanın genel süreci o kadar basit değildir. İstenilen sonuçların alınabilmesi için doğru teknikle yapılması gereken bir işlemdir. Bu nedenle, bu blog, konuşma AI'nızla sorunsuz bir şekilde çalışan iyi ifadeler/tetikleyici kelimeler oluşturmanın yolunu paylaşacaktır.

Yapay Zeka’da “Söz” Nedir?

Konuşmaya dayalı yapay zekada (sohbet robotları, sesli asistanlar), bir ifade, kullanıcı girdisinin kısa bir parçasıdır; yani bir kişinin söylediği veya yazdığı tam kelimelerdir. Modeller, kullanıcının amacını (hedefi) ve tüm varlıkları (tarihler, ürün adları, miktarlar gibi ayrıntılar) anlamak için ifadeleri kullanır.

Basit örnekler

E-ticaret botu

Söylem: “Siparişimi takip et 123-456".

  • Amaç: TrackOrder
  • Varlık: order_id = 123-456

Telekom botu

Söylem: “Veri planımı yükselt".

  • Amaç: Değişim Planı
  • Varlık: plan_type = veri

Bankacılık sesli asistanı

Söylem (konuşma): “WBugünkü bakiyem ne kadar?başlıklı bir kılavuz yayınladı

  • Amaç: Bakiye Kontrolü
  • Varlıklar: hesap_türü = kontrol ediliyor, tarih = bugün

Konuşma Yapay Zekanızın Neden İyi İfade Verilerine İhtiyacı Var?

Sohbet robotunuzun veya sesli asistanınızın kırılgan değil, faydalı hissettirmesini istiyorsanız, daha iyi ifade verileriyle başlayın. İfadeler, insanların işleri halletmek için söylediği veya yazdığı ham ifadelerdir ("yarın için oda ayırtın", "planımı değiştirin", "durum nedir?"). Niyet sınıflandırmasını, varlık çıkarımını ve nihayetinde müşteri deneyimini güçlendirirler. İfadeler çeşitli, temsili ve iyi etiketlenmiş olduğunda, modelleriniz niyetler arasındaki doğru sınırları öğrenir ve karmaşık, gerçek dünyadaki girdileri sakin bir şekilde ele alır.

İfade deponuzu oluşturma: basit bir iş akışı

İfade deposu oluşturma

1. Gerçek kullanıcı dilinden başlayın

Mayın sohbet kayıtları, arama sorguları, IVR transkriptleri, acente notlarıve müşteri e-postaları. Amaçları belirlemek için bunları kullanıcı hedeflerine göre gruplandırın. (Bir odada aklınıza gelmeyecek günlük konuşma diline özgü ifadeleri ve zihinsel modelleri yakalayacaksınız.)

2. Bilerek çeşitlilik yaratın

Her niyet için yazar çeşitli örnekler veriyor:

  • Fiilleri ve isimleri yeniden ifade edin (“iptal etmek”, “durdurmak”, “sonlandırmak”; “planlamak”, “abonelik”).
  • Cümle uzunluklarını ve yapılarını (soru, yönerge, parça) karıştırın.
  • Yazım hatalarını, kısaltmaları, emojileri (sohbet için), kod değiştirmeyi ilgili yerlere ekleyin.
  • Benzer görünen ancak aynı olması gereken olumsuz durumları ekleyin değil Bu amaca uygun harita.

3. Derslerinizi dengeleyin

Son derece dengesiz bir eğitim (örneğin, bir amaç için 500 örnek ve diğerleri için 10 örnek) tahmin kalitesine zarar verir. niyet boyutları nispeten eşit ve trafik sana öğrettiği gibi onları birlikte büyüt.

4. Eğitimden önce kaliteyi doğrulayın

Düşük sinyalli verileri engelle doğrulayıcılar yazarlık/toplama sırasında:

  • Dil tespiti: örneklerin hedef dilde olduğundan emin olun.
  • Anlamsız kelime dedektörü: saçma sapan telleri yakalamak.
  • Tekrarlanan/neredeyse tekrarlanan kontroller: çeşitliliği yüksek tutun.
  • Regex/yazım ve dil bilgisi: Gerektiğinde stil kurallarını uygulayın.
    Akıllı doğrulayıcılar (Appen tarafından kullanıldığı gibi) bu kapıcılığın büyük bölümlerini otomatikleştirebilir.

5. Varlıkları tutarlı bir şekilde etiketleyin

Yuva türlerini (tarihler, ürünler, adresler) tanımlayın ve açıklayıcıları gösterin sınırlar nasıl işaretlenir. Gibi desenler Herhangi bir desen LUIS'te modelleri karıştıran uzun, değişken aralıklar (örneğin belge adları) belirsizleştirilebilir.

6. Üretim gibi test edin

Itmek görünmeyen gerçek ifadeleri bir tahmin son noktasına veya hazırlama botuna gönderin, yanlış sınıflandırmaları inceleyin ve desteklemek Belirsiz örnekleri eğitime dönüştürün. Bunu bir döngü haline getirin: topla → eğit → gözden geçir → genişlet.

"Karmaşık gerçeklik" gerçekte ne anlama geliyor (ve bununla nasıl başa çıkılır)

Gerçek kullanıcılar nadiren kusursuz cümleler kurarlar. Bekleyin:

  • Parça: "kargo ücretinin iadesi"
  • Bileşik hedefler: "siparişi iptal et ve mavi renkte yeniden sipariş ver"
  • Zımni varlıklar: "ofisime gönder" (hangi ofisi bilmeniz gerekir)
  • Belirsizlik: "planımı değiştir" (hangi plan? ne zaman etkili?)

Pratik çözümler

  • Sağlamak açıklayıcı istemler sadece ihtiyaç duyulduğunda; aşırı talepten kaçının.
  • Ele geçirmek bağlam aktarımı (örneğin “o emir”, “sonuncusu”).
  • Kullanım yedek niyetler hedefli kurtarma ile: "Planları iptal etmenize veya değiştirmenize yardımcı olabilirim - ne istersiniz?"
  • İzliyoruz niyet sağlık (karışıklık, çarpışma) ve zayıf olan yere veri ekleyin

Sesli asistanlar ve uyandırma sözcükleri: farklı veriler, benzer kurallar

Sesli asistanlar ve uyandırma sözcükleri Uyandırma sözcükleri ("Hey Siri", "Alexa", özel uyandırma ifadeleri) güçlü akustik kısıtlamalara sahip özel bir ifade alt kümesidir, ancak kapsama zihniyeti hala geçerli: farklı hoparlörler, cihazlar ve ortamlar. Uyandıktan sonra, dil ifadeleri Asıl görevi devralın ("ışıkları açın", "caz çalın"). uyanmak ve görev Veri kümelerini birbirinden ayırın ve bunları ayrı ayrı değerlendirin.

Hazır veriler ile özel veriler ne zaman (ve nasıl) kullanılmalıdır?

Hazır ve Özel Veriler

  • Satışa hazır: yeni yerlerde kapsama alanını hızla başlatın, ardından karışıklığın kaldığı yerleri ölçün.
  • görenek: Alan adınızın dilini (politika terimleri, ürün adları) ve "marka sesini" yakalayın.
  • Blended : Geniş başlayın, ardından en fazla sapma veya gelir etkisine sahip amaçlar için yüksek hassasiyetli veriler ekleyin.

Hızlı bir giriş rampasına ihtiyacınız varsa Shaip şunları sağlar: ifade koleksiyonu ve birçok dilde hazır konuşma/sohbet veri kümeleri; çok dilli bir asistanın kullanıma sunulması için vaka çalışmasına bakın.

Uygulama kontrol listesi

Uygulama kontrol listesi

  • Örneklerle niyetleri ve varlıkları tanımlayın ve negatif durumlarda
  • Yazar çeşitli, dengeli her niyet için ifadeler (küçükten başlayın, haftalık olarak büyütün)
  • Eğitimden önce doğrulayıcılar (dil, anlamsız kelimeler, yinelenenler, düzenli ifadeler) ekleyin
  • Kurmak inceleme döngüleri gerçek trafikten; belirsiz öğeleri eğitime teşvik edin 
  • iz niyet sağlık ve çarpışmalar; yeni ifadelerle düzeltin
  • Erkenden sapmayı yakalamak için kanal/yerel ayarlara göre yeniden değerlendirme yapın

Shaip nasıl yardımcı olabilir?

  • Özel ifade toplama ve etiketleme (sohbet + ses) ile kaliteyi yüksek tutmak için doğrulayıcılarla görüşüyoruz.
  • Kullanıma hazır veri kümeleri Hızlı önyükleme için 150'den fazla dil/çeşit arasında.
  • Devam eden inceleme programları Canlı trafiği güvenli bir şekilde yüksek sinyalli eğitim verilerine dönüştüren (PII kontrolleri).

Çok dilli platformumuzu keşfedin Konuşma derlemesi vaka çalışması.

sosyal paylaşım