'Hey Siri' veya 'Alexa' dediğinizde sohbet robotlarının ve sanal asistanların nasıl uyandığını hiç merak ettiniz mi? Bunun nedeni, programlanan uyandırma sözcüğünü duyar duymaz sistemi etkinleştiren yazılıma gömülü sözcükleri tetikleyen veya metin ifade koleksiyonudur.
Ancak, sesler ve ifade verileri oluşturmanın genel süreci o kadar basit değildir. İstenilen sonuçların alınabilmesi için doğru teknikle yapılması gereken bir işlemdir. Bu nedenle, bu blog, konuşma AI'nızla sorunsuz bir şekilde çalışan iyi ifadeler/tetikleyici kelimeler oluşturmanın yolunu paylaşacaktır.
Yapay Zeka’da “Söz” Nedir?
Konuşmaya dayalı yapay zekada (sohbet robotları, sesli asistanlar), bir ifade, kullanıcı girdisinin kısa bir parçasıdır; yani bir kişinin söylediği veya yazdığı tam kelimelerdir. Modeller, kullanıcının amacını (hedefi) ve tüm varlıkları (tarihler, ürün adları, miktarlar gibi ayrıntılar) anlamak için ifadeleri kullanır.
Basit örnekler
E-ticaret botu
Söylem: “Siparişimi takip et 123-456".
- Amaç: TrackOrder
- Varlık: order_id = 123-456
Telekom botu
Söylem: “Veri planımı yükselt".
- Amaç: Değişim Planı
- Varlık: plan_type = veri
Bankacılık sesli asistanı
Söylem (konuşma): “WBugünkü bakiyem ne kadar?başlıklı bir kılavuz yayınladı
- Amaç: Bakiye Kontrolü
- Varlıklar: hesap_türü = kontrol ediliyor, tarih = bugün
Konuşma Yapay Zekanızın Neden İyi İfade Verilerine İhtiyacı Var?
Sohbet robotunuzun veya sesli asistanınızın kırılgan değil, faydalı hissettirmesini istiyorsanız, daha iyi ifade verileriyle başlayın. İfadeler, insanların işleri halletmek için söylediği veya yazdığı ham ifadelerdir ("yarın için oda ayırtın", "planımı değiştirin", "durum nedir?"). Niyet sınıflandırmasını, varlık çıkarımını ve nihayetinde müşteri deneyimini güçlendirirler. İfadeler çeşitli, temsili ve iyi etiketlenmiş olduğunda, modelleriniz niyetler arasındaki doğru sınırları öğrenir ve karmaşık, gerçek dünyadaki girdileri sakin bir şekilde ele alır.
İfade deponuzu oluşturma: basit bir iş akışı

1. Gerçek kullanıcı dilinden başlayın
Mayın sohbet kayıtları, arama sorguları, IVR transkriptleri, acente notlarıve müşteri e-postaları. Amaçları belirlemek için bunları kullanıcı hedeflerine göre gruplandırın. (Bir odada aklınıza gelmeyecek günlük konuşma diline özgü ifadeleri ve zihinsel modelleri yakalayacaksınız.)
2. Bilerek çeşitlilik yaratın
Her niyet için yazar çeşitli örnekler veriyor:
- Fiilleri ve isimleri yeniden ifade edin (“iptal etmek”, “durdurmak”, “sonlandırmak”; “planlamak”, “abonelik”).
- Cümle uzunluklarını ve yapılarını (soru, yönerge, parça) karıştırın.
- Yazım hatalarını, kısaltmaları, emojileri (sohbet için), kod değiştirmeyi ilgili yerlere ekleyin.
- Benzer görünen ancak aynı olması gereken olumsuz durumları ekleyin değil Bu amaca uygun harita.
3. Derslerinizi dengeleyin
Son derece dengesiz bir eğitim (örneğin, bir amaç için 500 örnek ve diğerleri için 10 örnek) tahmin kalitesine zarar verir. niyet boyutları nispeten eşit ve trafik sana öğrettiği gibi onları birlikte büyüt.
4. Eğitimden önce kaliteyi doğrulayın
Düşük sinyalli verileri engelle doğrulayıcılar yazarlık/toplama sırasında:
- Dil tespiti: örneklerin hedef dilde olduğundan emin olun.
- Anlamsız kelime dedektörü: saçma sapan telleri yakalamak.
- Tekrarlanan/neredeyse tekrarlanan kontroller: çeşitliliği yüksek tutun.
- Regex/yazım ve dil bilgisi: Gerektiğinde stil kurallarını uygulayın.
Akıllı doğrulayıcılar (Appen tarafından kullanıldığı gibi) bu kapıcılığın büyük bölümlerini otomatikleştirebilir.
5. Varlıkları tutarlı bir şekilde etiketleyin
Yuva türlerini (tarihler, ürünler, adresler) tanımlayın ve açıklayıcıları gösterin sınırlar nasıl işaretlenir. Gibi desenler Herhangi bir desen LUIS'te modelleri karıştıran uzun, değişken aralıklar (örneğin belge adları) belirsizleştirilebilir.
6. Üretim gibi test edin
Itmek görünmeyen gerçek ifadeleri bir tahmin son noktasına veya hazırlama botuna gönderin, yanlış sınıflandırmaları inceleyin ve desteklemek Belirsiz örnekleri eğitime dönüştürün. Bunu bir döngü haline getirin: topla → eğit → gözden geçir → genişlet.
"Karmaşık gerçeklik" gerçekte ne anlama geliyor (ve bununla nasıl başa çıkılır)
Gerçek kullanıcılar nadiren kusursuz cümleler kurarlar. Bekleyin:
- Parça: "kargo ücretinin iadesi"
- Bileşik hedefler: "siparişi iptal et ve mavi renkte yeniden sipariş ver"
- Zımni varlıklar: "ofisime gönder" (hangi ofisi bilmeniz gerekir)
- Belirsizlik: "planımı değiştir" (hangi plan? ne zaman etkili?)
Pratik çözümler
- Sağlamak açıklayıcı istemler sadece ihtiyaç duyulduğunda; aşırı talepten kaçının.
- Ele geçirmek bağlam aktarımı (örneğin “o emir”, “sonuncusu”).
- Kullanım yedek niyetler hedefli kurtarma ile: "Planları iptal etmenize veya değiştirmenize yardımcı olabilirim - ne istersiniz?"
- İzliyoruz niyet sağlık (karışıklık, çarpışma) ve zayıf olan yere veri ekleyin
Sesli asistanlar ve uyandırma sözcükleri: farklı veriler, benzer kurallar

Hazır veriler ile özel veriler ne zaman (ve nasıl) kullanılmalıdır?

- Satışa hazır: yeni yerlerde kapsama alanını hızla başlatın, ardından karışıklığın kaldığı yerleri ölçün.
- görenek: Alan adınızın dilini (politika terimleri, ürün adları) ve "marka sesini" yakalayın.
- Blended : Geniş başlayın, ardından en fazla sapma veya gelir etkisine sahip amaçlar için yüksek hassasiyetli veriler ekleyin.
Hızlı bir giriş rampasına ihtiyacınız varsa Shaip şunları sağlar: ifade koleksiyonu ve birçok dilde hazır konuşma/sohbet veri kümeleri; çok dilli bir asistanın kullanıma sunulması için vaka çalışmasına bakın.
Uygulama kontrol listesi

- Örneklerle niyetleri ve varlıkları tanımlayın ve negatif durumlarda
- Yazar çeşitli, dengeli her niyet için ifadeler (küçükten başlayın, haftalık olarak büyütün)
- Eğitimden önce doğrulayıcılar (dil, anlamsız kelimeler, yinelenenler, düzenli ifadeler) ekleyin
- Kurmak inceleme döngüleri gerçek trafikten; belirsiz öğeleri eğitime teşvik edin
- iz niyet sağlık ve çarpışmalar; yeni ifadelerle düzeltin
- Erkenden sapmayı yakalamak için kanal/yerel ayarlara göre yeniden değerlendirme yapın
Shaip nasıl yardımcı olabilir?
- Özel ifade toplama ve etiketleme (sohbet + ses) ile kaliteyi yüksek tutmak için doğrulayıcılarla görüşüyoruz.
- Kullanıma hazır veri kümeleri Hızlı önyükleme için 150'den fazla dil/çeşit arasında.
- Devam eden inceleme programları Canlı trafiği güvenli bir şekilde yüksek sinyalli eğitim verilerine dönüştüren (PII kontrolleri).
Çok dilli platformumuzu keşfedin Konuşma derlemesi vaka çalışması.