Tanım
Simgeleştirme, metni dil modellerine girdi görevi gören kelimeler, alt kelimeler veya karakterler gibi daha küçük birimlere (simgelere) bölme işlemidir.
Amaç
Amaç, hukuk alanında lisans eğitimlerinde eğitim ve çıkarım için metni yönetilebilir bileşenlere standart hale getirmektir.
Önem
- NLP'de temel ön işleme adımı.
- Kelime dağarcığının büyüklüğünü ve verimliliğini etkiler.
- Tokenleştirme tercihleri doğruluğu ve performansı etkiler.
- Gömme ve model eğitimi ile ilgili.
Nasıl Rezervasyon Yaparım ?
- Tokenleştirme şemasını tanımlayın (kelime, alt kelime, karakter).
- Giriş metnine belirteçleyiciyi uygula.
- Harita belirteçlerini sayısal kimliklere dönüştürün.
- İşleme için jetonları modele besleyin.
- Çıktı belirteçlerini tekrar metne dönüştürün.
Örnekler (Gerçek Dünya)
- GPT modellerinde kullanılan Bayt Çifti Kodlaması (BPE).
- BERT'de kullanılan WordPiece.
- Çok dilli NLP'de kullanılan cümle parçası.
Referanslar / İlave Okumalar
- Sennrich ve ark. “Alt Kelime Birimleriyle Nadir Kelimelerin Nöral Makine Çevirisi.” ACL.
- Google SentencePiece Dokümantasyonu.
- Jurafsky & Martin. Konuşma ve Dil İşleme.