Tanım
Metin verisi toplama, yapay zeka eğitiminde kullanılmak üzere kitaplar, web siteleri veya sohbet kayıtları gibi kaynaklardan yazılı dilin toplanması sürecidir.
Amaç
Amaç NLP ve LLM geliştirmeye yönelik korpuslar oluşturmaktır.
Önem
- Dil modelleri için hammadde sağlar.
- Telif hakkı ve lisanslama sorunlarını gündeme getiriyor.
- Veri çeşitliliği adaleti ve doğruluğu etkiler.
- Zararlı veya alakasız içerikleri filtrelemeliyiz.
Nasıl Rezervasyon Yaparım ?
- Metin kaynaklarını (web, belgeler, transkriptler) belirleyin.
- İzin alarak metni tarayın veya kazıyın.
- İçeriği temizleyin ve normalleştirin.
- İzlenebilirlik için meta verilerle birlikte saklayın.
- Ön eğitimde veya ince ayarda kullanın.
Örnekler (Gerçek Dünya)
- Ortak Tarama: büyük web gövdesi.
- Vikipedi dökümleri: yapılandırılmış metin veri kümesi.
- BooksCorpus: BERT'i eğitmek için kullanılır.
Referanslar / İlave Okumalar
- Ortak Tarama Vakfı.
- Jurafsky & Martin. Konuşma ve Dil İşleme.
- ISO/IEC TR 20547-5: Büyük Veri Referans Mimarisi.
- Vaka Özel Metin Verisi Toplama