NLP nedir?
NLP (Doğal Dil İşleme), bilgisayarların insan dilini anlamasına yardımcı olur. Bu, bilgisayarlara metin ve konuşmaya insanların yaptığı gibi okumayı, anlamayı ve yanıt vermeyi öğretmek gibidir.
NLP neler yapabilir?
- Dağınık metni düzenli verilere dönüştürün
- Yorumların olumlu mu olumsuz mu olduğunu anlayın
- Diller arasında çeviri yapın
- Uzun metinlerin özetlerini oluşturun
- Ve daha fazlası!
- NLP'ye Başlarken:
İyi NLP sistemleri kurmak için, onları eğitmek için çok sayıda örneğe ihtiyacınız var - tıpkı insanların daha fazla pratik yaparak daha iyi öğrenmesi gibi. İyi haber şu ki, bu örnekleri bulabileceğiniz birçok ücretsiz kaynak var: Sarılma Yüz, Kaggle ve GitHub
NLP Pazarının Boyutu ve Büyümesi:
2023 itibarıyla Doğal Dil İşleme (NLP) pazarı yaklaşık 26 milyar dolar değerindeydi. 30'ten 2023'a kadar yaklaşık %2030'luk bir bileşik yıllık büyüme oranıyla (CAGR) önemli ölçüde büyümesi bekleniyor. Bu büyüme, sağlık, finans ve müşteri hizmetleri gibi sektörlerde NLP uygulamalarına olan talebin artmasıyla yönlendiriliyor.
İyi bir NLP veri seti nasıl seçilir, aşağıdaki faktörler göz önünde bulundurulmalıdır:
- ilgi: Veri setinin belirli görevinizle veya alanınızla uyumlu olduğundan emin olun.
- Boyut: Daha büyük veri kümeleri genellikle model performansını iyileştirir, ancak boyut ile kalite arasında denge vardır.
- Çeşitlilik: Modelin sağlamlığını artırmak için farklı dil stilleri ve bağlamlara sahip veri kümelerini arayın.
- KaliteHatalardan kaçınmak için iyi etiketlenmiş ve doğru verileri kontrol edin.
- Engellilerin kullanımları için uygunluk : Veri setinin kullanıma hazır olduğundan emin olun ve lisans kısıtlamalarını göz önünde bulundurun.
- Ön İşleme: Veri setinin önemli bir temizlik veya ön işleme gerekip gerekmediğini belirleyin.
- Toplum Destek: Popüler veri kümeleri genellikle daha fazla kaynağa ve topluluk desteğine sahiptir, bu da faydalı olabilir.
Bu faktörleri değerlendirerek projenizin ihtiyaçlarına en uygun veri setini seçebilirsiniz
NLP için Görülmesi Gereken En İyi 33 Açık Veri Kümesi
genel
UCI'nin Spam Tabanı (Bağlantı)
Hewlett-Packard Laboratuarlarında oluşturulan Spambase, kişiselleştirilmiş bir spam filtresi geliştirmeyi amaçlayan, kullanıcılar tarafından gönderilen bir spam e-posta koleksiyonuna sahiptir. 4600'ye yakını spam olan e-posta mesajlarından 1820'den fazla gözleme sahiptir.
Enron veri seti (Bağlantı)
Enron veri kümesi, makine öğrenimi modellerini eğitmek için halka sunulan geniş bir anonimleştirilmiş 'gerçek' e-posta koleksiyonuna sahiptir. Ağırlıklı olarak Enron'un üst yönetimi olmak üzere 150'den fazla kullanıcıdan gelen yarım milyondan fazla e-postaya sahiptir. Bu veri seti hem yapılandırılmış hem de yapılandırılmamış formatlarda kullanılabilir. Yapılandırılmamış verileri düzenlemek için veri işleme tekniklerini uygulamanız gerekir.
Öneri Sistemleri veri kümesi (Bağlantı)
Öneri Sistemi veri kümesi, aşağıdakiler gibi farklı özellikleri içeren çeşitli veri kümelerinden oluşan büyük bir koleksiyondur:
- Ürün yorumlar
- Yıldız derecelendirmeleri
- Fitness takibi
- Şarkı verileri
- Sosyal ağlar
- Zaman damgaları
- Kullanıcı/öğe etkileşimleri
- GPS verileri
Penn Ağaç Bankası (Bağlantı)
Wall Street Journal'ın bu derlemesi, dizi etiketleme modellerini test etmek için popülerdir.
NLTK (Bağlantı)
Bu Python kütüphanesi, NLP için 100'den fazla derlem ve sözcük kaynağına erişim sağlar. Ayrıca kütüphanenin kullanımına yönelik bir eğitim kursu olan NLTK kitabını da içerir.
Evrensel Bağımlılıklar (Bağlantı)
UD, 100'den fazla dildeki kaynaklar, 200 ağaç bankası ve 300'den fazla topluluk üyesinin desteğiyle dilbilgisine açıklama eklemek için tutarlı bir yol sağlar.
Duygu Analizi
Filmler ve Finans için Sözlükler (Bağlantı)
Filmler ve Finans için Sözlükler veri seti, Finans doldurmalarında ve film incelemelerinde pozitif veya negatif kutupluluk için alana özgü sözlükler sağlar. Bu sözlükler IMDb ve US Form-8 dolgularından alınmıştır.duygu 140 (Bağlantı)
Sentiment 140, 160,000 farklı alanda kategorize edilmiş çeşitli ifadelere sahip 6'den fazla tweet'e sahiptir: tweet tarihi, polarite, metin, kullanıcı adı, kimlik ve sorgu. Bu veri seti, Twitter etkinliğine dayalı bir markanın, ürünün ve hatta bir konunun duyarlılığını keşfetmenizi mümkün kılar. Bu veri seti, diğer insan açıklamalı tweet'lerin aksine otomatik olarak oluşturulduğundan, olumlu duygu ve olumsuz duygu içeren tweet'leri olumsuz olarak sınıflandırır.
Çok Alanlı Duyarlılık veri kümesi (Bağlantı)
Bu Çok alanlı duyarlılık veri kümesi, çeşitli ürünler için Amazon incelemelerinin bir deposudur. Kitaplar gibi bazı ürün kategorilerinde binlerce inceleme bulunurken, diğerleri yalnızca birkaç yüz incelemeye sahiptir. Ayrıca, yıldız derecelendirmeli incelemeler ikili etiketlere dönüştürülebilir.
Standford Duygu Ağacı Bankası (Bağlantı)
Rotten Tomatoes'un bu NLP veri kümesi, daha uzun ifadeler ve daha ayrıntılı metin örnekleri içerir.
Blog Yazarlığı Derlemi (Bağlantı)
Bu koleksiyonda yaklaşık 1.4 milyon kelimeden oluşan blog yazıları bulunmaktadır ve her blog ayrı bir veri kümesidir.
OpinRank Veri Kümesi (Bağlantı)
Edmunds ve TripAdvisor'dan araba modeline veya seyahat destinasyonuna ve otele göre düzenlenen 300,000 yorum.
Metin
-
Wiki QA Corpus (Bağlantı)
Açık alan soru-cevap araştırmasına yardımcı olmak için oluşturulan WiKi QA Corpus, halka açık en kapsamlı veri kümelerinden biridir. Bing arama motoru sorgu günlüklerinden derlenmiş, soru-cevap çiftleriyle birlikte gelir. 3000'den fazla soru ve 1500 etiketli cevap cümlesi vardır.
-
Hukuki Vaka Raporları Veri Kümesi (Bağlantı)
Hukuki Vaka Raporları veri seti, 4000 davadan oluşan bir koleksiyona sahiptir ve otomatik metin özetleme ve alıntı analizi için eğitim vermek için kullanılabilir. Her belge, sloganlar, alıntı sınıfları, alıntı sloganları ve daha fazlası kullanılır.
-
Tehlike (Bağlantı)
Jeopardy veri seti, bir Reddit kullanıcısı tarafından bir araya getirilen popüler bilgi yarışması TV programında yer alan 200,000'den fazla sorudan oluşan bir koleksiyon. Her veri noktası, yayınlanma tarihine, bölüm numarasına, değerine, raunduna ve soru/cevaba göre sınıflandırılır.
-
20 Haber Grubu (Bağlantı)
20,000 belgeden oluşan koleksiyon, dinden popüler sporlara kadar konuları detaylandıran 20 haber grubunu ve konuyu kapsıyor.
-
Reuters Haber Veri Kümesi (Bağlantı)
İlk olarak 1987'de ortaya çıkan bu veri kümesi, makine öğrenimi amacıyla etiketlendi, dizine eklendi ve derlendi.
-
arXiv (Bağlantı)
Bu önemli 270 GB veri seti, tüm arXiv araştırma makalelerinin tam metnini içerir.
-
Avrupa Parlamentosu Tutanakları Paralel Corpus (Bağlantı)
Parlamento tutanaklarındaki cümle çiftleri, makine öğrenimi derlemleri için daha az yaygın olan bazı dilleri içeren 21 Avrupa dilinden girişleri içermektedir.
-
Milyar Kelime Karşılaştırma (Bağlantı)
WMT 2011 Haber Taramasından türetilen bu dil modelleme veri seti, yenilikçi dil modelleme tekniklerini test etmek için yaklaşık bir milyar kelimeden oluşmaktadır.
Sesli Konuşma
-
Sözlü Wikipedia Corpora (Bağlantı)
-
2000 HUB5 İngilizce (Bağlantı)
2000 HUB5 İngilizce veri setinde İngilizce dilinde 40 telefon görüşmesi dökümü bulunmaktadır. Veriler, Ulusal Standartlar ve Teknoloji Enstitüsü tarafından sağlanmaktadır ve ana odak noktası, konuşma konuşmasını tanımak ve konuşmayı metne dönüştürmektir.
-
librikonuşma (Bağlantı)
LibriSpeech veri seti, alınan ve konulara göre sesli kitaplardan bölümlere uygun şekilde bölümlere ayrılan yaklaşık 1000 saatlik İngilizce konuşmanın bir koleksiyonudur ve bu onu Doğal Dil İşleme için mükemmel bir araç haline getirir.
-
Ücretsiz Konuşulan Rakam Veri Kümesi (Bağlantı)
Bu NLP veri kümesi, İngilizce konuşulan rakamların 1,500'den fazla kaydını içerir.
-
M-AI Labs Konuşma Veri Kümesi (Bağlantı)
Veri seti, birden fazla dili kapsayan ve erkek, kadın ve karışık seslere göre kategorize edilmiş, transkripsiyonlu yaklaşık 1,000 saatlik ses sunuyor.
-
Gürültülü Konuşma Veritabanı (Bağlantı)
Bu veri seti, konuşmayı iyileştirme yazılımı geliştirmeye yönelik, aynı zamanda zorlu koşullarda konuşma eğitimi için de faydalı olan paralel gürültülü ve temiz konuşma kayıtlarını içerir.
Yorumları
-
Yelp Yorumları (Bağlantı)
Yelp veri kümesi, 8.5 artı işletme, incelemeleri ve kullanıcı verileri hakkında yaklaşık 160,000 milyon incelemeden oluşan geniş bir koleksiyona sahiptir. İncelemeler, modellerinizi duygu analizi konusunda eğitmek için kullanılabilir. Ayrıca, bu veri setinde ayrıca sekiz büyükşehir lokasyonunu kapsayan 200,000'den fazla resim bulunmaktadır.
-
IMDB İncelemeleri (Bağlantı)
IMDB incelemeleri, 50 binden fazla film için oyuncu kadrosu bilgisi, derecelendirme, açıklama ve tür içeren en popüler veri kümeleri arasındadır. Bu veri kümesi, makine öğrenimi modellerinizi test etmek ve eğitmek için kullanılabilir.
-
Amazon İncelemeleri ve Derecelendirmeleri Veri Kümesi (Bağlantı)
Amazon inceleme ve derecelendirme veri seti, 1996'dan 2014'e kadar Amazon'dan toplanan farklı ürünlerin incelemelerini ve değerli bir meta veri koleksiyonunu içerir - yaklaşık 142.8 milyon kayıt. Meta veriler fiyatı, ürün açıklamasını, markayı, kategoriyi ve daha fazlasını içerirken, incelemelerde metin kalitesi, metnin kullanışlılığı, derecelendirmeleri ve daha fazlası bulunur.
Soru ve cevap
-
Stanford Soru-Cevap Veri Kümesi (SQuAD) (Bağlantı)
Bu okuduğunu anlama veri kümesinde, tümü Vikipedi kalabalık çalışanları tarafından oluşturulmuş 100,000 yanıtlanabilir soru ve 50,000 yanıtlanamaz soru bulunmaktadır.
-
Doğal Sorular (Bağlantı)
Bu eğitim setinde, her biri bir Google sorgusu ve eşleşen bir Wikipedia sayfası içeren 300,000'den fazla eğitim örneği, 7,800 geliştirme örneği ve 7,800 test örneği bulunur.
-
önemsiz şeylerQA (Bağlantı)
Bu zorlu soru seti, hem insan tarafından doğrulanan hem de makine tarafından oluşturulan alt kümeler dahil 950,000 QA çiftine sahiptir.
-
CLEVR (Kompozisyon Dili ve Temel Görsel Muhakeme) (Bağlantı)
Bu görsel soruyu yanıtlayan veri kümesi, 3D olarak oluşturulmuş nesneleri ve görsel sahneyle ilgili ayrıntıları içeren binlerce soruyu içerir.
Peki, makine öğrenimi modelinizi eğitmek için hangi veri kümesini seçtiniz?
Giderken sizi bir ipucu.
İhtiyaçlarınız için bir NLP veri seti seçmeden önce README dosyasını baştan sona gözden geçirdiğinizden emin olun. Veri kümesi, veri kümesinin içeriği, verilerin kategorize edildiği çeşitli parametreler ve veri kümesinin olası kullanım durumları gibi ihtiyaç duyabileceğiniz tüm gerekli bilgileri içerecektir.
Oluşturduğunuz modeller ne olursa olsun, makinelerimizi hayatlarımıza daha yakından ve özünde entegre etme konusunda heyecan verici bir olasılık var. NLP ile iş, sinema, konuşma tanıma, finans ve daha fazlasına yönelik olanaklar çok daha fazladır.