NLP veri kümeleri, metin sınıflandırması, duygu analizi ve soru cevaplama gibi çok çeşitli görevler için esneklik sunarak birçok doğal dil işleme projesinin omurgasını oluşturur. Örneğin, Blog Yazarlığı Corpus, yaklaşık 681,000 blog yazarından 20,000'den fazla blog yazısı içerir ve bu da onu yazım stilleri, yazar tanımlama ve daha fazlasını incelemek için zengin bir kaynak haline getirir.
Akademik araştırmalarla ilgilenenler için arXiv araştırma makaleleri veri seti, atıf analizi ve belge sınıflandırması gibi gelişmiş NLP görevlerini destekleyen, birden fazla disiplinde geniş bir bilimsel makale koleksiyonuna erişim sağlar. Federal Tedarik Veri Merkezi veri seti, federal sözleşmeler hakkında ayrıntılı bilgi sunan bir diğer değerli kaynaktır; hükümet verileri ve tüzel kişi tanıma içeren projeler için idealdir.
Bu nlp veri kümeleri, makine öğrenimi modellerini eğitmek ve değerlendirmek için yaygın olarak kullanılır ve araştırmacıların ve geliştiricilerin sistemlerinin çeşitli nlp görevlerindeki performansını iyileştirmelerine yardımcı olur. İster blog yazıları, araştırma makaleleri veya hükümet verileriyle çalışıyor olun, bu veri kümeleri sağlam ve çok yönlü NLP uygulamaları için temel sağlar.
NLP nedir?
NLP (Doğal Dil İşleme), bilgisayarların insan dilini anlamasına yardımcı olur. Bu, bilgisayarlara metin ve konuşmaya insanların yaptığı gibi okumayı, anlamayı ve yanıt vermeyi öğretmek gibidir.
NLP neler yapabilir?
- Dağınık metni düzenli verilere dönüştürün
- Yorumların olumlu mu olumsuz mu olduğunu anlayın
- Diller arasında çeviri yapın
- Uzun metinlerin özetlerini oluşturun
- Ve daha fazlası!
- NLP'ye Başlarken:
İyi NLP sistemleri kurmak için, onları eğitmek için çok sayıda örneğe ihtiyacınız var - tıpkı insanların daha fazla pratik yaparak daha iyi öğrenmesi gibi. İyi haber şu ki, bu örnekleri bulabileceğiniz birçok ücretsiz kaynak var: Sarılma Yüz, Kaggle ve GitHub. Bu platformlardaki veri setlerine kolaylıkla ulaşılabiliyor ve bu da NLP proje geliştirme sürecini hızlandırıyor.
NLP Pazarının Boyutu ve Büyümesi:
2023 itibarıyla Doğal Dil İşleme (NLP) pazarı yaklaşık 26 milyar dolar değerindeydi. 30'ten 2023'a kadar yaklaşık %2030'luk bir bileşik yıllık büyüme oranıyla (CAGR) önemli ölçüde büyümesi bekleniyor. Bu büyüme, sağlık, finans ve müşteri hizmetleri gibi sektörlerde NLP uygulamalarına olan talebin artmasıyla yönlendiriliyor.
İyi bir NLP veri seti nasıl seçilir, aşağıdaki faktörler göz önünde bulundurulmalıdır:
- ilgi: Veri setinin belirli görevinizle veya alanınızla uyumlu olduğundan emin olun.
- Boyutlar: Daha büyük veri kümeleri genellikle model performansını iyileştirir, ancak boyut ile kalite arasında denge vardır.
- Çeşitlilik: Modelin sağlamlığını artırmak için farklı dil stilleri ve bağlamlara sahip veri kümelerini arayın.
- KaliteHatalardan kaçınmak için iyi etiketlenmiş ve doğru verileri kontrol edin.
- Engellilerin kullanımları için uygunluk : Veri setinin kullanıma hazır olduğundan emin olun ve lisans kısıtlamalarını göz önünde bulundurun.
- Ön İşleme: Veri setinin önemli bir temizlik veya ön işleme gerekip gerekmediğini belirleyin.
- Toplum Destek: Popüler veri kümeleri genellikle daha fazla kaynağa ve topluluk desteğine sahiptir, bu da faydalı olabilir.
Bu faktörleri değerlendirerek, projenizin ihtiyaçlarına en uygun veri setini seçebilirsiniz. NLP projelerinde en iyi sonuçları elde etmek için doğru veri setlerini seçmek önemlidir, çünkü bunlar doğrudan model performansını ve eğitim verimliliğini etkiler.
NLP için Görülmesi Gereken En İyi 33 Açık Veri Kümesi
Genel
UCI'nin Spam Tabanı (Bağlantı)
Hewlett-Packard Laboratuarlarında oluşturulan Spambase, kişiselleştirilmiş bir spam filtresi geliştirmeyi amaçlayan, kullanıcılar tarafından gönderilen bir spam e-posta koleksiyonuna sahiptir. 4600'ye yakını spam olan e-posta mesajlarından 1820'den fazla gözleme sahiptir.
Enron veri seti (Bağlantı)
Enron veri kümesi, makine öğrenimi modellerini eğitmek için halka açık anonimleştirilmiş 'gerçek' e-postaların geniş bir koleksiyonuna sahiptir. Çoğunlukla Enron'un üst düzey yönetimi olmak üzere 150'den fazla kullanıcıdan yarım milyondan fazla e-posta içerir. Bu veri kümesi hem yapılandırılmış hem de yapılandırılmamış formatlarda kullanılabilir. Yapılandırılmamış verileri güzelleştirmek için veri işleme tekniklerini uygulamanız gerekir.
Öneri Sistemleri veri kümesi (Bağlantı)
Öneri Sistemi veri kümesi, aşağıdakiler gibi farklı özellikleri içeren çeşitli veri kümelerinden oluşan büyük bir koleksiyondur:
- Ürün yorumlar
- Yıldız derecelendirmeleri
- Fitness takibi
- Şarkı verileri
- Sosyal ağlar
- Zaman damgaları
- Kullanıcı/öğe etkileşimleri
- GPS verileri
Penn Ağaç Bankası (Bağlantı)
Wall Street Journal'ın bu derlemesi, dizi etiketleme modellerini test etmek için popülerdir.
NLTK (Bağlantı)
Bu Python kütüphanesi, NLP için 100'den fazla korpus ve sözcüksel kaynağa erişim sağlar. Ayrıca, kütüphaneyi kullanmak için bir eğitim kursu olan NLTK kitabını da içerir. NLTK, isimler, fiiller, sıfatlar ve zarflar gibi kelimelerin paylaşılan anlamlara göre eş anlamlı kümelere gruplandırıldığı büyük bir İngilizce sözcüksel veritabanı olan WordNet'e erişim içerir. NLTK ayrıca NLP araştırması için korpus ve sözcüksel kaynakların açıklamalı bir listesini sağlar.
Evrensel Bağımlılıklar (Bağlantı)
UD, 100'den fazla dildeki kaynaklar, 200 ağaç bankası ve 300'den fazla topluluk üyesinin desteğiyle dilbilgisine açıklama eklemek için tutarlı bir yol sağlar.
Duyarlılık Analizi Veri Kümeleri
Filmler ve Finans için Sözlükler (Bağlantı)
Filmler ve Finans için Sözlükler veri seti, Finans doldurmalarında ve film incelemelerinde pozitif veya negatif kutupluluk için alana özgü sözlükler sağlar. Bu sözlükler IMDb ve US Form-8 dolgularından alınmıştır.duygu 140 (Bağlantı)
Sentiment 140, 160,000 farklı alanda kategorize edilmiş çeşitli ifadelere sahip 6'den fazla tweet'e sahiptir: tweet tarihi, polarite, metin, kullanıcı adı, kimlik ve sorgu. Bu veri seti, Twitter etkinliğine dayalı bir markanın, ürünün ve hatta bir konunun duyarlılığını keşfetmenizi mümkün kılar. Bu veri seti, diğer insan açıklamalı tweet'lerin aksine otomatik olarak oluşturulduğundan, olumlu duygu ve olumsuz duygu içeren tweet'leri olumsuz olarak sınıflandırır.
Çok Alanlı Duyarlılık veri kümesi (Bağlantı)
Bu Çok alanlı duyarlılık veri kümesi, çeşitli ürünler için Amazon incelemelerinin bir deposudur. Kitaplar gibi bazı ürün kategorilerinde binlerce inceleme bulunurken, diğerleri yalnızca birkaç yüz incelemeye sahiptir. Ayrıca, yıldız derecelendirmeli incelemeler ikili etiketlere dönüştürülebilir.
Standford Duygu Ağacı Bankası (Bağlantı)
Rotten Tomatoes'un bu NLP veri kümesi, daha uzun ifadeler ve daha ayrıntılı metin örnekleri içerir.
Blog Yazarlığı Derlemi (Bağlantı)
Bu koleksiyonda yaklaşık 1.4 milyon kelimeden oluşan blog yazıları bulunmaktadır ve her blog ayrı bir veri kümesidir.
OpinRank Veri Kümesi (Bağlantı)
Edmunds ve TripAdvisor'dan araba modeline veya seyahat destinasyonuna ve otele göre düzenlenen 300,000 yorum.
Metin Veri Kümesi
Wiki QA Corpus (Bağlantı)
Açık alan soru-cevap araştırmasına yardımcı olmak için oluşturulan WiKi QA Corpus, halka açık en kapsamlı veri kümelerinden biridir. Bing arama motoru sorgu günlüklerinden derlenmiş, soru-cevap çiftleriyle birlikte gelir. 3000'den fazla soru ve 1500 etiketli cevap cümlesi vardır.
Hukuki Vaka Raporları Veri Kümesi (Bağlantı)
Hukuki Vaka Raporları veri seti, 4000 davadan oluşan bir koleksiyona sahiptir ve otomatik metin özetleme ve alıntı analizi için eğitim vermek için kullanılabilir. Her belge, sloganlar, alıntı sınıfları, alıntı sloganları ve daha fazlası kullanılır.
Tehlike (Bağlantı)
Jeopardy veri seti, bir Reddit kullanıcısı tarafından bir araya getirilen popüler bilgi yarışması TV programında yer alan 200,000'den fazla sorudan oluşan bir koleksiyon. Her veri noktası, yayınlanma tarihine, bölüm numarasına, değerine, raunduna ve soru/cevaba göre sınıflandırılır.
20 Haber Grubu (Bağlantı)
20,000 belgeden oluşan koleksiyon, dinden popüler sporlara kadar konuları detaylandıran 20 haber grubunu ve konuyu kapsıyor.
Reuters Haber Veri Kümesi (Bağlantı)
İlk olarak 1987'de ortaya çıkan bu veri kümesi, makine öğrenimi amacıyla etiketlendi, dizine eklendi ve derlendi.
arXiv (Bağlantı)
Bu önemli 270 GB veri seti, tüm arXiv araştırma makalelerinin tam metnini içerir.
Avrupa Parlamentosu Tutanakları Paralel Corpus (Bağlantı)
Parlamento tutanaklarındaki cümle çiftleri, makine öğrenimi derlemleri için daha az yaygın olan bazı dilleri içeren 21 Avrupa dilinden girişleri içermektedir.
Milyar Kelime Karşılaştırma (Bağlantı)
WMT 2011 Haber Taramasından türetilen bu dil modelleme veri seti, yenilikçi dil modelleme tekniklerini test etmek için yaklaşık bir milyar kelimeden oluşmaktadır.
Sesli Konuşma Veri Kümeleri
Sözlü Wikipedia Corpora (Bağlantı)
Bu veri seti, İngilizce dilinin ötesine geçmek isteyen herkes için mükemmeldir. Bu veri kümesinde Hollandaca, Almanca ve İngilizce konuşulan makaleler bulunmaktadır. Yüzlerce saat süren çok çeşitli konulara ve konuşmacı setlerine sahiptir.2000 HUB5 İngilizce (Bağlantı)
2000 HUB5 İngilizce veri setinde İngilizce dilinde 40 telefon görüşmesi dökümü bulunmaktadır. Veriler, Ulusal Standartlar ve Teknoloji Enstitüsü tarafından sağlanmaktadır ve ana odak noktası, konuşma konuşmasını tanımak ve konuşmayı metne dönüştürmektir.
librikonuşma (Bağlantı)
LibriSpeech veri seti, alınan ve konulara göre sesli kitaplardan bölümlere uygun şekilde bölümlere ayrılan yaklaşık 1000 saatlik İngilizce konuşmanın bir koleksiyonudur ve bu onu Doğal Dil İşleme için mükemmel bir araç haline getirir.
Ücretsiz Konuşulan Rakam Veri Kümesi (Bağlantı)
Bu NLP veri kümesi, İngilizce konuşulan rakamların 1,500'den fazla kaydını içerir.
M-AI Labs Konuşma Veri Kümesi (Bağlantı)
Veri seti, birden fazla dili kapsayan ve erkek, kadın ve karışık seslere göre kategorize edilmiş, transkripsiyonlu yaklaşık 1,000 saatlik ses sunuyor.
Gürültülü Konuşma Veritabanı (Bağlantı)
Bu veri seti, konuşmayı iyileştirme yazılımı geliştirmeye yönelik, aynı zamanda zorlu koşullarda konuşma eğitimi için de faydalı olan paralel gürültülü ve temiz konuşma kayıtlarını içerir.
İnceleme Veri Kümeleri
Yelp Yorumları (Bağlantı)
Yelp veri kümesi, 8.5 artı işletme, incelemeleri ve kullanıcı verileri hakkında yaklaşık 160,000 milyon incelemeden oluşan geniş bir koleksiyona sahiptir. İncelemeler, modellerinizi duygu analizi konusunda eğitmek için kullanılabilir. Ayrıca, bu veri setinde ayrıca sekiz büyükşehir lokasyonunu kapsayan 200,000'den fazla resim bulunmaktadır.
IMDB İncelemeleri (Bağlantı)
IMDB incelemeleri, 50 binden fazla film için oyuncu kadrosu bilgisi, derecelendirme, açıklama ve tür içeren en popüler veri kümeleri arasındadır. Bu veri kümesi, makine öğrenimi modellerinizi test etmek ve eğitmek için kullanılabilir.
Amazon İncelemeleri ve Derecelendirmeleri Veri Kümesi (Bağlantı)
Amazon inceleme ve derecelendirme veri seti, 1996'dan 2014'e kadar Amazon'dan toplanan farklı ürünlerin incelemelerini ve değerli bir meta veri koleksiyonunu içerir - yaklaşık 142.8 milyon kayıt. Meta veriler fiyatı, ürün açıklamasını, markayı, kategoriyi ve daha fazlasını içerirken, incelemelerde metin kalitesi, metnin kullanışlılığı, derecelendirmeleri ve daha fazlası bulunur.
Soru ve Cevap Veri Setleri
Stanford Soru-Cevap Veri Kümesi (SQuAD) (Bağlantı)
Bu okuduğunu anlama veri kümesinde, tümü Vikipedi kalabalık çalışanları tarafından oluşturulmuş 100,000 yanıtlanabilir soru ve 50,000 yanıtlanamaz soru bulunmaktadır.
Doğal Sorular (Bağlantı)
Bu eğitim setinde, her biri bir Google sorgusu ve eşleşen bir Wikipedia sayfası içeren 300,000'den fazla eğitim örneği, 7,800 geliştirme örneği ve 7,800 test örneği bulunur.
önemsiz şeylerQA (Bağlantı)
Bu zorlu soru seti, hem insan tarafından doğrulanan hem de makine tarafından oluşturulan alt kümeler dahil 950,000 QA çiftine sahiptir.
CLEVR (Kompozisyon Dili ve Temel Görsel Muhakeme) (Bağlantı)
Bu görsel soruyu yanıtlayan veri kümesi, 3D olarak oluşturulmuş nesneleri ve görsel sahneyle ilgili ayrıntıları içeren binlerce soruyu içerir.
Peki, makine öğrenimi modelinizi eğitmek için hangi veri kümesini seçtiniz?
Giderken sizi bir ipucu.
İhtiyaçlarınız için bir NLP veri seti seçmeden önce README dosyasını baştan sona gözden geçirdiğinizden emin olun. Veri kümesi, veri kümesinin içeriği, verilerin kategorize edildiği çeşitli parametreler ve veri kümesinin olası kullanım durumları gibi ihtiyaç duyabileceğiniz tüm gerekli bilgileri içerecektir.
Oluşturduğunuz modeller ne olursa olsun, makinelerimizi hayatlarımıza daha yakından ve özünde entegre etme konusunda heyecan verici bir olasılık var. NLP ile iş, sinema, konuşma tanıma, finans ve daha fazlasına yönelik olanaklar çok daha fazladır.