ML için NLP Veri Kümesi

Doğal Dil İşleme Modellerini eğitmek için En İyi 15 NLP Veri Kümesi

Doğal dil işleme, makine öğrenimi zırhında hayati bir parçadır. Ancak, modelin iyi çalışması için büyük miktarda veriye ve eğitime ihtiyacı var. NLP ile ilgili önemli sorunlardan biri, alan içindeki geniş ilgi alanlarını kapsayabilecek eğitim veri setlerinin eksikliğidir.

Bu geniş alanda başlıyorsanız, veri kümelerinizi oluşturmayı zor ve pratik olarak gereksiz bulabilirsiniz. Özellikle kalite varken NLP Makine öğrenimi modellerinizi amaçlarına göre eğitmek için mevcut veri kümeleri.

NLP pazarının 11.7 ve 2018 yıllarında %2026'lik bir CAGR'de büyümesi planlanıyor. 28.6 yılına kadar 2026 Milyar $. NLP ve makine öğrenimine yönelik artan talep sayesinde, artık duygu analizine, incelemelere, soru-cevap analizine ve konuşma analizi veri kümelerine hizmet veren kaliteli veri kümelerini elde etmek mümkün.

Güvenebileceğiniz Makine Öğrenimi İçin NLP Veri Kümeleri

Neredeyse her gün çeşitli ihtiyaçlara odaklanan sayısız veri kümesi yayınlandığından, kaliteli, güvenilir ve en iyi veri kümelerine erişmek zor olabilir. Burada, size sundukları kategorilere göre ayrılmış küratörlü veri kümeleri sunduğumuzdan, işi sizin için kolaylaştırdık.

genel

Hewlett-Packard Laboratuarlarında oluşturulan Spambase, kişiselleştirilmiş bir spam filtresi geliştirmeyi amaçlayan, kullanıcılar tarafından gönderilen bir spam e-posta koleksiyonuna sahiptir. 4600'ye yakını spam olan e-posta mesajlarından 1820'den fazla gözleme sahiptir.

Enron veri kümesi, makine öğrenimi modellerini eğitmek için halka sunulan geniş bir anonimleştirilmiş 'gerçek' e-posta koleksiyonuna sahiptir. Ağırlıklı olarak Enron'un üst yönetimi olmak üzere 150'den fazla kullanıcıdan gelen yarım milyondan fazla e-postaya sahiptir. Bu veri seti hem yapılandırılmış hem de yapılandırılmamış formatlarda kullanılabilir. Yapılandırılmamış verileri düzenlemek için veri işleme tekniklerini uygulamanız gerekir.

Öneri Sistemi veri kümesi, aşağıdakiler gibi farklı özellikleri içeren çeşitli veri kümelerinden oluşan büyük bir koleksiyondur:

  • Ürün yorumlar
  • Yıldız derecelendirmeleri
  • Fitness takibi
  • Şarkı verileri
  • Sosyal ağlar
  • Zaman damgaları
  • Kullanıcı/öğe etkileşimleri
  • GPS verileri

Duygu Analizi

Duygu Analizi
Filmler ve Finans için Sözlükler veri seti, Finans doldurmalarında ve film incelemelerinde pozitif veya negatif kutupluluk için alana özgü sözlükler sağlar. Bu sözlükler IMDb ve US Form-8 dolgularından alınmıştır.

Sentiment 140, 160,000 farklı alanda kategorize edilmiş çeşitli ifadelere sahip 6'den fazla tweet'e sahiptir: tweet tarihi, polarite, metin, kullanıcı adı, kimlik ve sorgu. Bu veri seti, Twitter etkinliğine dayalı bir markanın, ürünün ve hatta bir konunun duyarlılığını keşfetmenizi mümkün kılar. Bu veri seti, diğer insan açıklamalı tweet'lerin aksine otomatik olarak oluşturulduğundan, olumlu duygu ve olumsuz duygu içeren tweet'leri olumsuz olarak sınıflandırır.

Bu Çok alanlı duyarlılık veri kümesi, çeşitli ürünler için Amazon incelemelerinin bir deposudur. Kitaplar gibi bazı ürün kategorilerinde binlerce inceleme bulunurken, diğerleri yalnızca birkaç yüz incelemeye sahiptir. Ayrıca, yıldız derecelendirmeli incelemeler ikili etiketlere dönüştürülebilir.

AI Eğitim Verileri gereksiniminizi bugün tartışalım.

Metin

Açık alan soru-cevap araştırmasına yardımcı olmak için oluşturulan WiKi QA Corpus, halka açık en kapsamlı veri kümelerinden biridir. Bing arama motoru sorgu günlüklerinden derlenmiş, soru-cevap çiftleriyle birlikte gelir. 3000'den fazla soru ve 1500 etiketli cevap cümlesi vardır.

Hukuki Vaka Raporları veri seti, 4000 davadan oluşan bir koleksiyona sahiptir ve otomatik metin özetleme ve alıntı analizi için eğitim vermek için kullanılabilir. Her belge, sloganlar, alıntı sınıfları, alıntı sloganları ve daha fazlası kullanılır.

Jeopardy veri seti, bir Reddit kullanıcısı tarafından bir araya getirilen popüler bilgi yarışması TV programında yer alan 200,000'den fazla sorudan oluşan bir koleksiyon. Her veri noktası, yayınlanma tarihine, bölüm numarasına, değerine, raunduna ve soru/cevaba göre sınıflandırılır.

Sesli Konuşma

Sesli Konuşma Bu veri seti, İngilizce dilinin ötesine geçmek isteyen herkes için mükemmeldir. Bu veri kümesinde Hollandaca, Almanca ve İngilizce konuşulan makaleler bulunmaktadır. Yüzlerce saat süren çok çeşitli konulara ve konuşmacı setlerine sahiptir.

2000 HUB5 İngilizce veri setinde İngilizce dilinde 40 telefon görüşmesi dökümü bulunmaktadır. Veriler, Ulusal Standartlar ve Teknoloji Enstitüsü tarafından sağlanmaktadır ve ana odak noktası, konuşma konuşmasını tanımak ve konuşmayı metne dönüştürmektir.

LibriSpeech veri seti, alınan ve konulara göre sesli kitaplardan bölümlere uygun şekilde bölümlere ayrılan yaklaşık 1000 saatlik İngilizce konuşmanın bir koleksiyonudur ve bu onu Doğal Dil İşleme için mükemmel bir araç haline getirir.

Yorumlar

Yelp veri kümesi, 8.5 artı işletme, incelemeleri ve kullanıcı verileri hakkında yaklaşık 160,000 milyon incelemeden oluşan geniş bir koleksiyona sahiptir. İncelemeler, modellerinizi duygu analizi konusunda eğitmek için kullanılabilir. Ayrıca, bu veri setinde ayrıca sekiz büyükşehir lokasyonunu kapsayan 200,000'den fazla resim bulunmaktadır.

IMDB incelemeleri, 50 binden fazla film için oyuncu kadrosu bilgisi, derecelendirme, açıklama ve tür içeren en popüler veri kümeleri arasındadır. Bu veri kümesi, makine öğrenimi modellerinizi test etmek ve eğitmek için kullanılabilir.

  • Amazon İncelemeleri ve Derecelendirmeleri Veri Kümesi (Bağlantı)

Amazon inceleme ve derecelendirme veri seti, 1996'dan 2014'e kadar Amazon'dan toplanan farklı ürünlerin incelemelerini ve değerli bir meta veri koleksiyonunu içerir - yaklaşık 142.8 milyon kayıt. Meta veriler fiyatı, ürün açıklamasını, markayı, kategoriyi ve daha fazlasını içerirken, incelemelerde metin kalitesi, metnin kullanışlılığı, derecelendirmeleri ve daha fazlası bulunur.

Peki, makine öğrenimi modelinizi eğitmek için hangi veri kümesini seçtiniz?

Giderken sizi bir ipucu. 

İhtiyaçlarınız için bir NLP veri seti seçmeden önce README dosyasını baştan sona gözden geçirdiğinizden emin olun. Veri kümesi, veri kümesinin içeriği, verilerin kategorize edildiği çeşitli parametreler ve veri kümesinin olası kullanım durumları gibi ihtiyaç duyabileceğiniz tüm gerekli bilgileri içerecektir.

Yaptığınız modellerden bağımsız olarak, makinelerimizi yaşamlarımıza daha yakından ve özünde entegre etme konusunda heyecan verici bir olasılık var. NLP ile iş, filmler, konuşma tanıma, finans ve daha fazlası için olanaklar çok yönlü olarak artırılır. Daha fazla bu tür veri kümeleri arıyorsanız Buraya Tıkla.

sosyal paylaşım

Hoşunuza gidebilir