Ocak 4, 2022

Doğal Dil İşleme Modellerini eğitmek için En İyi 15 NLP Veri Kümesi

Doğal dil işleme, makine öğrenimi zırhında hayati bir parçadır. Ancak, modelin iyi çalışması için büyük miktarda veriye ve eğitime ihtiyacı var. NLP ile ilgili önemli sorunlardan biri, alan içindeki geniş ilgi alanlarını kapsayabilecek eğitim veri setlerinin eksikliğidir.

Bu geniş alanda başlıyorsanız, veri kümelerinizi oluşturmayı zor ve pratik olarak gereksiz bulabilirsiniz. Özellikle kalite varken NLP Makine öğrenimi modellerinizi amaçlarına göre eğitmek için mevcut veri kümeleri.

NLP pazarının 11.7 ve 2018 yıllarında %2026'lik bir CAGR'de büyümesi planlanıyor. 28.6 yılına kadar 2026 Milyar $. NLP ve makine öğrenimine yönelik artan talep sayesinde, artık duygu analizine, incelemelere, soru-cevap analizine ve konuşma analizi veri kümelerine hizmet veren kaliteli veri kümelerini elde etmek mümkün.

Güvenebileceğiniz Makine Öğrenimi İçin NLP Veri Kümeleri

Neredeyse her gün çeşitli ihtiyaçlara odaklanan sayısız veri kümesi yayınlandığından, kaliteli, güvenilir ve en iyi veri kümelerine erişmek zor olabilir. Burada, size sundukları kategorilere göre ayrılmış küratörlü veri kümeleri sunduğumuzdan, işi sizin için kolaylaştırdık.

genel

UCI'nin Spam Tabanı (Bağlantı)

Hewlett-Packard Laboratuarlarında oluşturulan Spambase, kişiselleştirilmiş bir spam filtresi geliştirmeyi amaçlayan, kullanıcılar tarafından gönderilen bir spam e-posta koleksiyonuna sahiptir. 4600'ye yakını spam olan e-posta mesajlarından 1820'den fazla gözleme sahiptir.

Enron veri seti (Bağlantı)

Enron veri kümesi, makine öğrenimi modellerini eğitmek için halka sunulan geniş bir anonimleştirilmiş 'gerçek' e-posta koleksiyonuna sahiptir. Ağırlıklı olarak Enron'un üst yönetimi olmak üzere 150'den fazla kullanıcıdan gelen yarım milyondan fazla e-postaya sahiptir. Bu veri seti hem yapılandırılmış hem de yapılandırılmamış formatlarda kullanılabilir. Yapılandırılmamış verileri düzenlemek için veri işleme tekniklerini uygulamanız gerekir.

Öneri Sistemleri veri kümesi (Bağlantı)

Öneri Sistemi veri kümesi, aşağıdakiler gibi farklı özellikleri içeren çeşitli veri kümelerinden oluşan büyük bir koleksiyondur:

Ürün yorumlar
Yıldız derecelendirmeleri
Fitness takibi
Şarkı verileri
Sosyal ağlar
Zaman damgaları
Kullanıcı/öğe etkileşimleri
GPS verileri

Duygu Analizi

Filmler ve Finans için Sözlükler (Bağlantı)

Filmler ve Finans için Sözlükler veri seti, Finans doldurmalarında ve film incelemelerinde pozitif veya negatif kutupluluk için alana özgü sözlükler sağlar. Bu sözlükler IMDb ve US Form-8 dolgularından alınmıştır.

duygu 140 (Bağlantı)

Sentiment 140, 160,000 farklı alanda kategorize edilmiş çeşitli ifadelere sahip 6'den fazla tweet'e sahiptir: tweet tarihi, polarite, metin, kullanıcı adı, kimlik ve sorgu. Bu veri seti, Twitter etkinliğine dayalı bir markanın, ürünün ve hatta bir konunun duyarlılığını keşfetmenizi mümkün kılar. Bu veri seti, diğer insan açıklamalı tweet'lerin aksine otomatik olarak oluşturulduğundan, olumlu duygu ve olumsuz duygu içeren tweet'leri olumsuz olarak sınıflandırır.

Çok Alanlı Duyarlılık veri kümesi (Bağlantı)

Bu Çok alanlı duyarlılık veri kümesi, çeşitli ürünler için Amazon incelemelerinin bir deposudur. Kitaplar gibi bazı ürün kategorilerinde binlerce inceleme bulunurken, diğerleri yalnızca birkaç yüz incelemeye sahiptir. Ayrıca, yıldız derecelendirmeli incelemeler ikili etiketlere dönüştürülebilir.

AI Eğitim Verileri gereksiniminizi bugün tartışalım.

Metin

Wiki QA Corpus (Bağlantı)

Açık alan soru-cevap araştırmasına yardımcı olmak için oluşturulan WiKi QA Corpus, halka açık en kapsamlı veri kümelerinden biridir. Bing arama motoru sorgu günlüklerinden derlenmiş, soru-cevap çiftleriyle birlikte gelir. 3000'den fazla soru ve 1500 etiketli cevap cümlesi vardır.

Hukuki Vaka Raporları Veri Kümesi (Bağlantı)

Hukuki Vaka Raporları veri seti, 4000 davadan oluşan bir koleksiyona sahiptir ve otomatik metin özetleme ve alıntı analizi için eğitim vermek için kullanılabilir. Her belge, sloganlar, alıntı sınıfları, alıntı sloganları ve daha fazlası kullanılır.

Tehlike (Bağlantı)

Jeopardy veri seti, bir Reddit kullanıcısı tarafından bir araya getirilen popüler bilgi yarışması TV programında yer alan 200,000'den fazla sorudan oluşan bir koleksiyon. Her veri noktası, yayınlanma tarihine, bölüm numarasına, değerine, raunduna ve soru/cevaba göre sınıflandırılır.

Sesli Konuşma

Sözlü Wikipedia Corpora (Bağlantı)

Bu veri seti, İngilizce dilinin ötesine geçmek isteyen herkes için mükemmeldir. Bu veri kümesinde Hollandaca, Almanca ve İngilizce konuşulan makaleler bulunmaktadır. Yüzlerce saat süren çok çeşitli konulara ve konuşmacı setlerine sahiptir.

2000 HUB5 İngilizce (Bağlantı)

2000 HUB5 İngilizce veri setinde İngilizce dilinde 40 telefon görüşmesi dökümü bulunmaktadır. Veriler, Ulusal Standartlar ve Teknoloji Enstitüsü tarafından sağlanmaktadır ve ana odak noktası, konuşma konuşmasını tanımak ve konuşmayı metne dönüştürmektir.

librikonuşma (Bağlantı)

LibriSpeech veri seti, alınan ve konulara göre sesli kitaplardan bölümlere uygun şekilde bölümlere ayrılan yaklaşık 1000 saatlik İngilizce konuşmanın bir koleksiyonudur ve bu onu Doğal Dil İşleme için mükemmel bir araç haline getirir.

Yorumları

Yelp Yorumları (Bağlantı)

Yelp veri kümesi, 8.5 artı işletme, incelemeleri ve kullanıcı verileri hakkında yaklaşık 160,000 milyon incelemeden oluşan geniş bir koleksiyona sahiptir. İncelemeler, modellerinizi duygu analizi konusunda eğitmek için kullanılabilir. Ayrıca, bu veri setinde ayrıca sekiz büyükşehir lokasyonunu kapsayan 200,000'den fazla resim bulunmaktadır.

IMDB İncelemeleri (Bağlantı)

IMDB incelemeleri, 50 binden fazla film için oyuncu kadrosu bilgisi, derecelendirme, açıklama ve tür içeren en popüler veri kümeleri arasındadır. Bu veri kümesi, makine öğrenimi modellerinizi test etmek ve eğitmek için kullanılabilir.

Amazon İncelemeleri ve Derecelendirmeleri Veri Kümesi (Bağlantı)

Amazon inceleme ve derecelendirme veri seti, 1996'dan 2014'e kadar Amazon'dan toplanan farklı ürünlerin incelemelerini ve değerli bir meta veri koleksiyonunu içerir - yaklaşık 142.8 milyon kayıt. Meta veriler fiyatı, ürün açıklamasını, markayı, kategoriyi ve daha fazlasını içerirken, incelemelerde metin kalitesi, metnin kullanışlılığı, derecelendirmeleri ve daha fazlası bulunur.

Peki, makine öğrenimi modelinizi eğitmek için hangi veri kümesini seçtiniz?

Giderken sizi bir ipucu.

İhtiyaçlarınız için bir NLP veri seti seçmeden önce README dosyasını baştan sona gözden geçirdiğinizden emin olun. Veri kümesi, veri kümesinin içeriği, verilerin kategorize edildiği çeşitli parametreler ve veri kümesinin olası kullanım durumları gibi ihtiyaç duyabileceğiniz tüm gerekli bilgileri içerecektir.

Yaptığınız modellerden bağımsız olarak, makinelerimizi yaşamlarımıza daha yakından ve özünde entegre etme konusunda heyecan verici bir olasılık var. NLP ile iş, filmler, konuşma tanıma, finans ve daha fazlası için olanaklar çok yönlü olarak artırılır. Daha fazla bu tür veri kümeleri arıyorsanız Buraya Tıkla.

sosyal paylaşım

Bir Uzmanla Konuş

İsim*
Soyisim*
e-posta*
Telefon*
Firmamız*
Ülke*
Ülke
Yorumlar*
Kaydolarak Shaip'e katılıyorum Gizlilik Politikası ve Kullanım Koşulları ve Shaip'ten B2B pazarlama iletişimi almak için onayımı verin.
CAPTCHA

Ücretsiz Kitap İndir

Hoşunuza gidebilir

Doğal Dil İşleme Modellerini eğitmek için En İyi 15 NLP Veri Kümesi

Güvenebileceğiniz Makine Öğrenimi İçin NLP Veri Kümeleri

genel

UCI'nin Spam Tabanı (Bağlantı)

Enron veri seti (Bağlantı)

Öneri Sistemleri veri kümesi (Bağlantı)

Duygu Analizi

Filmler ve Finans için Sözlükler (Bağlantı)

duygu 140 (Bağlantı)

Çok Alanlı Duyarlılık veri kümesi (Bağlantı)

Metin

Wiki QA Corpus (Bağlantı)

Hukuki Vaka Raporları Veri Kümesi (Bağlantı)

Tehlike (Bağlantı)

Sesli Konuşma

Sözlü Wikipedia Corpora (Bağlantı)

2000 HUB5 İngilizce (Bağlantı)

librikonuşma (Bağlantı)

Yorumları

Yelp Yorumları (Bağlantı)

IMDB İncelemeleri (Bağlantı)

Amazon İncelemeleri ve Derecelendirmeleri Veri Kümesi (Bağlantı)

sosyal paylaşım

Bir Uzmanla Konuş

AI Veri Hizmetleri

Özel

Sanayi

Ürünler

Firmamız

Kaynaklar

Bize ulaşın