Yapay Zeka/Makine Öğrenimi için Kullanıma Hazır Açık Veri Kümeleri
Makine öğrenimi modellerini eğitmenizi sağlayan açık kaynaklı veri kümelerini keşfedin
Yapay Zeka/Makine Öğrenimi Modelleriniz için Açık Kaynak Veri Kümeleri
Yapay zekâ modeliniz için doğru veri setini bulmak haftalar sürmemeli. Açık veri seti kütüphanesi, makine öğrenimi ekiplerine NLP, Bilgisayar Görseli, Konuşma ve Üretken Yapay Zeka alanlarını kapsayan 100'den fazla özenle seçilmiş, insan tarafından doğrulanmış veri setine anında erişim imkanı sunuyor ve bunların tümü ücretsiz olarak incelenebilir.
Bu nedenle, yeni bir AI/ML girişimi başlatmak istiyorsanız ve şimdi yüksek kaliteli eğitim verilerini bulmanın projenizin en zorlu yönlerinden biri olacağını hemen fark ediyorsunuz, çünkü yüksek kaliteli veri kümeleri AI/ ML motoru çalışıyor. Geleceğin AI/ML modellerinizi kullanmak ve eğitmek için ücretsiz olan açık veri kümelerinin bir listesini topladık.
| Uzmanlaşma | Veri tipi | Veri Kümesi Adı | Sanayi / Bölüm | Açıklama/Kullanım Örneği | Link |
|---|---|---|---|---|---|
| +NLP | Metin | Amazon Değerlendirmeleri | E-ticaret | Duygu Analizi | Link |
| Açıklama | Kullanıcı ve ürün ayrıntılarıyla birlikte düz metin olarak son 35 yılda 18 milyon inceleme ve derecelendirme seti. | ||||
| +NLP | Metin | Wikipedia Bağlantı Verileri | Genel | Link | |
| Açıklama | Vikipedi'den 1.9 milyar kelime içeren 4 milyondan fazla makale. Her madde, ilgili kuruluşa ait köprüler içeriyor. | ||||
| +NLP | Metin | Standford Duygu Ağaç Bankası | Eğlence | Duygu Analizi | Link |
| Açıklama | 10,000'den fazla Rotten Tomatoes film eleştirisi cümlesi için duygu açıklamaları veri kümesi. Cümle düzeyinde mevcuttur - her cümle, Penn Treebank formatındaki ayrıştırma ağaçlarının ikili hale getirilmesiyle alt cümlelere ayrıştırılır. | ||||
| +NLP | Metin | Twitter ABD Havayolu Duyarlılığı | Havayolu | Duygu Analizi | Link |
| Açıklama | 2015 yılında US Airlines'a ilişkin tweetler olumlu, nötr ve olumsuz duygular olarak ikiye ayrılıyordu. | ||||
| +CV | Resim | görüntü ağı | Genel | Link | |
| Açıklama | Çeşitli dosya formatlarında 14 milyondan fazla görüntü içeren veri kümesi, yaklaşık 21,000 eş-kümeye eşlenmiştir. Eş-kümeler, bir görüntü olarak mevcut ilişkili varlıklara sahip eş anlamlılardır. 1 milyon görüntünün sınırlayıcı kutuları ve 1 milyondan fazla görüntünün SIFT özellikleri vardır. | ||||
| +CV | Resim | Google'ın Açık Görselleri | Genel | Link | |
| Açıklama | ImageNet'e benzer, 600 kategorili bir veri kümesi. Geliştirme, doğrulama ve eğitim bölümleri mevcuttur. Bazı görseller sınırlayıcı kutular ve görsel ilişkiler de içerir. | ||||
| +NLP | Metin | Cornell Film Diyalogları | Eğlence | Diyaloglar | Link |
| Açıklama | Karakterlerin ve filmlerin meta verilerini içeren kurgusal konuşmalardan oluşan bir koleksiyon. Her satır, soru-cevap formatında iki kişi arasında geçen bir diyalogdur. | ||||
| Açıklama | Nisan 2007 ile Ekim 2007 tarihleri arasında Yahoo Answers portalından alınan soru ve cevaplardan oluşan soru-cevap veri kümesi. | ||||
| +NLP | Metin | Bayan MARCO | Genel | Soru Yanıtlama | Link |
| Açıklama | Bing web arama günlüklerinden alınan açıklamalarla birlikte bir soru-cevap veri kümesi. Her soru, bir kullanıcı tarafından verilen bir cevabın yanı sıra cevabı içeren web pasajlarını da içerir. | ||||
| +NLP | Metin | Doğal Sorular Veri Seti | Genel | Soru Yanıtlama | Link |
| Açıklama | Google tarafından yayınlanan bu veri seti, gerçek kullanıcı sorgularını ve Wikipedia makalelerindeki yanıtları içeriyor. | ||||
| +NLP | Metin | DBPedia | Genel | Bilgi Grafik | Link |
| Açıklama | Varlıkların ve ilişkilerin Bilgi Grafiği olarak çıkarıldığı, yapılandırılmış bir Vikipedi sunumu. | ||||
| +NLP | Metin | yago | Genel | Bilgi Grafik | Link |
| Açıklama | Wikipedia, WordNet ve GeoNames'den varlıkları ve ilişkileri içeren bir bilgi grafiği. | ||||
| +NLP | Metin | FreeBase | Genel | Bilgi Grafik | Link |
| Açıklama | Varlıklar ve ilişkilerden oluşan, artık Google bilgi grafiğine dahil edilmiş, kalabalık kaynaklı bir bilgi tabanı. | ||||
| +NLP | Metin | Ontonotes | Genel | Anlamsal Rol Etiketleme | Link |
| Açıklama | CoNLL paylaşımlı görevlerinde kullanılan sözdizimsel, anlamsal ve söylem düzeyinde açıklamalara sahip bir gövde. | ||||
| Açıklama | Kişi, kuruluş ve konum gibi adlandırılmış varlıklar için açıklamalı bir İngilizce veri kümesi. | ||||
| +CV | Resim | COCO | Genel | Nesne algılama | Link |
| Açıklama | Bağlamdaki Ortak Nesneler: nesne tespiti, segmentasyonu ve altyazılama için zengin açıklamalarla zenginleştirilmiş bir veri kümesi. | ||||
| +CV | Resim | PASCAL VOC | Genel | Nesne algılama | Link |
| Açıklama | Nesne tespiti ve segmentasyon zorlukları için bir kıyaslama veri seti. | ||||
| +CV | Resim | Kent | Özerk Sürüş | Anlamsal Bölümleme | Link |
| Açıklama | 30 sınıf için piksel düzeyinde açıklamalarla kentsel sahne anlayışına yönelik veri seti. | ||||
| +CV | Resim | MNİST | Genel | Rakam Sınıflandırması | Link |
| Açıklama | 28x28 piksel boyutunda 60,000 eğitim ve 10,000 test görüntüsünden oluşan el yazısı rakam veri seti. | ||||
| +CV | Resim | Moda-MNIST | Perakende | Görüntü Sınıflandırması | Link |
| Açıklama | Zalando'nun makale görsellerinin MNIST ile aynı formatta olduğu, kıyaslama için anında kullanılabilen veri seti. | ||||
| +NLP | ses | librikonuşma | Genel | ASR | Link |
| Açıklama | Sesli kitaplardan türetilen, 1000 saatlik konuşma ve ilişkili metinlerden oluşan okunmuş İngilizce konuşma metni. | ||||
| +NLP | ses | TED-LIUM | Genel | ASR | Link |
| Açıklama | Konuşma tanıma araştırmaları için ses ve hizalanmış transkripsiyonlarla TED konuşmalarının yazıya geçirilmesi. | ||||
| +NLP | ses | TIMIT | Genel | Fonem Tanıma | Link |
| Açıklama | Amerikan İngilizcesi konuşmacılarının fonetik olarak transkribe edilmiş konuşmaları, fonem tanıma görevlerinde yaygın olarak kullanılır. | ||||
| +NLP | ses | Ortak ses | Genel | ASR | Link |
| Açıklama | Dünya çapında gönüllülerin katkılarıyla oluşturulan çok dilli bir konuşma metni topluluğu. | ||||
| +NLP | ses | VoxÜnlü | Genel | Konuşmacı Tanıma | Link |
| Açıklama | YouTube videolarından toplanan büyük ölçekli konuşmacı tanımlama veri kümesi. | ||||
| +NLP | Metin | Vikipedi Çöplüğü | Genel | Dil Modelleme | Link |
| Açıklama | Dil modellerinin ön eğitimi için kullanılan, düzenli olarak güncellenen Wikipedia makalelerinin tam metin dökümleri. | ||||
| +NLP | Metin | Gigaword | Haberler | Dil Modelleme | Link |
| Açıklama | Birçok haber ajansından gelen haber metni verilerinin kapsamlı arşivi. | ||||
| +NLP | Metin | IMDB İncelemeleri | Eğlence | Duygu Analizi | Link |
| Açıklama | İkili duygu sınıflandırması için büyük film inceleme veri seti. | ||||
| +CV | Video | Kinetik-700 | Genel | Eylem Tanıma | Link |
| Açıklama | 700 insan eylem sınıfını kapsayan büyük ölçekli, yüksek kaliteli YouTube video klipleri veri kümesi. | ||||
| +CV | Video | UCF101 | Genel | Eylem Tanıma | Link |
| Açıklama | 101 aksiyon kategorisine sahip gerçekçi aksiyon videolarından oluşan bir veri seti. | ||||
| +CV | Video | HMDB51 | Genel | Eylem Tanıma | Link |
| Açıklama | 51 aksiyon kategorisine sahip geniş bir insan hareketi video veritabanı. | ||||
| Açıklama | Sınırsız yüz tanımayı incelemek için tasarlanmış yüz fotoğrafları veritabanı. | ||||
| +CV | Resim | CASIA-WebFace | Genel | yüz Tanıma | Link |
| Açıklama | Derin yüz tanıma modellerini eğitmek için milyonlarca yüz görüntüsünden oluşan bir veri seti. | ||||
| +NLP | Metin | Tayfa | Genel | Okuduğunu anlama | Link |
| Açıklama | Stanford Soru Cevaplama Veri Seti: Kalabalık çalışanların bir dizi Wikipedia maddesine sorduğu sorular. | ||||
| Açıklama | CNN haber makalelerine dayalı soru ve cevaplardan oluşan bir makine anlama veri seti. | ||||
| +NLP | Metin | MultiNLI | Genel | Doğal Dil Çıkarımı | Link |
| Açıklama | Birden fazla türde cümle çifti doğal dil çıkarımı için bir veri kümesi. | ||||
| +NLP | Metin | SNLI | Genel | Doğal Dil Çıkarımı | Link |
| Açıklama | Cümle çiftlerinin çıkarım, çelişki veya nötr olarak etiketlendiği Stanford Doğal Dil Çıkarım Derlemi. | ||||
| Açıklama | Wikipedia'daki doğrulanmış İyi ve Öne Çıkan makalelerden çıkarılan 100 milyondan fazla jetondan oluşan bir koleksiyon. | ||||
| Açıklama | 196 araç sınıfına ait 16,185 adet görselden oluşan veri seti. | ||||
| +CV | Resim | Oxford Çiçekleri 102 | botanik | İnce Taneli Sınıflandırma | Link |
| Açıklama | Birleşik Krallık'ta yaygın olarak görülen 102 çiçek kategorisi. | ||||
| +CV | Resim | Cifar-10 | Genel | Görüntü Sınıflandırması | Link |
| Açıklama | 10 sınıfın görselleri: uçak, otomobil, kuş, kedi, geyik, köpek, kurbağa, at, gemi ve kamyon. | ||||
| +CV | Resim | Cifar-100 | Genel | Görüntü Sınıflandırması | Link |
| Açıklama | CIFAR-10'a benzer, ancak 100 tane ayrıntılı sınıf içeren bir veri seti. | ||||
| +CV | Resim | VOC Kişi Düzeni | Genel | Poz Tahmini | Link |
| Açıklama | Baş, eller ve ayaklar gibi kişi yerleşim açıklamalarına odaklanan PASCAL VOC'nin bir parçası. | ||||
| +CV | Resim | MPII İnsan Pozu | Genel | Poz Tahmini | Link |
| Açıklama | 40,000'den fazla kişiyi içeren ve vücut eklemleri açıklamalı yaklaşık 25,000 görüntü. | ||||
| Açıklama | Metin kategorizasyon araştırması için Reuters haber bülteni makalelerinin koleksiyonu. | ||||
| +NLP | Metin | 20 Haber Grubu | Genel | Metin Sınıflandırması | Link |
| Açıklama | 20 farklı haber grubuna bölünmüş 20,000 haber grubu belgesinden oluşan bir koleksiyon. | ||||