Veri Kümelerini Aç
Makine öğrenimi modellerini eğitmenizi sağlayan açık kaynaklı veri kümelerini keşfedin
AI/ML Modellerini Kullanmaya Başlamak için Açık Kaynak Veri Kümeleri
AI ve ML modellerinizin çıktısı, yalnızca onu eğitmek için kullandığınız veriler kadar iyidir - bu nedenle veri toplamaya uyguladığınız hassasiyet ve bu verilerin etiketlenmesi ve tanımlanması önemlidir!
Bu nedenle, yeni bir AI/ML girişimi başlatmak istiyorsanız ve şimdi yüksek kaliteli eğitim verilerini bulmanın projenizin en zorlu yönlerinden biri olacağını hemen fark ediyorsunuz, çünkü yüksek kaliteli veri kümeleri AI/ ML motoru çalışıyor. Geleceğin AI/ML modellerinizi kullanmak ve eğitmek için ücretsiz olan açık veri kümelerinin bir listesini topladık.
Uzmanlaşma | Veri tipi | Veri Kümesi Adı | Sanayi / Bölüm | Açıklama/Kullanım Örneği | Açıklama | Link |
---|---|---|---|---|---|---|
NLP | Metin | Amazon Değerlendirmeleri | E-ticaret | Duygu Analizi | Kullanıcı ve ürün ayrıntılarıyla birlikte düz metin olarak son 35 yılda 18 milyon inceleme ve derecelendirme seti. | Link |
NLP | Metin | Wikipedia Bağlantı Verileri | genel | 4 milyondan fazla 1.9 Milyar içeren makaleler. kelime ve deyimlerin yanı sıra paragraflardan oluşan kelime. | Link | |
NLP | Metin | Standford Duygu Ağaç Bankası | Eğlence | Duygu Analizi | Rotten Tomatoes'dan HTML dosya formatında 10,000'den fazla inceleme parçası için duygu açıklamaları veri seti | Link |
NLP | Metin | Twitter ABD Havayolu Duyarlılığı | Havayolu | Duygu Analizi | US Airlines hakkındaki 2015 Tweetleri olumlu, olumsuz ve nötr tonlara ayrıldı | Link |
CV | Resim | görüntü ağı | genel | 14 milyonun üzerinde veri seti. WordNet hiyerarşisine göre düzenlenmiş çeşitli dosya biçimlerinde görüntüler. | Link | |
CV | Resim | Google'ın Açık Görselleri | genel | 9 Dakika 6,000'den fazla kategoriden genel görselleri kategorilere ayırmak için URL'ler. | Link | |
NLP | Metin | MIMIC Yoğun Bakım Veritabanı | Sağlık hizmeti | 40,000 yoğun bakım hastasından gelen kimliksizleştirilmiş verilerle Hesaplamalı Fizyoloji Veri Kümeleri. Veri kümesi, demografik bilgiler, yaşamsal belirtiler, ilaçlar vb. bilgileri içerir. | Link | |
CV | Resim | ABD Ulusal Seyahat ve Turizm Ofisi | Turizm | Gelen ve giden seyahat ve uluslararası turist bilgileri gibi konuları kapsayan, güvenilir veri tabanlarıyla turizm endüstrisinden geniş fotoğraflar sağlar. | Link | |
NLP | Metin | Ulaştırma Bölümü | Turizm | Milli Parklar, sürücü kayıtları, köprüler ve demiryolu bilgileri vb. içeren turizm veri kümeleri. | Link | |
NLP | ses | Flickr Ses Altyazısı Corpus | genel | Denetimsiz konuşma kalıpları için tasarlanmış 40 fotoğraftan 8,000'den fazla sözlü altyazı | Link | |
NLP | ses | Konuşma Komutları Veri Kümesi | genel | Konuşma Tanıma, Ses Açıklaması | Temel ses arabirimi oluşturmak için binlerce kişiden 1 saniyelik uzun ifadeler. | Link |
NLP | ses | Çevresel Ses Veri Kümeleri | genel | Olayların sesi tablolarını ve akustik sahne tablolarını içeren ortam ses veri kümeleri. | Link | |
NLP | Metin | COVID-19 Açık Araştırma Veri Kümesi | Sağlık hizmeti | tıbbi yapay zeka | COVID-45,000 ve koronavirüs virüs ailesi hakkında 19 bilimsel makaleden oluşan bir araştırma veri seti. | Link |
CV | Resim | Waymo Açık Veri Kümesi | Otomotiv | Waymo tarafından yayınlanan en çeşitli otonom sürüş veri kümeleri | Link | |
CV | Resim | Etiketle beni | Kamu Hükümeti | Labelme Matlab aracılığıyla erişilebilen geniş açıklamalı resim seti | Link | |
CV | Resim | Stanford Köpekleri Veri Kümesi | genel | 20,500 farklı köpek ırkından oluşan görüntü setinde kategorize edilmiş 120'den fazla görüntü | Link | |
CV | Resim | İç Mekan Sahne Tanıma | genel | Sahne Tanıma | Sahne tanıma modelleri oluşturmak için 15620 iç mekan kategorisinden 67 görüntüden oluşan özel bir veri seti | Link |
CV | Resim | Görsel QA | genel | Yanıt vermek için görüşün anlaşılmasını ve dilin anlaşılmasını gerektiren 265,016 fotoğrafla ilgili açık uçlu soruları içeren bir veri seti. | Link | |
NLP | Metin | Çok Alanlı Duygu Analizi Veri Kümesi | E-ticaret | Duygu Analizi | Amazon'dan ürün incelemelerini içeren veri kümesi | Link |
NLP | Metin | IMDB İncelemeleri | Eğlence | Duygu Analizi | Duygu analizi için 25000 film incelemesi içeren veri seti | Link |
NLP | Metin | Blogger Derlemesi | genel | Anahtar Kelime Analizi | Yaygın olarak kullanılan İngilizce kelimelerin en az 681,288 tekrarından oluşan blogger.com'dan 200 blog gönderisi içeren veri seti. | Link |
NLP | Metin | Tehlike | genel | Chatbot Eğitimi | Makine öğrenimi modellerini akıllı bir şekilde otomatik yanıt verecek şekilde eğitmek için kullanılabilecek 200,000'den fazla soru içeren veri kümesi | Link |
NLP | Metin | İngilizce SMS Spam Toplama | Telekom | Spam Tanıma | 5,574 İngilizce SMS'den oluşan bir spam mesaj veri seti | Link |
NLP | Metin | Yelp Yorumları | genel | Duygu Analizi | Yelp tarafından yayınlanan 5 milyonun üzerinde inceleme içeren bir veri seti | Link |
NLP | Metin | UCI'nin Spam Tabanı | Enterprise | Spam Tanıma | İstenmeyen e-postalardan oluşan büyük bir veri kümesi, istenmeyen e-posta filtrelemesi için kullanışlıdır. | Link |
CV | Video, Resim | Berkeley DeepDrive BDD100k | Otomotiv | Özerk Araçlar | New York ve San Francisco bölgesinden günün farklı saatlerinden 1,100'den fazla videoda 100,000 saatlik sürüş deneyimini içeren en büyük kendi kendine sürüş AI veri setlerinden biri. | Link |
CV | Video | virgül.ai | Otomotiv | Özerk Araçlar | Otomobilin hızı, ivmesi, direksiyon açısı ve GPS koordinatları hakkında bilgiler içeren 7 saatlik bir otoyol sürüş veri seti | Link |
CV | Video, Resim | Şehir Manzarası Veri Kümesi | Otomotiv | Otonom Araç için Semantik Etiket | 5,000 farklı şehirden kaydedilmiş, stereo video dizilerinde 20,000 piksel düzeyinde açıklamalardan oluşan bir veri seti artı 50 zayıf açıklamalı kareden oluşan daha büyük bir set | Link |
CV | Resim | KUL Belçika Trafik İşareti Veri Kümesi | Otomotiv | Özerk Araçlar | Belçika genelinden fiziksel olarak farklı trafik işaretlerine dayalı olarak Flanders bölgesinden 10000'den fazla trafik işareti ek açıklaması. | Link |
CV | Resim | LISA: Akıllı ve Güvenli Otomobiller Laboratuvarı, UC San Diego Veri Kümeleri | Otomotiv | Özerk Araçlar | Trafik işaretleri, araç algılama, trafik ışıkları ve yörünge modellerini içeren zengin bir veri seti. | Link |
CV | Resim | Cifar-10 | genel | Nesne tanıma | Nesne tanıma için 50,000 görüntü ve 10,000 test görüntüsünden (yani 60,000 sınıfta 32 32×10 renkli görüntü) oluşan bir veri seti. | Link |
CV | Resim | Moda MNIST | Moda | 60,000 sınıftan bir etiketle ilişkilendirilmiş, 10,000×28 gri tonlamalı görüntülerde 28 örnek ve 10 örnekten oluşan bir test setinden oluşan bir görüntü veri seti. | Link | |
CV | Resim | IMDB-Wiki Veri Kümesi | Eğlence | Yüz tanıma | Cinsiyet ve yaş gibi etiketlere sahip büyük bir yüz görüntüleri veri seti. Toplam 523,051 yüz görüntüsünden 460,723'ü IMDB'den 20,284 ünlüden ve 62,328'i Wikipedia'dan alınmıştır. | Link |
CV | Video | Kinetik-700 | genel | Her aksiyon sınıfı için, yüksek kaliteli veri seti 650,000 video klipten oluşur ve en az 700 video klip ile 600 insan aksiyon sınıfını kapsar. Burada, her klip 10 saniye kadar sürer. | Link | |
CV | Resim | MS Hindistan cevizi | genel | Nesne algılama, Segmentasyon | Veri kümesi 328k görüntü içerir ve büyük ölçekli nesne algılama, segmentasyon ve veri açıklamalı ilgili ML modellerini eğitmek için toplam 2.5 Mn örnek ve 91 nesne görüntüsüne sahiptir. | Link |
CV | Resim | MPII İnsan Pozu Veri Kümesi | genel | Açıklamalı vücut eklemleri olan 25K'dan fazla kişiyi içeren yaklaşık 40K fotoğraf, insan pozu tahminini ifade etmek için kullanılan veri kümesine dahil edilmiştir. Genel olarak veri seti 410 insan aktivitesini kapsar ve her görüntü bir aktivite etiketi ile sağlanır. | Link | |
CV | Resim | Görüntüleri Aç | genel | Nesne konumu açıklamaları | Görüntü düzeyinde etiketler, nesne sınırlayıcı kutular, nesne segmentasyonu vb. ile açıklamalı yaklaşık 9 Mn görüntü içeren görüntü veri kümesi. Veri kümesi ayrıca 16 Mn'den oluşur. 600 Mn görüntülerde 1.9 nesne sınıfı için sınırlayıcı kutular. | Link |
CV | Video, Resim | Argo, Argo, ABD tarafından | Otomotiv | Sınırlama Kutusu, Optik Akış, Davranışsal Etiket, Semantik Etiket, Şerit İşaretleme | Geometrik ve anlamsal meta veriler, yani şerit merkez çizgileri, şerit yönü ve sürülebilir alan içeren HD haritalardan oluşan kendi kendine giden bir veri kümesi. Veri seti, kendi kendini süren araçların güvenli bir şekilde gezinmesine yardımcı olacak daha doğru algılama algoritmaları yapmak için ML modellerini eğitmek için kullanılır. | Link |
CV | Video | Bosch Küçük Trafik Işıkları, Bosch Kuzey Amerika Araştırması | Otomotiv | Sınırlayıcı kutu | Görüntü tabanlı trafik ışığı algılama sistemi oluşturmak için 13427*1280 çözünürlüğe sahip 720 kamera görüntüsünden oluşan bir veri seti. Veri kümesi 24000'den fazla açıklamalı trafik ışığına sahiptir. | Link |
CV | Video | Brain4Cars, Cornell Üniv., Amerika Birleşik Devletleri | Otomotiv | davranışsal etiket | Sürücü uyanıklığı hakkında faydalı istatistikler çıkarmak için bir dizi kabin sensöründen (kameralar, dokunsal sensörler, akıllı cihazlar, vb.) oluşan bir veri seti. Algoritmalarımız, uykulu veya dikkati dağılmış sürücüleri algılayabilir ve korumayı iyileştirmek için gerekli alarmları artırabilir. | Link |
CV | Resim | CULane, Çin Üniv. Hong Kong, Pekin, Çin | Otomotiv | Şerit İşaretleme | 55 (133,235 eğitim seti, 88880 doğrulama seti ve 9675 test seti) karelerinden oluşan 34680 saatlik videodan oluşan trafik şeridi tespiti üzerine bir Computer Vision veri seti. Pekin'de farklı sürücüler tarafından kullanılan altı farklı araca monte edilmiş kameralar tarafından toplanır. | Link |
CV | Video | DAVIS, Üniv. of Zurich,ETH ¨ Zürih, Almanya, İsviçre | Otomotiv | DAVIS olay+çerçeve kamerası kullanan uçtan uca bir araç sürüş eğitimi veri seti. Direksiyon, gaz kelebeği, GPS vb. gibi araç verileri, otomotiv uygulamaları için çerçeve ve olay verilerinin kaynaşmasını değerlendirmek için kullanılır. | Link | |
CV | Video | DBNet, Shanghai Jiao Tong Üniv., Xiamen Üniv., Çin | Otomotiv | Nokta Bulutu, LiDAR | Sürüş davranışları hakkında derinlemesine araştırma için hizalanmış video, nokta bulutu, GPS ve sürücü davranışını içeren gerçek dünya 1000 KM sürüş verileri. | Link |
CV | Video | Dr(göz)ve, Üniv. Modena ve Reggio Emilia, Modena, İtalya | Otomotiv | davranışsal etiket | 74'den fazla karede açıklamalı, her biri 5 dakikalık 500,000 video dizisi içeren veri kümesi. Veri seti, coğrafi referanslı konumlardan, sürüş hızından, rotadan ve ayrıca sürücülerin bakış sabitlemelerini ve göreve özel haritalar sağlayan zamansal entegrasyonlarını etiketler. | Link |
CV | Video | ETH Yaya (2009), ETH Zürih, Zürih, İsviçre | genel | Sınırlayıcı kutu | 74'den fazla karede açıklamalı, her biri 5 dakikalık 500,000 video dizisinden oluşan bir veri seti. Veri seti, coğrafi referanslı konumlar, sürüş hızı, yön sağlar ve ayrıca sürücüler için bakış sabitlemelerini ve göreve özel haritalar da dahil olmak üzere zamansal entegrasyonlarını etiketler. | Link |
CV | Video | Ford (2009), Üniv. Michigan, Michigan, ABD | Otomotiv | Sınırlama Kutusu, , LiDAR | Bir Velodyne 3D-lidar tarayıcı, iki itmeli-süpürge ileriye dönük Rieg lidar, bir teknik ve tüketici Atalet Ölçüm Birimi (IMU) ve bir Point Grey Ladybug3 çok yönlü kamera sistemi ile donatılmış otomatik bir kara aracı tarafından derlenen bir veri seti. | Link |
CV | Video | HCI Zorlu Stereo, Bosch Corporation Research, Hildesheim, Almanya | genel | Çok çeşitli hava koşulları, çoklu hareket ve derinlik katmanlarını içeren yakalanan video sahnelerinden birkaç milyon karelik bir veri seti; şehirdeki ve kırsaldaki durumlar vb. | Link | |
CV | Video | JAAD, York Üniversitesi, Ukrayna, Kanada | Otomotiv | Sınırlama Kutusu, Davranışsal Etiket | "JAAD, otonom sürüş bağlamında ortak dikkati incelemek için bir veri setidir. Odak noktası, yaya ve sürücü davranışları ve bunları etkileyen faktörler üzerindedir. Bu amaçla, JAAD veri seti, zengin açıklamalı 346 kısa video koleksiyonu sağlar. Kuzey Amerika ve Doğu Avrupa'daki çeşitli konumlardan 5 saatin üzerinde sürüş görüntülerinden alınan klipler (10-240 saniye uzunluğunda) Tüm yayalar için oklüzyon etiketli sınırlayıcı kutular kullanılır ve bu veri setini yaya tespiti için uygun hale getirir. Davranış açıklamaları yayalar için davranışları belirler sürücüyle etkileşime giren veya sürücünün dikkatini gerektiren. Her video için çeşitli etiketler (hava durumu, konumlar vb.) ve zaman damgalı davranış etiketleri (örn. durma, yürüme, bakma vb.) vardır. Ek olarak, demografik özelliklerin bir listesi her bir yaya için (örn. yaş, cinsiyet, hareket yönü vb.) ve ayrıca her çerçevedeki görünür trafik sahnesi öğelerinin (örn. dur işareti, trafik işareti vb.) bir listesi sağlanır." | Link |
CV | Resim | LISA Trafik İşareti, Üniv. Kaliforniya, San Diego, Amerika Birleşik Devletleri | Otomotiv | Sınırlayıcı kutu | ABD trafik işaretlerini içeren videolar ve açıklamalı çerçeveler içeren veri kümesi. Biri sadece resimli, diğeri hem resimli hem de videolu olmak üzere iki aşamada yayınlanıyor. | Link |
CV | Resim | Mapillary Vistas, Mapillary AB, Global tarafından | Otomotiv | anlamsal etiket | Dünyanın dört bir yanındaki sokak sahnelerini piksel doğruluğunda ve örneğe özgü insan açıklamalarıyla yorumlamak için sokak düzeyinde bir fotoğrafçılık veri seti. | Link |
CV | Video, Resim | Semantik KITTI, Bonn Üniversitesi, Karlsruhe, Almanya | Otomotiv | Sınırlama Kutusu, Semantik Etiket, Şerit İşaretleme | Tüm Odometri Karşılaştırma dizileri için anlamsal bir açıklama içeren bir veri kümesi. Veri seti, arabalar, bisikletler, bisikletler, yayalar ve bisikletliler dahil olmak üzere çeşitli hareketli ve hareketsiz trafik türlerini açıklar ve sahnedeki nesnelerin incelenmesine izin verir. | Link |
CV | Video | Stanford Track, Stanford Üniv., Amerika Birleşik Devletleri tarafından | Otomotiv | Nesne Algılama / Sınıflandırma LiDAR, GPS, Kodlar | Doğal sokak sahnelerinde Velodyne HDL-14,000E S64 LIDAR tarafından gözlemlendiği gibi 2 etiketli nesne izini içeren ve 3D Nesne Tanıma için makine öğrenimi modellerini eğitmek için kullanılabilen bir veri kümesi. | Link |
CV | Video, Resim | Boxy Veri Kümesi, Bosch, Amerika Birleşik Devletleri | Otomotiv | Sınırlama Kutusu / Araç Algılama | Otoyollarda kendi kendine giden arabalar için nesne tanıma stratejilerinin eğitimi ve analizi için 2 milyon açıklamalı araç içeren bir araç algılama veri seti. | Link |
CV | Video | TME Otoyolu, Çek Teknik Üniversitesi tarafından, Kuzey İtalya | Otomotiv | Sınırlayıcı kutu | 28'den fazla araç açıklama çerçevesine bölünmüş toplam 27 dakikalık 30,000 klipten oluşan bir Veri Kümesi. Açıklama, lazer tarayıcıdan alınan veriler kullanılarak yarı otomatik olarak üretildi. Bu veri toplama, tam edinme koşullarının çoğunu kapsayan değişken trafik senaryoları, şerit sayısı, yol eğriliği ve aydınlatmayı içerir. | Link |
CV | Video | Denetimsiz Llamas, Bosch, Amerika Birleşik Devletleri | Otomotiv | Şerit İşaretleme, LiDAR | Denetimsiz Llamas veri kümesi, Lidar tabanlı şerit işaretçileri de dahil olmak üzere yüksek çözünürlüklü otomatik sürüş haritaları oluşturularak açıklandı. Otonom araç bu haritalara göre hizalanabiliyor ve şerit işaretleri kamera çerçevesine yansıtılıyor. 3D projeksiyon, halihazırda gözlemlenen ve tahmin edilen görüntü işaretçileri arasındaki tutarsızlığı en aza indirerek optimize edilir. | Link |
NLP | ses | Facebook AI Çok Dilli LibriSpeech (MLS) | genel | Sesli Açıklama / Konuşma Tanıma | Facebook AI Multilingual LibriSpeech (MLS), otomatik konuşma tanıma (ASR) araştırmalarının ilerlemesine yardımcı olmak için tasarlanmış büyük ölçekli, açık kaynaklı bir veri setidir. MLS, 50,000 dilde 8 saatten fazla ses sağlar: İngilizce, Almanca, Felemenkçe, Fransızca, İspanyolca, İtalyanca, Portekizce ve Lehçe. | Link |