Veri Kümelerini Aç

Makine öğrenimi modellerini eğitmenizi sağlayan açık kaynaklı veri kümelerini keşfedin

Veri Kümelerini Aç

AI/ML Modellerini Kullanmaya Başlamak için Açık Kaynak Veri Kümeleri

AI ve ML modellerinizin çıktısı, yalnızca onu eğitmek için kullandığınız veriler kadar iyidir - bu nedenle veri toplamaya uyguladığınız hassasiyet ve bu verilerin etiketlenmesi ve tanımlanması önemlidir!

Bu nedenle, yeni bir AI/ML girişimi başlatmak istiyorsanız ve şimdi yüksek kaliteli eğitim verilerini bulmanın projenizin en zorlu yönlerinden biri olacağını hemen fark ediyorsunuz, çünkü yüksek kaliteli veri kümeleri AI/ ML motoru çalışıyor. Geleceğin AI/ML modellerinizi kullanmak ve eğitmek için ücretsiz olan açık veri kümelerinin bir listesini topladık.

UzmanlaşmaVeri tipiVeri Kümesi AdıSanayi / BölümAçıklama/Kullanım ÖrneğiAçıklamaLink
NLPMetinAmazon DeğerlendirmeleriE-ticaretDuygu AnaliziKullanıcı ve ürün ayrıntılarıyla birlikte düz metin olarak son 35 yılda 18 milyon inceleme ve derecelendirme seti.Link
NLPMetinWikipedia Bağlantı Verilerigenel4 milyondan fazla 1.9 Milyar içeren makaleler. kelime ve deyimlerin yanı sıra paragraflardan oluşan kelime.Link
NLPMetinStandford Duygu Ağaç BankasıEntertainmentDuygu AnaliziRotten Tomatoes'dan HTML dosya formatında 10,000'den fazla inceleme parçası için duygu açıklamaları veri setiLink
NLPMetinTwitter ABD Havayolu DuyarlılığıHavayoluDuygu AnaliziUS Airlines hakkındaki 2015 Tweetleri olumlu, olumsuz ve nötr tonlara ayrıldıLink
CVResim Vahşi Doğada Etiketli YüzlergenelYüz tanımaYüz tanıma eğitimi için iki farklı resim ile 13,000'den fazla kırpılmış yüz içeren veri seti.Link
CVVideo, ResimUMDFaces Veri KümesigenelYüz tanımaHareketsiz ve video görüntüleri içeren 367,000'den fazla konudan 8,000'den fazla yüz içeren açıklamalı veri kümesi.Link
CVResim görüntü ağıgenel14 milyonun üzerinde veri seti. WordNet hiyerarşisine göre düzenlenmiş çeşitli dosya biçimlerinde görüntüler.Link
CVResim Google'ın Açık Görsellerigenel9 Dakika 6,000'den fazla kategoriden genel görselleri kategorilere ayırmak için URL'ler.Link
NLPMetinMIMIC Yoğun Bakım VeritabanıSağlık hizmeti40,000 yoğun bakım hastasından gelen kimliksizleştirilmiş verilerle Hesaplamalı Fizyoloji Veri Kümeleri. Veri kümesi, demografik bilgiler, yaşamsal belirtiler, ilaçlar vb. bilgileri içerir.Link
CVResimABD Ulusal Seyahat ve Turizm OfisiturizmGelen ve giden seyahat ve uluslararası turist bilgileri gibi konuları kapsayan, güvenilir veri tabanlarıyla turizm endüstrisinden geniş fotoğraflar sağlar.Link
NLPMetinUlaştırma BölümüturizmMilli Parklar, sürücü kayıtları, köprüler ve demiryolu bilgileri vb. içeren turizm veri kümeleri.Link
NLPsesFlickr Ses Altyazısı CorpusgenelDenetimsiz konuşma kalıpları için tasarlanmış 40 fotoğraftan 8,000'den fazla sözlü altyazıLink
NLPsesKonuşma Komutları Veri KümesigenelKonuşma Tanıma, Ses AçıklamasıTemel ses arabirimi oluşturmak için binlerce kişiden 1 saniyelik uzun ifadeler.Link
NLPsesÇevresel Ses Veri KümelerigenelOlayların sesi tablolarını ve akustik sahne tablolarını içeren ortam ses veri kümeleri.Link
NLPMetinCOVID-19 Açık Araştırma Veri Kümesi Sağlık hizmetitıbbi yapay zekaCOVID-45,000 ve koronavirüs virüs ailesi hakkında 19 bilimsel makaleden oluşan bir araştırma veri seti.Link
CVResimWaymo Açık Veri Kümesi OtomotivWaymo tarafından yayınlanan en çeşitli otonom sürüş veri kümeleriLink
CVResimGörsel Genom genelResim Altyazısı100'den fazla görüntünün ayrıntılı açıklamalı alt yazısını içeren görsel bir bilgi tabanıLink
CVResimEtiketle beni Kamu HükümetiLabelme Matlab aracılığıyla erişilebilen geniş açıklamalı resim setiLink
CVResimBOBİN100genelBirden fazla açıdan fotoğraflanan 100'den fazla çeşitli nesne (ör. 360 derece)Link
CVResimStanford Köpekleri Veri Kümesigenel20,500 farklı köpek ırkından oluşan görüntü setinde kategorize edilmiş 120'den fazla görüntüLink
CVResimİç Mekan Sahne TanımagenelSahne TanımaSahne tanıma modelleri oluşturmak için 15620 iç mekan kategorisinden 67 görüntüden oluşan özel bir veri setiLink
CVResimGörsel QAgenelYanıt vermek için görüşün anlaşılmasını ve dilin anlaşılmasını gerektiren 265,016 fotoğrafla ilgili açık uçlu soruları içeren bir veri seti.Link
NLPMetinÇok Alanlı Duygu Analizi Veri KümesiE-ticaretDuygu AnaliziAmazon'dan ürün incelemelerini içeren veri kümesiLink
NLPMetinIMDB İncelemeleriEntertainmentDuygu AnaliziDuygu analizi için 25000 film incelemesi içeren veri setiLink
NLPMetinDuygu140genelDuygu AnaliziDaha yüksek doğruluk için önceden kaldırılmış ifadelere sahip 160,000 tweet içeren veri setiLink
NLPMetinBlogger DerlemesigenelAnahtar Kelime AnaliziYaygın olarak kullanılan İngilizce kelimelerin en az 681,288 tekrarından oluşan blogger.com'dan 200 blog gönderisi içeren veri seti.Link
NLPMetinTehlikegenelChatbot EğitimiMakine öğrenimi modellerini akıllı bir şekilde otomatik yanıt verecek şekilde eğitmek için kullanılabilecek 200,000'den fazla soru içeren veri kümesiLink
NLPMetinİngilizce SMS Spam ToplamaTelekomSpam Tanıma5,574 İngilizce SMS'den oluşan bir spam mesaj veri setiLink
NLPMetinYelp YorumlarıgenelDuygu AnaliziYelp tarafından yayınlanan 5 milyonun üzerinde inceleme içeren bir veri setiLink
NLPMetinUCI'nin Spam TabanıkuruluşSpam Tanımaİstenmeyen e-postalardan oluşan büyük bir veri kümesi, istenmeyen e-posta filtrelemesi için kullanışlıdır.Link
CVVideo, ResimBerkeley DeepDrive BDD100kOtomotivÖzerk AraçlarNew York ve San Francisco bölgesinden günün farklı saatlerinden 1,100'den fazla videoda 100,000 saatlik sürüş deneyimini içeren en büyük kendi kendine sürüş AI veri setlerinden biri.Link
CVVideovirgül.aiOtomotivÖzerk Araçlar Otomobilin hızı, ivmesi, direksiyon açısı ve GPS koordinatları hakkında bilgiler içeren 7 saatlik bir otoyol sürüş veri setiLink
CVVideo, ResimŞehir Manzarası Veri KümesiOtomotivOtonom Araç için Semantik Etiket5,000 farklı şehirden kaydedilmiş, stereo video dizilerinde 20,000 piksel düzeyinde açıklamalardan oluşan bir veri seti artı 50 zayıf açıklamalı kareden oluşan daha büyük bir setLink
CVResimKUL Belçika Trafik İşareti Veri KümesiOtomotivÖzerk AraçlarBelçika genelinden fiziksel olarak farklı trafik işaretlerine dayalı olarak Flanders bölgesinden 10000'den fazla trafik işareti ek açıklaması.Link
CVResimLISA: Akıllı ve Güvenli Otomobiller Laboratuvarı, UC San Diego Veri KümeleriOtomotivÖzerk AraçlarTrafik işaretleri, araç algılama, trafik ışıkları ve yörünge modellerini içeren zengin bir veri seti.Link
CVResimCifar-10genelNesne tanımaNesne tanıma için 50,000 görüntü ve 10,000 test görüntüsünden (yani 60,000 sınıfta 32 32×10 renkli görüntü) oluşan bir veri seti.Link
CVResimModa MNISTModa60,000 sınıftan bir etiketle ilişkilendirilmiş, 10,000×28 gri tonlamalı görüntülerde 28 örnek ve 10 örnekten oluşan bir test setinden oluşan bir görüntü veri seti.Link
CVResimIMDB-Wiki Veri KümesiEntertainmentYüz tanımaCinsiyet ve yaş gibi etiketlere sahip büyük bir yüz görüntüleri veri seti. Toplam 523,051 yüz görüntüsünden 460,723'ü IMDB'den 20,284 ünlüden ve 62,328'i Wikipedia'dan alınmıştır.Link
CVVideoKinetik-700genelHer aksiyon sınıfı için, yüksek kaliteli veri seti 650,000 video klipten oluşur ve en az 700 video klip ile 600 insan aksiyon sınıfını kapsar. Burada, her klip 10 saniye kadar sürer.Link
CVResimMS Hindistan cevizigenelNesne algılama, SegmentasyonVeri kümesi 328k görüntü içerir ve büyük ölçekli nesne algılama, segmentasyon ve veri açıklamalı ilgili ML modellerini eğitmek için toplam 2.5 Mn örnek ve 91 nesne görüntüsüne sahiptir.Link
CVResimMPII İnsan Pozu Veri KümesigenelAçıklamalı vücut eklemleri olan 25K'dan fazla kişiyi içeren yaklaşık 40K fotoğraf, insan pozu tahminini ifade etmek için kullanılan veri kümesine dahil edilmiştir. Genel olarak veri seti 410 insan aktivitesini kapsar ve her görüntü bir aktivite etiketi ile sağlanır.Link
CVResimGörüntüleri AçgenelNesne konumu açıklamalarıGörüntü düzeyinde etiketler, nesne sınırlayıcı kutular, nesne segmentasyonu vb. ile açıklamalı yaklaşık 9 Mn görüntü içeren görüntü veri kümesi. Veri kümesi ayrıca 16 Mn'den oluşur. 600 Mn görüntülerde 1.9 nesne sınıfı için sınırlayıcı kutular.Link
CVVideoApollo Açık Platformu, Baidu Inc, ÇinOtomotivSınırlayıcı Kutu, LiDARYenilikçi yinelemenin verimliliğini hızlandırmak için geliştiricilere otonom sürüşte gerekli verileri sağlayan zengin bir otonom sürüş veri seti.Link
CVVideo, ResimArgo, Argo, ABD tarafındanOtomotivSınırlama Kutusu, Optik Akış, Davranışsal Etiket, Semantik Etiket, Şerit İşaretlemeGeometrik ve anlamsal meta veriler, yani şerit merkez çizgileri, şerit yönü ve sürülebilir alan içeren HD haritalardan oluşan kendi kendine giden bir veri kümesi. Veri seti, kendi kendini süren araçların güvenli bir şekilde gezinmesine yardımcı olacak daha doğru algılama algoritmaları yapmak için ML modellerini eğitmek için kullanılır.Link
CVVideoBosch Küçük Trafik Işıkları, Bosch Kuzey Amerika AraştırmasıOtomotivSınırlayıcı kutuGörüntü tabanlı trafik ışığı algılama sistemi oluşturmak için 13427*1280 çözünürlüğe sahip 720 kamera görüntüsünden oluşan bir veri seti. Veri kümesi 24000'den fazla açıklamalı trafik ışığına sahiptir.Link
CVVideoBrain4Cars, Cornell Üniv., Amerika Birleşik DevletleriOtomotivdavranışsal etiketSürücü uyanıklığı hakkında faydalı istatistikler çıkarmak için bir dizi kabin sensöründen (kameralar, dokunsal sensörler, akıllı cihazlar, vb.) oluşan bir veri seti. Algoritmalarımız, uykulu veya dikkati dağılmış sürücüleri algılayabilir ve korumayı iyileştirmek için gerekli alarmları artırabilir.Link
CVResimCULane, Çin Üniv. Hong Kong, Pekin, ÇinOtomotivŞerit İşaretleme55 (133,235 eğitim seti, 88880 doğrulama seti ve 9675 test seti) karelerinden oluşan 34680 saatlik videodan oluşan trafik şeridi tespiti üzerine bir Computer Vision veri seti. Pekin'de farklı sürücüler tarafından kullanılan altı farklı araca monte edilmiş kameralar tarafından toplanır.Link
CVVideoDAVIS, Üniv. of Zurich,ETH ¨ Zürih, Almanya, İsviçreOtomotivDAVIS olay+çerçeve kamerası kullanan uçtan uca bir araç sürüş eğitimi veri seti. Direksiyon, gaz kelebeği, GPS vb. gibi araç verileri, otomotiv uygulamaları için çerçeve ve olay verilerinin kaynaşmasını değerlendirmek için kullanılır.Link
CVVideoDBNet, Shanghai Jiao Tong Üniv., Xiamen Üniv., ÇinOtomotivNokta Bulutu, LiDARSürüş davranışları hakkında derinlemesine araştırma için hizalanmış video, nokta bulutu, GPS ve sürücü davranışını içeren gerçek dünya 1000 KM sürüş verileri.Link
CVVideoDr(göz)ve, Üniv. Modena ve Reggio Emilia, Modena, İtalyaOtomotivdavranışsal etiket74'den fazla karede açıklamalı, her biri 5 dakikalık 500,000 video dizisi içeren veri kümesi. Veri seti, coğrafi referanslı konumlardan, sürüş hızından, rotadan ve ayrıca sürücülerin bakış sabitlemelerini ve göreve özel haritalar sağlayan zamansal entegrasyonlarını etiketler.Link
CVVideoETH Yaya (2009), ETH Zürih, Zürih, İsviçregenelSınırlayıcı kutu74'den fazla karede açıklamalı, her biri 5 dakikalık 500,000 video dizisinden oluşan bir veri seti. Veri seti, coğrafi referanslı konumlar, sürüş hızı, yön sağlar ve ayrıca sürücüler için bakış sabitlemelerini ve göreve özel haritalar da dahil olmak üzere zamansal entegrasyonlarını etiketler.Link
CVVideoFord (2009), Üniv. Michigan, Michigan, ABDOtomotivSınırlama Kutusu, , LiDARBir Velodyne 3D-lidar tarayıcı, iki itmeli-süpürge ileriye dönük Rieg lidar, bir teknik ve tüketici Atalet Ölçüm Birimi (IMU) ve bir Point Grey Ladybug3 çok yönlü kamera sistemi ile donatılmış otomatik bir kara aracı tarafından derlenen bir veri seti.Link
CVVideoHCI Zorlu Stereo, Bosch Corporation Research, Hildesheim, AlmanyagenelÇok çeşitli hava koşulları, çoklu hareket ve derinlik katmanlarını içeren yakalanan video sahnelerinden birkaç milyon karelik bir veri seti; şehirdeki ve kırsaldaki durumlar vb.Link
CVVideoJAAD, York Üniversitesi, Ukrayna, KanadaOtomotivSınırlama Kutusu, Davranışsal Etiket"JAAD, otonom sürüş bağlamında ortak dikkati incelemek için bir veri setidir. Odak noktası, yaya ve sürücü davranışları ve bunları etkileyen faktörler üzerindedir. Bu amaçla, JAAD veri seti, zengin açıklamalı 346 kısa video koleksiyonu sağlar. Kuzey Amerika ve Doğu Avrupa'daki çeşitli konumlardan 5 saatin üzerinde sürüş görüntülerinden alınan klipler (10-240 saniye uzunluğunda) Tüm yayalar için oklüzyon etiketli sınırlayıcı kutular kullanılır ve bu veri setini yaya tespiti için uygun hale getirir. Davranış açıklamaları yayalar için davranışları belirler sürücüyle etkileşime giren veya sürücünün dikkatini gerektiren. Her video için çeşitli etiketler (hava durumu, konumlar vb.) ve zaman damgalı davranış etiketleri (örn. durma, yürüme, bakma vb.) vardır. Ek olarak, demografik özelliklerin bir listesi her bir yaya için (örn. yaş, cinsiyet, hareket yönü vb.) ve ayrıca her çerçevedeki görünür trafik sahnesi öğelerinin (örn. dur işareti, trafik işareti vb.) bir listesi sağlanır."Link
CVVideoKAIST Urban, KAIST, Güney KoregenelLiDARVeri toplama, çok karmaşık bir kentsel alanı (örneğin metropol alanları, karmaşık binalar ve yerleşim alanları) hedefleyen LiDAR verileri ve stereo görüntüler için çok sayıda konum sensörünü içerir.Link
CVResimLISA Trafik İşareti, Üniv. Kaliforniya, San Diego, Amerika Birleşik DevletleriOtomotivSınırlayıcı kutuABD trafik işaretlerini içeren videolar ve açıklamalı çerçeveler içeren veri kümesi. Biri sadece resimli, diğeri hem resimli hem de videolu olmak üzere iki aşamada yayınlanıyor.Link
CVResimMapillary Vistas, Mapillary AB, Global tarafındanOtomotivanlamsal etiketDünyanın dört bir yanındaki sokak sahnelerini piksel doğruluğunda ve örneğe özgü insan açıklamalarıyla yorumlamak için sokak düzeyinde bir fotoğrafçılık veri seti.Link
CVVideo, ResimSemantik KITTI, Bonn Üniversitesi, Karlsruhe, AlmanyaOtomotivSınırlama Kutusu, Semantik Etiket, Şerit İşaretlemeTüm Odometri Karşılaştırma dizileri için anlamsal bir açıklama içeren bir veri kümesi. Veri seti, arabalar, bisikletler, bisikletler, yayalar ve bisikletliler dahil olmak üzere çeşitli hareketli ve hareketsiz trafik türlerini açıklar ve sahnedeki nesnelerin incelenmesine izin verir.Link
CVVideoStanford Track, Stanford Üniv., Amerika Birleşik Devletleri tarafındanOtomotivNesne Algılama / Sınıflandırma LiDAR, GPS, KodlarDoğal sokak sahnelerinde Velodyne HDL-14,000E S64 LIDAR tarafından gözlemlendiği gibi 2 etiketli nesne izini içeren ve 3D Nesne Tanıma için makine öğrenimi modellerini eğitmek için kullanılabilen bir veri kümesi.Link
CVVideo, ResimBoxy Veri Kümesi, Bosch, Amerika Birleşik DevletleriOtomotivSınırlama Kutusu / Araç AlgılamaOtoyollarda kendi kendine giden arabalar için nesne tanıma stratejilerinin eğitimi ve analizi için 2 milyon açıklamalı araç içeren bir araç algılama veri seti.Link
CVVideoTME Otoyolu, Çek Teknik Üniversitesi tarafından, Kuzey İtalyaOtomotivSınırlayıcı kutu28'den fazla araç açıklama çerçevesine bölünmüş toplam 27 dakikalık 30,000 klipten oluşan bir Veri Kümesi. Açıklama, lazer tarayıcıdan alınan veriler kullanılarak yarı otomatik olarak üretildi. Bu veri toplama, tam edinme koşullarının çoğunu kapsayan değişken trafik senaryoları, şerit sayısı, yol eğriliği ve aydınlatmayı içerir.Link
CVVideoDenetimsiz Llamas, Bosch, Amerika Birleşik DevletleriOtomotivŞerit İşaretleme, LiDARDenetimsiz Llamas veri kümesi, Lidar tabanlı şerit işaretçileri de dahil olmak üzere yüksek çözünürlüklü otomatik sürüş haritaları oluşturularak açıklandı. Otonom araç bu haritalara göre hizalanabiliyor ve şerit işaretleri kamera çerçevesine yansıtılıyor. 3D projeksiyon, halihazırda gözlemlenen ve tahmin edilen görüntü işaretçileri arasındaki tutarsızlığı en aza indirerek optimize edilir.Link
NLPsesFacebook AI Çok Dilli LibriSpeech (MLS)genelSesli Açıklama / Konuşma TanımaFacebook AI Multilingual LibriSpeech (MLS), otomatik konuşma tanıma (ASR) araştırmalarının ilerlemesine yardımcı olmak için tasarlanmış büyük ölçekli, açık kaynaklı bir veri setidir. MLS, 50,000 dilde 8 saatten fazla ses sağlar: İngilizce, Almanca, Felemenkçe, Fransızca, İspanyolca, İtalyanca, Portekizce ve Lehçe. Link