Sağlık Veri Kümeleri

Makine Öğrenimi Projeleri için En İyi Açık Kaynaklı Sağlık Veri Kümeleri

  • Küresel sağlık sistemi, günlük olarak makine öğrenimi uygulamaları için kullanılma potansiyeline sahip çok miktarda tıbbi veri üretiyor. Tüm sektörlerde veriler, şirketlerin rekabet avantajı kazanmasını sağlayan değerli bir varlık olarak görülüyor ve sağlık sektörü de farklı değil.

Bu makale, tıbbi verilerle uğraşırken karşılaşılan engelleri kısaca ele alacak ve kamuya açık sağlık hizmetleri veri kümelerinin bir özetini sunacaktır.

Sağlık Veri Kümelerinin Önemi

Sağlık hizmeti veri kümelerinin önemi

Sağlık veri kümeleri, tıbbi kayıtlar, teşhisler, tedaviler, genetik veriler ve yaşam tarzı ayrıntıları gibi hasta bilgilerinin koleksiyonlarıdır. Yapay zekanın giderek daha fazla kullanıldığı günümüz dünyasında bunlar çok önemlidir. İşte nedeni:

Hasta Sağlığını Anlamak:

Sağlık hizmeti veri kümeleri doktorlara hastanın sağlığının tam resmini verir. Örneğin, bir hastanın tıbbi geçmişi, ilaçları ve yaşam tarzı hakkındaki veriler, kronik bir hastalığa yakalanıp yakalanmayacağının tahmin edilmesine yardımcı olabilir. Bu, doktorların erkenden müdahale etmesine ve sadece o hasta için bir tedavi planı yapmasına olanak tanır.

Tıbbi Araştırmalara Yardımcı Olmak:

Tıbbi araştırmacılar, sağlık hizmeti veri kümelerini inceleyerek kanser hastalarının nasıl tedavi edildiğine ve nasıl iyileştiklerine bakabilirler. Gerçek dünyada en iyi işe yarayan tedavileri bulabilirler. Örneğin araştırmacılar biyobankalardaki tümör örneklerine ve hastaların tedavi geçmişlerine bakarak spesifik mutasyonların ve kanser proteinlerinin farklı tedavilere nasıl tepki verdiğini öğrenebilirler. Bu veriye dayalı yaklaşım, daha iyi hasta sonuçlarına yol açan eğilimlerin bulunmasına yardımcı olur.

Daha İyi Teşhis ve Tedavi:

Doktorlar, sağlık hizmeti veri kümelerine bakmak ve önemli kalıpları bulmak için yapay zeka araçlarını kullanıyor. Bu, hastalıkları daha iyi teşhis etmelerine ve tedavi etmelerine yardımcı olur. Radyolojide yapay zeka, taramalardaki sorunları insanlardan daha hızlı ve daha doğru bir şekilde bulabilir. Bu, doktorların hastalıkları daha erken tespit edip doğru tedaviye daha erken başlayabilecekleri anlamına geliyor. Tıbbi görüntü açıklamaları daha hızlı ve daha iyi tanıya olanak tanıyarak hastanın sağlığını iyileştirebilir.

Halk Sağlığı Girişimlerine Yardımcı Olmak:

Sağlık uzmanlarının bir grip salgınını takip etmek için veri kümelerini kullandığı küçük bir kasaba hayal edin. Desenlere baktılar ve etkilenen alanları buldular. Bu verilerle hedefe yönelik aşı kampanyaları ve sağlık eğitimi kampanyaları başlattılar. Bu veriye dayalı yaklaşım gribin kontrol altına alınmasına yardımcı oldu. Sağlık hizmetleri veri kümelerinin halk sağlığı girişimlerini nasıl aktif bir şekilde yönlendirebileceğini ve iyileştirebileceğini gösterir.

Makine Öğrenimi için Açık Kaynak Tıbbi Veri Kümeleri

Açık veri kümeleri, herhangi bir makine öğrenimi modelinin iyi çalışması için gereklidir. Makine öğrenimi halihazırda yaşam bilimleri, sağlık hizmetleri ve tıpta kullanılıyor ve harika sonuçlar veriyor. Hastalıkların tahmin edilmesine ve nasıl yayıldıklarının anlaşılmasına yardımcı oluyor. Makine öğrenimi aynı zamanda bir topluluktaki hastalara, yaşlılara ve iyi olmayan insanlara nasıl düzgün bir şekilde bakabileceğimize dair fikirler de veriyor. İyi veri kümeleri olmadan bu makine öğrenimi modelleri mümkün olmazdı.

Genel ve Halk Sağlığı:

  • veri.gov: Birden fazla parametre kullanılarak kolayca aranabilen ABD odaklı sağlık hizmeti verilerine odaklanır. Veri kümeleri ABD'de ikamet eden bireylerin refahını artırmak için tasarlanmıştır; ancak bilgiler, araştırma veya ek halk sağlığı alanlarındaki diğer eğitim setleri için de faydalı olabilir.
  • DSÖ: Küresel sağlık önceliklerine odaklanan veri kümeleri sunar. Platform, kullanıcı dostu bir arama fonksiyonu içerir ve eldeki konuların kapsamlı bir şekilde anlaşılması için veri kümelerinin yanı sıra değerli bilgiler sağlar.
  • Re3Verileri: Çeşitli geniş alanlara kategorize edilmiş 2,000'den fazla araştırma konusunu kapsayan veriler sunar. Tüm veri kümelerine serbestçe erişilemese de platform, yapıyı açıkça belirtir ve ücretler, üyelik gereksinimleri ve telif hakkı kısıtlamaları gibi faktörlere göre kolay arama yapılmasına olanak tanır.
  • İnsan ölüm veritabanı 35 ülke için ölüm oranları, nüfus rakamları ve çeşitli sağlık ve demografik istatistiklere ilişkin verilere erişim sağlar.
  • CHDS: Çocuk Sağlığı ve Gelişimi Çalışmaları veri setleri, hastalık ve sağlığın nesiller arası aktarımını araştırmayı amaçlamaktadır. Yalnızca genomik ifadeyi değil aynı zamanda sosyal, çevresel ve kültürel faktörlerin hastalık ve sağlık üzerindeki etkisini araştırmaya yönelik veri kümelerini kapsar.
  • Merck Moleküler Aktivite Yarışması: Çeşitli molekül kombinasyonları arasındaki potansiyel etkileşimleri simüle ederek ilaç keşfinde makine öğreniminin uygulanmasını teşvik etmek için tasarlanmış veri kümeleri sunar.
  • 1000 Genom Projesi: 2,500 farklı popülasyondaki 26 kişiden elde edilen sıralama verilerini içerir, bu da onu erişilebilir en büyük genom depolarından biri yapar. Bu uluslararası iş birliğine AWS üzerinden erişilebilir. (Genom projeleri için hibelerin mevcut olduğunu unutmayın.)

Yaşam Bilimleri, Sağlık Hizmetleri ve Tıp için Görüntü Veri Kümeleri:

  • Açık Nöro: Ücretsiz ve açık bir platform olan OpenNeuro, MRI, MEG, EEG, iEEG, ECoG, ASL ve PET verileri dahil olmak üzere çok çeşitli tıbbi görüntüleri paylaşır. 563 katılımcıyı kapsayan 19,187 tıbbi veri seti ile araştırmacılar ve sağlık profesyonelleri için paha biçilmez bir kaynak olarak hizmet vermektedir.
  • Vaha: Açık Erişim Görüntüleme Çalışmaları Serisinden (OASIS) kaynaklanan bu veri kümesi, bilim camiasının yararı için nörogörüntüleme verilerini halka ücretsiz olarak sunmayı amaçlamaktadır. 1,098 MR oturumu ve 2,168 PET oturumunda 1,608 konuyu kapsamakta ve araştırmacılara zengin bilgiler sunmaktadır.
  • Alzheimer Hastalığı Nörogörüntüleme Girişimi: Alzheimer Hastalığı Nörogörüntüleme Girişimi (ADNI), kendini Alzheimer hastalığının ilerleyişini tanımlamaya adamış dünya çapındaki araştırmacılar tarafından toplanan verileri sergiliyor. Veri seti, bu karmaşık durumun anlaşılmasına yönelik çok yönlü bir yaklaşımı kolaylaştıran kapsamlı bir MRI ve PET görüntüleri, genetik bilgi, bilişsel testler ve BOS ve kan biyobelirteçleri koleksiyonunu içerir.

Hastane Veri Kümeleri:

  • Sağlayıcı Veri Kataloğu: Diyaliz tesisleri, doktor muayenehaneleri, evde sağlık hizmetleri, darülaceze bakımı, hastaneler, yatan hasta rehabilitasyonu, uzun süreli bakım hastaneleri, rehabilitasyon hizmetleri içeren bakım evleri, doktor muayenehanesi ziyaret maliyetleri ve tedarikçi dizinleri gibi alanlardaki kapsamlı sağlayıcı veri kümelerine erişin ve indirin.
  • Sağlık Hizmetleri Maliyet ve Kullanım Projesi (HCUP): Bu kapsamlı, ülke çapındaki veri tabanı, sağlık hizmetlerinin kullanımı, erişim, ücretler, kalite ve sonuçlardaki ulusal eğilimleri belirlemek, izlemek ve analiz etmek için oluşturulmuştur. HCUP içindeki her tıbbi veri seti, ABD hastanelerindeki tüm hasta kalışları, acil servis ziyaretleri ve ayaktan ameliyatlara ilişkin karşılaşma düzeyinde bilgiler içerir ve araştırmacılar ve politika yapıcılar için zengin bir veri sağlar.
  • MIMIC Yoğun Bakım Veritabanı: MIT tarafından Hesaplamalı Fizyoloji amaçları doğrultusunda geliştirilen, herkese açık olan bu tıbbi veri seti, 40,000'den fazla yoğun bakım hastasına ait kimlik bilgileri kaldırılmış sağlık verilerini içerir. MIMIC veri seti, yoğun bakım alanında çalışan ve yeni hesaplamalı yöntemler geliştiren araştırmacılar için değerli bir kaynak görevi görüyor.

Kanser Veri Kümeleri:

  • CT Tıbbi Görseller: CT görüntü verilerindeki eğilimleri incelemek için alternatif yöntemleri kolaylaştırmak üzere tasarlanan bu veri seti, kontrast, modalite ve hasta yaşı gibi faktörlere odaklanarak kanser hastalarının BT taramalarını içerir. Araştırmacılar, yeni görüntüleme teknikleri geliştirmek ve kanser teşhisi ve tedavisindeki kalıpları analiz etmek için bu verilerden yararlanabilirler.
  • Kanser Raporlamasında Uluslararası İşbirliği (ICCR)): ICCR'deki tıbbi veri setleri, dünya çapında kanser raporlamasında kanıta dayalı bir yaklaşımı teşvik etmek için geliştirilmiş ve sağlanmıştır. ICCR, kanser raporlamasını standartlaştırarak, kurumlar ve ülkeler arasında kanser verilerinin kalitesini ve karşılaştırılabilirliğini geliştirmeyi amaçlamaktadır.
  • SEER Kanser İnsidansı: ABD hükümeti tarafından sağlanan bu kanser verileri, ırk, cinsiyet ve yaş gibi temel demografik ayrımlar kullanılarak bölümlere ayrılmıştır. SEER veri seti, araştırmacıların farklı nüfus alt grupları genelinde kanser insidansını ve hayatta kalma oranlarını araştırmasına olanak tanıyarak halk sağlığı girişimlerine ve araştırma önceliklerine bilgi sağlar.
  • Akciğer Kanseri Veri Seti: Bu ücretsiz veri seti, 1995 yılına kadar uzanan akciğer kanseri vakalarına ilişkin bilgiler içerir. Araştırmacılar bu verileri, akciğer kanseri insidansı, tedavisi ve sonuçlarındaki uzun vadeli eğilimleri incelemek ve ayrıca yeni teşhis ve prognostik araçlar geliştirmek için kullanabilirler.

Sağlık Verileri için Ek Kaynaklar:

  • Kaggle: Çok Yönlü Bir Veri Kümesi Havuzu – Kaggle, sağlık sektörüyle sınırlı olmayan çok çeşitli veri kümeleri için olağanüstü bir platform olmaya devam ediyor. Çeşitli konulara ayrılan veya model eğitimi için çeşitli veri kümelerine ihtiyaç duyanlar için ideal olan Kaggle, başvurulacak bir kaynaktır.
  • Subreddit: Topluluk Odaklı Bir Hazine Hazinesi – Doğru alt dizin tartışmaları, açık veri kümeleri için bir altın madeni olabilir. Herkese açık veri kümeleri tarafından ele alınmayan niş veya spesifik sorgular için cevabı Reddit topluluğu tutabilir.

Shaip'in Premium, Kullanıma Hazır Tıbbi Veri Kümeleri ile Sağlık Hizmeti Yapay Zeka Projelerinizi Hızlandırın

Doktor ve Hasta Konuşmaları Veri Seti

Veri setimizde doktorlar ve hastalar arasında sağlık ve tedavi planlarına ilişkin konuşmaların ses dosyaları bulunmaktadır. Dosyalar 31 farklı tıbbi uzmanlığı kapsıyor.

Ne dahil?

  • Sağlık hizmetleri konuşma modellerini eğitmek için 257,977 saatlik gerçek doktor dikte sesi
  • Telefonlar, dijital kaydediciler, konuşma mikrofonları ve akıllı telefonlar gibi çeşitli cihazlardan gelen ses
  • Gizlilik yasalarına uymak için kişisel bilgilerin kaldırıldığı ses ve transkriptler

CT TARAMA Görüntü Veri Seti

Araştırma ve tıbbi teşhis için birinci sınıf CT taraması görüntü veri kümeleri sunuyoruz. Gerçek hastalardan en son teknikler kullanılarak işlenmiş binlerce yüksek kaliteli görüntüye sahibiz. Veri kümelerimiz doktorların ve araştırmacıların kanser, beyin bozuklukları ve kalp hastalıkları gibi çeşitli sağlık sorunlarını daha iyi anlamalarına yardımcı olur.

Veriler, en yaygın BT taramalarının göğüs (6000) ve kafa (4350) olduğunu ve önemli sayıda taramanın aynı zamanda karın, pelvis ve vücudun diğer kısımları için de yapıldığını gösteriyor. Tablo ayrıca CT, Kovid, YRBT ve anjiyo pulmoner gibi belirli özel taramaların öncelikle Hindistan, Asya, Avrupa ve Diğerlerinde yapıldığını da ortaya koyuyor.

Elektronik Sağlık Kayıtları (EHR) Veri Kümesi

Elektronik Sağlık Kayıtları (EHR), hastanın tıbbi geçmişinin dijital versiyonlarıdır. Teşhisler, ilaçlar, tedavi planları, aşı tarihleri, alerjiler, tıbbi görüntüler (BT taramaları, MRI'lar ve X ışınları gibi), laboratuvar testleri ve daha fazlası gibi bilgileri içerir.

Kullanıma hazır EHR veri setimizin özellikleri:

  • 5.1 tıbbi uzmanlığı kapsayan 31 milyondan fazla kayıt ve doktor ses dosyası
  • Klinik NLP ve diğer Document AI modellerinin eğitimi için ideal olan orijinal tıbbi kayıtlar
  • Anonimleştirilmiş MRN, kabul ve taburcu tarihleri, kalış süresi, cinsiyet, hasta sınıfı, ödeyici, mali sınıf, eyalet, taburcu olma durumu, yaş, DRG, DRG açıklaması, geri ödeme, AMLOS, GMLOS, ölüm riski, hastalığın ciddiyeti dahil olmak üzere meta veriler, orfoz ve hastane posta kodu
  • Tüm hasta sınıflarını kapsayan kayıtlar: Yatan Hasta, Ayakta Tedavi (Klinik, Rehabilitasyon, Tekrarlayan, Cerrahi Gündüz Bakımı) ve Acil Durum
  • HIPAA Safe Harbor yönergelerine uygun olarak, kişisel olarak tanımlanabilir bilgileri (PII) içeren belgeler

MRI Görüntü Veri Kümesi

Tıbbi araştırma ve tanıyı desteklemek için birinci sınıf MRI görüntü veri kümeleri sunuyoruz. Kapsamlı koleksiyonumuz, tamamı en ileri yöntemler kullanılarak işlenmiş, gerçek hastalardan alınan binlerce yüksek çözünürlüklü görüntüyü içerir. Sağlık profesyonelleri ve araştırmacılar, veri setlerimizi kullanarak çok çeşitli tıbbi durumlara ilişkin anlayışlarını derinleştirebilir ve sonuçta hasta sonuçlarının iyileşmesine yol açabilir.

Her biri 5000 ile en yüksek sayıya sahip olan omurga ve beyin olmak üzere çeşitli vücut parçalarına ait MRI görüntü veri seti. Veriler Hindistan, Orta Asya ve Avrupa ve Orta Asya bölgelerine dağıtılmaktadır.

X-Ray Görüntü Veri Kümesi

Araştırma ve tıbbi teşhis için en iyi kalitede X-Ray görüntü veri kümeleri. Gerçek hastalardan en son teknikler kullanılarak işlenmiş binlerce yüksek çözünürlüklü görüntüye sahibiz. Shaip ile araştırmanızı ve hasta sonuçlarınızı iyileştirmek için güvenilir tıbbi verilere erişebilirsiniz.

X-ışını veri kümesinin çeşitli vücut bölgelerine dağılımı; Orta Asya'da en yüksek sayım 1000 ile göğüstedir. Orta Asya ile Orta Asya ve Avrupa bölgeleri arasında dağıtılan alt ve üst ekstremitelerin her biri toplam 850 adettir.

sosyal paylaşım