Başarılı bir makine öğrenimi modeli, yüksek kaliteli eğitim verileriyle başlar. Ancak ekiplerin bir yapay zeka projesinin başlangıcında en sık sorduğu sorulardan biri şudur: Ne kadar eğitim verisi yeterlidir?
Dürüst olmak gerekirse, her proje için geçerli sabit bir sayı yoktur. İhtiyaç duyacağınız veri miktarı, göreve, modelin karmaşıklığına, sınıf sayısına, veri kalitesine, etiket doğruluğuna ve ulaşmak istediğiniz performans standardına bağlıdır.
Pratikte, eğitim verisi gereksinimlerini tahmin etmenin en iyi yolu, temsili bir örneklemle başlamak, giderek daha büyük alt kümeler üzerinde eğitim yapmak ve model performansının dengelenmeye başladığı noktayı ölçmektir. Bu, ekiplerin maliyet, zaman çizelgesi, etiketleme çabası ve beklenen sonuçlar hakkında bilinçli kararlar almasına yardımcı olur.
Bu blogda, eğitim verisi hacmini etkileyen ana faktörleri ele alacağız, pratikte gereksinimleri nasıl tahmin edeceğinizi açıklayacağız ve yapay zeka yol haritanızı geciktirmeden daha fazla veriye ihtiyaç duyduğunuzda ne yapmanız gerektiğini göstereceğiz.
Eğitim Verileri Neden Önemlidir?
Eğitim verileri, her makine öğrenme sisteminin temelidir. Algoritma ne kadar gelişmiş olursa olsun, yalnızca onu eğitmek için kullanılan verilerde bulunan kalıpları öğrenebilir. Veriler eksik, yanlı, gürültülü veya çok sınırlıysa, model gerçek dünyada genelleme yapmakta zorlanacaktır.
Güçlü eğitim verileri takımlara şu konularda yardımcı olur:
- model doğruluğunu iyileştirin
- önyargıyı ve kör noktaları azaltmak
- Proje maliyetini ve fizibilitesini daha doğru bir şekilde tahmin edin.
- model yinelemesi sırasında yeniden işlemeyi azaltın
- daha güvenilir doğrulama ve test süreçleri oluşturmak
Bu nedenle, veri toplama, temizleme, etiketleme ve doğrulama genellikle yapay zeka projelerinde en büyük çabayı gerektirir. Veriler zayıfsa, tahminler de zayıf olacaktır.
Evrensel bir sayı yok, ancak onu tahmin etmenin pratik bir yolu var.
Birçok makale bu soruyu tek bir rakamla yanıtlamaya çalışıyor. Bu nadiren faydalı oluyor.
Basit ikili sınıflandırma için bir model nispeten küçük bir veri kümesiyle iyi performans gösterebilirken, büyük bir dil modeli ince ayar iş akışı veya uç durumlar için bir bilgisayar görüş sistemi önemli ölçüde daha fazla örnek gerektirebilir. Daha doğru soru "sihirli sayı nedir?" değil, şudur:
Bu kullanım senaryosunda hedef performansa ulaşmak için gereken minimum yüksek kaliteli, temsili eğitim verisi miktarı nedir?
Bu soruyu yanıtlamanın pratik bir yolu, öğrenme eğrilerini kullanmaktır: modeli artan miktarda veri üzerinde eğitin ve her adımda performansın ne kadar iyileştiğini gözlemleyin. İyileşme düzleşmeye başladığında, daha fazla veri toplamanın yatırıma değip değmeyeceğine dair çok daha net bir sinyal elde edersiniz. Bu yaklaşım, pratik makine öğrenimi iş akışlarında yaygın olarak önerilmektedir.
Eğitim Verisi Miktarını Belirleyen 7 Faktör
1. Model Türü: Klasik Makine Öğrenimi vs. Derin Öğrenme
Model türü, veri gereksinimleri üzerinde büyük bir etkiye sahiptir. Lojistik regresyon, karar ağaçları veya gradyan artırma gibi klasik makine öğrenimi modelleri, özellikle özellikler iyi tasarlanmışsa, daha küçük yapılandırılmış veri kümelerinde genellikle iyi performans gösterebilir.
Derin öğrenme modelleri genellikle daha fazla veri gerektirir çünkü özellikleri otomatik olarak öğrenirler ve çok daha fazla parametre içerirler. Görüntü, ses ve dil görevleri için derin modeller genellikle ek veri hacmi ve çeşitliliğinden önemli ölçüde fayda sağlar.
2. Denetimli Öğrenme ve Denetimsiz Öğrenme Arasındaki Farklar
Denetimli öğrenme, genellikle toplanması daha zor ve daha pahalı olan etiketlenmiş verilere ihtiyaç duyar. Modelinizin görüntüleri etiketlemek, sesleri yazıya dökmek, varlıkları etiketlemek veya belgeleri sınıflandırmak için insanlara ihtiyacı varsa, veri gereksinimi hem miktarı hem de etiketleme çabasını hesaba katmalıdır.
Denetimsiz öğrenme etiketli veri gerektirmez, ancak yine de büyük ve temsili veri kümelerinden faydalanır. Etiketler olmasa bile, modelin anlamlı kalıpları ve yapıları tespit edebilmesi için yeterli kapsama alanına ihtiyacı vardır.
3. Görev Karmaşıklığı ve Sınıf Sayısı
Basit bir ikili sınıflandırma görevi, çok sınıflı bir tıbbi görüntüleme probleminden veya çok dilli bir konuşma tanıma sisteminden çok farklıdır.
Görev karmaşıklığı arttıkça, modelin öğrenmesi gerektiği için eğitim verisi gereksinimleri genellikle artar:
- daha fazla ders
- kategoriler arasındaki daha ince ayrımlar
- daha fazla uç durum
- daha fazla bağlamsal değişkenlik
Örneğin, "kedi" ile "köpek"i ayırt etmek, farklı aydınlatma koşullarında, kamera açılarında ve arka planlarda görsel olarak birbirine benzeyen düzinelerce ürün kusurunu belirlemekten çok daha kolaydır.
4. Veri Kalitesi ve Etiket Doğruluğu
Veri kalitesi düşükse, daha fazla veri her zaman daha iyi anlamına gelmez.
Doğru etiketlere, dengeli temsile ve tutarlı biçimlendirmeye sahip daha küçük bir veri kümesi, daha büyük ancak gürültülü bir veri kümesinden daha iyi performans gösterebilir. Düşük kaliteli etiketler, yinelenen kayıtlar, zayıf sınıf tanımları, eksik meta veriler ve tutarsız açıklama yönergeleri, model performansını düşürür.
Daha fazla veri toplamadan önce, ekipler şu soruları sormalıdır:
- Etiketler tutarlı mı?
- Tüm önemli kullanıcı senaryolarını kapsıyor muyuz?
- Veriler üretim koşullarını yansıtıyor mu?
- Eğitim, doğrulama ve test veri kümeleri düzgün bir şekilde ayrılmış mı?
Birçok proje için, veri kalitesini iyileştirmek, veri hacmini artırmaktan daha hızlı kazanımlar sağlar.
5. Çeşitlilik, Kapsam ve Sınıf Dengesi
Bir model, kullanıma sunulduktan sonra karşılaşacağı gerçek dünya değişkenliğinden öğrenmelidir. Bu, veri setinin farklı senaryoları, kullanıcı gruplarını, cihaz türlerini, aksanları, ortamları, belge formatlarını, görüntü koşullarını ve uç durumları yansıtması gerektiği anlamına gelir.
Eğer bir sınıf veya kesim yeterince temsil edilmiyorsa, model genel olarak doğru görünse de kritik alt gruplarda ciddi hatalar yapabilir. Bu nedenle çeşitlilik ve sınıf dengesi, ham büyüklük kadar önemlidir.
Çoğu durumda soru "Yeterli veriye sahip miyiz?" değil, "Doğru veriden yeterinceye sahip miyiz?" şeklindedir.
6. Transfer Öğrenme ve Önceden Eğitilmiş Modeller
Önceden eğitilmiş bir modelden başlıyorsanız, sıfırdan eğitim yapmaya kıyasla çok daha az göreve özgü veriye ihtiyacınız olabilir.
Bu özellikle şunlar için geçerlidir:
- görüntü sınıflandırması, görme altyapıları kullanılarak
- Transformer tabanlı modeller kullanan NLP görevleri
- yeni bir aksana veya alana uyarlanmış konuşma modelleri
- alan uyarlama iş akışları
Aktarım öğrenimi, ekiplerin büyük mevcut veri kümeleri üzerinde öğrendikleri bilgileri yeniden kullanmalarına olanak tanır ve bu da açıklama yükünü önemli ölçüde azaltabilir. Orijinal makale bunu zaten iyi bir şekilde ele almıştı; daha net örneklerle kalması gerekiyor.
7. Doğrulama Stratejisi ve Hedef Performans
İhtiyaç duyacağınız veri miktarı, modelin ne kadar iyi olması gerektiğine de bağlıdır.
Bir prototip, az miktarda veriyle çalışabilir. Sağlık, finans, sigorta, otomotiv veya uyumluluk gerektiren ortamlardaki bir üretim modeli, daha güçlü kapsama, daha temiz etiketler, daha iyi doğrulama ve uç durumlar genelinde daha güvenilir performans gerektirecektir. Kabul edilebilir hata oranı ne kadar yüksek olursa, veri setiniz de o kadar sağlam olmalıdır.
Pratikte Eğitim Verisi Gereksinimlerini Nasıl Tahmin Edebilirsiniz?
Tahmin yürütmek yerine, yapılandırılmış bir tahmin süreci kullanın.
Adım 1: Temsili Bir Pilot Veri Kümesiyle Başlayın
Sorun alanının daha küçük ama temsili bir örneğini toplayın. Önemli sınıfları, formatları, kullanıcı tiplerini ve gerçek dünya varyasyonlarını dahil edin.
Adım 2: Verileri Doğru Şekilde Ayırın
Ayrı eğitim, doğrulama ve test veri kümeleri oluşturun. Test veri kümesinin üretim koşullarını yansıttığından ve eğitim sırasında asla kullanılmadığından emin olun.
3. Adım: Giderek Daha Büyük Örneklemler Üzerinde Eğitim Yapın
Modeli, veri setinin artan oranlarını kullanarak eğitin; örneğin %10, %20, %40, %60, %80 ve %100.
Adım 4: Öğrenme Eğrisini Çizme
Veri kümesi boyutu arttıkça doğruluk, F1 puanı, geri çağırma, hassasiyet veya göreve özgü kalite ölçütleri gibi performans metriklerini takip edin.
Adım 5: Platoyu arayın
Model performansı daha fazla veriyle birlikte belirgin şekilde iyileşiyorsa, muhtemelen daha fazla veriye ihtiyacınız var demektir. İyileşmeler yavaşlıyorsa, darboğazınız artık hacim olmayabilir; etiket kalitesi, özellik tasarımı, model seçimi veya sınıf dengesizliği olabilir.
Adım 6: Segment Düzeyindeki Performansı Gözden Geçirin
Modelin performansını yalnızca genel olarak değil, önemli sınıflar ve uç durumlar genelinde de kontrol edin. Bir model genel olarak istikrarlı bir performans sergilerken, azınlık segmentlerinde kötü performans göstermeye devam edebilir. Bu yöntem, paydaşlara ne kadar ek veri toplamanın değerli olduğuna dair daha gerçekçi bir tahmin sunar.
Yeterli Eğitim Verisine Sahip Olduğunuzu Nasıl Anlarsınız?
Şu durumlarda muhtemelen yeterli veriye sahipsiniz:
- Modele daha fazla veri eklendikçe performans yalnızca çok az iyileşiyor.
- Doğrulama sonuçları, birden fazla çalıştırma veya katlama işleminde istikrarlıdır.
- Önemli sınıflar da kabul edilebilir performans sergiliyor, sadece çoğunluk sınıfı değil.
- Performans, temiz ve dokunulmamış bir test veri kümesinde geçerliliğini koruyor.
- Geriye kalan hataların nedeni örnek eksikliğinden ziyade etiket gürültüsü veya belirsizliğidir.
Şu durumlarda daha fazla veriye ihtiyacınız olabilir:
- Öğrenme eğrisi hala yükseliyor.
- nadir sınıflar düşük performans gösterir
- Model, gerçek dünyadaki yaygın varyasyonlarda başarısız oluyor.
- Sonuçlar, denemeler arasında büyük ölçüde değişkenlik gösterir.
- Test performansı, doğrulama performansına kıyasla önemli ölçüde düşüyor.
Eğitim Verisi Gereksinimlerini Nasıl Azaltabilirsiniz?
Bazen zorluk model tasarımı değil, veri kıtlığı, bütçe veya pazara sunma süresidir. Bu durumlarda, ekipler doğru stratejilerle büyük veri hacimlerine olan bağımlılıklarını azaltabilirler.
Veri Büyütme
Veri artırma, mevcut verilerden yeni eğitim örnekleri oluşturur. Bilgisayar görüşünde bu, kırpma, döndürme, çevirme veya parlaklık ayarlama gibi işlemleri içerebilir. Doğal dil işleme ve konuşmada ise artırma daha dikkatli yapılmalıdır, ancak kontrollü dönüşümler yine de yardımcı olabilir.
Doğru kullanıldığında, veri artırma işlemi modellerin sağlamlığını artırır ve daha iyi genelleme yapmasına yardımcı olur. Yanlış kullanıldığında ise gürültü veya gerçekçi olmayan örnekler ortaya çıkarabilir.
Transfer Öğrenimi
Transfer öğrenme, sıfırdan eğitim yapmak yerine mevcut bir modeli yeni bir göreve uyarlamanıza olanak tanır. Bu, eğitim verisi gereksinimlerini azaltmanın en etkili yollarından biridir.
Önceden eğitilmiş Modeller
BERT benzeri doğal dil işleme modelleri veya yerleşik görüntü işleme altyapıları gibi önceden eğitilmiş modeller güçlü başlangıç noktaları sağlayabilir. Her şeyi sıfırdan öğrenmek yerine, model yararlı ön bilgilerle başlar.
Aktif öğrenme
Etiketleme maliyetli ise, aktif öğrenme en bilgilendirici örnekleri önceliklendirmeye yardımcı olabilir. Bu, açıklama verimliliğini artırır ve faydalı performansa ulaşmak için gereken etiket sayısını azaltabilir.
Sentetik Veriler
Sentetik veriler, özellikle sağlık, finans, otonom sistemler ve uç durum simülasyonu gibi alanlarda, gerçek dünya verilerinin az, hassas veya toplanması zor olduğu durumlarda faydalı olabilir. Ancak gerçek, temsili verilerin yerini körü körüne almamalı, onları tamamlamalıdır.
Minimum Veri Kümesiyle Gerçek Dünyadan Makine Öğrenmesi Projeleri Örnekleri
Bazı iddialı makine öğrenimi projelerinin asgari ham maddeyle yürütülebilmesinin imkansız gibi görünse de bazı durumlar şaşırtıcı derecede doğrudur. Şaşırmaya hazır olun.
| Kaggle Raporu | Sağlık | Klinik Onkoloji |
| Kaggle'ın yaptığı bir anket, makine öğrenimi projelerinin %70'inden fazlasının 10,000'den az örneklemle tamamlandığını ortaya koyuyor. | MIT ekibi, yalnızca 500 görüntü kullanarak, göz taramalarından elde edilen tıbbi görüntülerde diyabetik nöropatiyi tespit edecek bir modeli eğitti. | Sağlık sektöründen örnek verecek olursak; Stanford Üniversitesi'nden bir ekip, sadece 1000 görüntüyle cilt kanserini tespit edebilen bir model geliştirmeyi başardı. |
Eğitimli Tahminler Yapmak

Gerekli minimum veri miktarıyla ilgili sihirli bir sayı yoktur, ancak rasyonel bir sayıya ulaşmak için kullanabileceğiniz birkaç temel kural vardır.
10 kuralı
Olarak temel kural, verimli bir AI modeli geliştirmek için gereken eğitim veri kümelerinin sayısı, serbestlik derecesi olarak da adlandırılan her bir model parametresinden on kat daha fazla olmalıdır. '10' kez kuralları, değişkenliği sınırlamayı ve veri çeşitliliğini artırmayı amaçlar. Bu nedenle, bu temel kural, gerekli miktarda veri kümesi hakkında size temel bir fikir vererek projenizi başlatmanıza yardımcı olabilir.
Derin Öğrenme
Derin öğrenme yöntemleri, sisteme daha fazla veri sağlanırsa yüksek kaliteli modeller geliştirmeye yardımcı olur. İnsanlarla eşit düzeyde çalışabilen bir derin öğrenme algoritması oluşturmak için kategori başına 5000 etiketli görüntünün olması genel olarak kabul edilir. Olağanüstü karmaşık modeller geliştirmek için en az 10 milyon etiketli öğe gereklidir.
Bilgisayar görüşü
Görüntü sınıflandırması için derin öğrenme kullanıyorsanız, her sınıf için 1000 etiketli görüntüden oluşan bir veri kümesinin makul bir sayı olduğu konusunda bir fikir birliği vardır.
Öğrenme Eğrileri
Veri miktarına karşı makine öğrenimi algoritmasının performansını göstermek için öğrenme eğrileri kullanılır. Y ekseninde model becerisine ve X ekseninde eğitim veri kümesine sahip olarak, veri boyutunun projenin sonucunu nasıl etkilediğini anlamak mümkündür.
Yetersiz Veriye Sahip Olmanın Maliyeti
Ekipler sınırlı, dar veya yanlı veri kümeleri üzerinde eğitim yaptığında, model geliştirme aşamasında umut vaat edici görünebilir ancak üretimde başarısız olabilir.
Yetersiz veri şunlara yol açabilir:
- aşırı oturma
- zayıf genelleme
- kararsız tahminler
- azınlık sınıflarında düşük performans
- daha yüksek önyargı riski
- daha sonra daha fazla yineleme süresi
Başka bir deyişle, eğitim verilerinizdeki sınırlamalar genellikle ürününüzün sınırlamaları haline gelir.
Daha fazla Veri Kümesine ihtiyacınız varsa ne yapmalısınız?

Bir veri eksikliği tespit ettiğinizde, çözüm her zaman "her şeyi toplamak" değildir. Daha akıllıca yaklaşım, veri kümesini stratejik olarak genişletmektir.
1. Açık Veri Kümelerini Dikkatli Kullanın
Açık veri kümeleri prototipleme veya kıyaslama için yardımcı olabilir, ancak her zaman üretim kullanımı için uygun değildir. Ekipler, bunlara güvenmeden önce kaynak, onay, kalite, uygunluk ve kapsam konularını gözden geçirmelidir.
2. Kullanım Durumunuz İçin Özel Veriler Toplayın
Hedef ortam oldukça spesifik ise, özel veri toplama genellikle en iyi seçenektir. Bu durum özellikle sağlık yapay zekası, diyalogsal yapay zeka, bilgisayar görüşü uç durumları ve çok dilli sistemler gibi alan ağırlıklı iş akışları için geçerlidir.
3. Ek Açıklamalarla Mevcut Verileri İyileştirme
Birçok ekip zaten ham verilere sahip ancak yapılandırma eksikliği yaşıyor. Etiketleme, yeniden etiketleme, taksonomi temizliği ve kalite incelemesi, yepyeni veri kümeleri toplamaktan daha hızlı bir şekilde değer yaratabilir.
4. Temsil Edilmeyen Sınıfların Dengesini Yeniden Sağlamak
Belirli kategorilerde performans düşükse, veri setinin tamamını eşit şekilde genişletmek yerine, yüksek etki yaratan bu eksikliklere odaklanarak veri toplama ve etiketleme işlemlerini gerçekleştirin.
5. Uygun Yerlerde Sentetik veya Artırılmış Veri Ekleyin
Gerçek verilerin sınırlı veya hassas olduğu durumlarda, sentetik ve artırılmış veriler kapsamı iyileştirmeye yardımcı olabilir; ancak bu verilerin gerçek dünya dağılımlarına karşı dikkatlice doğrulanması gerekir.
6. Uzmanlaşmış Bir Veri Ortağıyla Çalışın
Büyük ölçekte yapay zekâ uygulamaları geliştiren ekipler için, yüksek kaliteli eğitim verilerini toplayabilen, lisanslayabilen, etiketleyebilen, doğrulayabilen ve yönetebilen bir sağlayıcıyla ortaklık kurmak, proje riskini önemli ölçüde azaltabilir ve dağıtım hızını artırabilir.
Son Düşüncelerimiz
Makine öğreniminde eğitim verisi için sihirli bir sayı yoktur. Doğru miktar, kullanım durumuna, model türüne, veri kalitesine, sınıf çeşitliliğine, doğrulama stratejisine ve hedef performansa bağlıdır.
Eğitim verisi ihtiyaçlarını tahmin etmenin en etkili yolu, temsili bir örneklemle başlamak, öğrenme eğrilerini kullanarak performansı ölçmek ve modelin hala başarısız olduğu noktalara göre veri setini stratejik olarak genişletmektir.
Bazı projeler için mütevazı, yüksek kaliteli bir veri seti yeterli olabilir. Ancak, özellikle yüksek riskli veya oldukça değişken ortamlarda, başarı büyük, özenle derlenmiş ve iyi etiketlenmiş veri setlerine bağlıdır.
En önemli olan sadece daha fazla veriye sahip olmak değil, aynı zamanda şunlara sahip olmaktır: doğru veri.
Aklınızda harika bir proje var, ancak modellerinizi eğitmek için özel olarak hazırlanmış veri kümelerini mi bekliyorsunuz veya projenizden doğru sonucu almak için mücadele mi ediyorsunuz? Çeşitli proje ihtiyaçları için kapsamlı eğitim veri kümeleri sunuyoruz. potansiyelinden yararlanın Saip bizden biriyle konuşarak veri bilimcileri bugün ve geçmişte müşteriler için yüksek performanslı, kaliteli veri kümelerini nasıl sağladığımızı anlamak.
Makine öğrenimi için ne kadar eğitim verisi yeterlidir?
Sabit bir sayı yok. Doğru miktar, göreve, model karmaşıklığına, etiket kalitesine, sınıf dengesine ve hedef doğruluğa bağlıdır. Bunu tahmin etmenin en güvenilir yolu, artan alt kümeler üzerinde eğitim yapmak ve performans iyileştirmelerini ölçmektir.
Daha fazla eğitim verisine ihtiyacım olup olmadığını nasıl anlarım?
Model performansı veri boyutu arttıkça iyileşmeye devam ediyorsa, nadir sınıflar düşük performans gösteriyorsa veya sonuçlar farklı çalıştırmalar arasında istikrarsızsa, muhtemelen daha fazla eğitim verisine ihtiyacınız vardır.
Aktarım öğrenimi, eğitim verisi gereksinimlerini azaltabilir mi?
Evet. Transfer öğrenme, modellerin daha önce eğitilmiş sistemlerden elde edilen bilgileri yeniden kullanmasına olanak tanır; bu da göreve özgü etiketlenmiş veri miktarını önemli ölçüde azaltabilir.
Makine öğrenimi için daha fazla veri her zaman daha mı iyidir?
Mutlaka öyle değil. Düşük kaliteli veya yanlış etiketlenmiş verilerin artması performansı olumsuz etkileyebilir. Birçok durumda, veri kalitesini, dengesini ve temsil edilebilirliğini iyileştirmek, yalnızca veri hacmini artırmaktan daha değerlidir.
Derin öğrenme için ne kadar veriye ihtiyacım var?
Derin öğrenme modelleri, özellikle görüntü, konuşma ve dil görevleri için, klasik makine öğrenme modellerine göre genellikle daha fazla veri gerektirir. Bununla birlikte, önceden eğitilmiş modeller ve transfer öğrenme bu gereksinimi azaltabilir.