Büyük Dil Modelleri (LLM): 2026'te Eksiksiz Kılavuz
LLM hakkında bilmeniz gereken her şey
Giriş
2026 yılında büyük bir dil modeli oluşturuyor, ince ayar yapıyor, değerlendiriyor veya veri temin ediyorsanız, bu kılavuz sizin için eksiksiz bir referans kaynağıdır. Dil modelleme (LLM) alanı hızlı bir değişim geçirdi: öncü modeller artık çok modlu ajanlar olarak çalışıyor, hizalama teknikleri temel RLHF'den doğrudan tercih optimizasyonuna (DPO) evrildi ve AB'deki düzenleyiciler eğitim verisi dokümantasyon gereksinimlerini uygulamaya koymaya başladı.
Bu kılavuz, gereksiz ayrıntıları ortadan kaldırıyor. LLM'lerin ne olduğunu ve nasıl çalıştığını açıklıyor, LLM eğitim verisi işlem hattının dört aşamasını haritalandırıyor, puanlandırılmış bir satıcı değerlendirme çerçevesi sunuyor ve kullanım durumunuz için oluşturma, ince ayar yapma veya geri alma destekli üretim (RAG) kullanma arasında seçim yapmanız için karar kriterleri veriyor.
Bu Kılavuz kimler içindir?
Bu kılavuz şunlar için yazılmıştır:
- Yapay zeka ürün liderleri ve yapay zeka departmanlarının yöneticileri, LLM stratejisi ve tedarikçi seçimi konusunda karar veriyor.
- Makine öğrenimi mühendisleri ve araştırma bilimcileri, eğitim veya ince ayar için veri gereksinimlerini tanımlıyor.
- Veri tedarik ve kaynak bulma ekipleri, eğitim veri hizmeti sağlayıcılarını değerlendiriyor.
- Veri kaynağını, lisanslama riskini ve düzenleyici yükümlülükleri değerlendiren hukuk ve uyumluluk ekipleri.
- LLM destekli ürünler geliştiren ve model stratejileri arasında seçim yapan kurucular ve girişim şirketlerinin CTO'ları.
LLM, Üretken Yapay Zeka, Çok Modlu Yapay Zeka ve Ajan Tabanlı Yapay Zeka Karşılaştırması
| Dönem | Tanım | Örnekler |
|---|---|---|
| Büyük Dil Modeli (LLM) | Kendi kendine denetimli öğrenme yöntemiyle büyük metin veri kümeleri üzerinde eğitilmiş, metne odaklı bir transformatör modeli. | Llama 3, Mistral, GPT-4 (sadece metin) |
| Üretken Yapay Zeka (GenAI) | İçerik (metin, görüntü, ses, video, kod) üreten yapay zeka sistemlerinin geniş kategorisi. | ChatGPT, Yolculuk Arası, Suno, Sora |
| çok modlu yapay zeka | Birden fazla formatı (metin + görüntü, metin + ses vb.) işleyen ve üreten yapay zeka modelleri. | GPT-4V, İkizler 1.5, LLaVA, Claude 3 |
| Ajan AI | Araçlar, API'ler ve harici bellek kullanarak çok adımlı görevleri otonom olarak yürüten yapay zeka sistemleri. | AutoGPT, Claude Bilgisayar Kullanımı, Devin |
| Temel Modeli | İleriye dönük ince ayar veya komut tabanlı dağıtım için temel olarak kullanılan büyük, önceden eğitilmiş bir model. | Öncü LLM modellerinin çoğu temel model görevi görür. |
LLM Sözlüğü
LLM, Büyük Dil Modeli anlamına gelir. Alıcıların karşılaşabileceği ek terimler:
-
SFT (Denetimli İnce Ayar): Belirli etiketlere sahip, özenle seçilmiş talimat-yanıt çiftleri üzerinde temel bir model eğitmek
-
RLHF (İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme)Ödül modelini eğitmek için insan tercih sıralamalarını kullanan ve ardından takviyeli öğrenme yoluyla LLM'yi optimize eden hizalama yöntemi.
-
RLAIF (Yapay Zeka Geri Bildiriminden Takviyeli Öğrenme)Yapay zekâ modelinin, insan etiketleyicilerin yerine veya onlara ek olarak tercih etiketleri oluşturduğu varyant.
-
DPO (Doğrudan Tercih Optimizasyonu): Ayrı bir ödül modeli olmadan doğrudan tercih çiftleri üzerinde optimizasyon yapan hizalama yöntemi — PPO tabanlı RLHF'ye göre daha basit ve giderek daha çok tercih ediliyor.
-
RAG (Geri Alma-Artırılmış Nesil): LLM üretimini, harici bir bilgi tabanından gerçek zamanlı veri alımıyla destekleyen mimari.
-
Simge: Bir LLM'nin işlediği metnin temel birimi; İngilizce'de yaklaşık 0.75 kelime.
-
Bağlam penceresi: Bir LLM'nin tek bir çıkarım çağrısında işleyebileceği maksimum belirteç sayısı
LLM Eğitim Süreci: Adım Adım

Her aşamaya ayrıntılı olarak geçmeden önce, eğitim verisi kararlarını doğrudan etkileyen adımları kapsayan, uçtan uca süreci sade bir dille açıklayalım:
Kaynak verileri toplayın ve düzenleyin: Çeşitli kaynaklardan ham metin toplayın: web taramaları, kitaplar, kod depoları, akademik makaleler ve alana özgü veri kümeleri. Amaç, insan dilinin geniş kapsamlı bir şekilde ele alınmasıdır. Bu, büyük ölçekte yüz milyarlarca ila trilyonlarca token anlamına gelir. Veri seçimi ve düzenlemesi olmazsa olmazdır: tekrarları kaldırın, düşük kaliteli içeriği filtreleyin, kişisel bilgileri ayıklayın ve herhangi bir model veriyi görmeden önce toksisite sınıflandırıcıları uygulayın.
Ön işleme ve belirteçlere ayırma: Ham metin temizlenir, normalleştirilir ve modelin işlediği temel birimler olan belirteçlere (token'lara) ayrılır. Belirteçler genellikle kelime altı birimlerdir (BPE veya SentencePiece gibi algoritmalar kullanılarak), yani tek bir kelime 1-3 belirteç haline gelebilir. Belirteçlere ayrılmış metin daha sonra eğitim altyapısının beklediği formata dönüştürülür.
Temel modeli önceden eğitin: Model, önceden işlenmiş tam metin kümesi üzerinde, kendi kendine denetimli öğrenme yöntemi kullanılarak eğitilir; trilyonlarca örnek üzerinden, bağlamdan yola çıkarak bir sonraki belirteci tekrar tekrar tahmin eder. Model, tahmin hatasını azaltmak için yüz milyarlarca parametresini ayarlar. Bu aşama, büyük miktarda işlem gücü gerektirir (haftalarca hatta aylarca çalışan binlerce GPU) ve geniş dil anlayışına sahip ancak belirli bir davranış veya hizalama özelliği olmayan bir temel model üretir.
Denetimli ince ayar (SFT) çalıştırın: Temel model, yetenekli insan yorumlayıcılar tarafından yazılmış veya doğrulanmış, özenle seçilmiş bir (talimat, ideal yanıt) çiftleri kümesi üzerinde eğitilir. Bu aşamada model, talimatları takip etmeyi, doğru tonu benimsemeyi ve alan bilgisini uygulamayı öğrenir. Bu aşamadaki veri kalitesi, sonraki ürün kalitesinin birincil belirleyicisidir.
Tercih uyumunu uygulayın (RLHF veya DPO): İnsan değerlendiriciler, aynı komut için birden fazla model yanıtını değerlendirir ve sıralar. Bu sıralamalar, modeli faydalı, güvenli ve dürüst çıktılara yönlendirmek için kullanılır. Bu aşama, talimatı takip eden bir modeli üretim kalitesinde bir asistana dönüştüren aşamadır. Değerlendiriciler arası uyum (IAA) ve değerlendirici kalibrasyonu, izlenmesi gereken kritik kalite ölçütleridir.
Değerlendirme ve kırmızı ekip çalışması: İnce ayarlanmış, hizalanmış model, kıyaslama test setlerinde sistematik olarak değerlendirilir ve güvenlik açıklarını, yanıltıcı kalıpları ve önyargı sorunlarını bulmak için düşmanca kırmızı ekip testlerine tabi tutulur. Bulgular eğitim veri hattına geri beslenir; tanımlanan hata modları, bir sonraki SFT veya hizalama yinelemesinde yeni eğitim örnekleri haline gelir.
Veri çarkı aracılığıyla yineleme yapın: Dağıtım sonrasında, gerçek kullanıcı etkileşimleri (izin verilen ve onaylanan durumlarda) yeni hata modlarını, uç durumları ve alan eksikliklerini ortaya çıkarır. Bunlar incelenir, etiketlenir ve düzenli döngüler halinde eğitim hattına geri beslenir. En hızlı gelişen ekipler, dağıtılan model hataları ile yeni eğitim verileri arasındaki döngünün en kısa olduğu ekiplerdir.
LLM Eğitim Veri Türleri (Aşamaya Göre): Referans Tablosu
| Eğitim Aşaması | Veri tipi | Tipik Format | ölçek | İnsan Katılımı | Temel Kalite Kriterleri |
|---|---|---|---|---|---|
| Ön eğitim | Web metinleri, kitaplar, kodlar, makaleler, çok dilli metin derlemleri | Düz metin / belirteçlere ayrılmış | 100B–15T token | Minimal (sadece kalite filtreleme) | Tekrarlanan verilerin kaldırılması, kişisel verilerin silinmesi, dil kalitesi, toksisite filtrelemesi |
| SFT (İnce Ayar) | Talimat-yanıt çiftleri | JSON: {istem, tamamlama} | 10–1 milyon örnek | Yüksek (uzman yazarlar/yorumcular) | Yanıt doğruluğu, biçime uygunluk, üslup, olgusal temellendirme |
| RLHF / DPO (Hizalama) | İnsan tercih sıralaması | JSON: {prompt, chosen, rejected} | 50–500 çift | Yüksek (eğitimli tercih değerlendiricileri) | IAA puanları, demografik çeşitlilik, değerlendirici kalibrasyonu, güvenlik kapsamı |
| RLAİF | Yapay zeka tarafından oluşturulan tercih etiketleri + insan doğrulaması | JSON: {prompt, chosen, rejected, ai_label} | 100–10 milyon+ çift | Orta (insan doğrulama örneği) | Yapay zeka değerlendirme kalibrasyonu, güvenlik etiketlerinde yanlış pozitif oranı |
| Değerlendirme / Kıyaslamalar | Altın standartta yanıtlar içeren test soruları | JSON/CSV: {istem, referans_cevap} | 1K–100K ürün | Yüksek (uzman yorumlayıcılar) | Arıza modlarının kapsamı, eğitim verilerinden sızıntı yok. |
| Kırmızı Takım | Güvenlik, önyargı ve hapishaneden kaçışları hedef alan düşmanca uyarılar | JSON: {istem, hata_kategorisi, önem derecesi} | 500–50K istem | Yüksek (uzmanlaşmış kırmızı takım üyeleri) | Arıza modu kapsamı, hızlı çeşitlilik, güvenlik taksonomisi uyumu |
| Çok modlu SFT | Görüntü-metin çiftleri, görsel talimat verileri | JSON + resim dosyaları: {resim, istem, yanıt} | 10–1 milyon çift | Yüksek (açıklayıcılar + doğrulayıcılar) | Altyazı doğruluğu, görsel temellendirme, OCR kalitesi |
| Ajanlık / Araç Kullanımı | Çok turlu akıl yürütme izleri, araç çağrı kayıtları | JSON: {izleme, eylemler, gözlemler, sonuç} | 1K–100K iz | Yüksek (alan uzmanları) | İzleme doğruluğu, araç çağrısı doğruluğu, arıza modu kapsamı |
Bir LLM'nin Ne Kadar Eğitim Verisine İhtiyacı Var? (2026 Referansı)
Alıcıların en sık sorduğu sorulardan biri şudur: Gerçekte ne kadar veriye ihtiyacım var? Cevap, eğitim sürecinin hangi aşamasında olduğunuza bağlıdır. Sektör, veri hacmini gigabayt değil, token cinsinden ölçer; çünkü modelin ham dosya boyutundan bağımsız olarak işlediği şey token sayısıdır.
Referans noktası olarak: bir trilyon token yaklaşık 750 milyar kelimeye veya kabaca milyonlarca kitaba eşdeğerdir. Llama 3 (405 milyar) ve Gemini 1.5 gibi modern öncü modeller 10-15 trilyon token aralığındaki veri kümeleri üzerinde eğitilmiştir. Bununla birlikte, ince ayar ve hizalama aşamaları için (ki çoğu alıcı aslında veriyi bu aşamalar için temin etmektedir) hacimler çok daha yönetilebilir düzeydedir.
| Eğitim Aşaması | Veri Hacmi (Tokenlar / Örnekler) |
Kaba Dosya büyüklüğü Eşdeğer |
Genellikle Kim Bunu temin eder |
Temel Kısıtlama |
|---|---|---|---|---|
| Ön eğitim (sıfırdan) | 100 milyar - 15 trilyon+ token | ~80 GB - 12 TB metin | Öncü model laboratuvarları (Google, Meta, Anthropic, Mistral) | Hesaplama maliyeti, mükerrer kayıtların kaldırılması, yasal onay |
| Alan Uyarlamalı Ön Eğitim | 1 milyar - 100 milyar token | ~800 MB - 80 GB | İşletmelerin alan özelinde temel modeller geliştirme eğitimi | Alan adı kapsamı, veri lisanslama |
| Denetimli İnce Ayar (SFT) | 10 - 1 milyon örnek | ~10 MB - 2 GB (JSON) | Açık ağırlık modelini ince ayar yapan herhangi bir kuruluş | Ek açıklama kalitesi, alan uzmanı erişimi |
| Tercih Uyumu (RLHF/DPO) | 50 - 500 tercih çifti | ~50 MB - 500 MB (JSON) | Üretim kalitesinde asistanlar geliştiren kuruluşlar | Değerlendirici kalibrasyonu, IAA puanları, güvenlik kapsamı |
| RLAIF (Yapay Zeka Etiketli Tercih) | 100 - 10 milyon+ çift | ~100 MB - 10 GB | Organizasyonlar açık ağırlıklı modellerde ölçeklendirme hizalaması | Yapay zeka hakem kalibrasyonu, insan doğrulama örnekleme oranı |
| Değerlendirme / Kıyaslamalar | 1K - 100K test öğesi | ~1 MB - 100 MB | Tüm ince ayar projeleri | Eğitim verilerinden sızıntı yok; uzman açıklaması |
| Kırmızı Takım Süiti | 500 - 50K düşmanca istemler | ~0.5 MB - 50 MB | Üretime yönelik tüm dağıtımlar | Arıza modu kapsamı, taksonomi uyumu |
| Çok modlu SFT (görüntü+metin) | 10 - 1 milyon resim-metin çifti | 10 GB - 1 TB (resimlerle birlikte) | Vizyon ve dil ürünleri geliştiren kuruluşlar | Görüntü kalitesi, açıklama doğruluğu, görsel temellendirme |
Bu durum veri tedarik bütçeniz için şu anlama geliyor: Kurumsal alıcıların veri edinme süreçlerinin büyük çoğunluğunun gerçekleştiği üç aşama (SFT, tercih uyumu ve değerlendirme), ön eğitim ölçeğinin küçük bir bölümünü temsil etmektedir. 50,000-200,000 yüksek kaliteli örnekten oluşan, iyi düzenlenmiş bir SFT veri seti, düşük etiketleme kalitesine sahip 10-50 kat daha büyük ham veri setlerinden sürekli olarak daha iyi performans göstermektedir. Hacmi artırmadan önce kalite kontrolüne ve etiketleme uzmanlığına yatırım yapın.
Jetonları GB'ye dönüştürme: Kabaca bir kural olarak, 1 GB düz İngilizce metin, kullanılan belirteçleyiciye ve içerik türüne bağlı olarak yaklaşık 800 milyon ila 1 milyar belirteç içerir. Kod, bayt başına daha yoğundur (KB başına daha fazla belirteç). Çok dilli metin derlemleri, dil ve yazı sistemine göre önemli ölçüde farklılık gösterir.
2026 Yılında Popüler LLM Örnekleri
2026'daki LLM (Liderlik Düzeyinde Lojistik) ortamı, kuruluşların kendi verilerine göre ince ayar yapabileceği, tescilli öncü modeller ve açık kaynaklı alternatiflerin bir karışımıyla karakterize edilmektedir.
| Model | organizasyon | Menşei | Önemli Özellikler |
|---|---|---|---|
| GPT-4 / GPT-4o | OpenAI | Tescilli, çok modlu | Kurumsal alanda baskın; güçlü kodlama, mantık yürütme ve vizyon sahibi. |
| Claude 3 / Claude 3.5 | Antropik | Özel | Güvenliğe önem veren, uzun bağlamlı (200 belirteç), incelikli talimat takibi |
| Gemini 1.5 Pro / Ultra | Google DeepMind | Tescilli, çok modlu | 1 milyon token içeren bağlam penceresi; çok modlu ve kod konusunda güçlü. |
| Lama 3 (8B, 70B, 405B) | Meta | Açık ağırlık | En yaygın olarak ince ayar yapılmış açık model; parametre başına güçlü performans. |
| Mistral / Mixtral 8x22B | Mistral Yapay Zeka | Açık ağırlık, MoE | Alanında uzman kişilerin etkin birleşimi; güçlü Avrupa gizlilik referansları. |
| Phi-3 (3.8B, 14B) | Microsoft | Açık ağırlık | Küçük ölçekte güçlü performans; uç nokta dağıtımına uygun. |
| Qwen 2 | Alibaba | Açık ağırlık | Çince, Arapça ve 26 diğer dil de dahil olmak üzere güçlü çok dilli kapsam. |
| Komut R+ | tutarlı | Özel | Kurumsal RAG ve topraklama üretimi için optimize edilmiştir. |
2026 Yılında Sektörlere Göre LLM Kullanım Örnekleri
İlgili kullanım senaryolarını anlamak, bir tedarikçiyle anlaşmadan önce eğitim verisi gereksinimlerini belirlemeye yardımcı olur.

Sağlık ve Yaşam Bilimleri
LLM'ler, klinik dokümantasyon otomasyonu (ortam yapay zekasıyla kayıt tutma), tıbbi literatür özetleme, ilaç keşfi desteği ve hasta odaklı konuşma arayüzleri için kullanılır. Sağlık alanındaki LLM'ler, HIPAA uyumlu açıklama iş akışlarına sahip eğitim verileri, klinik uzman inceleyiciler ve alana özgü ontolojiler (SNOMED, ICD-10) gerektirir.

Yasal ve Uyum
Sözleşme analizi, durum tespiti otomasyonu, düzenleyici izleme ve hukuki araştırma. Hukuk alanındaki yüksek lisans programları (LLM), yargı yetkisine özgü eğitim verileri, kesin atıf doğruluğu ve hukuk alanında uzmanlığı olan yorumlayıcılar gerektirir. Kırmızı ekip çalışmaları, yanıltıcı dava atıflarını ve yargı yetkisi hatalarını test etmelidir.

Kod Üretimi ve Geliştirici Araçları
LLM'ler artık kod tamamlama (GitHub Copilot), kod inceleme, test oluşturma ve hata düzeltme işlemlerini destekliyor. İnce ayar verileri, hedef dillerde yüksek kaliteli kod, (hata, düzeltme) çiftleri, doğal dil-kod çiftleri ve birim test örneklerini içerir. Değerlendirme, yalnızca metin benzerliği değil, işlevsel doğruluk testini de gerektirir.

Ajan Tabanlı İş Akışları ve Otonom Yapay Zeka
Ajanlar, web'de gezinme, kod yazma ve çalıştırma, dosya yönetimi ve API çağrıları gibi çok adımlı görevleri otonom olarak planlamak ve yürütmek için mantıksal akıl yürütme çekirdeği olarak LLM'leri kullanır. Ajan eğitim verileri, çok turlu akıl yürütme izlerini, araç çağrı günlüklerini ve hata kurtarma örneklerini içerir. Ajanların değerlendirilmesi, şaşkınlık değil, görev tamamlama ölçütlerini gerektirir.
Geliştirme, Satın Alma, İnce Ayar ve RAG: Karar Verme Çerçevesi
Eğitim verilerini temin etmeden önce, durumunuza hangi model stratejisinin uygun olduğunu netleştirin. Her yolun farklı veri gereksinimleri ve maliyet profilleri vardır.
| Stratejileri | Ne Zaman Seçilir | Veri gereksinimleri | Tahmini Çaba | Ana Risk |
|---|---|---|---|---|
| API'yi kullanın (eğitim gerekmez) | Genel görevler, hızlı pazara giriş süresi, sınırlı bütçe | Yok (sadece hızlı mühendislik) | Düşük | Veri gizliliği, tedarikçi bağımlılığı, sınırlı özelleştirme |
| RAG (geri alma destekli) | Güncel veya özel bilgi gerektiren görevler | Temiz, bölümlere ayrılmış bilgi tabanı dokümanları | Orta | Geri çağırma kalitesi, uç durumlarda halüsinasyon |
| SFT İnce Ayarı | Alana özgü üslup, biçim veya bilgi; tutarlı davranış | 10–500 talimat-yanıt çifti | Yüksek | Felaket niteliğindeki unutkanlık, veri kalitesi darboğazları |
| Tam RLHF/DPO Hizalaması | Güvenlik açısından kritik, halka açık veya düzenlemeye tabi uygulamalar | SFT verileri + 50–500 tercih çifti + kırmızı ekip paketi | Çok Yüksek | Açıklama ekleme maliyeti, ödül hileleri, hizalama vergisi |
| Sıfırdan Eğitim | Benzersiz alan adı (son derece uzmanlaşmış dil/kod), fikri mülkiyet sahipliği | 1T+ alan özel metin belirteçleri | Son derece yüksek | Kaynak maliyeti, teknik risk, uzun zaman çizelgesi |
Sentetik Veri: Faydaları, Riskleri ve En İyi Uygulamalar
LLM veya başka bir model tarafından üretilen sentetik veriler, veri toplama sürecini hızlandırabilir ve nadir alanlardaki kapsama boşluklarını doldurabilir. Ancak alıcılar, bu verilere gerçekçi beklentilerle yaklaşmalıdır.
Faydaları: Düşük kaynaklı alanlar için hızlı ölçeklendirme, gizliliği koruma (kişisel tanımlayıcı bilgiler içermez), ilk işlem hattı geliştirme için maliyet etkinliği ve uç durumları desteklemek için kullanışlıdır.
Riskler: Model çökmesi — ağırlıklı olarak aynı model ailesinden sentetik veriler üzerinde eğitilen modeller, yinelemeler boyunca çıktı çeşitliliğinde ve gerçek doğrulukta bozulma gösterebilir. Üretici modelden kaynaklanan yanılsamalar, eğitilen modele gerçek veri olarak yayılabilir. Döngüsel kirlenmeyi önlemek için değerlendirme ölçütleri gerçek, insan tarafından oluşturulmuş altın veri kümelerine dayanmalıdır.
En iyi pratik: Sentetik verileri taslak veya başlangıç noktası olarak değerlendirin. Üretim eğitim çalışmalarına dahil etmeden önce, her zaman temsili bir örneği insan uzman incelemesiyle doğrulayın. İnsan tarafından doğrulanmış, gerçek verilerden oluşan bir çekirdek hedefleyin (tipik olarak SFT'nin %30-60'ı ve değerlendirme/kırmızı ekip veri kümelerinin %100'ü).
2026 Yılında Veri Kaynağı, Lisanslama ve Telif Hakkı Riski
Veri kaynağı takibi; yani eğitim verilerinizin nereden geldiğini, kime ait olduğunu ve hangi koşullar altında toplandığını bilmek, düzenlenmiş piyasalarda "isteğe bağlı" bir özellik olmaktan çıkıp yasal bir zorunluluğa dönüştü.
Aciliyet gerektiren temel gelişmeler:
- ABD'de devam eden telif hakkı davaları (New York Times v. OpenAI davası dahil), web'den alınan içeriklerin ticari model geliştirme açısından önemli yasal riskler taşıdığını ortaya koymuştur.
- Ağustos 2026'da genel amaçlı yapay zekâ için yürürlüğe girecek olan AB Yapay Zekâ Yasası, öncü modeller sağlayanların eğitim verisi kaynaklarını belgelemelerini ve telif hakkı yasasına uyumu göstermelerini zorunlu kılıyor.
- Düzenlemeye tabi sektörlerde kullanılmak üzere, yasal olarak onaylanmış ve rıza esaslı kaynaklardan elde edilen 'temiz oda' eğitim veri kümelerine yönelik kurumsal talep giderek artıyor.
Veri sağlayıcınıza sormanız gerekenler:
- Kişisel olarak oluşturulmuş içerik için veri sahibi onayı belgeniz var mı?
- Hangi veri kaynakları kullanıldı? Menşe bilgisi ürün bazında mı yoksa parti bazında mı belgelendi?
- Web kaynaklı metinler için telif hakkı izin süreciniz nedir?
- Veri yönetimi hizmet seviyesi sözleşmeniz (SLA), telif hakkı taleplerine karşı tazminatı içeriyor mu?
- Veri sahiplerinin eğitiminde GDPR Madde 17'ye (silme hakkı) uyuyor musunuz?
Çok Modlu LLM'ler: Görüntü, Ses ve Video için Eğitim Verileri
Çok modlu modeller metin, görüntü, ses ve video genelinde işlem yapar ve veri üretir. Çok modlu LLM'lerin oluşturulması veya ince ayarı, metin işlem hattının ötesinde özel veri türleri gerektirir.
| Modalite Kombinasyonu | Veri tipi | Ek Açıklama Görevi | Temel Kalite Ölçütü |
|---|---|---|---|
| Resim + Metin | Görüntü-altyazı çiftleri, görsel kalite kontrolü, OCR | Altyazı yazımı, sınırlayıcı kutu açıklaması, metin transkripsiyonu | Altyazı doğruluğu, görsel temellendirme hassasiyeti |
| Ses + Metin | Konuşma metin dökümleri, sesli betimlemeler, çok dilli konuşma | Transkripsiyon, konuşmacı ayrıştırma, duygu etiketleri | WER (kelime hata oranı), konuşmacı doğruluğu |
| Video + Metin | Video altyazıları, eylem etiketleri, zamansal kalite kontrolü | Segment açıklaması, eylem tanıma, QA çiftleri | Zamansal hizalama doğruluğu, altyazı kalitesi |
| Belge (PDF/tarama) + Metin | Belge ayrıştırma, tablo çıkarma, düzen anlama | Yapı açıklaması, varlık çıkarımı | Alan çıkarma doğruluğu, düzen F1 puanı |
| Kod + Doğal Dil | Yorumlar, doküman açıklamaları ve doğal dil-kod çiftleri içeren kod. | Kod incelemesi, doküman metni yazımı, doğruluk kontrolü | İşlevsel doğruluk (pass@k), NL hizalaması |
LLM Kırmızı Takım Çalışması ve Güvenlik Değerlendirmesi
Kırmızı ekip testi, bir LLM'nin (Yerel Öğrenme Ortamı) devreye alınmadan önce arıza modlarını belirlemek için yapılan sistematik düşmanca testtir. Güvenlik (zararlı içerik üretimi), güvenilirlik (halüsinasyon, tutarsızlık), emniyet (hızlı enjeksiyon, jailbreak) ve önyargı (demografik gruplar arasında ayrımcı çıktılar) gibi konuları kapsar.
Yapılandırılmış bir kırmızı ekip çalışması genellikle şunları içerir:
- Tehdit modelinin tanımlanması: Dağıtım bağlamı göz önüne alındığında hangi zararların en olası olduğu sorusu akla geliyor?
- İstemlere yönelik bir sınıflandırma sistemi oluşturma: Düşmanca istemleri başarısızlık kategorisine, ciddiyetine ve etkilenen nüfusa göre düzenleme.
- Otomatik yoklama: Binlerce düşman varyantı oluşturmak ve puanlamak için otomatik araçlar kullanın.
- İnsanlı kırmızı ekip çalışması: Otomasyonun gözden kaçırdığı yüksek önem dereceli veya incelikli hata modları için uzmanlaşmış insanlı kırmızı ekip üyelerini görevlendirin.
- Raporlama ve düzeltme: Bulguları taksonomi kategorisine göre belgeleyin ve bulguları SFT/uyum veri hattına geri besleyin.
Düzenleyici bağlam: AB Yapay Zeka Yasası (Madde 55), sistemik risk taşıyan genel amaçlı yapay zeka modelleri sağlayıcılarının düşmanca testler yapmasını zorunlu kılmaktadır. NIST Yapay Zeka RMF ve ISO 42001 de yapay zeka risk yönetiminin bir parçası olarak kırmızı ekip çalışmalarına atıfta bulunmaktadır. AB yasalarına tabi olmayan kuruluşlardan bile, kurumsal müşteriler tarafından kırmızı ekip değerlendirme dokümantasyonu sunmaları giderek daha fazla talep edilmektedir.
LLM Eğitim Veri Tedarikçisini Değerlendirme ve Seçme Yöntemleri
Çoğu satıcı aynı şeyleri vaat eder: "yüksek kalite", "hızlı teslimat" ve "uzman yorumlayıcılar". Gerçek farklılıklar daha sonra ortaya çıkar; ret oranları yükseldiğinde ve teslimat süreleri uzadığında.
Güçlü bir tedarikçiyi erken tespit etmek için, süreç düzeyinde spesifik sorular sorun. Açıklayabiliyorlarsa... Nasıl Onlar çalışıyorlar (sadece değil) ne (Eğer detay veriyorlarsa) bu iyi bir işaret. Detaylardan kaçınıyorlarsa, bu bir uyarıdır.
1. Veri Kalitesi: Teslimattan önce kaliteyi nasıl sağlıyorsunuz?
- Ek açıklamaların eklenmesi ve nihai teslimat arasında hangi adımlar gerçekleşir?
- Eserleri kim değerlendiriyor ve ne sıklıkla?
- Çoklu geçişli kalite kontrolü ve ayrı bir kalite kontrol ekibi kullanıyor musunuz?
- Eğer bir parti kalite kontrolünden geçemezse, kim ödeme yapar ve yeniden işleme ne kadar sürer?
2. Açıklama Yazma Uzmanlığı: Projem üzerinde kimler çalışacak?
- Veri etiketleyiciler alan uzmanı mı, genel uzman mı yoksa ikisinin karışımı mı?
- Üretim öncesinde değerlendiricileri nasıl eğitiyor ve kalibre ediyorsunuz?
- Değerlendirici havuzunuz küresel dağıtım için yeterince çeşitli mi?
3. Süreç Kapsamı: İhtiyaç duyduğum her şeyi destekleyebilir misiniz?
- SFT, RLHF/DPO, değerlendirme setleri, çok dilli ve çok modlu yaklaşımları destekliyor musunuz?
- Örnekler paylaşabilir misiniz: veri seti, yönergeler ve ilgili bir müşteri referansı?
- Diller ana dili konuşanlar tarafından mı (makine çevirisi değil) kapsanıyor?
4. Veri Kaynağı: Veriler nereden geliyor?
- Katılımcılardan hangi onayları alıyorsunuz (ve bu yapay zeka eğitimini de kapsıyor mu)?
- Silme taleplerini (silme hakkı) destekleyebilir misiniz?
- Teslimat sonrasında saklama ve silme politikanız nedir?
5. Güvenlik ve Uyumluluk: Bugün ne durumdasınız?
- SOC 2 Tip II sertifikasına sahip misiniz? Kanıt paylaşabilir misiniz?
- ISO 27001 sertifikasına sahip olmak, hangi kapsamı kapsar?
- Gerekirse HIPAA belgesini imzalayabilir misiniz?
- GDPR Veri Koruma Yönetmeliği'ne (GDPR) uygun hareket ediyor musunuz ve AB verileri nerede saklanıyor?
- Müşteriler arası veri sızıntısını önlemek için müşteri verilerini nasıl izole edersiniz?
6. Kapasite ve Zaman Çizelgesi: Gerçekçi olarak neler sunabilirsiniz?
- Kaç nitelikli Şu anda hangi ek açıklama uzmanları müsait?
- Üretimi hızlandırmak ve ilk kalite kontrolünden geçmiş partiyi teslim etmek ne kadar sürer?
- Üretim hacmini hızlı bir şekilde artırabilir misiniz? Ani talep artış kapasiteniz nedir?
- Gecikmelere genellikle ne sebep olur ve bunları nasıl önleyebilirsiniz?
7. Fiyatlandırma: Gerçek toplam maliyet nedir?
- Fiyatlandırmaya kalite kontrol, yeniden işleme ve proje yönetimi dahil mi?
- Proje ortasında yönergeler değişirse ve işin yeniden yapılması gerekirse ne olacak?
- Minimum taahhüt veya kapsam değişikliği durumunda uygulanacak cezalar var mı?
8. Pilot uygulama: Seri üretime geçmeden önce kaliteyi kanıtlayacak mısınız?
- Gerçek görev üzerinde ücretli bir pilot uygulama (200-500 madde) gerçekleştirecek misiniz?
- Başarısız olursa, ek ücret almadan tekrar yapıyor musunuz?
- Pilot ekip, yapım aşamasında da görevde kalacak mı?
9. Referanslar: Kiminle görüşebilirim?
- 2-3 adet ilgili müşteri referansı paylaşabilir misiniz?
- Ölçülebilir sonuçları olan vaka çalışmalarınız var mı?
- Bana ters giden bir projeyi ve onu nasıl düzelttiğinizi anlatın.
10. Ortaklık: İlk teslimattan sonra nasıl çalışıyorsunuz?
- Bize özel bir Proje Yönetimi/Kalite Güvence lideri atanacak mı, yoksa ekip rotasyonla mı çalışacak?
- Sonraki siparişler için teslim süresi ne kadar?
- Sonradan tespit edilen sistematik hataları nasıl araştırıyorsunuz?
- Yönergeler değiştiğinde ekipleri nasıl yeniden eğitiyorsunuz?
LLM Veri Pilot Projesi / POC Nasıl Yürütülür?
Yapılandırılmış bir pilot uygulama, tam sözleşme taahhüdünden önce tedarikçi seçimindeki riskleri azaltır ve kalite sorunlarını ortaya çıkarır.
- Temsili bir örneklem tanımlayın.Veri setinizin tamamının uç durumlarını ve alan karmaşıklığını kapsayan 200-500 öğe seçin.
- Örnekler içeren ayrıntılı bir açıklama kılavuzu sağlayın.Kalite standardınız, belirlediğiniz yönergelerin netliğiyle doğru orantılıdır.
- Pilot uygulama başlamadan önce kabul kriterlerini yazılı olarak belirleyin.Minimum puanı, hata oranını ve işlem süresini belirtin.
- Pilot uçuşu sırasında kalibrasyon görüşmesi yapın.Anlaşmazlıkları ve belirsiz durumları tedarikçinin kalite güvence ekibiyle birlikte gözden geçirin.
- Pilot projenin çıktısını bağımsız olarak denetleyin.Ekibinizdeki 1-2 alan uzmanının rastgele seçilmiş %10'luk bir örneği kör test yöntemiyle incelemesini sağlayın.
- Tedarikçinin kendi kalite güvence raporunu talep edin.Teslimattan önce hangi kusurları tespit edip düzelttiklerini sorun.
- Belirtilen SLA'ya göre işlem süresini değerlendirin: Pilot uygulama hızı genellikle üretim hızını öngörür.
Pazar Görünümü: 2026'da LLM'ler ve Yapay Zeka Eğitim Verileri
LLM pazarı, konsolidasyon ve dikey uzmanlaşma evresine giriyor. 2023-2024 yıllarında temel model sürümlerinin hızla yaygınlaşmasının ardından, kuruluşlar artık LLM'lerin üretimde güvenilir bir şekilde çalışmasını sağlamaya odaklanmış durumda; bu da veri kalitesinin, değerlendirme titizliğinin ve yönetim altyapısının iyileştirilmesine yönelik daha yüksek talepler ortaya koyuyor.
2026 yılında eğitim verisi pazarını şekillendirecek temel trendler:
- Tercih ve uyum verilerine yönelik artan talep: Daha fazla kuruluş açık ağırlıklı modelleri (Llama, Mistral, Phi) ince ayar yapmaya başladıkça, darboğaz hesaplama gücünden yüksek kaliteli RLHF/DPO tercih verilerine kaymıştır.
- Çok modlu veri büyümesiGörsel-dil modelleri artık kurumsal uygulamalarda standart hale geldi ve bu da büyük ölçekte görüntü-metin açıklamasına olan talebi artırdı.
- Yeni bir kategori olarak ajan tabanlı yapay zeka verileriÇok adımlı akıl yürütme izleri ve araç kullanım denetimi verileri henüz başlangıç aşamasındadır ancak ajan dağıtımları ölçeklendikçe hızla büyümektedir.
- Düzenlemeler tarafından yönlendirilen menşe gereklilikleriAB Yapay Zeka Yasası uyumluluk dokümantasyon gereklilikleri, denetlenebilir, rızaya dayalı veri işlem hatlarına olan talebi artırıyor.
- Sentetik + insan hibrit işlem hatları: Tamamen insan eliyle yapılan etiketleme, modern yapay zeka geliştirmenin gerektirdiği yineleme hızları için çok yavaş kalıyor; piyasa, insan doğrulama döngülerine sahip sentetik veri üretimine doğru ilerliyor.
LLM Verilerinin Eğitimi veya Temini Sırasında Yapılan Sık Hatalar
Yazılı bir açıklama kılavuzu olmadan başlamak: Açıklama yapanlar, uç durumların açık örnekleri olmadan tutarlılığı sağlayamazlar. Üretime başlamadan önce her zaman ayrıntılı bir açıklama kılavuzuna yatırım yapın.
Kalite yerine niceliği optimize etmekDaha düşük kaliteli daha fazla veri, genellikle model performansını belirli bir eşiğin ötesinde düşürür. 50-100 öğeden oluşan, özenle seçilmiş, yüksek kaliteli SFT veri kümeleri, 10 milyondan fazla öğeden oluşan ham veri kümelerinden düzenli olarak daha iyi performans gösterir.
Pilot bölümü atlamak: Güvenilirliği kanıtlanmamış tedarikçilerle yapılan tam hacimli sözleşmelerde, tam projenin maliyetinin çok daha küçük bir kısmına mal olacak 500 maddelik bir pilot çalışmada tespit edilebilecek kalite sorunları sıklıkla ortaya çıkmaktadır.
Sentetik verileri insan verilerine eşdeğer olarak ele almakSentetik veriler bir tamamlayıcıdır, bir ikame değildir. Sadece sentetik tercih verileriyle eğitilen modeller, bağımsız değerlendirmelerde uyum bozulması göstermiştir.
Değerlendirme verilerini ihmal etmekBirçok ekip eğitim verilerine büyük yatırım yaparken, değerlendirmeye yeterince yatırım yapmıyor. Eğitim yatırımınızın işe yarayıp yaramadığını ölçmek için sağlam bir değerlendirme paketi (düşmanca kırmızı ekip senaryoları dahil) gereklidir.
Veri kaynağını göz ardı etmekDüzenlemeye tabi sektörlerde veya halka açık uygulamalarda, veri kaynaklarını belgeleyememek ürün lansmanını engelleyebilir veya geriye dönük yasal sorumluluk doğurabilir.
Eğitim ve değerlendirme için aynı veri setinin kullanılmasıKıyaslama verilerinin kirlenmesi belgelenmiş bir sorundur. Eğitim/değerlendirme aşamalarını sıkı bir şekilde ayırın ve tedarikçinin eğitim hattında hiç yer almamış, ayrı tutulan değerlendirme setlerini tercih edin.
Shaip, Projeniz İçin Neden Doğru LLM Eğitim Veri Ortağıdır?
Bu kılavuz boyunca, büyük dil modelleri oluşturmak, ince ayar yapmak ve değerlendirmek için gerekenleri özetledik: her eğitim aşamasında doğru veriler, titiz kalite kontrolü, kaynak dokümantasyonu, alan uzmanlığı ve ilk pilot uygulamadan üretim ölçeğine kadar sizi destekleyebilecek bir tedarikçi. Bu bölüm, bu gereksinimleri Shaip'in sunduklarıyla doğrudan eşleştirir - tamamen doğrulanmış hizmetlere dayanmaktadır, iddialara değil.
Dört LLM Eğitim Aşamasının Tamamında Tam Kapsamlı Eğitim
Eğitim verisi sağlayıcılarının çoğu, işlem hattının bir veya iki aşamasında uzmanlaşmıştır. Yaygın bir sınırlama, etiketleme konusunda başarılı olan ancak kırmızı ekip (red-teaming) yeteneği olmayan sağlayıcılar veya geniş erişime sahip ancak özel görevler için alan uzmanı etiketleyicilere sahip olmayan pazaryerleridir.
Shaip, tüm LLM eğitim sürecini tek bir iş ortağından destekleyecek şekilde yapılandırılmıştır:
| LLM Eğitim Aşaması | Alıcıların İhtiyaç Duydukları Şeyler | Shaip Hizmeti |
|---|---|---|
| Ön eğitim Veri Düzenlemesi | Yüksek kaliteli, çeşitli, filtrelenmiş metin külliyatı; çok dilli kapsam; kişisel tanımlayıcı bilgilerin (PII) kaldırılması | Veri Toplama (metin, ses, görüntü, video) + Veri Lisanslama (hazır derlenmiş veri kümeleri) |
| Denetimli İnce Ayar (SFT) | Uzmanlar tarafından yazılmış talimat-yanıt çiftleri; alana özgü açıklama; istem ve yanıt oluşturma | İnce Ayar Çözümleri + Yapay Zeka Destekli İstek ve Yanıt Oluşturma |
| Tercih Uyumlaması (RLHF / DPO) | İnsan tercih sıralamaları; eğitilmiş değerlendirici havuzları; IAA ile takip edilen açıklamalar; seçilen-reddedilen üçlüleri | RLHF Çözümleri |
| Alma-Artırılmış Nesil (RAG) | Temiz, yapılandırılmış bilgi tabanı belgeleri; arama doğruluğunu artırmak için bölümlere ayrılmış ve etiketlenmiştir. | RAG Çözümleri |
| Çok Modlu Eğitim Verileri | Görüntü-metin çiftleri, ses-metin çiftleri, görsel talimat ayarlaması, OCR verileri, video açıklaması | Çok Modlu AI Çözümleri |
| Değerlendirme ve Kırmızı Takım Çalışması | Düşmanca komut istemi paketleri; güvenlik ve önyargı testleri; hata modu dokümantasyonu | Kırmızı Takım Hizmetleri |
| Konuşma Yapay Zekası ve Konuşma | 65'ten fazla dilde çok dilli transkripsiyon, konuşmacı diyarizasyonu, diyalog veri kümeleri. | Yapay Zeka Destekli Konuşma + Konuşma Veri Kataloğu (65+ dil) |
| Sağlık ve Tıp Yüksek Lisans Programları | HIPAA uyumlu açıklama; klinik uzman değerlendiriciler; kimliksizleştirilmiş tıbbi veri kümeleri | Sağlık Sektörü Yapay Zeka Çözümleri + Tıbbi Veri Kataloğu |
Sonraki Adımlar
Her LLM projesi kapsam, alan ve aşama bakımından farklıdır. İster açık ağırlıklı bir model üzerinde ilk ince ayar deneyinizi yürütüyor olun, ister üretim için bir RLHF hattı oluşturuyor olun, ister çok modlu bir dağıtıma hazırlanıyor olun, başlangıç noktası aynıdır: Herhangi biriyle konuşmadan önce veri gereksinimlerinizi net bir şekilde tanımlayın.
Shaip ile LLM eğitim verisi gereksinimlerinizi görüşmeye hazırsanız, lütfen ziyaret edin. shaip.com/contact-us/ veya İnce Ayar, RLHF, Çok Modlu Yapay Zeka, RAG ve Konuşma Yapay Zekası için özel hizmet sayfalarını inceleyin. shaip.com/solutions/generative-ai.
Hadi Konuşalım
Sıkça Sorulan Sorular (SSS)
DL, verilerdeki karmaşık kalıpları öğrenmek için çok katmanlı yapay sinir ağlarını kullanan bir makine öğrenimi alt alanıdır. Makine öğrenimi, makinelerin verilerden öğrenmesini sağlayan algoritmalara ve modellere odaklanan bir yapay zeka alt kümesidir. Büyük dil modelleri (LLM'ler), derin öğrenmenin bir alt kümesidir ve her ikisi de daha geniş derin öğrenme alanının bileşenleri olduğundan, üretken yapay zeka ile ortak bir zemini paylaşır.
Büyük dil modelleri veya LLM'ler, dilin temel yönlerini kavramak için başlangıçta kapsamlı metin verileri üzerinde önceden eğitilmiş geniş ve çok yönlü dil modelleridir. Daha sonra belirli uygulamalar veya görevler için ince ayar yapılır ve belirli amaçlar için uyarlanmalarına ve optimize edilmelerine olanak tanır.
İlk olarak, büyük dil modelleri, büyük miktarda veri ve milyarlarca parametre içeren kapsamlı eğitimleri nedeniyle çok çeşitli görevleri yerine getirme yeteneğine sahiptir.
İkinci olarak, bu modeller minimum spesifik alan eğitim verileriyle ince ayar yapılabildikleri için uyarlanabilirlik sergilerler.
Son olarak, LLM'lerin performansı, ek veriler ve parametreler dahil edildiğinde sürekli gelişme gösterir ve zaman içinde etkinliklerini artırır.
Bilgi istemi tasarımı, bir çeviri görevinde istenen çıktı dilini belirtmek gibi belirli bir göreve uyarlanmış bir bilgi istemi oluşturmayı içerir. İstem mühendisliği ise alan bilgisini dahil ederek, çıktı örnekleri sağlayarak veya etkili anahtar kelimeler kullanarak performansı optimize etmeye odaklanır. Hızlı tasarım genel bir kavramdır, hızlı mühendislik ise özel bir yaklaşımdır. Hızlı tasarım tüm sistemler için gerekliyken, yüksek doğruluk veya performans gerektiren sistemler için hızlı mühendislik çok önemli hale gelir.
Üç tür büyük dil modeli vardır. Her tür, tanıtım için farklı bir yaklaşım gerektirir.
- Genel dil modelleri, eğitim verilerindeki dile dayalı olarak bir sonraki kelimeyi tahmin eder.
- Talimat ayarlı modeller, girdide verilen talimatlara yanıtı tahmin etmek için eğitilir.
- Diyalog ayarlı modeller, bir sonraki yanıtı üreterek diyalog benzeri bir konuşma yapmak için eğitilir.