ChatGPT

Perde Arkası: ChatGPT'nin İç İşleyişini Keşfetmek – 1. Bölüm

Shaip favori ikonu
Merhaba, benim adım Anubhav Saraf, Shaip'te Pazarlama Direktörü, bugün nasılsın?
Merhaba Anubhav! Ben bir yapay zekayım, bu yüzden duygularım yok ama buradayım ve yardım etmeye hazırım. Shaip'te Pazarlama Direktörü olarak, veri hizmetleri ve yapay zeka çözümleri hakkında pek çok içgörüye sahip olmalısınız. Size bugün nasıl yardımcı olabilirim?
Shaip favori ikonu
Sadece eğitim süreciniz hakkında daha fazla bilgi edinmek istedim. Nasıl inşa edildiniz ve eğitildiniz?
OpenAI tarafından geliştirilen bir dil modeli olarak, özellikle GPT (Generative Pretrained Transformer) mimarisi adı verilen bir varyant olan "transformer-based machine learning" adı verilen bir teknik kullanılarak inşa edildim ve eğitildim. Şu anda bahsettiğiniz sürüm GPT-4. İşte eğitim sürecimin kısa bir özeti:
  • Veri koleksiyonu: Eğitimim çok çeşitli internet metinleriyle başladı. Bununla birlikte, geniş bir veri kümesi üzerinde eğitim almış olmama rağmen, hangi belgelerin o eğitim kümesinin bir parçası olduğu veya herhangi bir belirli belge veya kaynağa erişimi olduğu konusunda ayrıntılı bilgim olmadığını belirtmeliyim.
  • Başlangıç ​​Eğitimi (Ön eğitim): Cümledeki bir sonraki kelimeyi tahmin etmeyi burada öğrendim. İngilizce veya başka bir dil öğrenmeye başlamadım. Bunun yerine, milyonlarca cümlede bir sonraki kelimeyi tahmin ederek yavaş yavaş gramer, dünya hakkındaki gerçekler ve bazı muhakeme becerileri öğrendim. Ancak bu, veriler tam olarak filtrelenmediği için önyargılı veya yanlış bilgilerden öğrenmiş olabileceğim anlamına da geliyor.
  • İnce ayar: İlk eğitimden sonra, OpenAI'deki içerik oluşturucularım, insan incelemecilerin yardımıyla oluşturulan daha spesifik bir veri kümesiyle daha fazla rehberlik sağladı. Bu gözden geçirenler, bir dizi örnek girdi için olası model çıktılarını incelemek ve derecelendirmek için yönergeleri izler. İnce ayar süreci, model ile gözden geçirenler arasında insani değerlerle daha iyi uyum sağlamama yardımcı olan bir tür diyalogdur.
  • Devamlı öğrenme: Gizlilik nedeniyle bireysel etkileşimlerden bir şey öğrenemesem de OpenAI, geri bildirim sağlamak ve daha geniş kalıplara ve içgörülere dayalı yinelemeli iyileştirmeler yapmak için sürekli olarak bir insan inceleme ekibiyle birlikte çalışıyor.
Shaip favori ikonu
Örnekler verebilir misiniz - insanlar dahil olduğunda?
Evet, eğitim sürecime gerçekten de insanlar dahil oldu, ancak bu sizin hayal ettiğinizden farklı olabilir. Genellikle makine öğrenimi olarak adlandırılan eğitim sürecim iki ana adımdan oluşuyordu: her ikisi de farklı şekillerde olsa da insan etkileşimini içeren ön eğitim ve ince ayar.
  • Ön eğitim Örneği: Diyelim ki “Kedi __ üzerine oturdu” cümlesine sahibiz. Ön eğitim aşamasında, benim gibi model, cümledeki bir sonraki kelimeyi tahmin etmeyi öğrenirdi, bu kelime "mat", "çatı" veya "ağaç" olabilir. Bu, insanlar orijinal içeriği oluştururken dolaylı olarak insan etkileşimini içeren çeşitli internet metinlerinden milyarlarca cümleyi işleyerek öğrenilir.
  • İnce ayar Örneği: Ön eğitim aşamasından sonra, model ince ayar aşamasına girer. İşte nasıl çalışabileceği:

İnsan incelemeciye, “Aşağıdaki İngilizce metni Fransızcaya çevir: 'Merhaba, nasılsın?'” gibi girdiler için olası model çıktılarını gözden geçirme görevi verilir. Model, "Bonjour, yorum ça va?" veya "Selam, yorum vas-tu?" vesaire.

Gözden geçiren kişi bu yanıtları doğruluk, akıcılık ve uygunluk gibi faktörlere göre derecelendirir. Bu derecelendirmeler, modelin gelecekte benzer girdileri genelleştirmesine ve bunlara yanıt vermesine yardımcı olur.

Unutmayın, burada verilen örnekler süreci göstermek için basitleştirilmiştir. Gerçek eğitim, karmaşık algoritmalar ve çok miktarda veri içerir.

Shaip favori ikonu
Büyük Dil Modellerini (LLM'ler) eğitmek için ne kadar veri gerekir?
GPT-3 veya GPT-4 gibi büyük dil modellerini (LLM'ler) eğitmek, çok büyük miktarda veri gerektirir. Bu modeller, gramer, gerçekler ve bir dereceye kadar muhakeme öğrenmek için kitaplar, web siteleri ve diğer metinler dahil olmak üzere internetin büyük bölümlerini kapsayan çeşitli veri kümeleri üzerinde eğitilir. Ancak, gerekli veri miktarının tam olarak belirtilmesi, birkaç faktör nedeniyle karmaşıktır:
  • Veri Çeşitliliği: Bu sadece verilerin hacmiyle ilgili değil, aynı zamanda çeşitlilikle de ilgili. Verilerin, insan dilinde bulunan çok çeşitli konuları, stilleri ve tonları kapsayacak şekilde çeşitlendirilmesi gerekir.
  • Veri Kalitesi: Eğitim için kullanılan verilerin kalitesi, modelin ne kadar etkili öğrendiğini de etkileyebilir. Daha kaliteli veriler, etkili eğitim için gereken hacmi potansiyel olarak azaltabilir.
  • Model Mimarisi: Modelin mimarisi (sinir ağındaki katman veya parametre sayısı gibi) ne kadar veriye ihtiyaç duyulacağını da etkileyebilir. GPT-3 veya GPT-4 gibi daha büyük modeller, genellikle daha küçük modellerden daha fazla veri gerektirir.
  • Eğitim Amaçları: Modelin gerçekleştirmesi amaçlanan görevlerin türü, ihtiyaç duyulan veri miktarını etkileyebilir. Belirli bir görev için tasarlanmış bir model, iyi hedeflenmişse daha az veri gerektirebilirken, GPT-3 veya GPT-4 gibi çok çeşitli görevleri işlemek üzere tasarlanmış genel amaçlı bir model, daha kapsamlı bir anlayış için daha fazla veri gerektirecektir.

Örneğin GPT-3 söz konusu olduğunda, model 175 milyar parametreye sahiptir ve yüzlerce gigabayt metin üzerinde eğitilmiştir. Ancak bu rakamlar, sürecin karmaşıklığını tam olarak yansıtmıyor. Kullanılan verilerin tam miktarı da dahil olmak üzere eğitim sürecinin ayrıntıları, OpenAI ve benzeri kuruluşlar tarafından tutulan tescilli ayrıntılardır.

Shaip favori ikonu
Yine de, ML Modellerini eğitmek için ne kadar verinin uygun veya yeterli olacağına dair bir kıyaslama var mı?
Makine öğrenimi modellerini etkili bir şekilde eğitmek için gereken veri miktarı büyük ölçüde çözmeye çalıştığınız sorunun karmaşıklığına, verilerinizin kalitesine ve çeşitliliğine ve kullandığınız makine öğrenimi modelinin türüne bağlıdır. Bu nedenle, veri hacmi için kesin bir kıyaslama belirlemek zordur. Ancak, işte bazı genel yönergeler:
  • Küçük başla: Özellikle basit problemler veya ilk model prototipleri için daha küçük bir veri seti yeterli olabilir. Örneğin, temel bir görsel sınıflandırıcı oluşturuyorsanız, kategori başına birkaç yüz veya bin görselle başlayabilirsiniz.
  • Karmaşıklığı Düşünün: Daha karmaşık problemler genellikle daha fazla veri gerektirir. Bir derin öğrenme modeli geliştiriyorsanız veya doğal dil işleme gibi karmaşık bir sorunla çalışıyorsanız milyonlarca veri noktasına ihtiyacınız olabilir.
  • Nicelik Üzerinden Nitelik: Kaliteli, ilgili veriler genellikle çok sayıda düşük kaliteli veriden daha faydalı olabilir. Verilerinizin uygun şekilde temizlendiğinden, açıklama eklendiğinden ve çözmeye çalıştığınız sorunu temsil ettiğinden emin olmak çok önemlidir.
  • Sınıflarınızı Dengeleyin: Denetimli öğrenme görevleri için, her sınıf için iyi bir örnek dengesine sahip olduğunuzdan emin olun. Dengesiz bir veri kümesi, yetersiz temsil edilen sınıflarda düşük performans gösteren bir modele yol açabilir.
  • Doğrulama ve Test Setlerini Kullanın: Veri kümenizin bir kısmı doğrulama (model parametrelerini ayarlama) ve test etme (model performansını değerlendirme) için ayrılmalıdır. Verilerin %70'i eğitim, %15'i doğrulama ve %15'i test için ortak bölünmeler olabilir, ancak bu oranlar değişebilir.
  • Deneyin ve Yineleyin: İlk miktarda veriyle başlayın, modelinizi eğitin, performansını değerlendirin ve yinelemeli olarak daha fazla veri ekleyin, modelinizde ince ayarlar yapın veya sonuçlara göre veri kalitenizi iyileştirin.

Unutmayın, daha fazla veri genellikle makine öğrenimi modellerinin performansını artırır, ancak yalnızca bir noktaya kadar. Belli bir noktadan sonra daha fazla veri toplamak, değerinden daha fazla zaman alıcı ve maliyetli olabilir ve verilerinizin kalitesini artırmaya veya model mimarinizi iyileştirmeye odaklanmak daha faydalı olabilir.

Shaip favori ikonu
ChatGPT'yi eğitmek için kullanılan veriler açıklamalı mıydı?
ChatGPT gibi modellerin eğitim süreci iki ana adımı içerir: ön eğitim ve ince ayar. Ek açıklamanın veya eksikliğinin bu aşamalara nasıl uyduğunu tartışalım:
  • Ön eğitim: Bu aşamada, model büyük miktarda internet metin verisine maruz kalır. Bu veriler açıkça açıklamalı değildir, ancak model bir cümledeki bir sonraki kelimeyi tahmin edecek şekilde eğitilmiştir. Bu, modele genel bir gramer anlayışı, dünya hakkında gerçekler ve bazı muhakeme yetenekleri verir.
  • İnce ayar: Ön eğitimden sonra model, insan gözden geçirenlerin yardımıyla oluşturulan daha dar bir veri kümesi üzerinde daha da geliştirilir. Bu gözden geçirenler, bir dizi girdi için olası model çıktılarını gözden geçirmek ve derecelendirmek için OpenAI yönergelerini izler. Bu anlamda ince ayar süreci, insan gözden geçirenlerin modelin yanıtlarını yönlendirdiği, modelin insani değerlerle daha iyi uyum sağlamasına yardımcı olduğu ve uygunsuz veya güvenli olmayan içerikten kaçınmasını sağladığı bir açıklama biçimi olarak görülebilir.

Bu nedenle, ön eğitim için kullanılan ilk veri kümesi geleneksel anlamda açıklamalı olmasa da, ince ayar süreci, insan gözden geçirenlerin farklı çıktıları derecelendirerek modelin davranışını yönlendirdiği bir tür açıklama içerir.

Shaip favori ikonu
Lütfen eğitim için kullanılan ek açıklama türlerine bazı örnekler verin.
ChatGPT gibi eğitim modellerinin ince ayar aşamasında, gözden geçirenlere genellikle potansiyel model yanıtlarını puanlama görevi verilir. Ek açıklama veya puanlama türleri, model çıktısının çeşitli yönlerini kapsayabilir. Özellikler değişiklik gösterebilse de, burada bazı açıklayıcı ek açıklama kategorileri verilmiştir:

doğruluk: Gözden geçirenler, modelin çıktısının gerçekte doğru olup olmadığını değerlendirir.

Örnek:

uygunluk: Modelin çıktısı, verilen girdiye göre uygunluğu açısından değerlendirilir.

Örnek:

Güvenlik: Çıktılar, zararlı talimatlar veya rahatsız edici dil içermediklerinden emin olmak için gözden geçirilir.

Örnek:

Bütünlük: Bu, modelin yanıtının kullanıcının sorgusunu tam olarak yanıtlayıp yanıtlamadığını değerlendirir.

Örnek:

akıcılık: Gözden geçirenler, modelin çıktısının dilsel olarak akıcı ve tutarlı olup olmadığını kontrol eder.

Örnek:

Bu kategoriler sadece örnektir. Gerçek ince ayar süreci, daha karmaşık bir değerlendirme sistemi ve gözden geçirenler ile yapay zeka geliştirme ekibi arasında sürekli geri bildirim içerir. Bu açıklamaların amacı, modelin yanıtlarını daha yararlı, güvenli ve insani değerlerle uyumlu hale getirmektir.

Shaip favori ikonu
ChatGPT'yi eğitmek için büyük miktarda veri toplandıktan sonra, ek açıklamalara kaç ek açıklamacı katıldı?
Yapay zeka modellerinin ince ayar sürecine dahil olan insan açıklama yapanların (veya gözden geçirenlerin) sayısı, büyük ölçüde değişebilir ve projenin ölçeğine ve söz konusu modelin özel gereksinimlerine bağlıdır.

ChatGPT'nin arkasındaki kuruluş olan OpenAI, ince ayar sürecine dahil olan incelemecilerin tam sayısını kamuya açıklamıyor. Bununla birlikte, böylesine geniş bir dil modelinin eğitiminin ölçeği ve karmaşıklığı göz önüne alındığında, sürecin büyük olasılıkla önemli bir inceleme ekibini içerdiğini söylemek güvenlidir.

Bu insan gözden geçirenler, olası model çıktılarını incelemek ve derecelendirmek için OpenAI tarafından sağlanan yönergeleri izler. Bu, gözden geçirenlerin geri bildirimlerinin modeli zaman içinde geliştirmek ve hassaslaştırmak için kullanıldığı sürekli, yinelemeli bir süreçtir. OpenAI, soruları ele almak ve açıklamalar sağlamak için haftalık toplantılar da dahil olmak üzere gözden geçirenlerle güçlü bir geri bildirim döngüsü sürdürür.

Shaip favori ikonu
Yine de basitten karmaşığa görevler için, 10,000 pdf'ye not eklemek için kaç tane anlatıcı gerekir.
10,000 PDF'ye açıklama eklemek için gereken açıklayıcıların sayısı, aşağıdakiler gibi çeşitli faktörlere bağlı olacaktır:
  • Görevin Karmaşıklığı: Görüntüleri etiketleme veya metni kategorilere ayırma gibi basit görevler, PDF başına daha az zaman alır ve tek bir açıklamacının daha fazla dosyayı işlemesine olanak tanır. Öte yandan, ayrıntılı varlık çıkarma veya semantik analiz gibi karmaşık görevler, belge başına daha fazla zaman ve dolayısıyla aynı hacimdeki PDF'ler için daha fazla ek açıklama gerektirecektir.
  • PDF'lerin Uzunluğu ve Karmaşıklığı: Daha uzun veya daha karmaşık bir PDF'ye açıklama eklemek, daha kısa veya daha basit bir PDF'ye göre daha fazla zaman alacaktır.
  • Kalite Gereksinimleri: Yüksek hassasiyet gerekiyorsa, ek açıklamaları çapraz doğrulamak için PDF başına birden çok açıklayıcıya sahip olmak gerekebilir.
  • Zaman kısıtlayıcıları: Ek açıklamaların hızlı bir şekilde tamamlanması gerekiyorsa, daha fazla ek açıklamacıya ihtiyaç duyulacaktır.

Varsayımsal bir örnek olarak, bir anlatıcının belirli bir görev için günde 5 PDF'ye açıklama ekleyebileceğini ve haftanın 5 günü çalıştığını varsayalım. Bu durumda, 10,000 PDF'ye not eklemek için tek bir annotator 2000 güne, yani yaklaşık 8 yıla ihtiyaç duyar.

Ancak, 20 ek açıklama ekibiniz varsa, görevi yaklaşık 5 ayda tamamlayabilirler (ayda 20 iş günü olduğu varsayılarak). 100 noter ile aynı görev yaklaşık bir ayda tamamlanabilir.

Unutmayın, bu sayılar tamamen açıklayıcıdır ve açıklamanın gerçek hızı yukarıda belirtilen faktörlere bağlı olacaktır. Ek olarak, açıklayıcıların uygun eğitimi ve tutarlı kalite kontrolü, herhangi bir büyük ölçekli açıklama projesinin başarısı için kritik öneme sahiptir.

Shaip favori ikonu
Bu kapsamlı! Çok Etkilendim…
Bilgileri faydalı bulmana sevindim, Anubhav! Amacım kapsamlı ve doğru yanıtlar vermek. Yapay zeka, makine öğrenimi veya başka herhangi bir konu hakkında başka sorunuz varsa, lütfen sormaktan çekinmeyin!

Chat GPT röportajımızın ikinci bölümü için bizi izlemeye devam edin

sosyal paylaşım