Egosantrik Veri Kümesi

Egosantrik Veri Kümesi Nedir? Robotik ve Somutlaştırılmış Yapay Zeka İçin Bir Kılavuz

Egosantrik veri seti, insanların nasıl gördüğünü, hareket ettiğini ve davrandığını robotik ve bedenlenmiş yapay zeka sistemlerine öğretmek için kullanılan, başa, göğse veya bileğe monte edilmiş bir kameradan alınan birinci şahıs video ve sensör kayıtlarının yapılandırılmış bir koleksiyonudur. Bir robotun yerleşik kamerasının çalışma sırasında göreceği şeye en yakın eşleşmeyi sağladığı için, görme-dil-eylem (VLA) model eğitiminin temelini oluşturmuştur.

Sadece laboratuvar ortamında çekilen görüntülerle eğitilen bir robot, laboratuvardan çıktığı ilk gün sıklıkla arıza yapar. Bunun nedeni nadiren modeldir; asıl neden verilerdir.

Eğitim videolarının çoğu tripod veya tavana monte edilmiş bir kamera ile çekilir. Bu tür görüntüler odayı gösterir, ancak işi göstermez. Eli göstermez. Nesneyi göstermez. Robotun dahili kamerasının bir bardağı alırken veya bir çekmeceyi açarken göreceği tam açıyı göstermez. Egosantrik veri seti işte bu boşluğu kapatmak için tasarlanmıştır.

Bu kılavuz, egosantrik veri setinin ne olduğunu, birinci şahıs verilerinin modern robotik ve somutlaştırılmış yapay zekanın temeli haline gelmesinin nedenlerini, iyi verinin aslında neye benzediğini ve ekiplerin bir veri setini lisanslamadan veya sipariş etmeden önce nelere dikkat etmesi gerektiğini ele almaktadır.

Egosantrik veri kümesi nedir?

Egosantrik veri seti, birinci şahıs bakış açısından yakalanan video ve sensör verilerinin yapılandırılmış bir koleksiyonudur. Kamera, görevi yapan kişinin başına, göğsüne veya bileğine (bazen de robotun kendisine) yerleştirilir; böylece kayıt, dünyayı oyuncunun gördüğü gibi tam olarak gösterir.

“Egosantrik” basitçe şu anlama gelir: kendindenÜçüncü şahıs kamera açısı, odada neler olup bittiğini gösterir. Egosantrik kamera ise, olaylar olurken oyuncunun ellerinin, gözlerinin ve aletlerinin ne yaptığını gösterir. Bu fark küçük gibi görünse de, robotik ekipleri için her şey demektir.

Modern egosantrik veri kümelerinin çoğu, video görüntülerini derinlik, hareket, ses ve bazen göz veya el takibi gibi ek sinyallerle birleştirerek tek bir anın aynı anda birkaç açıdan incelenmesine olanak tanır.

Robotik ve somutlaştırılmış yapay zeka için benmerkezci verilerin önemi

Robotlar gerçek dünyada birkaç nedenden dolayı başarısız olur. Yanlış bakış açısı bu nedenlerin başında gelir.

Ego merkezli veriler robotik ve somutlaştırılmış yapay zeka için önemlidir. Bir robotun üzerindeki kamera, dünyayı robotun durduğu yerden görür. Eğer onu yukarıdan veya yandan çekilmiş videolarla eğitirseniz, model her hareket ettiğinde bir boşluğu kapatmak zorunda kalır; üçüncü şahıs bir sahneyi birinci şahıs bir karara dönüştürür. Hatalar işte bu boşlukta meydana gelir: yanlış kavrama, kaçırılan temas noktası, bir vuruşu çok erken kapatan el.

Birinci şahıs verileriyle eğitim, bu çeviri adımını ortadan kaldırır. Model, daha sonra kullanacağı aynı görünümden öğrenir. Son robot öğrenme araştırmaları, birinci şahıs verileriyle eğitilmiş politikaların, görev türüne bağlı olarak, manipülasyon görevlerinde üçüncü şahıs verileriyle eğitilmiş politikalardan %15-30 daha iyi performans gösterebileceğini göstermiştir. Bu kazanım, işin kendisinde kendini gösterir: daha temiz tutuşlar, daha iyi el-göz zamanlaması, karmaşaya ve kısmi görünümlere daha akıllı tepkiler.

Bu nedenle birinci şahıs verileri de bunun merkezinde yer alıyor. Fiziksel AI sistemler ve yeni dalga görme-dil-eylem modelleri — Görsel girdiyi ve sözlü veya yazılı talimatı alıp, fiziksel dünyada gerçek bir eylem üreten sistemler.

Yüksek kaliteli, benmerkezci bir veri kümesinin içinde

Tek başına ham video yeterli değil. Yüksek kaliteli, benmerkezci veri toplama yöntemi, birinci şahıs videosunu çeşitli diğer sinyallerle birleştirir:

  • Senkronize video Yüksek çözünürlükte, genellikle birden fazla açıdan (baş, göğüs veya bilek)
  • Derinlik verileri Bu, bir modelin bir nesnenin çerçevede nerede göründüğünü değil, ne kadar uzakta olduğunu anlamasına yardımcı olur.
  • Hareket sensörü (IMU) verileri baş ve vücut hareketlerini kare kare takip eden
  • ses — tıpkı tahtanın üzerindeki bir bıçak veya yakındaki bir kişinin konuşması gibi, şaşırtıcı derecede bağlam içeriyor.
  • El veya göz takibi Dikkat ve kavrama yeteneğinin önemli olduğu görevler için

Buradaki sorun, tüm bunların milisaniyeye kadar eşleşmesi gerektiğidir. Eğer derinlik akışı videodan çeyrek saniye geride kalırsa, model yanlış neden-sonuç ilişkisini öğrenir. Tamamen benmerkezci bir yaklaşım. veri açıklaması İyi kalibre edilmiş kayıt işleminin üzerine eklenen şey, ham kayıtları eğitim için hazır verilere dönüştüren şeydir.

Laboratuvar ortamında çekilen görüntüler ile gerçek dünya görüntüleri arasındaki fark.

Farklı bir eğitim sorununu gözümüzde canlandırmak faydalı olacaktır.

Birine sadece yukarıdan çekilmiş drone görüntüleri izleterek bisiklet sürmeyi öğrettiğinizi hayal edin. Bisikleti, yolu ve patikayı görürlerdi. Gidondaki titremeyi, gözlerin virajlarda ileriyi nasıl taradığını veya vücudun dönüşten önce nasıl hareket ettiğini görmezlerdi. Teknik olarak bisiklet sürmenin ne olduğunu bilirlerdi. gibi görünüyorOnlar nasıl yapılacağını bilmezlerdi. do bunu.

Laboratuvar verileri de büyük ölçekte aynı soruna sahip. Temiz aydınlatma, temiz bir masa üzerinde tek bir nesne, her klipte tek bir görev — düzenli, ancak bir robotun gönderdiği dünya bu değil. Laboratuvar görüntüleriyle eğitilen modeller genellikle ilk gün çalışır, ancak aydınlatma titrediğinde, iki kişi karşılaştığında veya üç ürün aynı rafta durduğunda otuzuncu günde çöker.

Gerçek dünyadaki benmerkezci yaklaşım, gürültüyü tekrar devreye sokar. Modellerin kullanıma sunulduktan sonra geçerliliğini korumasını sağlayan da bu gürültüdür.

Egosantrik bir veri kümesinin dört katmanı

Farklı problemler farklı veri katmanları gerektirir. Bir iş için oluşturulan bir veri seti nadiren başka bir işi iyi bir şekilde kapsar. İşte çoğu fiziksel yapay zeka ekibinin eksiksiz bir somutlaştırılmış yapay zeka veri seti oluşturmak için bir araya getirdiği katmanları düşünmenin basit bir yolu:

tabaka Yakaladığı şey Neyi eğitiyor?
İnsan anlayışı Günlük yaşam ortamlarındaki gerçek insan faaliyetleri Temel algı — insanların nasıl hareket ettiği, nesneleri nasıl tuttuğu, görevler arasında nasıl geçiş yaptığı
Görev yürütme Manipülasyon verileri: yörüngeler, tutuşlar, eklem durumları Robot hareket kontrolü ve beceri tekrarı
Talimat takip ediyor Görsel + sözlü veya yazılı talimatlar + eylemler Bir talimatı gerçek bir eyleme dönüştüren görsel-dil-eylem modelleri
İş akışı tamamlama İstisna işleme içeren uzun, çok adımlı görev verileri. Uzun vadeli düşünme ve bir şeyler ters gittiğinde toparlanma

Çoğu üretim ekibi birden fazla katmandan yararlanır. Örneğin, bulaşık makinesini doldurması gereken bir insansı robot, en az üç katmandan faydalanır: insan gösterimleri, hassas manipülasyon ve adım adım görev yapısı.

Ego merkezli verilerin gerçek talebi yönlendirdiği yer

Ego merkezli veriler gerçek talebi yönlendiriyor Orta büyüklükte bir depoyu düşünün; geçen çeyrekte bir toplama ve yerleştirme robotu devreye alındı. Düzenli laboratuvar görüntüleriyle eğitilen robot, ilk haftayı sorunsuz geçirdi. Sonra mevsimsel bir yoğunluk yaşandı. Kutular garip açılarla istiflendi, floresan lambalar titredi, iki işçi koridordan geçti. Robot durdu - modelin bozulmasından değil, eğitiminde gerçek bir vardiyaya benzeyen hiçbir şey olmadığı için.

Bu tür bir açık, sektörler genelinde ortaya çıkıyor ve bu nedenle bazı özel alanlarda birinci şahıs eğitim verilerine olan talep artıyor:

  • İnsansı robotlar ve ev robotları. Yemek pişirmek, temizlik yapmak, market alışverişini yerleştirmek. Robotun bunları yapmasını izleyene kadar kolay görünen işler.
  • Otonom hareketlilik. Sürüş, kabin içi davranışlar, son kilometre teslimatı. Birinci şahıs bakış açısı, simülasyon ile gerçek sokaklar arasındaki boşluğu kapatıyor.
  • Endüstriyel egosantrik veri kümeleri. Fabrika zeminleri, montaj hatları, petrol ve gaz sahaları; güvenlik tespiti, ergonomik izleme ve işçi destek robotlarının eğitimi için kullanılır.
  • Cerrahiye ait birinci şahıs video verileri. Cerrahların taktığı başa monte edilmiş kameralardan elde edilen işlem görüntüleri, yardımcı modelleri ve tıbbi artırılmış gerçeklik sistemlerini eğitmek için kullanılıyor.
  • Perakende tüketici davranışına ilişkin benmerkezci veriler. Gerçek mağazalarda alışveriş yapanların giyilebilir cihazlarla kaydedilen görüntüleri, raf başında dikkat, gezinme ve karar verme süreçlerini incelemek için kullanılıyor.

Farklı sektörler, aynı temel ihtiyaç: laboratuvar ortamından değil, işin kendisinden elde edilen veriler.

Egosantrik bir veri kümesini model oluşturmaya hazır kılan nedir?

İster kendi bünyenizde veri topluyor olun ister bencil veri sağlayıcılarını değerlendiriyor olun, araştırma kalitesindeki verileri üretimde geçerliliğini koruyan verilerden ayıran beş şey vardır:

Egosantrik veri kümesini modele hazır hale getirir.

  1. Egosantrik veri açıklama derinliği. Sadece sınırlayıcı kutular değil. El pozisyonları, nesne durumları, eylem adımları ve niyet - hepsi doğru çerçeveye hizalanmış.
  2. Sensör kalibrasyonu. Video, derinlik, ses ve hareket arasında zaman senkronizasyonu sağlayarak modelin beş ayrı akış yerine tek bir tutarlı an görmesini sağlayın.
  3. Uç durumları kapsama. Düşük ışık, tıkanma, kalabalık sahneler, nadir olaylar. Laboratuvar verilerinin sessizce boşluklar bıraktığı durumlar. Sektör alıcı anketleri, veri ortaklarını değerlendirirken en önemli iki kriter olarak sürekli olarak açıklama kalitesini ve uç durum kapsamını sıralıyor.
  4. Onay ve uyum. Birinci şahıs video kayıtları tanımı gereği hassastır. Veri kümeleri, katılımcıların belgelenmiş onayını, gerektiğinde yüz kimlik bilgilerinin gizlenmesini ve GDPR ve HIPAA gibi çerçevelerle uyumluluğu gerektirir. ISO 27001 ve SOC 2 Tip II gibi satıcı kontrolleri, kurumsal hukuk ekiplerinin beklediği prosedürel katmanı ekler.
  5. Simülasyondan gerçek hayata geçişe hazır olma durumu. Gerçek dünya görüntüleri, sentetik verilerle sorunsuz bir şekilde eşleştirilir; böylece ekipler, modellerin güvenilirliğini sağlayan temel unsurları kaybetmeden eğitimi ölçeklendirebilirler.

Kalite bilgi toplama Sonradan düzeltilmesi en zor olan kısım burasıdır. Sorunu kaynağında doğru çözerseniz, işlem hattının geri kalanı daha kolay hale gelir.

Anahtar teslim paketler

  • Egosantrik veri kümesi, birinci şahıs video ve sensör verileridir. — oyuncunun kendi bakış açısından kaydedilen — robotik ve somutlaştırılmış yapay zeka modellerini, sahada dünyayı gerçekte nasıl görecekleri konusunda eğitmek için kullanılır.
  • Birinci elden elde edilen veriler, algı-eylem açığını kapatıyor. Bu durum, laboratuvarda eğitilmiş robotların gerçek vardiyalarda başarısız olmasına neden olur.
  • Kaliteli egosantrik veriler çok modludur. — video, derinlik, ses, hareket ve izleme — milisaniyeye kadar senkronize edilmiş.
  • Üretime hazır olmak, yalnızca açıklama eklemekten daha fazlasını ifade eder. — bu, uç durumların kapsanması, gerçek dünya ortamları, simülasyondan gerçek hayata hazır olma ve belgelenmiş bir uyumluluk izi anlamına gelir.

Shaip nasıl yardımcı olabilir?

Eğer ekibiniz "ego merkezli verilere ihtiyacımız var mı?" aşamasını geçip "bu verilere nasıl ulaşacağız?" aşamasına geldiyse, işte Shaip tam da burada devreye giriyor.

Fiziksel yapay zeka programlarının arkasındaki tüm veri işleme hattını tek bir anlaşma kapsamında yürütüyoruz: gerçek ortamlarda birinci şahıs çekim, VLA düzeyinde açıklama, sentetik veri, RLHF ve değerlendirme kıyaslamaları. İşte birkaç ayrıntı:

  • Laboratuvar çekimi değil, gerçek dünya görüntüsü. Mutfaklarda, depolarda, fabrikalarda, sağlık tesislerinde ve mağazalarda kullanılan başa takılan kameralar, akıllı gözlükler ve giyilebilir cihazlar.
  • Çoklu sensör senkronizasyonu. Video, IMU, LiDAR, ses ve derinlik verileri milisaniyeye kadar kalibre edilmiş ve zaman uyumlu hale getirilmiştir.
  • VLA eğitimi için oluşturulmuş açıklama metni. Nesneler, eylemler, el-nesne etkileşimleri, niyet ve mekansal bağlam.
  • Simülasyondan gerçek hayata geçiş desteği. Gerçek dünya bağlamından kopmadan kapsamı genişleten sentetik üretim ve Real2Sim işlem hatları.
  • İlk günden itibaren uyumluluk. ISO 27001, SOC 2 Tip II, HIPAA uyumlu ve GDPR uyumlu; öncelikle onaya dayalı veri toplama ve denetime hazır veri kaynağı takibi.

Bu, fiziksel yapay zeka programınızın yöneldiği yönle örtüşüyorsa, bir pilot proje için ön çalışma yapmaktan memnuniyet duyarız.

Sonuç

Egosantrik veri seti sadece birinci şahıs videosu değildir. Makinelere insanların gördüğü ve davrandığı gibi görmeyi ve davranmayı öğretmenin yapılandırılmış bir yoludur. Robotik ve somutlaştırılmış yapay zeka ekipleri için, iyi bir demo sunan bir model ile piyasaya sürülen bir model arasındaki farkı oluşturur. İster insansı robotlar, ister otonomi, ister akıllı fabrikalar olsun, robotik ve yapay zeka geliştirme için egosantrik veri, her ciddi somutlaştırılmış yapay zeka veri seti stratejisinin temel bir katmanı haline geliyor - isteğe bağlı bir katman değil. Doğru yapan ekipler, veriyi - toplama, açıklama, doğrulama ve uyumluluk - sistemin temel bir parçası olarak ele alan ekiplerdir, ondan önceki bir adım olarak değil.

Bu, genellikle başa, göğse veya bileğe takılan bir kameradan elde edilen, birinci şahıs bakış açısından kaydedilmiş, yapılandırılmış bir video ve sensör kayıtları kümesidir ve yapay zeka sistemlerini insanların nasıl gördüğü ve görevleri nasıl yaptığı konusunda eğitmek için kullanılır.

Üçüncü şahıs video, sahneyi bir gözlemcinin bakış açısından gösterir. Robotlar kendi bakış açılarından hareket eder. Birinci şahıs verileri üzerinde yapılan eğitim, modelin öğrendikleri ile robotun iş başında gerçekten gördükleri arasındaki farkı kapatır ve manipülasyon görevlerinde %15-30 oranında doğruluk artışı sağlar.

RGB kameralar, derinlik sensörleri, hareket (IMU) sensörleri ve ses. Birçok kurulumda ayrıca el veya göz takibi de eklenir. Otonom robotik için, mekansal haritalama amacıyla bazen LiDAR da katmanlandırılır.

VLA modelleri görsel bir girdi ve dilsel bir talimat alır, ardından bir eylem üretir. Egosantrik veriler, bu eşleştirmeyi güvenilir bir şekilde öğrenmeleri için ihtiyaç duydukları eşleşen görünüm, talimat ve sonuç üçlülerini sağlar.

Üç şey: daha sıkı etiketleme kalitesi, laboratuvarlar yerine gerçek dünya ortamlarında daha geniş çevresel kapsam ve onay, gizlilik ve denetime hazır veri kaynağını kapsayan belgelenmiş bir uyumluluk izi.

sosyal paylaşım