Hazır yüz görüntüsü ve video verisi lisanslaması
Yapay Zeka Modeli Eğitimi için Hazır Yüz Tanıma Veri Kümeleri
Önde gelen küresel bir teknoloji holdingi için etik kaynaklı, demografik açıdan çeşitli veri kümelerinden yararlanarak yapay zeka modeli eğitimini hızlandırmak ve önyargıyı azaltmak.
Projeye Genel Bakış
Müşteri hızlandırmayı amaçladı Yapay zeka destekli yüz tanıma geliştirme uzun ve maliyetli veri toplama döngülerinden geçmeden. Bunu başarmak için, kullanıma hazır veri kümeleri sadece bunlar değildi büyük ve çeşitli, Aynı zamanda etik kaynaklı ve küresel veri gizliliği düzenlemelerine uyumlu.
Shaip, aydınlatma, baş pozisyonları, kapanmalar ve duygularda kontrollü varyasyonlar içeren kapsamlı veri kümeleri sunarak, müşterinin modellerinin gerekli etnik ve demografik kriterleri karşılayarak hem doğruluk hem de adalet elde etmesini sağladı. Her veri kümesi, ayrıntılı meta veriler, poz açıklamaları ve duygu tanıma için sınırlayıcı kutular içererek, modellerin son derece çeşitli, gerçek dünya senaryolarında eğitilmesine ve test edilmesine olanak tanıdı.
Anahtar İstatistikler
7,000+ Konu
300,000'den fazla fotoğraf ve 2,000 videodan oluşan tarihi veri kümesi.
10,000+ Konu
Çok Açı Duygu Veri Setinde.
74,880 Görüntüler
Aydınlatmada
Varyasyon Veri Seti.
18,600 Görüntüler
altıyı kapsayan
temel duygular.
Proje kapsamı
Müşterinin ihtiyacı olan büyük ölçekli, etik kaynaklı ve demografik olarak çeşitli yüz görüntüsü ve video veri kümeleri Yüz tanıma modellerinin geliştirilmesini ve eğitimini desteklemek için. Bu veri kümeleri, kullanım durumlarını güçlendirmek için önemliydi. sahteciliğe karşı koruma, kimlik doğrulama, görüntü eşleştirme ve ifade analizi sistemleriGerçek dünya uygulamalarında sağlam ve tarafsız yapay zeka performansını garanti altına almak.
Katılımın kapsamı şunları içeriyordu:
- Teslim düzenlenmiş veri kümeleri Yüz tanıma kullanım durumlarını karşılamak üzere tasarlanmıştır; örneğin kimlik doğrulama, ifade tanıma ve sahteciliğe karşı koruma.
- Sağlama detaylı açıklamalar içeren görseller ve videolar demografi, baş pozisyonu, kapanmalar, ışıklandırma türü ve duygular için.
- sağlanması dengeli demografik kapsam eğitimde sistemik önyargıyı azaltmak.
- garanti etmek uyum ve onay küresel veri koruma ve gizlilik standartlarıyla.
Örnek Veri Seti Katkıları:
- Geçmiş Veri Kümesi (~7,000 denek): Poz ve kapanma varyasyonlarına sahip 300,000'den fazla görüntü ve 2,000 video.
- Çok Açılı Duygu Veri Seti (~10,000 denek): Her denek için açılar ve duygusal durumlara göre 15–20 görüntü.
- Altı Duygu Veri Seti (~3,100 denek): Temel insan ifadelerini kapsayan 18,600 açıklamalı görüntü.
- Aydınlatma Değişimi Veri Seti (~468 denek): Dokuz ışık koşulunda 74,880 görüntü.
Meydan Okumalar
Proje, sağlam yapay zeka modelleri oluşturmada yaygın olarak karşılaşılan temel zorlukları ele aldı:
Yapay Zeka Modellerinde Önyargı
Adaleti sağlamak için belirli etnik kökenlerin veya cinsiyetlerin aşırı temsilinin önlenmesi.
Gerçek Dünya Değişkenliği
Işık koşullarını, yüz açılarını, kapanmaları ve doğal ifadeleri yakalamak.
Ölçek ve Kalite
Çeşitlilikten ödün vermeden yüz binlerce yüksek çözünürlüklü görsel sunuyoruz.
Yasal Uygunluk
Katılımcıların tam onayıyla sıkı küresel gizlilik ve veri koruma gerekliliklerini karşılıyoruz.
Çözüm
Shaip bir uygulama uyguladı Yapılandırılmış yaklaşım Veri setinin kalitesini ve alakalılığını sağlamak için:
- Özenle Seçilmiş Dengeli Veri Kümeleri geniş etnik, cinsiyet ve yaş temsiline sahip.
- Yakalanan çok açılı pozlar ve ışıklandırma varyasyonları gerçek dünya koşullarını taklit etmek.
- Katma detaylı açıklamalar (örneğin baş pozisyonu, kapanmalar, duygular) veri setinin kullanılabilirliğini zenginleştirmek için.
- Sıkı bir şekilde kurulmuş kalite kontrol ve uyumluluk iş akışları etik kaynak sağlamayı ve gizlilik uyumluluğunu garanti altına almak.
Veri Seti Portföyü
| Veri kümesi | hacim | Demografi / Çeşitlilik | Standartlar / Özellikler |
|---|---|---|---|
| Tarihsel Yüz Görüntüsü ve Video Veri Seti (~7,000 Kişi) | 7,000 kayıt görüntüsü; 300,000'den fazla tarihsel görüntü; 2,000 video (1,000 denek başına 1 iç mekan + 1 dış mekan) | Etnik köken: Siyah (%35), Doğu Asyalı (%42), Güney Asyalı (%13), Beyaz (%10); Cinsiyet: %50 Erkek / %50 Kadın; Yaş: 18 yaş ve üzeri yetişkinler (son 10 yıl) | Video süresi: 1–2 dk; Baş pozisyonu varyasyonu (P1–P7); 5 tıkanıklık tipi (O0–O4) |
| Yüz Görüntüsü Veri Seti (~5,000 Denek) | Konu başına 35 resim; 2,500 Hintli; 1,000 Asyalı; 1,500 Siyah | Yaş: 18–60 yaş; Dengeli cinsiyet dağılımı | Güzelleştirme yok; Çeşitli arka plan ve kıyafetler; Min. çözünürlük: 960×1280 |
| Çok Açılı Duygu Veri Seti (~10,000 Denek – Çince) | Konu başına 15–20 resim; Pozlar: Ön, Sol, Sağ (30°–60°); İfadeler: Gülümseme, açık ağız, üzgün, ciddi, nötr | Etnik köken: Çinli; Yaş: 18–26; Cinsiyet: 50/50 dağılımı | Çözünürlük: 2160×3840 piksel veya daha yüksek |
| Altı İnsan Duygusu Veri Seti (~3,100 Denek) | Konu başına 6 resim (farklı ifadeler); toplam 18,600 resim | Etnik kökenler: Japon (9,000), Koreli (2,400), Çinli (2,400), Güneydoğu Asyalı (2,400), Güney Asyalı (2,400); Yaş: 20-65 | Duygular için sınırlayıcı kutu açıklamaları; Düz arka planlar; Şapka, gözlük veya engel yok |
| Aydınlatma Değişimi Veri Seti (~468 Hintli Denek) | Konu başına 160 resim; Toplam: 74,880 resim | Yaş: 20–70; %70 Erkek | 9 ışık koşulu (iç mekan, dış mekan, yan ışık, arka ışık, neon vb.) |
| Çok Etnikli Yüz Görüntüsü Veri Seti (~600 Denek) | Toplam 3,752 görsel | Etnik kökenler: Afrikalı, Orta Doğulu, Yerli Amerikalı, Güney Asyalı, Güneydoğu Asyalı; Yaş: 20–70 | - |
Sonuç
Bu işbirliği önemli ticari ve teknik etki yarattı:
- Geliştirilmiş Model Doğruluğu: Birden fazla kullanım durumunda yüz tanıma modelleri için geliştirilmiş hassasiyet ve hatırlama.
- Önyargı Azaltma:Dengeli demografik temsil, yapay zeka çıktılarındaki sistemik önyargıyı azalttı.
- Hızlandırılmış Geliştirme Zaman Çizelgeleri: Hazır veri setleri, uzun veri toplama işlemlerine gerek kalmadan hızlı prototipleme ve model eğitimi yapılmasına olanak sağladı.
- Yasal Uygunluk: Tüm veri kümeleri küresel gizlilik standartlarına uygundu ve katılımcı onayı içeriyordu.
Shaip'in çeşitli ve etik kaynaklı veri kümeleri bize ihtiyaç duyduğumuz hızı, kaliteyi ve uyumluluğu sağladı. Kullanıma hazır verilerle yapay zeka modeli eğitimini hızlandırdık ve sistemsel önyargıyı önemli ölçüde azalttık.