Yüz Tanıma Modeli Üzerine Bir Vaka Çalışması
Sahtekarlık Tespiti AI Modelleri için Sahteciliğe Karşı Korumalı Video Veri Seti
Shaip'in, sahtekarlık tespiti için yapay zeka modellerini eğitmek amacıyla gerçek ve tekrar saldırı senaryolarını içeren 25,000 adet yüksek kaliteli sahteciliğe karşı koruma video veri setini nasıl sağladığını keşfedin.
Projeye Genel Bakış
Shaip, dolandırıcılık tespiti için AI modeli eğitimini geliştirmek üzere tasarlanmış yüksek kaliteli, hazır bir sahtecilik karşıtı video veri seti sağlamak için önde gelen bir AI güvenlik şirketiyle ortaklık kurdu. Veri seti, hem gerçek hem de tekrarlanan saldırı senaryolarını yakalayan 25,000 videoyu içeriyordu ve sahtecilik karşıtı modeller için sağlam eğitim verileri sağlıyordu.
Her biri 12,500 katılımcıları iki videoya katkıda bulundu - biri gerçek ve biri tekrar saldırısı - kaydedildi 720p veya daha yüksek çözünürlük kare hızıyla 26 FPS ve üzeri.
Projenin amacı, otantik ve çeşitli veri kümeleri Bu, yapay zeka modellerinin gerçek ve sahte biyometrik videolar arasında etkili bir şekilde ayrım yapmasını sağlayarak biyometrik kimlik doğrulama sistemlerindeki dolandırıcılık risklerini azaltacaktır.

Anahtar İstatistikler
25,000 toplam video (12,500 gerçek videolar, 12,500 (tekrarlanan saldırı videoları)
12,500 benzersiz
Katılımcılar
5 etnik gruplar
veri setinde temsil edildi
Aşamalı teslimat: 4 yığınları 6,250 her biri videolar
Meta veri nitelikleri: 12 gelişmiş veri seti kullanılabilirliği için temel parametreler
Sahteciliğe Karşı Biyometrik Veri Seti Kapsamı
Veri Seti Düzenlemesi: Proje, aşağıdakilerden oluşan yüksek kaliteli sahteciliğe karşı koruma sağlayan video veri kümeleri sunmaya odaklanmıştır: gerçek ve tekrar saldırı videolarıÖnemli hususlar şunlardır:
- 12,500 katılımcıları katkıda her biri iki video (1 gerçek, 1 sahte).
- Kayıt cihazlarında çeşitlilik modelin uyarlanabilirliğini artırmak için.
- Dengeli etnik temsil veri setinin kapsayıcılığını sağlamak.
Meta Veri Toplama: Her videoya şunlar eşlik ediyordu: 12 meta veri niteliği Veri setinin kullanılabilirliğini artırmak için.
Video Veri Toplama Zorlukları
Yüksek kaliteli videolar sağlarken dengeli etnik kökene göre veri dağıtımını sürdürmek.
Veri kümesinin bütünlüğünü korumak için her katılımcının bir gerçek ve bir tekrar saldırı videosu katkıda bulunmasını sağlamak.
FPS (≥ 26), çözünürlük (≥ 720p) ve zaman damgası doğruluğu (+/- 0.5 ms) için sıkı yönergelere uyulması.
Bunu Nasıl Çözdük
Shaip, projenin gereksinimlerini karşılamak için yapılandırılmış ve yüksek kaliteli bir veri seti sağladı. Çözüm şunları içeriyordu:
Veri Kümesi Düzenleme ve Kalite Kontrolü
- 25,000 videolar toplanmış 4 aşama Sabit ve yapılandırılmış bir veri akışının sağlanması, darboğazların önlenmesi.
- Sıkı doğrulama süreci uyumluluğunu sağlamak FPS, çözünürlük ve meta veri doğruluğuHer video nihai kabulden önce birden fazla kalite kontrolünden geçti.
- Kapsamlı meta veri etiketleme ile 12 özellik:
- Dosya Kimliği/Adı
- Saldırı Türü (Gerçek/Tekrar)
- Kişi Kimliği
- Video çözünürlüğü
- Video Süresi
- Konunun Etnik Kökeni
- Konunun Cinsiyeti
- Videonun Orijinal mi Yoksa Sahte mi Olduğu
- Cihaz Adı/Modeli
- Kişi Konuşuyor mu Konuşmuyor mu
- Zaman Damgası Başlangıç Zamanı
- Zaman Damgası Bitiş Zamanı
- Dengeli Etnik Grup Dağılımı: Veri seti, dengeli bir etnik temsili korumak için titizlikle düzenlenmiştir. Dağıtım, Hispanik (%33), Güney Asyalı (%21), Kafkasyalı (%20), Afrikalı (%15) ve Doğu Asyalı ve Orta Doğulu popülasyonları (her biri %6'ya kadar) içerir.
- Yinelenen giriş yok Yapay zeka eğitiminde veri setinin benzersizliğini korumak ve önyargıları önlemek.
- Etnik açıdan çeşitli katılımcı seçimi Gerçek dünyadaki kullanıcı farklılıklarını yansıtan bir veri kümesi oluşturmak, AI modelinin uyarlanabilirliğini ve adaletini iyileştirmek.
- Kayıt cihazı varyasyonu Modelin farklı çevresel koşullara karşı dayanıklılığını artırmak için birden fazla akıllı telefon modeli, kamera ve ışık koşulları dahil edildi.
Sonuç
Shaip tarafından sağlanan yüksek kaliteli, çeşitli sahtecilik karşıtı video veri seti, istemcinin çeşitli biyometrik kimlik doğrulama senaryolarında gerçek ve sahte videolar arasında doğru bir şekilde ayrım yapmak için AI modellerini eğitmesini sağladı. Veri seti şunlara katkıda bulundu:
Sahte biyometrik saldırıların tespitinde geliştirilmiş yapay zeka performansı.
Modelin farklı etnik kökenlere, cihazlara ve çevre koşullarına ait tekrar saldırılarını tanıma yeteneği güçlendirildi.
Veri seti, gelecekteki sahteciliğe karşı koruma modeli geliştirmeleri ve genişletmeleri için bir temel görevi görecektir.
Shaip'in veri seti, AI odaklı sahteciliğe karşı koruma modellerimizi geliştirmede etkili oldu. Çeşitlilik, kalite ve yapılandırılmış meta veriler, biyometrik kimlik doğrulama sistemlerinde dolandırıcılık tespitini iyileştirmek için güçlü bir temel sağladı.