El Yazısı Veri Kümeleri

ML modellerinizi eğitmek için 22 En İyi Açık Kaynak OCR ve El Yazısı Veri Kümesi

Optik karakter tanıma kullanımındaki artış, öncelikle otomatik tanıma sistemlerinin üretimindeki artışa bağlanabilir. Sonuç olarak, OCR teknolojisinin küresel piyasa değeri, $ 8.93 milyar 2021'de, 15.4 ile 2022 arasında %2030'lük bir CAGR'de büyümesi bekleniyor.

Ancak OCR teknolojisi tam olarak nedir? Ve verimli AI modelleri geliştiren işletmeler için neden bir oyun değiştirici? Hadi bulalım.

OCR (Optik Karakter Tanıma) Nedir?

OCR, taranmış kağıt belgeler, PDF'ler veya metin görüntüleri gibi farklı türdeki belgeleri düzenlenebilir ve aranabilir verilere dönüştüren bir teknolojidir. Şu şekilde çalışır:

  • Bir görüntüdeki metnin yapısını analiz etme
  • Metni satırlara ve karakterlere ayırma
  • Bu görsel karakterleri makine tarafından okunabilen metne dönüştürmek

Yaygın kullanımlar şunları içerir:

  • Taranan belgelerin düzenlenebilir metin dosyalarına dönüştürülmesi
  • Basılı kitapların dijitalleştirilmesi
  • Fotoğraflardan metin çıkarma
  • El yazısıyla yazılmış reçetelerin dijital metne dönüştürülmesi
  • Plaka tanıma

Ocr eğitim verileri

Açık Kaynak Veri Kümelerinin Faydaları ve Zorlukları

İşletmelerin, makine öğrenimi uygulamaları için kullanımı ücretsiz verileri seçmeleri gerekip gerekmediğini anlamak için avantajları ve zorlukları birbirine düşürmesi gerekir.

Faydalar

  • Verilere kolayca erişilebilir. Veri kullanılabilirliği nedeniyle, uygulamayı geliştirme maliyeti önemli ölçüde azalır.
  • Veri kümesi hazır olduğundan, uygulama için veri toplamak için harcanan zaman ve çaba önemli ölçüde azalır.
  • Veri kümesini öğrenmeye, uyarlamaya ve optimize etmeye yardımcı olan çok sayıda topluluk forumu veya yardım grubu vardır.
  • Açık kaynaklı veri setinin en büyük avantajlarından biri, kişiselleştirme konusunda herhangi bir kısıtlama getirmemesidir.
  •   Açık Kaynaklı verilere nüfusun büyük bir kesimi tarafından erişilebilir, bu da parasal engeller olmaksızın analiz ve inovasyonu mümkün kılar.

Meydan Okumalar

  • Projeye özel verilerin elde edilmesi zordur. Ek olarak, eksik bilgi ve mevcut verilerin yanlış kullanılması olasılığı vardır.
  • Tescilli verileri elde etmek zaman ve çaba gerektirir ve maliyetlidir
  • Veri elde etmek daha kolay olsa da, bilgi ve analiz maliyeti başlangıçtaki avantajdan daha ağır basabilir.
  • Diğer geliştiriciler de uygulamaları geliştirmek için aynı verileri kullanır.
  • Bu veri kümeleri, güvenlik ihlallerine, mahremiyete ve rızaya karşı oldukça savunmasızdır.

Makine Öğrenimi için En İyi 22 El Yazısı ve OCR Veri Kümesi

Açık kaynaklı ocr veri kümeleri

Metin tanıma uygulaması geliştirme için birçok açık kaynaklı veri seti mevcuttur. En iyi 22'ten bazıları:

  1. NIST Veritabanı

    NIST veya Ulusal Bilim Enstitüsü, 3600'den fazla karakter görüntüsü içeren 810,000'den fazla el yazısı örneğinden oluşan ücretsiz bir koleksiyon sunar.

  2. MNIST Veritabanı

    NSIT'in Özel Veritabanı 1 ve 3'ten türetilen MNIST veritabanı, eğitim seti için 60,000 el yazısı sayı ve test seti için 10,000 örnekten oluşan derlenmiş bir koleksiyondur. Bu açık kaynaklı veritabanı, modelleri ön işlemeye daha az zaman harcarken kalıpları tanımak için eğitmeye yardımcı olur.

  3. Metin Algılama

    Açık kaynaklı bir veritabanı olan Metin Algılama veri seti, tabelaların, kapı plakalarının, uyarı plakalarının ve daha fazlasının yaklaşık 500 iç ve dış mekan görüntüsünü içerir.

  4. Stanford OCR'si

    Stanford tarafından yayınlanan bu kullanımı ücretsiz veri seti, MIT Spoken Language Systems Group tarafından el yazısıyla yazılmış bir kelime koleksiyonudur.

  5. Sokak Görünümü Metni

    Google Sokak Görünümü görüntülerinden toplanan bu veri kümesi, esas olarak panolardan ve sokak seviyesi işaretlerinden oluşan metin algılama görüntülerine sahiptir.

  6. Belge Veritabanı

    Belge Veritabanı, 941 yazardan tablolar, formüller, çizimler, diyagramlar, listeler ve daha fazlasını içeren 189 el yazısı belgenin bir koleksiyonudur.

  7. Matematik İfadeleri

    Matematik İfadeleri, 101 matematiksel sembol ve 10,000 ifade içeren bir veritabanıdır.

  8. Sokak Görünümü Ev Numaraları

    Google Sokak Görünümü'nden toplanan bu Sokak Görünümü Ev Numaraları, 73257 sokak ev numarası rakamını içeren bir veritabanıdır.

  9. Doğal Çevre OCR

    Natural Environment OCR, dünya çapında yaklaşık 660 görüntü ve 5238 metin ek açıklamasından oluşan bir veri kümesidir.

  10. Matematik İfadeleri

    10,000'den fazla matematik sembolüyle 101'den fazla ifade.

  11. El Yazısı Çince Karakterler

    Yaklaşık 909,818 haber makalesine eşdeğer, 10 el yazısıyla yazılmış Çince karakter görselinden oluşan bir veri kümesi.

  12. Arapça Basılı Metin

    113,284 Arapça yazı tipini kullanan 10 kelimeden oluşan bir sözlük.

  13. El yazısı İngilizce metin

    1700'den fazla giriş içeren, beyaz tahtaya elle yazılmış İngilizce metin.

  14. 3000 ortam Görselleri

    Farklı ışıklandırma altındaki dış ve iç mekan sahneleri de dahil olmak üzere çeşitli ortamlardan 3000 görüntü.

  15. Karakterler74K Verileri

    İngilizce ve Kannada rakamlarından oluşan 74,000 resim.

  16. IAM (IAM El Yazısı)

    IAM veri tabanında, İngiliz İngilizcesi Lancaster-Oslo/Bergen Corpus'tan 13,353 yazarın el yazısıyla yazılmış 657 metin görseli bulunmaktadır.

  17. FUNSD (Gürültülü Taranan Belgelerde Form Anlama)

    FUNSD, form anlaşılmasını zorlaştıran, çeşitli ve gürültülü görünümlere sahip, açıklamalı, taranmış 199 form içerir.

  18. Metin OCR'si

    TextOCR, doğal görüntülerdeki rastgele şekillendirilmiş sahne metninde metin tanımayı karşılaştırır.

  19. Twitter'da 100 bin

    Twitter100k, zayıf şekilde denetlenen çapraz medya erişimine yönelik büyük bir veri kümesidir.

  20. SSIG-SegPlate – Plaka Karakter Segmentasyonu (LPCS)

    Bu veri seti, 101 gündüz araç görüntüsüyle Plaka Karakter Segmentasyonunu (LPCS) değerlendirir.

  21. 105,941 Dilde 12 Görüntü Doğal Sahne OCR Verisi

    Veriler 12 dili (6 Asya, 6 Avrupa) ve çeşitli doğal manzaraları ve açıları içermektedir. Satır düzeyinde sınırlayıcı kutular ve metin transkripsiyonları içerir. Çok dilli OCR görevleri için kullanışlıdır.

  22. Hint Tabela Görüntüsü Veri Kümesi

    Veri kümesi, sınıflandırma ve tespit için gündüz, akşam ve gece boyunca çeşitli hava koşullarında alınan Hindistan trafik işareti görüntülerini içerir.

Bunlar, metin algılama uygulamaları için makine öğrenimi modellerinin eğitimi için en iyi açık kaynaklı veri kümelerinden bazılarıydı. İş ve uygulama ihtiyaçlarınıza uygun olanı seçmek zaman ve çaba gerektirebilir. Ancak, uygun olana karar vermeden önce bu veri kümelerini denemelisiniz.

[Ayrıca Okuyun: OCR İnfografiği – Tanım, Avantajlar, Zorluklar ve Kullanım Örnekleri]

Güvenilir ve etkili bir metin algılama uygulamasına doğru ilerlemenize yardımcı olmak için Shaip - üst düzey teknoloji çözümleri sağlayıcısı. Çeşitli müşteri projeleri için özelleştirilebilir, optimize edilmiş ve etkili OCR eğitim veri kümeleri oluşturmak için teknoloji deneyimimizden yararlanıyoruz. Yeteneklerimizi tam olarak anlamak için bugün bizimle iletişime geçin.

sosyal paylaşım