El Yazısı Veri Kümeleri

ML modellerinizi eğitmek için En İyi 15 Açık Kaynak El Yazısı Veri Kümesi

İş dünyası olağanüstü bir hızla dönüşüyor, ancak bu dijital dönüşüm, olmasını istediğimiz kadar geniş kapsamlı değil. İnsanlar, büyük şirketlerden küçük ölçekli işletmelere kadar günlük operasyonlarında hala fiziksel belgelerle uğraşıyorlar. Kullanım sıklığı oldukça azalmış olsa da tamamen ortadan kalkmamıştır. Belgeleri dijital kullanım için taramak için zaman alan süreç yerine, en son teknolojileri kullanarak OCR zaman verimli ve etkilidir.

Optik karakter tanıma kullanımındaki artış, öncelikle otomatik tanıma sistemlerinin üretimindeki artışa bağlanabilir. Sonuç olarak, OCR teknolojisinin küresel piyasa değeri, $ 8.93 milyar 2021'de, 15.4 ile 2022 arasında %2030'lük bir CAGR'de büyümesi bekleniyor.

Ancak OCR teknolojisi tam olarak nedir? Ve verimli AI modelleri geliştiren işletmeler için neden bir oyun değiştirici? Hadi bulalım.

OCR nedir?

Alternatif olarak metin tanıma olarak da anılır, OCR veya Optik Karakter Tanıma taranan belgelerden, yalnızca görüntü içeren PDF'lerden ve el yazısı notlardan basılı veya yazılı verileri makine tarafından okunabilir bir biçime çıkaran bir programdır. Yazılım, görüntüdeki her bir harfi alıp bunları kelime ve cümlelerde birleştirerek belgelere dijital olarak erişmeyi ve düzenlemeyi kolaylaştırıyor.

Açık kaynaklı veri kümeleri nelerdir?

OCR teknolojisinin büyük potansiyele sahip olduğu birkaç yer vardır. Bazı yerler havaalanı, e-Kitap yayıncılığı, reklamlar, bankalar ve tedarik zinciri sistemlerini içerir. Ancak uygulamaların amacına hizmet etmesi için projeye özel eğitim almaları gerekmektedir. Optik Karakter Tanıma veri kümeleri.

Uygulamanın verimliliği, büyük ölçüde veri kümesinin kalitesine ve ilgili eğitim metodolojisine bağlıdır. Ancak kaliteli dijital ve el yazısı veri kümeleri uygulama için zordur. Bu nedenle, birçok şirket tescilli olanlar yerine açık kaynaklı veya kullanımı ücretsiz veri kümeleri kullanır.

Açık Kaynak Veri Kümelerinin Faydaları ve Zorlukları

İşletmelerin, makine öğrenimi uygulamaları için kullanımı ücretsiz verileri seçmeleri gerekip gerekmediğini anlamak için avantajları ve zorlukları birbirine düşürmesi gerekir.

Faydaları

  • Verilere kolayca erişilebilir. Veri kullanılabilirliği nedeniyle, uygulamayı geliştirme maliyeti önemli ölçüde azalır.
  • Veri kümesi hazır olduğundan, uygulama için veri toplamak için harcanan zaman ve çaba önemli ölçüde azalır.
  • Veri kümesini öğrenmeye, uyarlamaya ve optimize etmeye yardımcı olan çok sayıda topluluk forumu veya yardım grubu vardır.
  • Açık kaynaklı veri setinin en büyük avantajlarından biri, kişiselleştirme konusunda herhangi bir kısıtlama getirmemesidir.
  •   Açık Kaynaklı verilere nüfusun büyük bir kesimi tarafından erişilebilir, bu da parasal engeller olmaksızın analiz ve inovasyonu mümkün kılar.

Zorluklar

  • Projeye özel verilerin elde edilmesi zordur. Ek olarak, eksik bilgi ve mevcut verilerin yanlış kullanılması olasılığı vardır.
  • Tescilli verileri elde etmek zaman ve çaba gerektirir ve maliyetlidir
  • Veri elde etmek daha kolay olsa da, bilgi ve analiz maliyeti başlangıçtaki avantajdan daha ağır basabilir.
  • Diğer geliştiriciler de uygulamaları geliştirmek için aynı verileri kullanır.
  • Bu veri kümeleri, güvenlik ihlallerine, mahremiyete ve rızaya karşı oldukça savunmasızdır.

Makine Öğrenimi için En İyi 15 El Yazısı ve OCR Veri Kümesi

Açık kaynaklı ocr veri kümeleri

Metin tanıma uygulaması geliştirme için birçok açık kaynaklı veri seti mevcuttur. En iyi 15'ten bazıları:

  1. ICDAR Veri Kümesi

    Uluslararası Belge Analizi ve Tanıma Konferansı, ek açıklamalarla birlikte 229 eğitim ve 233 test görüntüsü deposuna sahiptir. Metin algılama değerlendirmesi için bir ölçüt görevi görür.

  2. IIIT 5K-Kelime Veri Kümesi

    Google görsel aramasından alınan IIIT 5K-word, tabelalardan, reklam panolarından, plakalardan ve posterlerden gelen kelimelerin bir koleksiyonudur. 5K kırpılmış kelime görüntüleri içerir ve onu mevcut en kapsamlı metin tanıma veri kümelerinden biri yapar.

  3. NIST Veritabanı

    NIST veya Ulusal Bilim Enstitüsü, 3600'den fazla karakter görüntüsü içeren 810,000'den fazla el yazısı örneğinden oluşan ücretsiz bir koleksiyon sunar.

  4. MNIST Veritabanı

    NSIT'in Özel Veritabanı 1 ve 3'ten türetilen MNIST veritabanı, eğitim seti için 60,000 el yazısı sayı ve test seti için 10,000 örnekten oluşan derlenmiş bir koleksiyondur. Bu açık kaynaklı veritabanı, modelleri ön işlemeye daha az zaman harcarken kalıpları tanımak için eğitmeye yardımcı olur.

  5. Metin Algılama

    Açık kaynaklı bir veritabanı olan Metin Algılama veri seti, tabelaların, kapı plakalarının, uyarı plakalarının ve daha fazlasının yaklaşık 500 iç ve dış mekan görüntüsünü içerir.

  6. Stanford OCR'si

    Stanford tarafından yayınlanan bu kullanımı ücretsiz veri seti, MIT Spoken Language Systems Group tarafından el yazısıyla yazılmış bir kelime koleksiyonudur.

  7. DDI-100

    Aksi halde Bozulmuş Belge Görüntüleri Veri Kümesi olarak adlandırılan DDI-100, çeşitli geometrik desenler ve çarpıtmalar uygulanmış 6658 sayfadan fazla belgeden oluşan bir koleksiyondur. Ayrıca DDI-100'de 99870'den fazla görüntü, damga maskesi, metin maskesi ve sınırlayıcı kutu bulunur.

  8. YolMetin-1K

    Modellerin videolardaki metni algılamasına yardımcı olan en büyük veri kümelerinden biri olan RoadText-1K, sınırlayıcı kutu metin açıklamaları ve her video karesinde metnin transkripsiyonu ile tamamlanmış 1000 video klip içerir.

  9. MSRA-TD500

    300 eğitim ve 200 metin görüntüsü içerir; MSRA-TD500, Çince ve İngilizce dillerinden karakterler içerir ve cümle düzeyinde açıklamalıdır.

  10. MJSynth Veri Kümesi

    Oxford Üniversitesi tarafından sağlanan bu kelime veri seti, 9 binden fazla İngilizce kelimeyi kapsayan yaklaşık 90 milyon sentetik olarak oluşturulmuş görüntüye sahiptir.

  11. Sokak Görünümü Metni

    Google Sokak Görünümü görüntülerinden toplanan bu veri kümesi, esas olarak panolardan ve sokak seviyesi işaretlerinden oluşan metin algılama görüntülerine sahiptir.

  12. Belge Veritabanı

    Belge Veritabanı, 941 yazardan tablolar, formüller, çizimler, diyagramlar, listeler ve daha fazlasını içeren 189 el yazısı belgenin bir koleksiyonudur.

  13. Matematik İfadeleri

    Matematik İfadeleri, 101 matematiksel sembol ve 10,000 ifade içeren bir veritabanıdır.

  14. Sokak Görünümü Ev Numaraları

    Google Sokak Görünümü'nden toplanan bu Sokak Görünümü Ev Numaraları, 73257 sokak ev numarası rakamını içeren bir veritabanıdır.

  15. Doğal Çevre OCR

    Natural Environment OCR, dünya çapında yaklaşık 660 görüntü ve 5238 metin ek açıklamasından oluşan bir veri kümesidir.

Bunlar, metin algılama uygulamaları için makine öğrenimi modellerinin eğitimi için en iyi açık kaynaklı veri kümelerinden bazılarıydı. İş ve uygulama ihtiyaçlarınıza uygun olanı seçmek zaman ve çaba gerektirebilir. Ancak, uygun olana karar vermeden önce bu veri kümelerini denemelisiniz.

Güvenilir ve verimli bir metin algılama uygulamasına doğru ilerlemenize yardımcı olmak için üst düzey teknoloji çözümleri sağlayıcısı Shaip vardır. Özelleştirilebilir, optimize edilmiş ve verimli OCR eğitim veri kümeleri çeşitli müşteri projeleri için. Yeteneklerimizi tam olarak anlamak için bugün bizimle iletişime geçin.

sosyal paylaşım