IronOCR to przydatna biblioteka .NET wprowadzająca funkcję OCR, czyli optycznego rozpoznawania znaków z plików PDF i obrazów.
Narzędzie bazuje na zaawansowanym silniku Tesseract, który jest szeroko wykorzystywany na całym świecie.
IronOCR umożliwia skutecznie rozpoznawanie tekstu z dokumentów i obrazów w aż 127 językach. Nie wszystkie są jednak domyślnie zawarte w bibliotece – wystarczy je doinstalować. Wśród obsługiwanych języków znalazł się też polski.
Silnik rozpoznawania może działać w trzech trybach jakości: wysokiej, średniej oraz szybkiej. Deweloperzy mogą dodawać własne języki, a nawet pojedyncze słowa.
IronOCR zawiera w sobie aż trzy wersje silnika rozpoznawania: Tesseract 3, Tesseract 4 oraz Tesseract 5. Możliwe jest jednoczesne wykorzystanie wszystkich wersji w celu poprawy skuteczności rozpoznawania znaków.
IronOCR umożliwia:
- rozpoznawanie tekstu z plików PDF
- rozpoznawanie tekstu z plików obrazu (JPG, PNG, GIF, TIFF, BMP)
- rozpoznawanie tekstu z kodów kreskowych (obsługa ponad 20 rodzajów kodów)
- rozpoznawanie tekstu z kodów QR
- rozpoznawanie tekstu z paragonów, czeków i faktur.
IronOCR jest kompatybilny z następującymi językami .NET: C# VB.NET F#
Uwaga:
Instrukcja instalacji znajduje sie na stronie producenta.