Оптично разпознаване на символи (OCR). Програми за оптично разпознаване на символи ABBYY FineReader, CuneiForm

OCR (Оптично разпознаване на символи) може да се използва за конвертиране на хартиен документ в електронна версия. Например, ако многостранен екземпляр се сканира в TIFF файл, той се зарежда в OCR програма, която разпознава текста и след това го конвертира в редактируем файл. Някои програми ви позволяват да сканирате страници и да конвертирате съдържание в документ в една стъпка. Въпреки че технологията първоначално е била разработена за оптично разпознаване на символи, тя може да се използва и за ръкописни символи. Например, пощенски услуги като USPS използват OCR софтуер за автоматично обработване на писма и колети чрез четене на адреса.

Области на приложение OCR

OCR се декодира като оптично разпознаване на символи. Това е широко разпространена технология за разпознаване на текст вътре в изображенията като сканирани документи и снимки. Технологията се използва за преобразуване на почти всеки тип изображение, което съдържа писмен, ръкописен или отпечатан текст в машинно четими текстови данни.


OCR стана популярна в началото на 90-те години, когато се опитва да дигитализира исторически материал. Оттогава методът е претърпял значителни подобрения и в момента осигурява почти перфектна прецизност за оптичното разпознаване на символи. Разширените техники, като Zonal OCR, се използват за автоматизиране на сложни работни потоци, базирани наконвертиране на въведени текстове в цифрови документи. След като сканираният материал бъде обработен, текстът може да бъде редактиран с програми като Microsoft Word или Google Docs, които са текстови редактори. Преди да се появи тази технология, единственият начин за дигитализиране на отпечатаните документи беше ръчното въвеждане на текста. Не само отнема много време, но и води до неточности и грешки при възпроизвеждането на копието. OCR често се използва като "скрита" технология в много известни системи и услуги, които включват автоматизация на въвеждането на данни и индексиране за търсачките, автоматично оптично разпознаване на знаците на регистрационни номера, както и помощ за хора с увредено зрение.


Процесът на определяне на точността на текста

Всяка стъпка от процеса на OCR е важна за определяне на точността на окончателния текст. Тя започва с преобразуването на отпечатан документ. Ако има следи, петна и лош контраст, софтуерът ще прави грешки, докато разпознава, и резултатът ще се окаже неправилен. За да избегнете тези проблеми, можете да направите подобрена фотокопия за печат. Първият етап от работата е сканиране на отпечатания текст. OCR софтуерът работи с файлове с изображения. Скенерът или добрата цифрова камера създават ясни фотокопия на документи. По-добре е да конвертирате сканираните файлове в черно и бяло. Процесът е двоичен. При черен цвят на картината разпознаването на OCR текста се разпознава, а бялото - на заден план. Вторият етап еопределение на знака Скоростта на този процес зависи от програмата OCR, която използвате. Повечето от тях анализират всеки елемент поотделно. Целта на програмата е да идентифицира героите, но добрите програми разпознават не само текста, но и таблиците и другите елементи на оформлението.
Процесът не е перфектен, тъй като има много фактори, които влияят на точността. Кои програми са предназначени за оптично разпознаване на символи, ще разгледаме по-долу. И потребителят е свободен да избере най-доброто. OCRs имат вградени функции за проверка на правописа и подчертават подвеждащи думи. Някои от тях са толкова сложни, че отбелязват несъответствието на думи и граматични грешки, потребителят трябва само да направи необходимите корекции. Последната стъпка е да запазите готовия документ в правилния формат. Ако приложението не го направи необходимо, можете да се възползвате от множество безплатни онлайн конвектори.

Оптична технология за брайлова азбука

Технологията за оптично разпознаване на символи (OCR) дава възможност на слепите или хората с увредено зрение да определят текста и да го произнасят на глас. Това използва езиковия изход и показва информация на брайловия дисплей. Има три основни елемента на оптичната система за разпознаване на символи: придобиване, разпознаване и четене на текст. Първо, отпечатаният документ се заснема от камерата, след което софтуерът за разпознаване на знаци го преобразува в разпознаваеми символи и думи, а след това синтезаторът в системата изрича на глас определен материал или показва на брайловия дисплей. Информация можесъхраняват се по електронен път на устройство, работещо с OCR софтуер, или в памет на самостоятелно устройство.
Процесът отчита логическата структура на езика. Системата ще заключи, че например съюзът „това“ в началото на предложението е грешка и трябва да се чете като „това“. Той използва речника и прилага методи за проверка, подобни на тези, използвани в много текстови редактори. Всички OCR системи създават временни файлове, които съдържат символи и оформления на страници. В някои системи те могат да бъдат преобразувани във формати, които могат да бъдат намерени с помощта на често използвани компютърни приложения като текстов редактор, електронна таблица и бази данни.

Избор на програми за разпознаване на текст

Препоръчва се преднамерено да подходите към избора на софтуер за разпознаване на текста. Най-добре е да се тествате или да вземете предвид мнението на напредналите потребители. Тестването се провежда, като се вземат предвид следните фактори:
  • Точността е това, което отличава доброто OCR от лошото. Въпреки това е нереалистично да се очаква 100% точност на програмата за разпознаване на ръкописен текст. Фактори като качеството на оригиналните документи и разделителната способност на изображението значително засягат крайния резултат. Добрите OCRs достигат 98%, когато се използва модерен скенер и изходен код в задоволително състояние.
  • Многоезичие - Днес тази функция е собственост на повечето програми. OCR сканира отделен символ, за да го идентифицира. Ако е предназначена да разпознава само английски букви, тогава няма да можеза точно интерпретиране на специални знаци, например букви като букви, подчертаващи "e". Това ще представлява тези знаци с най-близкия еквивалент на английски език. Когато се прилага заявление, което подкрепя многоезичието, езикът на документа се посочва, за да се гарантира точността на признаването.
  • Поддръжка на ръкописен текст. Текстът, създаден с помощта на клавиатурата, се разпознава лесно от всяка програма. Въпреки това, ръкописният текст е напълно различен метод за сканиране. Хората имат много различен почерк. Някои пишат спретнато, докато повечето почерк не е достатъчно четлив. Качествените OCRs могат да разпознаят всеки почерк. Затова, за да архивирате ръкописни материали, имате нужда от програми за почерк.
  • Нивото на автоматизация. OCR може да се стартира автоматично или интерактивно. Ако трябва да сканирате много страници наведнъж, най-добре е да обмисляте автоматични програми. С тази функция можете да сканирате документи в няколко кликвания, докато изпълнявате други задачи, и лесно можете да намерите получения PDF файл, txt или doc. Повечето програми за свободно разпознаване на текст имат ограничена автоматизация.
  • Запазване на оформлението. Основната цел на тези програми е да преведат текста в електронна форма. Някои не запазват оформлението на оригиналния документ. Затова е необходимо да се редактира окончателната версия за дълго време. Една добра програма трябва да запази оригиналното оформление, след което в крайния екземпляр се изисква второстепенно копие. Такива програми съхраняват таблични колони и графични изображения, както в оригиналната версия.
  • Популярният софтуер за мобилни устройства

    OCR е чудесен за прехвърляне на текст от физически източници директно към цифров документ. Има различни видове приложения и приложения за настолни и мобилни устройства. Те са различни по цена и имат свои ключови отлични характеристики.

    Най-популярни Android скенери:
  • Офис обектив - Осигурява безплатно сканиране на страници и OCR за потребители на Android. За да конвертирате, трябва да се свържете с интернет.
  • PDF скенери (например, ABBYY TextGrabber, CamScanner, MDScan, OCR незабавно) - извършват сканиране с последващо OCR. Няма ограничения за броя на сканираните страници и няма водни знаци.
  • Онлайн OCR. Може да се намери в интернет, услугата е много проста и лесна за използване. Отличителната черта е, че поддържа 46 езика, изходният документ тежи не повече от 5 MB, лесно се конвертира в Microsoft Word, Excel или обикновен текстов формат. След регистрацията можете да конвертирате многостранични PDF, RTF, Excel и файлове до 100 MB. За големи обеми на признаване има платена версия.
  • Google Docs

    За тези, които вече са запознати с документите на Google, можете да използвате OCR, вграден в Google Диск. За да постигнете най-добри резултати, шрифтът трябва да бъде настроен на Arial или Times New Roman. Можете да подобрите резултата, като се уверите, че сканираното изображение има дори лек и ясен контраст. Фотоматериалите могат да бъдат обработвани поотделно в jpg, png, gif или в многостранични PDF документи. Разширението поддържа повечето езици.
    Google има много програми за обучение и възможности за обработка на облаци. Много потребители смятат, че услугата няма разширени функции и опции. Ако обаче използвате приложението Google Диск за Android, можете да сканирате страници директно от приложението, като използвате фотоапарат на смартфона си. В противен случай изтеглете документи с помощта на свързан към компютъра скенер или по друг начин, за да започнете обработката на разпознаване в Google Диск. За физическите лица Google Диск предлага безплатно ниво на съхранение от около 19 GB с възможност за разширяване до 100 GB чрез Google One за $ 199. САЩ.

    Оптично разпознаване от Abbyy

    Abbyy FineReader работи с документи от дълго време. Това е цялостно решение както за бизнес, така и за обикновените потребители. Тя ви дава възможност да получите всички необходими функции за извличане на съдържанието на текстове от пълномащабен четец, спретнато организирани цифровизирани материали. Освен разпознаване на текст и конвертиране в PDF, Microsoft Office или други формати, програмата може да ги сравнява, добавя пояснения и коментари. Abbyy FineReader може да конвертира материала в пакетния режим и да се справя с много изходни формати на 192 различни езика. Има придружаващи мобилни приложения, когато трябва да извършите бързо сканиране от телефона си. Софтуерът не е актуален, но е прост, функционален и работи добре с работата си. Програмата има солидна репутация като една от най-добрите възможности в областта на оптичното разпознаване на символи. Можете да използвате безплатния пробен период. ЗА разходи от19999 долара САЩ за стандартна единична постоянна лицензия. Ако някой изглежда скъп вариант, можете да вземете добра алтернатива на ABBYY FineReader - онлайн версия. Тя е ограничена до сканиране само на 10 страници на месец. Но идва с всички други премия функции. Трябва да се регистрирате, за да получите достъп. Той поддържа много входни файлови формати и можете да изберете изходни файлове като PDF, Word, Excel, PowerPoint и e-Pub.

    Обслужване в облак

    Adobe Acrobat отговаря на всички изисквания и предлага впечатляващ списък от функции и опции, въпреки че цената е малко по-стръмна от конкуренцията. За всички функции на оптичното разпознаване на текст изберете Pro версията на Adobe Acrobat. DC означава "документ облак" и се интегрира съвсем ясно с Adobe облак решение, ако искате да получите достъп до вашите файлове от всеки компютър. Има и проста и безпроблемна интеграция с всички други услуги на Adobe, като Photoshop. Ако потребителят реши да плати за Pro версията на Adobe Acrobat DC, той ще получи всички инструменти за разпознаване на текста, възможността за добавяне на коментари и обратна връзка към съдържанието, специализирана услуга за сканиране на таблици, възможността за бързо сравняване на два документа. Материалите могат да се редактират директно на екрана няколко секунди след сканирането им. Логото на Adobe гарантира определено ниво на качество, а потребителите са впечатлени от интуицията и възможностите на Adobe Acrobat DC. Абонаментът за услугата започва от $ 1,299. САЩ.

    Най-добър свободен софтуер

    Безплатното OCR за Word е най-добрият безплатен софтуерСофтуер за оптично разпознаване на символи, използващ най-новите механизми. Tesseract е най-мощният инструмент за този тип и се счита за един от най-точните методи. Програмата поддържа множество формати на изображения и TIFF на няколко страници. Тази услуга може да се използва напълно безплатно за извличане на текст от предоставения фото материал. Двигателят Tesseract първоначално е разработен от Hewlett Packard Labs през 1985-1994. Някои промени бяха направени в него през 1996 година. През 1995 г. той е включен в трите най-добри механизма за признаване. Той работи с Windows, Linux и Mac OS X. FreeOCR може да обработва изображения, които имат многоезичен и многоезичен текст. Той поддържа PDF формати и поддържа TWAIN устройства като скенери, има широкоразпространен интерфейс с два прозореца, който е лесен за разбиране.
    Свободното OCR за Word може да спести много време, без да се налага да въвеждате вече написана работа. Програмата отнема документ, сканиран обект или изображение и я преобразува в четлив, редактируем и точен материал. Можете да го изтеглите безплатно в Word. OCR в Word е оптимизиран за работа с всички видове скенери и има точност от 98%, модерен интерфейс, който улеснява достъпа до всички задачи, има ротационни функции в случай, че снимката не се побира правилно на екрана. FOR извлича текст от заснети изображения, използвайки смартфони или цифрови фотоапарати с висока точност и качество.

    Разпознаване на символи в Linux

    Пакетът OCRFeeder предоставя удобен графичен потребителски интерфейс за Linux.което е основно външен интерфейс за някои изображения, OCR и текстови инструменти, като например печат или проверка на правописа. Той не чете символите сам по себе си, а използва други OCR програми чрез така наречените "механизми за разпознаване". Той има определени параметри за Tesseract, CuneiForm, GOCR и Ocrad. Потребителят трябва само да инсталира в Ubuntu двигателите, които той или тя избере - един или повече, и след това да ги открие в настройките на Feeder. Можете да добавяте други двигатели и ръчно да променяте тези настройки. В едно приложение може да има няколко различни двигателя. Главният прозорец на устройството за подаване ви позволява да изберете в движение кой да използвате за дадена индустрия, но има и настройка за избор по подразбиране. За да изберете езика на прочетения текст, в случая на Tesseract и CuneiForm, трябва да добавите ключа -l към съответния код на език /скрипт, например "-l pol" за полски или "-l dan-frak" за датски език в настройките на този двигател. Технологията за оптично разпознаване на печатни букви "Tesseract" в началото може да разпознае текста на английски, версия 2.x го прави многоезичен. Ако е необходимо, можете да инсталирате повече от един речник. Новите версии цифровизират текста въз основа на ISO 963-2. След успешно инсталиране, използвайте командата "tesseract & gt; път на изображение & gt; базово име на изходния файл". Tesseract автоматично добавя изходния файл за разширение .txt, можете да зададете опцията -l, последвана от езиковия код. За версиите на Tesseract по-рано от третата, много е важно изображението да е малко по-различно от формата на файларазширение ".tif", а не ".tiff". Командният ред трябва да изглежда така: "$ tesseract ~ /input.tif output". Където "input.tif" е документ за преобразуване, намиращ се в началната папка и "output" е материалът, който Tesseract ще създаде като "output.txt". Често сканираните текстове се записват като растерни изображения в голям PDF документ. С помощта на ImageMagick отделните страници могат да бъдат извлечени като TIFF файлове за обработка от Tesseract. Следният скрипт може да помогне за автоматизирането на този процес.
    Програмата CuneiForm е друга система за оптично разпознаване на текст, която първоначално е била разработена и базирана на Cognitive Technologies с отворен код. Версия на Windows, която има свой собствен графичен интерфейс, може да се изпълни с някои резултати в Wine. Неговият Linux порт се разработва на Launchpad и въпреки че в момента няма собствен графичен интерфейс, CuneiForm може успешно да се стартира от графичния интерфейс на OCRFeeder. По-долу е даден пример как успешно да конвертирате някои скрийншотове на .jpeg табла за обяви в полезни текстови файлове онлайн.
    Pdfocr е скрипт, който изпълнява OCR за многостранични PDF файлове, както и го изпълнява като текстов слой за търсене. Той може да използва Tesseract или клинопис като механизъм за разпознаване. Самият скрипт може да бъде получен от Github или PPA. За да изпълните команда, напишете в терминала: "pdfocr -i input.pdf -o output.pdf". OCR технологията не стои на място, в дългосрочен план признава интелектуалната система за оптично разпознаване на символи - ICR. Този стандарт е усъвършенстван. голямчаст от ICR има система за самообучение, наречена невронна мрежа, която автоматично обновява базата данни за нови модели на почерк. Той разширява полезността на сканиращите устройства за целите на обработката на документи от разпознаването на печатен текст (OCR функция) до ръкописни материали и може да постигне повече от 97% точност при четене на ръкописен материал в структурирани форми.

    Свързани публикации