19-09-2018 13:04

Программы распознавания текста

Распознавание текста на отсканированных или сфотографированных документах довольно актуальная задача: в офисах нередко требуется оцифровать входящую корреспонденцию, то или иное постановление и т. д., а студентам при подготовке рефератов и курсовых работ приходится вставлять выдержки из бумажных либо электронных книг в формате DJVU. Да и просто взять текст с сайта, на котором копирование не работает, тоже проще всего через распознавание текста на скриншоте.

Тем, у кого потребность в распознавании текста возникает не чаще раза в месяц, можно посоветовать любой профильный онлайн-сервис или же всем известные бесплатные OneNote и «Google Документы». Можно воспользоваться и пакетом Adobe Acrobat. Однако для работы с большим количеством документов все перечисленные программы неудобны. В связи с этим рассмотрим несколько специализированных решений, созданных для распознавания текста и подходящих для постоянной работы с отсканированными документами.

ABBYY Finereader

Как оснастить конференц-комнатуВам будет интересно:Как оснастить конференц-комнату

Эта программа, пожалуй, не менее популярна в своем сегменте, чем Adobe Photoshop среди графических редакторов. И причина, конечно же, не только в продуманной маркетинговой политике, но прежде всего в высокой точности распознавания текста на многих языках и множестве дополнительных возможностей. Последняя версия продукта – 14-я.

Основные преимущества ABBYY Finereader:

  • Распознает 192 языка на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также иероглифического письма. Столь широкий охват связан с тем, что компания ABBYY разрабатывает также программы автоматического перевода текста.
  • Множество поддерживаемых форматов входящих файлов с текстом: PDF, PDF/А, TIFF, JPEG, JBIG2, PNG, BMP, GIF, DjVu, DOC(X), XLS(X), PPT(X), VSD(X), HTML, RTF, TXT и др.
  • Встроенный инструмент сканирования: программа сама подключается к системному сканеру.
  • Сохранение обработанного текста во множество форматов файлов: DOC(X), XLS(X), PDF, PDF/А, RTF, TXT, CSV, ODT, EPUB, FB2, DjVu, PPTX, HTML, TIFF, JPEG, PNG.
  • Программа позволяет работать с PDF как с простыми файлами: редактировать текст, комментировать, защищать документы и т. д. При наличии FineReader программа Adobe Acrobat, по сути, не нужна.
  • Конвертирование файлов из одного формата в другой.
  • Сохранение исходного форматирования отсканированного документа: программа воспроизводит расположение текста, таблиц, колонтитулов, примечаний, нумерацию страниц, содержание, оглавление и т. д.
  • Автоматическая обработка страниц: пользователь может помещать файлы, в которых надо распознать текст, в специальную папку, и программа будет автоматически сохранять обработанные документы. Данная функция доступна только в версиях Business и Enterprise.
  • Поддержка сравнения документов различных форматов (например, DOCX и PDF). Доступна только в версии Enterprise.
  • Как отключить обновления в Windows 10?Вам будет интересно:Как отключить обновления в Windows 10?

    Из недостатков можно назвать один, но довольно существенный: бессрочная лицензия самой дешевой версии FineReader стоит 6990 рублей, а подписка на год – 3190 рублей. Но для тех, кто постоянно работает с документами, причем это является частью их бизнеса, данный недостаток вряд ли станет препятствием для приобретения продукта.

    Readiris Pro

    Довольно мощное решение для распознавания текста в отсканированных документах. Программа совсем немного уступает FineReader в основном назначении и даже имеет дополнительные инструменты, которые отсутствуют у лидера. В настоящий момент актуальна 17-я версия.

    Достоинства:

  • 138 распознаваемых языков – ниже, чем у FineReader, но тоже впечатляет. К тому же далеко не каждому отечественному пользователю требуется распознавать документы на иностранных языках.
  • Встроенный инструмент сканирования документов: программа может сама подключаться к сканеру и получать с него изображение для дальнейшей обработки.
  • Распознавание текста с файлов изображений форматов PDF, JPEG, DOC, RTF, JPEG, PNG, PPT и т. д. – поменьше числом, чем у FineReader, но основные форматы в наборе есть.
  • Инструменты для работы с PDF-файлами те же, что в FineReader: редактирование, комментирование, защита документов и т. д.
  • Чтение вслух PDF-файлов. А вот этого инструмента в FineReader нет. Можно сказать, эксклюзив Readiris Pro.
  • Распознавание таблиц.
  • Импорт обработанного текста в программы Microsoft Office.
  • Пакет предлагается в двух версиях – Readiris Pro и Readiris Corporate (поддерживает еще пакетную обработку документов и создание PDF/A). Обе распространяются с постоянными лицензиями: первая стоит €99, вторая – €199. Как видим, самая дешевая сопоставима по цене с младшей версией FineReader. Так как различия по функциональности непринципиальны, то при выборе стоит ориентироваться на удобство для конкретного пользователя.

    Freemore OCR

    Абсолютно бесплатная программа, однако и по функциональности, и по удобству она уступает двум предыдущим. К тому же вместе с Freemore OCR пытается установиться различный рекламный мусор, чему активно сопротивляется антивирус.

    Особенности Freemore OSR:

    1. По умолчанию поддерживается распознавание только английского текста. Пакеты других языков нужно загружать дополнительно.

    2. Наличие встроенного инструмента сканирования документов.

    3. Поддержка распознавания текста с графических файлов JPG/JPEG, TIF, TIFF, BMP, GIF, PNG, EMF, WMF, JPE, ICO, JFIF, PCX, PSD, PCD, TGA и т. д.

  • Несколько инструментов для работы с PDF-файлами. Например, поддерживается шифрование файлов, цифровая подпись.
  • 5. Экспорт обработанного текста в Microsoft Office.

    6. Форматирование исходного документа программа, к сожалению, не сохраняет.

    Как видим, бесплатное решение явно на уровень ниже развитых платных аналогов. Но все же Freemore OCR распознает текст лучше, чем онлайн-сервисы или программы, в которых эта функция встроена в качестве дополнительной (например, тот же OneNote с ошибками распознает скриншот с самого себя). Да и удобнее при работе с большим количеством документов использовать именно специализированную программу. В общем, если финансовая ситуация сложная, Freemore OCR может стать выходом. Только стоить учесть, что и с установкой этого продукта придется помучиться.

    Выводы

    Каких-то пять-десять лет назад конкуренция в сегменте программ распознавания текста была выше и количество таких продуктов было больше. Но теперь в явные лидеры выбились FineReader и Readiris Pro, оставив соперников далеко позади.

    Что же касается бесплатных решений, то их предложение заметно сузилось. Помнится, CuneiForm распознавала текст почти как FineReader, да и по функциональности не слишком уступала, однако ее поддержка прекращена, как и ряда других аналогов. Похоже, эту нишу прочно заняли онлайн-сервисы и продолжать поддержку программ не имеет смысла.