07-11-2019 08:42

ABBYY FineReader: уже пятнадцатый

ABBYY FineReader: уже пятнадцатый

Первая версия программы FineReader увидела свет в далеком 1993 году, и умела она только распознавать и сохранять в редактируемых форматах сканированные тексты на русском и еще нескольких языках. А пятнадцатая версия, которая вышла на рынок в конце августа нынешнего года, позиционируется уже как универсальный инструмент для работы с бумажными и PDF-документами на цифровом рабочем месте, использующий технологии оптического распознавания символов и конвертации документов, основанные на возможностях искусственного интеллекта, и позволяет распознавать тексты на 192 языках.

HP Spectre Folio13-ak0007ur: кожа, металл и стеклоВам будет интересно:HP Spectre Folio13-ak0007ur: кожа, металл и стекло

ABBYY предлагает три варианта программы: Standard, Business и Corporate. Первый предназначается для домашних пользователей, второй – для небольших и средних компаний, а третий, включающий полный набор функций, – для крупных и средних компаний. В состав Corporate включена программа, которая по расписанию производит автоматическое распознавание документов, помещаемых в «горячую папку» – ABBYY Hot Folder. В этой версии есть также инструмент для сравнения документов, представленных в разных форматах, с формированием перечня выявленных различий и возможностью сохранения результатов сравнения в формате Word, где все изменения уже подсвечиваются в режиме Track Changes, в PDF с комментариями в местах изменений или в виде таблицы с перечнем правок в Word. Для каждой версии можно купить либо бессрочную, либо годовую лицензию.

Neoline X-COP 8700s: нужный замкадышВам будет интересно:Neoline X-COP 8700s: нужный замкадыш

img

Исходная страница книги в формате PDF

ABBYY FineReader 15 позволяет открывать, просматривать и редактировать PDF-документы, добавлять к ним комментарии, графические пометки и закладки, работать с вложенными файлами, осуществлять поиск по тексту. Если исходный PDF-документ не содержит текстового слоя, программа производит фоновое распознавание текста и таким образом обеспечивает возможность поиска по ключевым словам. Отсканированный документ с помощью OCR-редактора можно проанализировать, выделить блоки изображений и текстовые блоки и сохранить в формате PDF, который с помощью имеющегося набора инструментов превращается фактически в редактируемый: можно исправлять опечатки, добавлять и удалять тексты, перемещать и переформатировать текстовые блоки, редактировать таблицы, добавлять и удалять страницы, заполнять формы, совместно работать с документами, подписывать их электронной подписью и защищать с помощью пароля, а также объединять несколько документов в один PDF-файл, преобразовывать в другие редактируемые форматы и т. д. (Полный перечень возможностей программы и подробное «Руководство пользователя» представлены на сайте производителя.)

img

Она же после автоматического преобразования в формат Word

При тестировании программы она легко справилась с такими задачами, как сканирование и распознавание бумажных документов, создание и редактирование PDF-документов и преобразование их в документы Word. Например, преобразование книги формата А5 на 488 страницах из PDF в Word заняло около пяти минут, при этом в тексте объемом без малого 890 000 знаков программа сделала всего 16 мелких ошибок (лишние пробелы, длинное тире вместо короткого, неверно распознанные буквы) – это ничтожно мало. В исходном PDF-файле не было текстового слоя, но FineReader примерно за 45-50 секунд просматривал 488 книжных страниц и находил заданные слова и словосочетания. После сохранения книги в PDF с текстовым слоем поиск занимал около 30 секунд.

img

Автоматически «исправленное» при преобразовании изображение страницы

С преобразованием страниц с иллюстрациями дело обстояло похуже: в автоматическом режиме с настройками по умолчанию искусственный интеллект допускал ошибки. При преобразовании брошюры из PDF в Word программа 10 из 14 фотографий альбомного формата (в брошюре они располагались с поворотом на 90º) разрубила пополам, поместив каждую половинку на отдельную страницу (интересно, что неразделенными остались фотографии, подписи под которыми были длинными – это подсказка разработчикам). Еще одну картинку искусственный интеллект повернул примерно на 30º вместе с подписью.

Проблемы удалось решить, сняв в настройках галочки против пунктов «Делить разворот книги» и «Исправлять ориентацию страницы». В сложных случаях полагаться на ИИ не приходится, нужно контролировать и вручную корректировать расположение текстовых полей и иллюстраций, а также обращаться к «Редактору изображений». Этот инструмент предлагает широкий спектр возможностей, в том числе весьма полезных в случае, когда в качестве исходного материала для распознавания используются фотографии документов: можно исправить трапециевидные искажения, искажения строк, изменить яркость, контрастность и т. д. Предусмотрена также возможность удалить цветные пометки с черно-белого документа. Исправления можно производить вручную либо щелкнуть по пункту «Рекомендуемая обработка» и затем по кнопке «Выполнить обработку» – программа сделает со страницей то, что ей подскажет ее искусственный интеллект, но результат надо контролировать и иногда корректировать.

img

Инструментарий «Редактора изображений»

Зарегистрированные пользователи ABBYY FineReader 15 получают в качестве бонуса ABBYY Screenshot Reader – этот инструмент заслуживает отдельного упоминания. После его запуска (автономно из меню «Пуск» или из работающей программы FineReader) на экране появляется окошко с настройками: можно выбрать – весь экран или только выделенная область будет на снимке, при необходимости указать, на каком языке представлен текст в данной области, а также указать, куда передать результат распознавания текста или изображение выделенной области. После этого с помощью мышки вы выделяете нужную часть экрана, щелкаете «Сделать снимок» – и готово: изображение сохраняется в буферной памяти, а если требовалось распознавание, то его результат в виде текста или таблицы поступает в буфер, передается в Word или Excel или сохраняется в файл.

img

Окно настроек приложения ABBYY Screenshot Reader

Часть картинок для этой статьи была сделана с помощью этого удобного инструмента. Распознавание текста в выделенной области экрана оказалось очень удобным, в частности, для копирования текстов из презентаций, в том числе и на иностранных языках. Если это приходится делать часто, значок ABBYY Screenshot Reader можно закрепить на панели задач Windows.

Ключевые слова: тесты и обзоры

Достоинства: Высокое качество распознавания текстов Широкий набор инструментов для работы с PDF

Недостатки: Высокая цена

Ориентировочная цена: 8690 (бессрочная Standard)

Журнал: Журнал IT-Expert [№ 10/2019], Подписка на журналы

Компания: ABBYY

Поделиться: