Файн ридер разбивает страницу на две как исправить

Советыпо получению изображений

Качество распознавания зависит от качества исходного изображения и отвыбранных настроек сканирования.

● Настройка параметров сканирования и открытияизображений

● Выбор интерфейса сканирования

Подробнее о сканировании через интерфейс ABBYY FineReader и через интерфейс драйвера сканера, особенностях
этих интерфейсов и способе переключения между ними.

● Настройка яркости сканирования

● Если в исходном изображении мелкий шрифт

● Если вы видите сообщение о необходимостиизменить разрешение

● Сканирование книжного разворота

● Как сфотографировать текст

Данная статья поможет вам выбрать режим работы фотоаппарата и получитьснимок документа, пригодный для
распознавания текста.

● Автоматическая предобработка изображений

● Как обработать изображение вручную

Настройкапараметров сканирования и открытия изображений В программе ABBYY FineReader вы можете менять общиеопции автоматической обработки документа, а также опции сканирования и открытиястраниц документа: включать/отключать автоматический анализ и автоматическоераспознавание документа, предобработку изображений, выбирать интерфейссканирования.

Выбрать необходимые параметры вы можете непосредственно в диалогах открытияили сканирования изображений (если вы используете для сканирования интерфейсABBYY FineReader ), а также на закладке С канировать/Открыть диалога Опции (менюСервис>Опции…).

На закладке С канировать/Открыть диалогаОпции вы можете изменить следующие настройки:

● Запуск автоматического анализа ираспознавания полученных изображений.

Анализ и распознавание документа ABBYY FineReader по умолчанию выполняются автоматически. При необходимости вы можете изменитьэтот режим. Возможны следующие варианты:

● Автоматически распознавать полученныеизображения

Анализ и распознавание документа будут производиться автоматически.

● Автоматически анализировать полученныеизображения

Анализ документа будет выполняться автоматически, а распознавание нужнобудет запускать вручную.

● Отключить автоматический анализ ираспознавание изображения

● Способы обработки изображений.

● Выполнять предобработку изображений

● Определять ориентацию страницы

● Делить разворот книги

Замечание. Вы можете не использовать опциипредобработки изображений при сканировании или открытии страниц документа, авыполнить необходимую обработку в уже открытом документе с помощью редактораизображений.

Подробнее см. «Как обработать изображение вручную».

● Интерфейс сканера, который будетиспользоваться при сканировании.

Выбор интерфейсасканирования

В программе ABBYY FineReader возможны следующиеварианты взаимодействия программы со сканером:

● Разрешение, яркость и тип изображения.

● Опции предобработки изображений:

● Определять ориентацию страницы — включите эту опцию для автоматического определения ориентациистраницы при сканировании

● Делить разворот книги — включите эту опцию для автоматического разбиения сдвоенных страницна отдельные изображения

● Выполнять предобработку изображений — включите эту опцию для выполнения автоматической обработкиотсканированных изображений

● Опции для сканирования многостраничныхдокументов:

● Использовать автоподатчик (ADF)

● Применять автоматическое двустороннеесканирование (если данная возможность поддерживается сканером)

● Установить задержку между сканированиемстраниц на указанное количество секунд

Замечание. Для некоторых моделей сканеров опция И спользовать интерфейс ABBYY FineReader может быть недоступна.

2. Через интерфейс TWAIN–драйвера сканера или WIA–драйвера сканера.

Для настройки опций сканирования используется диалог драйвера сканера. Видокна и описание его элементов вы
найдете в документации, прилагаемой к сканеру.

Внимание! Для того чтобы правильно подключитьсканер, обратитесь к документации, прилагаемой к устройству.

Настройка яркостисканирования

Если яркость сканирования была подобрана неверно, при распознаваниивозникнет сообщение о необходимости
изменить яркость сканирования. Для сканирования некоторых документов вчерно–белом режиме может понадобиться дополнительная настройка яркости.

Как изменить яркость:
1. Нажмите кнопку С канировать.
2. В открывшемся диалоге укажите яркость.
В зависимости от используемого интерфейса сканирования, откроется диалогсканирования ABBYY FineReader или диалог драйверасканера. В большинстве случаев подходит среднее значение яркости — 50%.
3. Отсканируйте изображение.

Если в полученном изображении вы обнаружили большое количество дефектов(разрывов или склеек букв), то обратитесь к таблице, приведенной ниже. В ней указаны возможные способы их устранения.

Особенности входного изображения

Пример хорошего (пригодного для распознавания)

«разорванные»; светлые, тонкие буквы

● Уменьшите яркость (чтобы изображение стало темнее)

● Отсканируйте в сером (в этом случае осуществляется автоподбор яркости)

● Увеличьте яркость (сделать изображение светлее)

● Отсканируйте в сером (в этом случае осуществляется автоподбор яркости)

Если в исходномизображении мелкий шрифт

Для успешного распознавания текста с мелким шрифтом необходимо отсканироватьдокумент с более высоким
разрешением.
1. Нажмите кнопку С канировать.
2. В открывшемся диалоге укажите разрешение.
В зависимости от используемого интерфейса сканирования, откроется диалогсканирования ABBYY FineReader или
диалог драйвера сканера.
3. Отсканируйте изображение.
Сравните результаты сканирования одного и того же документа с разнымизначениями разрешения. Для этого просмотрите полученные изображения в окне Крупныйплан в масштабе С точностью до пикселя (менюВид>Окно Крупный план>Масштаб):

Особенности входного изображения

300 dpi — для обычных текстов (размер шрифта 10 и более пунктов).

400–600 dpi — для текстов, набранных мелким шрифтом (9 и менее пунктов).

Если вы видитесообщение о необходимости изменить разрешение

Разрешение изображения показываетнасколько детальным является данное изображение.Разрешение обычно

Внимание! Для качественного распознавания текстанеобходимо, чтобы разрешение изображения по вертикали и по горизонталисовпадало.

Слишком большое разрешение (более 600 dpi )приводит к увеличению времени распознавания текста. При этом качествораспознавания существенно не улучшится. Слишком маленькое разрешение (менее 150 dpi ) может приводить к ухудшению качествараспознавания.
Ситуации, когда может появляться сообщение о коррекции разрешения:

● Если изображение имеет нестандартноеразрешение.

Совет. Также вы можете исправить разрешение вдиалоге Редактор изображений (меню Страница >Р едактироватьизображение страницы…).

Сканированиекнижного разворота

Внимание! Если изображение содержит текст накитайском или японском языке, воспользуйтесь редактором изображений для разделения страниц вручную. Автоматическое разделение страницы длятаких изображений не поддерживается.

Как разделить страницу на две вручную:
1. Откройте диалог Редактор изображений (меню Страница >Р едактироватьизображение страницы…).
2. С помощью опций группы Р азбить разделитестраницу.

Каксфотографировать текст

Замечание. Технические параметры вашего фотоаппаратаи инструкции по работе с ним приведены в описании вашего устройства и другойприлагаемой к нему документации.

Перед съемкой убедитесь в том, что:
1. Страница целиком умещается в кадре.
2. Свет достаточно ровный, без теней на фотографируемом тексте.
3. Объектив располагается параллельно поверхности съемки и по центру фотографируемого изображения. Неровности бумаги (например, укорешка книги) нужно по возможности разгладить.

Требования к фотоаппарату

● Переменная дистанция фокусировки. Нерекомендуется использовать фотоаппараты с фиксированным фокусом

( сфокусированные на гиперфокальное расстояние).Такие камеры обычно встречаются в сотовых телефонах и КПК.

● Возможность отключения фотовспышки.

● Возможность установки диафрагмы вручную —т.е. наличие режима приоритета диафрагмы или ручного режима.

● Режим ручной фокусировки.

● Объектив с оптической стабилизациейизображения, при его отсутствии рекомендуется использовать штатив.

Рекомендации по проведению фотосъемки

По возможности обеспечьте хорошее освещение, лучше всего дневное. Еслииспользуется подсветка, то лучше
использовать подсветку двумя лампами с разных сторон, чтобы избежатьобразования теней.

Как располагать фотоаппарат

Для съемки документов рекомендуется использоватьштатив. Объектив должен располагаться параллельно поверхности съемки и по центру фотографируемого изображения.
Фотоаппарат должен быть удален от страницы настолько,чтобы при максимальном оптическом увеличении страница полностью умещалась вкадре. Обычно это расстояние около 50–60 см.

Если освещение позволяет, вспышку лучше всего отключить, поскольку она создает пересвеченные области ирезкие
тени. При недостаточном освещении, если съемка ведется с достаточного расстояния (

50 сантиметров), можноиспользовать вспышку.

Замечание. При использовании вспышки желательноподсветить документ.

Внимание! Категорически не рекомендуетсяиспользовать вспышку при съемке документов,отпечатанных на глянцевой бумаге.

Недостаточно освещения для фотосъемки

При недостаточном освещении рекомендуется:
● Выбрать небольшое значение диафрагмы,т.е. максимально открыть диафрагму. Если съемка ведется при ярком дневном свете, значение диафрагмы лучшеувеличить, чтобы получить более резкий снимок.
● Выбрать большую чувствительность матрицы (большеезначение ISO).
● Использовать ручную фокусировку, так какавтоматический фокус может срабатывать плохо (аппарат не можетсфокусироваться).

Снимок слишком темный и неконтрастный

Постарайтесь улучшить освещение. Если такой возможности нет — установитеменьшее значение диафрагмы.

Возможно, автофокус плохо срабатывает из–за отсутствия света. Попробуйтеулучшить освещение. Если это не помогает, используйте ручную фокусировку.
Если нерезкая только часть снимка — попробуйте выставить большее значение диафрагмы.Снимайте с большего расстояния при максимальном оптическом увеличении. Наводитефокус на точку, расположенную между центром и
краем изображения.
При недостаточном освещении в автоматическом режиме используются большиевыдержки, что отрицательно сказывается на резкости получаемого изображения.Поэтому рекомендуется дополнительно:

Читайте также: Ким сон о разбился

● Использовать стабилизатор изображения.

● Использовать автоспуск. Это позволитизбежать подрагивания камеры при нажатии на кнопкуспуска. Такие проблемы могут возникать даже при наличии штатива.

Вспышка создает пересвеченную область в центре кадра.
Отключите вспышку. Если нет возможности использовать другие источники света,снимайте с большего расстояния.

Автоматическаяпредобработка изображений

На качество распознавания могут отрицательно влиять искажение строк,перекос, наличие шумов и другие дефекты,
которые свойственны отсканированным изображениям и цифровым снимкам.
Для устранения подобных дефектов в программе предусмотрена опция автоматическойпредобработки изображений.
Если она включена, то, в зависимости от типа входного изображения, программасама определит, какая корректировка необходима, и выполнит её: удалит шумы сцифровых фотографий, выровняет изображение при перекосе, выровняет документ полиниям текста, исправит искажение перспективы.

Замечание. Для выполнения данной операции можетпотребоваться значительное время.

Чтобы при сканировании и открытии изображений выполнялась их автоматическаяпредобработка:
1. Откройте диалог Опции (меню Сервис>Опции…).
2. Убедитесь, что на закладке С канировать/Открыть вгруппе Обработка изображения отмечена опция Выполнять предобработкуизображений.

Внимание! Включать/отключать опцию автоматическойпредобработки можно также в диалоге открытия изображений

Замечание. Если в процессе сканирования или открытияизображений опция В ыполнятьпредобработку изображений

была отключена, вы можете отредактировать изображение вручную с помощьюредактора изображений.

Как обработатьизображение вручную

● Исправить перекос —выровнять перекос изображения

● Фотокоррекция — устранить неровность строк текста, шумы и нечеткость изображения

● Трапециевидные искажения — исправить искажение перспективы

● Повернуть и отразить —повернуть изображение, чтобы привести те кст к ст андартномунаправлению

(горизонтально, слева направо)

● Разбить — разбитьизображение на отдельные изображения, например, разделить сдвоенную страницу

● Обрезать — удалитьненужные края изображения

● Инвертировать —инвертировать цвета на изображении, чтобы привести те кст к ст андартномувиду ( темный текст на светлом фоне)

● Разрешение изображения — изменить разрешение изображения

● Ластик — удалитьчасть изображения

Нажмите кнопку нужного инструмента и выполните необходимые операции.Результат можно сразу увидеть в левой
части диалога. Большинство инструментов вы можете применить сразу ко всемизображениям страниц документа,
отметив опцию П рименить ко всем изображениям.
3. После выполнения всех необходимых действий закройте диалог системной кнопкой .

Настройкапараметров распознавания

Замечание. Если вы изменили язык распознавания,выделили области на изображении вручную или изменили другие настройкипрограммы, выполните распознавание заново.

На закладке Р аспознать диалога Опциивы можете изменить настройки для следующих групп опций:

Выберите один из режимов распознавания.
В ABBYY FineReader 10 предусмотрено два режимараспознавания:

Данный режим пригоден для распознавания как простых, так и сложныхдокументов. Например, для документов,
содержащих текст на цветном фоне, или для документов, содержащих таблицы, в томчисле таблицы без линий сетки и таблицы с цветными ячейками.

Замечание. По сравнению с Быстрым режимом распознавания, Тщательный режим требуетбольше времени,

но обеспечивает лучшее качество распознавания.

Данный режим рекомендуется для обработки больших объемов документов с простым оформле

Источник

Инструкция: как редактировать документы и распознавать тексты с иероглифами в ABBYY FineReader 15

PDF-документы давно стали необходимой составляющей офисной работы. В этом формате хранятся цифровые архивы, юристы согласуют договоры, дизайнеры верстают брошюры, издательства публикуют электронные книги. До недавнего времени главным достоинством и одновременно с этим недостатком PDF-документов было отсутствие возможности редактировать текст в них. Благодаря развитию технологий эту и другие задачи научилась решать программа ABBYY FineReader, которая стала многофункциональным редактором любых документов. «Хайтек» вместе с ABBYY рассказывает, как технологически устроено редактирование PDF-документов в новой версии FineReader 15, каким образом программа сравнивает версии документов и как работает распознавание иероглифов с помощью нейросетей.

Читайте «Хайтек» в

Диджитализация документооборота массово началась еще во второй половине ХХ века. Многие предприятия переходили на электронные документы. В офисах устанавливали первые компьютеры со специальным софтом для обработки и хранения важной информации. Тогда и появились популярные текстовые редакторы. Сотрудники набирали вручную документы, а затем, с появлением в 1993 году PDF, стали экспортировать их в этот формат.

На первый взгляд казалось: если весь документооборот станет электронным, то о шкафах с бумажными каталогами и завалах на рабочих столах можно будет забыть. На практике оказалось, что чем больше организация использует компьютеры для цифрового документооборота, тем больше документов она печатает. 64% крупных компаний уверены, что по крайней мере до 2025 года печать будет значимой частью их бизнеса. С другой стороны, если сегодня в офис по традиционной почте приходит бумажный документ, его немедленно отсканируют и переведут в цифру. Как правило, сканы документов хранят в виде PDF-файлов.

Документом в формате PDF удобнее пользоваться — его можно послать по электронной почте с уверенностью, что информация дойдет до адресата без искажений (если, конечно, кто-то не решит внести изменения собственноручно), и, в отличие от DOC, его трудно изменить. Это особенно важно, если речь идет о контрактах или коммерческих предложениях.

Офисные сотрудники отмечают рост объемов использования PDF: каждый второй респондент ответил, что регулярно работает с документами в этом формате и нуждается в специализированной программе. За последние два года количество таких рабочих файлов в мире выросло в три раза — эти данные приводят эксперты IDC в исследовании «Addressing the document disconnect». В России PDF также пользуется популярностью. Также по результатам исследования ABBYY выяснилось, что в наиболее частые сценарии работы с PDF-документами вошли совершенно не типичные для этого формата ранее задачи: 52% респондентов вносят мелкие правки в текст PDF, исправляют ошибки или опечатки; 62% опрошенных часто ищут информацию в тексте PDF и 60% копируют текст из документа. Поэтому от программ, работающих с PDF, требуются новые возможности для редактирования, сравнения и распознавания текстов. Все они есть в новом FineReader 15.

Почему так сложно редактировать текст в PDF?

Изначально PDF не предназначался для того, что его каким-либо образом изменяли. Что было и его преимуществом — это безопасность, одинаковое отображение на любом устройстве и удобный способ обмена информацией, и недостатком — невозможность внесения правок, поиска по тексту и сравнения документов.

Особенности отображения текста в PDF

Несмотря на то, что PDF — это формат текста, в цифровом виде эти буквы, слова и предложения на самом деле не существуют, они «нарисованы». Содержимое хранится в виде потоков — это могут быть текст, изображения и векторная графика. Типичных для формата DOC слов, строчек, абзацев и таблиц в PDF нет. В формате нет и букв как таковых, а есть коды символов. Такие коды с одинаковыми характеристиками объединяются в группы по виду и размеру шрифта. Этот шрифт определяет, как символ должен отображаться в документе, сопоставляя код символа и глиф — набор команд для отрисовки. Еще одно отличие от обычного текстового документа — объекты в PDF существуют в трех измерениях. По координате Z судят о глубине расположения объекта на странице, ведь текст может находиться поверх изображения или наоборот.

Текст в PDF- документе напоминает «мешочек букв», который нужно правильно отобразить в конкретных местах документа с соответствующим форматированием.

С 2008 года PDF стал открытым форматом, что позволило разработчикам без проблем и дополнительных отчислений создавать программы для чтения файлов PDF, конвертеры и другие полезные вещи. Развитие OCR привело к тому, что у ранее неизменного PDF-документа появилась возможность редактирования — сначала построчного, а затем и в пределах абзацев.

Как ABBYY FineReader помогает редактировать PDF

Чтобы редактировать PDF-документ, его необходимо сначала подготовить к этому. Главная задача этого процесса — понять и проанализировать структуру текста. А ключевая сложность — отсутствие как абзацев, так и вообще форматирования в PDF. Поэтому сразу после того, как программа распознала текст, она начинает воссоздавать абзацы.

Если речь идет о digital-born-документе (изначально созданный на компьютере, а не отсканированный бумажный документ — «Хайтек»), то в режиме редактирования подключаются фоновые процессы, и программа приступает к анализу структуры документа. Для этого используется технология, которая строит блоки на основе данных, записанных в PDF, а не на основе распознавания. За считанные доли секунды технология должна пройти всю цепочку по определению параметров текста: места, где находятся заголовки, подзаголовки, отдельные абзацы и другие элементы. Потом — распихать «мешочки букв» по этим блокам, сформировать строки.

Следующий этап — синтез. Специальные технологии определяют внешние параметры текста — отступы и межстрочные интервалы. Благодаря этому из хаотичной структуры снова появляется текстовый документ с форматированием. И уже в него можно вносить правки — менять слова и целые абзацы, исправлять форматирование, сохранять изменения и так далее.

Функция построчного редактирования уже была в предыдущей версии FineReader (ABBYY FineReader 14 вышла в январе 2017 года — «Хайтек»). Этого было достаточно, чтобы внести небольшие исправления в текст: заменить несколько букв или цифр. Новый ABBYY FineReader 15 стал универсальным текстовым редактором, в котором вносить изменения можно в целые абзацы.

Как отредактировать текст в отсканированном документе

Отдельная офисная задача — отредактировать скан-копию бумажного документа. Раньше для этого пользователю приходилось конвертировать файл в редактируемый формат или просто искать исходник.

Когда пользователь редактирует скан, ABBYY FineReader 15 в первую очередь распознает документ и создает временный текстовый слой на тех страницах, которые пользователь просматривает. В режиме редактирования создается текстовое представление страницы — именно его редактирует пользователь. Затем эти правки встраиваются в изображение страницы в отсканированном документе.

Как найти в PDF внесенные правки и избежать обмана

Сравнение документов — особо важный для бизнеса сегмент офисных задач. Прежде всего, потому что неожиданные правки могут стоить очень больших денег. Иногда их незаметно пытаются внести в уже подписанный договор и воспользоваться человеческой невнимательностью — такие документы обычно сравнивают юристы, внимательно вычитывая распечатки оригинала, созданного в Word, и ответа контрагента — отсканированный вариант.

Поиск отличий в текстовых документах может быть полезен еще и в том случае, если над ними работают одновременно несколько человек или со временем один и тот же файл периодически изменяют. Это позволяет быстро найти последние правки, которые внесли в файл коллеги. В файлах DOCX для этого есть режим Track Changes, создающий на основе двух версий документа третью — с подсвеченными отличиями в тексте. В новом ABBYY FineReader 15 можно сохранить результаты сравнения любых документов в таком DOCX c Track Changes и в привычном режиме увидеть все различия.

Сравнивать в ABBYY FineReader 15 можно практически что угодно — PDF, сканы или изображения, файлы DOC, DOCX и даже таблицы из Excel. В программу загружаются оба документа, которые при необходимости распознаются с помощью OCR. На основе извлеченного текста в документе определяются дополнительные элементы форматирования — например, колонтитулы, нумерация списков. В программе используется специальный алгоритм, который позволяет быстро выявлять отличия в версиях документов.

Разностный алгоритм принимает два файла на вход. Первый, обычно более ранний — файл А, второй — файл B. Алгоритм определяет количество вставок или удалений, необходимых для превращения одного файла в другой, находя для этого кратчайший путь.

Сравнение проходит в три этапа. Сначала текст, полученный в результате распознавания, разбивается на параграфы. Алгоритм считает, что один параграф — это один объект для сравнения. Все несовпадающие фрагменты обрабатываются во время второго прохода алгоритма — уже по строчкам. Программа определяет, какие строки внутри параграфа совпадают не полностью.

Остается последний проход, уже в рамках несовпадающих строк, который сравнивает отдельные буквы. Этот процесс чуть сложнее: дополнительно используются различные эвристики — варианты распознавания. Если буквы совпадают по вариантам распознавания и процент уверенности распознавания этого элемента превышает 50%, то считается, что они эквивалентны. Не учитываются в качестве различий разные виды кавычек, скобок и маркеры списка.

Для каждого символа существует несколько вариантов распознавания: иногда их число доходит до 20. У каждого из этих вариантов есть процент уверенности, на сколько, по оценке технологии, буква соответствует отсканированному изображению. Затем в ходе анализа документа часть вариантов исключается, так как они не соответствуют эталону или не подходят по морфологии.

На этапе сравнения в программе запускается проверка: совпадает ли эта буква с той, что в документе? Если буква получена в результате распознавания, то проверяется похожесть символов в версиях и рассматриваются варианты распознавания. Возможно, «А» в бумажном документе распозналась ошибочно, и из-за этого при сравнении могут возникнуть разночтения. Тогда в вариантах распознавания ищется другая буква, у которой тоже высокий процент вероятности. Если вероятность больше 50%, в распознанном документе происходит замена. Это помогает избежать ошибок из-за плохого качества сканов.

Но поиск отличий в тексте — лишь один из этапов сравнения документов. Необходимо представить найденные отличия в том виде, в котором пользователю будет комфортно с ними работать. Например, слово «мама» заменили на «папа». По факту изменились только две буквы. Но более наглядно для пользователя будет выглядеть полная замена одного слова на другое, а не замененные на «п» буквы «м». Поэтому программа дорабатывает различия: растягивает и объединяет их до конца слова, строки или параграфа. Программа пытается восстановить логику, по которой действовал человек, вносивший исправления. И сделать так, чтобы различие выглядело более естественно и читалось понятно.

В завершении работы с документами программа объединяет обнаруженные различия в группы. Это необходимо, например, чтобы отделить внесенные исправления в основном тексте от колонтитулов и нумерации списка. В большинстве случаев колонтитулы не интересуют пользователя с точки зрения сравнения, за исключением вставок. Например, если у вас есть список на 100 позиций, в середине которого добавили или изменили один из пунктов. Чтобы работать с документом было удобнее, различия в нумерации попадают в отдельную группу.

В финале пользователь может посмотреть все исправления в документе так, как ему удобно. На выбор есть несколько способов: сохранить новую версию документа в формате DOCX, где все изменения уже подсвечиваются в режиме Track Changes, получить PDF с комментариями в местах изменений или создать таблицу с перечнем правок в Word.

Среди поддерживаемых ABBYY FineReader 15 функций:

Как работают нейросети для распознавания иероглифов и арабской вязи

Распознавание иероглифов осложняется тем, что в отличие от европейских языков, они состоят из большого количества черточек, палочек, наклонов. Но размер иероглифов вполне сопоставим с размером европейских букв. В низком разрешении сканов иероглифы могут и вовсе выглядеть как кляксы. Носитель языка поймет символ, исходя из контекста. Программа же работает поэтапно: сначала анализирует изображение всего документа, определяет абзацы, разбивает распознанные строки на слова, а слова — на отдельные символы. На этом этапе алгоритмы опираются не на контекст, как человек, а на внешний вид иероглифа, и здесь многое зависит от качества изображения. Для распознавания японского, китайского и корейского языков компания ABBYY внедрила нейросети. Они решают две главные задачи при работе с иероглифами — улучшение качества распознавания и «модернизацию» языков.

Качество и скорость в быстром и нормальном режиме

Внедрение нейросетей значительно повысило качество распознавания японского и китайского в быстром режиме, но скорость работы на начальном этапе разработки снизилась. Для клиентов, работающих с большим потоком документов, даже небольшая просадка по скорости может привести к сильному замедлению в обработке данных. Оказалось, что скорость проседает в документах с большим количеством символов с простой структурой — таких, как японская буквенная азбука (в современном японском языке используется три основных системы письма: кандзи — иероглифы китайского происхождения и две слоговые азбуки, созданные в Японии — хирагана и катакана — «Хайтек»).

Эту проблему решили с помощью кэша. Когда программа распознает страницу, одна и та же буква может попадаться на ней несколько раз. Встретив букву «А», написанную одним и тем же шрифтом, ABBYY FineReader анализирует и запоминает ее особенности. Этот принцип оптимизации позволяет не тратить время на распознавание одинаковых символов. Для японского и китайского ранее не использовался кэш, потому что встретить один и тот же иероглиф на странице, написанной естественным языком, можно очень редко. Но для символов с простой структурой это оказалось полезным. Включение кэша позволило ускорить и нормальный, и быстрый режим распознавания.

Почему важно следить за развитием языка

В предыдущих версиях FineReader в японском языке присутствовали иероглифы, которые уже не используются в современных документах. Это заметили сотрудники японского офиса ABBYY: время от времени программа вставляла при распознавании один-два устаревших символа. Для рядового носителя языка это воспринимается как буквы из русского дореволюционного алфавита для нас. Чтобы исправить эту ошибку, потребовалось создать в программе «новый язык» — Japanese Modern. Легко заставить программу не отображать те или иные устаревшие символы. Но необходимо было не просто выбросить ненужное, но и оставить всё необходимое, найти множество иероглифов, которые отображают всё богатство современного японского языка.

Новое множество символов формировалось в несколько этапов. Для тестирования создавали подходящие наборы изображений документов. Если в пакет попадала хотя бы одна страница с устаревшими формами, весь комплект оказывался непригодным. Приходилось вынимать эту страничку и формировать новый комплект материалов. Наконец удалось добиться того, чтобы в результатах распознавания почти не было устаревших символов и при этом правильно отображались все современные иероглифы.

Для китайского в FineReader всегда поддерживали традиционный и упрощенный языки. При этом по составу символов они не отличались. Получить разный результат распознавания всё равно было возможно, потому что в программе было заложено разное распределение вероятностей. В новой версии в результате экспериментов удалось выделить символы, необходимые для распознавания упрощенного китайского. В FineReader заложена возможность создавать пользовательский язык. Используя этот инструмент и внося изменения в состав, специалисты сравнивали результаты распознавания на разных образцах документов, и в результате в упрощенном китайском остался только необходимый набор иероглифов.

Корейская письменность, хангыль — нечто среднее между китайским и европейским письмом. Внешне это квадратные символы, напоминающие иероглифы, и на одной странице текста можно насчитать больше сотни уникальных. С другой стороны, это фонетическая письменность, то есть основанная на записывании звуков. Имеется алфавит, содержащий 24 буквы (плюс можно дополнительно посчитать диграфы и дифтонги). Но, в отличие от латиницы или кириллицы, звуки пишутся не в линию, а объединяются в блоки. Каждый блок может состоять из двух, трех или четырех букв. Первой всегда идет согласная, затем одна или две гласных, и в конце может стоять еще одна согласная. Для корейского обучили отдельную нейросеть, которая, помимо корейских слогов, распознает и некоторые иероглифы. Вместо распознавания символов целиком технология определяет отдельные буквы в них.

Как резать арабскую вязь на фрагменты

Арабский язык отличается от других тем, что найти линии порезки между символами в арабской вязи очень сложно. Даже гистограмма при распознавании арабского отличается: выглядит как бесконечный набор горбиков и ямочек.

Варианты разделения текста на символы создаются всегда, даже для европейских языков. В процессе работы программа выбирает наиболее вероятный путь распознавания. В случае с арабским языком таких вариантов очень много, и это приводило к ошибкам. Поэтому для повышения точности программу научили видеть не отдельную букву, а всё слово целиком. Для этого была разработана сеть end-to-end (e2e). Она полезна не только для арабского, но и для европейских языков — например, в дизайнерских шрифтах, когда на изображениях сложно построить путь для распознавания.

При e2e-подходе на вход в нейросеть поступает набор изображений — фрагментов, состоящих из отдельных слов. На выходе такая нейросеть выдает последовательность графем, которые затем проходят дополнительную обработку: проводится словарный анализ, корректируются пробелы.

Для обучения использовался набор из нескольких сотен тысяч фрагментов — отдельные слова из отсканированных газет, журналов, официальных документов. Они были выбраны в несколько итераций: сначала собирали базу из слов, которые удачно распознали, и обучали нейросеть на этом датасете. Потом еще раз обучали, корректировали, выявляли ошибки. Часть, которую не смогли распознать, отдельно отдавали на доразметку и корректировку фрагментов. В результате всё больше очищали датасет для обучения, улучшая общее качество распознавания.

Кроме того, часть данных для обучения была создана искусственно. Это было необходимо для распознавания шрифтов, для которых было собрано мало образцов. В таких случаях использовался корпус текста, в который добавлялись различные искажения, типичные для этапа сканирования документа: шум, размытие символа. Это делала в автоматическом режиме специальная программа — генератор синтетики, или «портилка».

Сначала в ходе обучения такой подход привел к тому, что потерялась информация об охватывающих прямоугольниках символов, которые необходимо отображать для пользователя на этапе верификации. Отказавшись от посимвольного распознавания, пришлось внедрить альтернативный механизм, который дополнял результаты распознавания информацией об охватывающих прямоугольниках и резал слова на отдельные символы.

Сочетание новых алгоритмов машинного обучения сделало возможным создание многофункционального текстового редактора для работы с PDF, сканами и digital-born-документами. Внесение правок, сравнение файлов и распознавание сложных языков дает пользователю возможность полноценно работать с файлами вне зависимости от их формата. По сути, это позволяет охватить все спектры офисных задач по работе с электронными и даже бумажными документами, максимально упрощая работу сотрудникам и снижая вероятность ошибок из-за человеческого фактора.