Смекни!
smekni.com

Информатика Базовый курс (стр. 147 из 188)

Распознавание с обучением. Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настраивается так, чтобы соответствовать определенному документу или группе однотипных документов. Чтобы создать эталон, используют команду Сервис • Редактор эталонов • Новый. После этого надо указать имя эталона и щелкнуть на кнопке ОК. Режим распознавания с обучением включается при настройке параметров работы программы (Сервис • Опции • Распознавание). Создать, выбрать или сменить эталон можно, щелкнув на кнопке Эталоны. После этого необходимо установить флажок Распознавание с обучением.

Когда в ходе распознавания с обучением программа FineReader обнаруживает символ, который не может интерпретировать однозначно, на экран выдается диалоговое окно Ручное обучение эталона (рис. 17.3). Программа указывает элемент изображения, вызвавший сомнения, и показывает, как именно он будет интерпретирован. Если допущена ошибка, можно указать нужный символ в поле Введите символ, выделенный рамкой или уточнить область распознавания с помощью кнопок Сдвинуть влево и Сдвинуть вправо. Затем надо щелкнуть на кнопке Обучить. Необходимые сведения сохраняются и используются при дальнейшем анализе изображения. Если число ошибок невелико, можно продолжить распознавание в обычном режиме щелчком на кнопке Закрыть.

Корректировка зоны

распознавания

Распознаваемый элемент

Выбор символа - /

Рис, 17.3. Ручное «обучение» механизма распознавания текста

Практическое занятие

Редактирование документа. Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad (панель для форматирования открывается при помощи команды Вид • Панель инструментов • Форматирование). Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить на панели инструментов Scan&Read. Информация о возможных ошибках и неоднозначностях отображается в диалоговом окне Проверка (рис. 17.4).

Фрагмент оригинала —

Распознанный текст

Варианты замены

Рис. 17.4. Проверка правильности текста с учетом трудностей распознавания и правил правописания

Сохранение документа. По щелчку на кнопке Сохранить на панели инструментов Scan&Read запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки.

Практическое занятие Упражнение 17.1. Сканирование документа

15 мин

1. Включите сканер.

2. Запустите программу Paint (Пуск • Программы • Стандартные • Paint).

3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,закройте крышку.

4.

Дайте команду Файл • Со сканера или камеры.

5. Средствами открывшегося диалогового окна драйвера TWAIN проведите предварительное сканирование документа.

6. Средствами диалогового окна драйвера TWAIN выделите на документе область, подлежащую сканированию.


496 Глава 17, Автоматизация обработки документов

7. Средствами диалогового окна драйвера TWAIN задайте черно-белый режим и разрешение сканирования. Для обычных текстовых документов наиболее эффективное разрешение составляет 300 dpi.

8. Средствами диалогового окна драйвера TWAIN проведите сканирование.

9.

Закройте диалоговое окно драйвера TWAIN.

10.

Ознакомьтесь с тем, как выглядит отсканированный документ. Увеличьте масштаб изображения, чтобы оценить качество воспроизведения отдельных символов.

11.

Сохраните отсканированный документ в формате TIFF для использования в следующем упражнении.

ЩШ Мы научились выполнять сканирование документов из приложений через драйвер

TWAIN. Это наиболее универсальный метод, применимый во всех приложениях, которые допускают использование сканера.

Упражнение 17.2. Преобразование изображения в текстовый документ

1. Включите сканер.

2. Запустите программу FineReader (Пуск • Программы • ABBYY FineReader 6.0 Professional).

3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,закройте крышку сканера.

4. Щелкните на кнопке Сканировать на панели инструментов Scan&Read.

5. Дождитесь окончания сканирования. Обратите внимание на появление значкаотсканированного документа на панели Пакет и в окне Изображение.

6. Щелкните на кнопке Распознать. Изучите результат автоматической сегментации в окне Изображение. Ознакомьтесь с распознанным текстом в окне Текст.

7. Сохраните распознанный текст в виде текстового файла.

8. Откройте текстовый файл в программе Блокнот и еще раз убедитесь в правильности распознавания. Закройте программу Блокнот.

9. Дайте команду Файл • Открыть изображение и выберите изображение, созданное в предыдущем упражнении.

10. Выберите это изображение в окне Пакет и проведите его распознавание в соответствии с пп. 6-8 данного упражнения.

11.

Сравните результаты распознавания при сканировании через ГР^4/Лг-драйвер и в обход его. Сравните трудоемкость этих операций.

Щ Мы научились преобразовывать бумажные документы в электронную форму при помощи программы FineReader. Мы познакомились с возможностью работы с пакетом страниц. Мы также выяснили преимущества методов сканирования с использованием TWAIN-драй вера и в обход его.

Практическое занятие

Упражнение 17.3. Ручная сегментация изображения

1. Включите сканер.

2.

Запустите программу FineReader (Пуск • Программы • ABBYY FineReader 6.0 Professional).

3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,закройте крышку.

4. Щелкните на кнопке Сканировать на панели инструментов Scan&Read и дождитесь окончания сканирования.

5. Щелкните на кнопке Распознать на панели инструментов Scan&Read. Ознакомьтесь с тем, как проведено упорядочение распознанного текста в соответствии с автоматической сегментацией. Оцените пригодность полученного документа. 7. Сохраните полученный документ для последующего сравнения.

8. Щелкните в окне Изображение правой кнопкой мыши и выберите в контекстном меню команду Удалить блоки и текст.

9. Щелкните на кнопке Выделить текстовый блок на панели инструментов Изображение. Сформируйте блоки вручную, выделяя отдельные элементы документа.

10. Чтобы блоки, содержащие иллюстрации, не распознавались как текст, щелкните на каждом из них правой кнопкой мыши и выберите в контекстном меню команду Тип блока • Картинка.

11.

Щелкните на кнопке Перенумеровать блоки на панели Изображение. Задайтепоследовательность блоков, щелкая на них в том порядке, в каком их содержимое должно включаться в окончательный документ.

12. Щелкните на кнопке Распознать на панели инструментов Scan&Read. Сохраните полученный документ.

13. Сравните документы, полученные в результате автоматической и ручной сегментации.

fgj Мы научились производить ручную сегментацию изображения для распознавания и узнали, в каких случаях ее следует производить. Мы также узнали, как задается тип блоков и порядок блоков, чтобы полученный документ наилучшим образом соответствовал оригиналу.

Упражнение 17.4. Корректировка текста отсканированного

документа

30 мин

1. Включите сканер.

2. Запустите программу FineReader (Пуск • Программы • ABBYY FineReader 6.0 Professional).

3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,закройте крышку.


4 9 8 Глава 17. Автоматизация обработки документов