Смекни!
smekni.com

Ввод стандартных форм и форматированных документов (стр. 3 из 5)

2.3 Требования к системам массового ввода стандартных форм

Основные требования к системам обработки форм:

1. Соответствие предъявляемым функциональным требованиям.

Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных. Для одних целей использование таких приложений может быть эффективно, в то время как для других, напротив, — вести к лишним расходам.

Поскольку производится обработка образов документов с распознаванием содержащихся в них данных, они должны быть спроектированы с учётом максимально удобного сканирования, а данные — внесены таким образом, чтобы их было удобно распознавать. Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации. Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).

2. Точность распознавания.

Модуль распознавания текста встроен в систему обработки форм. Существуют две его разновидности, основанные на технологиях оптического распознавания: OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание — ICR, способное работать с написанными вручную символами. Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена. Несмотря на то, что ICR базируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.

В табл.1 приведены основные характеристики методов распознавания.

Таблица 1

Характеристики методов распознавания

Метод Точность распознавания, % Процент нераспознанных символов Процент символов, распознанных ошибочно
Вручную 97-98 3
OCR 99,5 1-2 0,1
ICR 90-95 10-30 0,9-2

Как видно из таблицы, ни один из доступных способов не гарантирует полного отсутствия ошибок в тексте, однако чем выше точность распознавания и меньше количество не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCR и ICR сталкиваются с ошибками двух типов: во-первых, это символы, которые система вообще не способна распознать, и, во-вторых, — те, что распознаются ошибочно. Причём последние наиболее опасны, так как ошибка, вполне вероятно, может остаться незамеченной. Первых также не должно быть слишком много, иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем: более дорогие, как правило, обеспечивают лучшие показатели.

3. Наличие эффективной системы редактирования.

Нельзя построить системы со 100%-м распознаванием форм и полностью исключить действия человека. Но их надо минимизировать и построить систему так, чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью (или части формы), где выделены «сомнительно» распознанные символы. Оператор просматривает и вносит необходимые изменения, после чего подтверждает ввод данных.

4. Настраиваемость системы.

Лучшие системы обработки форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и будущими решениями. Они также должны быть настроены на требования конкретного заказчика и изменяться согласно меняющимся внешним условиям без программирования. Настраиваемость системы обработки форм подразумевает:

· Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.

· Наличие редактора форм, настраивающего систему на новые формы.

· Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.

· Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.

· Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.

· Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных данных и начальной формы, с которой они были взяты.

· Возможность наращивания функций системы [1,2,11].

2.4 Подходы к реализации систем обработки форм

В идеале системы должны включать все функции, необходимые для сканирования, обработки, исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала.

Существуют два подхода для реализации систем обработки форм: компонентный и монолитный.

При компонентном методе система обработки форм состоит из компонентов, которые разрабатываются и представляются различными производителями. В случае компонентного подхода, заказчик обладает возможностью получить приложение, обладающее оптимизированным для своих потребностей набором функциональности. Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание. В качестве компонентов рассматриваются: компоненты работы со сканерами, с платами обработки изображений; компоненты обработки изображений и распознавания изображений.

При монолитном подходе вся система поставляется одним производителем, например разработчиком систем распознавания изображений. При сосредоточении ответственности за всю систему в одних руках необходимо отметить некоторые недостатки.

Во-первых, узость подхода производителя монолитных систем определяется его корнями. Так, производители систем распознавания и обработки форм обычно уверяют, что главное в системе — это модуль распознавания их производства, а всё остальное не так важно.

Во-вторых, нельзя гарантировать, что система от одного производителя способна поддерживать на высоком уровне все функциональны особенности.

В-третьих, невозможно заменить какой-либо элемент на более качественный другого производителя.

И, наконец, нельзя модернизировать систему своими силами, и, как следствие этого, возникает сильная зависимость от одной компании-производителя [1].

Выводы к разделу 2

Ввод информации из полей формы в базу данных, включает несколько этапов: подготовка обработки формы, сканирование, сегментация полученного изображения, распознавание значимых полей, верификация, сохранение данных в полях базы данных. Причём сегментацию изображения формы и извлечение данных из значимых полей подразумевает обработка форм.

При вводе форм целесообразно придерживаться определённых принципов, брать во внимание основные требования, предъявляемые к системам массового ввода форм и учитывать подходы к их реализации. Это обеспечит реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных, а также освободит сотни людей от неэффективного утомительного труда.


3 СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОРМ

Существует несколько сотен компаний, которые предлагают решения или компоненты систем обработки форм по всему миру. Выбор решения, наиболее соответствующего потребностям заказчика и являющегося оптимальным по стоимости, — непростая задача. Выбирая систему обработки форм, следует ориентироваться на особенности организации и виды преобладающих в ней форм.

Больших успехов в разработке систем массового ввода и распознавания форм достигли наши отечественные компании. Наиболее известными системами ввода форм являются системы «ABBYYFineReaderForm» и «Cognitive Forms».

3.1 Система ABBYY Fine Reader Form

СистемаFineReaderForm предназначена для автоматического ввода данных из стандартных форм и форматированных документов в информационные системы и базы данных.

Преимущества системы:

· Реализация пилотного проекта и принятие решения о внедрении по его результатам.

· Лёгкость настройки на любые виды форм — как структурированные, так и гибкие.