В последнее время проблема массового ввода данных стала особо актуальной. Число документов постоянно растёт, а вместе с ними увеличиваются проблемы по вводу и обработке больших объёмов данных в вычислительных системах. Необходимость обработки структурированных и неструктурированных форм документов, изначально выполненных на бумаге, возникает в деятельности большого количества государственных, акционерных и частных предприятий. Стало очевидно, что для организации управления и контроля необходимо, чтобы любая информационная единица, порожденная на уровне отдельного гражданина или отдельного предприятия, сразу оказалась в информационной системе и была доступна в любой момент для анализа и обобщения. По мировой статистике приблизительно 80% всех документов, используемых в бизнесе, составляют формы. Они возникают практически в любом бизнесе, связанном с обслуживанием клиентов, а также в деятельности государственных органов, занятых сбором данных о физических и юридических лицах. Таким образом, существует необходимость автоматизации и повсеместного внедрения систем массового ввода форм, что существенно облегчит их обработку. Как следствие, повысится производительность и эффективность работы предприятий и организаций вцелом.

Объектом исследования являются стандартные формы.

Предмет исследования -- ввод стандартных форм и форматированных документов.

Цель исследования -- рассмотрение принципов ввода и обработки стандартных форм.

Задачи исследования:

1. Проанализировать основную литературу по теме курсовой работы.

2. Определить понятие и классификацию стандартных форм.

3. Рассмотреть основные этапы ввода и обработки форматированных документов.

4. Установить основные требования к системам массового ввода форм.

5. Рассмотреть системы массового ввода форм, разработанные различными фирмами.

Методика исследования -- системный анализ литературных источников и Интернет сайтов.

Основные работы, посвящённые данной теме -- это источники 1, 3, 4, 10, 11, 13. Сущность понятия «стандартная форма» изложено в источниках 10, 13. В источнике 1 описаны признаки стандартных форм, положенные в основу их классификации. Применение стандартных форм и их типология, в зависимости от применения в той или иной области управления, приведено в источниках 1, 7, 8, 11. Этапы ввода и обработки форматированных документов рассмотрены в источниках 1, 2, 10, 11, 13. Более подробно этап сканирования изложен в источнике 1, сегментация и технологии распознавания -- в источниках 1, 10, 11. Принципы потокового ввода стандартных форм освящены в источнике 3. Требования к системам массового ввода и обработки стандартных форм, а также подходы к их реализации рассмотрены в источниках 1, 2, 11. Компании, предлагающие решения по разработке систем массового ввода стандартных форм и спешность их разработок описаны в источниках 3-6, 10, 11, 13-15.

Тема достаточно полно освящена на сайтах Интернет, книг и статей по данной теме очень мало.

1 СТАНДАРТНЫЕ ФОРМЫ И ИХ КЛАССИФИКАЦИЯ

1.1 Понятие и признаки классификации стандартных форм

Стандартные формы -- однотипные документы, используемые главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Для удобства их обработки, информация, содержащая ответ на один и тот же вопрос, в разных документах заносится в фиксированное по отношению к границам документа поле.

Основные отличия стандартной формы -- это одинаковый размер документов и фиксированное положение линий разграфки [10].

На Западе вместо понятия «система обработки форм» используется термин «Document Capturing» (т.е. захват документа). В общем приближении рынок Document Capturing (только его программная часть) в мире оценивается примерно в 300 млн. долл., при этом довольно быстро развиваясь.

Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением. Задача распознавания состоит в нахождении неких известных полей, а результатом работы программы обычно является не просто текстовый документ, а определенная запись в некоторой базе данных [13].

Основой классификации стандартных форм могут служить следующие признаки:

1 признак -- способ нанесения информации (печатный текст, рукописный текст, метки).

Способ нанесения информации определяет выбор технологии распознавания.

Метки, печатный и рукописный тексты могут применяться в документах как единственный вид информации или в любом взаимном сочетании. Так, избирательные бюллетени используют меточный способ, в то время как прайс-листы -- печатный, а анкеты -- в основном рукописный и меточный.

2 признак -- геометрическая вариативность полей.

Расположение всех полей и записей в них должно быть строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров.

Все специально подготовленные для машинной обработки документы обладают этим качеством.

3 признак -- наличие явных разделителей полей.

Этот признак часто присутствует в таблицах и играет существенную роль в выделении значимых полей [1].

На Западе существуют определённые стандарты и правила по заполнению значимых полей форм, что в последующем облегчает их обработку. Так, например, немецкие компании CGK, AEG имеют свои правила заполнения стандартных форм, которых обязаны придерживаться их клиенты. В частности в этих системах линии разграфки документов наносятся иным цветом (например, красным или зеленым) по сравнению с цветом заполнителя. Это делается для того, чтобы удалить линии еще на этапе сканирования за счет установки цветового фильтра в сканирующее устройство [10].

1.2 Типы стандартных форм в зависимости от применения

Рынок применения систем обработки форм определяется спектром бизнес-приложений, в которых они используются. Как правило, эти бизнес-приложения занимаются обработкой циркулирующей между предприятием и его клиентами информации.

В качестве основных систем обработки форм можно выделить следующие:

1. Обработка факсов.

В мире ежегодно передаётся более 50 млрд факсимильных сообщений, и, хотя электронная почта вытесняет этот вид коммуникации, факс остаётся пока одним из ведущих средств обмена информацией. Главная проблема при работе с факсами -- обработка входящих факсимильных сообщений и автоматическое их распределение по получателям на базе информации, которая находится в заголовке сообщения. Для небольших предприятий это не является серьёзной проблемой. А для компаний с несколькими тысячами сотрудников, каждый из которых хотя бы раз в неделю получает одно сообщение -- это существенная проблема. Кроме обычных факсимильных сообщений компания также может принимать по факсу заказы и другую более важную бизнес-информацию.

2. Обработка государственных форм.

Государственными формами являются, например, налоговые декларации, платёжные поручения по оплате налогов и другие.

Правительства многих стран пытаются ускорить обработку поступающих отчётов от населения и компаний. В связи с увеличение численности населения и добавлением новых налогов государством, процесс обработки отчётов и контроля исполнения по платежам, которые должны соответствовать этим отчётам, превращается в кошмарную проблему. Решение этой проблемы реализуется набором дополнительного персонала, или грамотной автоматизацией процесса.

3. Обработка различных счетов и заказов на товары.

Так, например в США ежедневно обрабатывается 65 млн счетов при стоимости процесса в 125 млн долларов. Подсчитано, что применение технологий обработки форм сохраняет каждый день более 40 млн долларов.

В настоящее время заказы на товары всё больше становятся ориентированными на Internet, но всё же остаётся большой процент продаж по каталогам, по почте и т.д.

4. Маркетинговые исследования и опросы.

В качестве основного вида опроса можно привести систему, которая обрабатывает результаты голосования на выборах. В зависимости от избирательных законов, принятых в той или иной стране, размеры форм могут колебаться от одной до нескольких десятков страниц [1,8].

Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная стандартизация которых невозможна. Такие формы называются гибкими. Типичным примером гибкой формы является банковское платежное поручение.

Другой пример -- обработка входящей корреспонденции при занесении в систему документооборота. В любом письме существуют общие атрибуты: отправитель, получатель, дата, номер и т.д. Очевидно, что положение этих полей в документе может быть любым, а значит, для решения задачи автоматического ввода этих атрибутов также нужна технология ввода гибких форм. Распознавание гибких форм основано на описании формы, включающем всевозможную информацию, которая может помочь системе найти то или иное поле [7,9,11].

Выводы к разделу 1

Стандартными формами являются однотипные документы, имеющие априорную структуру. Они использую главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением полей, фиксированных по отношению к границам документа. Признаками классификации стандартных форм выступают: способ нанесения информации, геометрическая вариативность полей и наличие явных разделителей полей.

Стандартные формы используются в различных бизнес-приложениях, занимающихся циркуляцией информации между предприятиями и клиентами. Среди основных систем обработки форм можно выделить следующие: обработка факсов, обработка государственных форм, обработка различных счетов и заказов на товары, маркетинговые исследования и опросы, обработка банковских платёжных поручений и др.

2 ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ

2.1 Этапы ввода и обработки форматированных документов

У стандартных форм, в отличие от прочих типов документов, структура данных известна до момента распознавания. Это преимущество существенно облегчает ввод информации из формы в поля базы данных, а также позволяет сделать это практически без участия человека.

К основным этапам ввода стандартных форм относят:

1. Подготовка обработки новой формы

2. Сканирование

3. Сегментация полученного изображения

4. Распознавание значимых полей

5. Верификация

6. Сохранение данных в полях базы данных

На первом этапе -- этапе подготовки обработки новой формы с помощью специального редактора форм создаётся план документа с незаполненными полями. Для каждого значимого поля определяется тип данных и правила проверки корректности вводимых данных. С помощью редактора экспорта определяется связь между значимыми полями и полями базы данных, куда данные будут помещаться после ввода.

На втором этапе -- этапе сканирования происходит получение графического образа документа с помощью технологий сканирования. При выборе сканеров следует учитывать его характеристики, например, возможности сканера по работе с различными типами и количеством документов, производительность и надёжность сканера, а также качество получаемого изображения (т.е. разрешающую способность сканера). При этом качество печати играет очень большую роль. Более выгодно истратить немного больше денег при печати документа, а затем сэкономить значительные суммы при сканировании и распознавании [1,2].

На третьем этапе -- сегментации изображения происходит выделение значимых полей и опорных элементов для облегчения процесса распознавания.

Текстовое представление документа является одним из главных требований, которое позволяет производить поиск, сортировку и модификацию документов.

Поэтому важным этапом является четвёртый этап -- конвертирование документа в текстовый файл с помощью программ распознавания [1,11].

Для распознавания значимых полей используется несколько специальных технологий:

OCR (Optical Character Recognition) -- технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление.

ICR (Intelligent Character Recognition) -- распознавание раздельных печатных символов, написанных от руки в специальных окнах-шаблонах для соблюдения одинаковых размеров символов. А также рукописных цифр, например, как на почтовых конвертах. (Эту технологию называют интеллектуальным распознаванием).

OMR (Optical Mark Recognition) -- распознавание отметок. Обычно отметками выступают перечёркнутые крест-накрест либо отмеченные галочками квадраты или круги (checkbox).

Используется также технология распознавания штрихкодов.

При распознавании используются различные методы для улучшения качества получаемых изображений. Например, поворот, выравнивание, применение различных фильтров для устранения пятен, удаления фона и т.д. [1,11,13].

На пятом этапе происходит верификация документа, т.е. проверка качества распознавания и исправление ошибок. Большие требования в данном случае предъявляются к методам проверки вводимых данных.

Используются следующие режимы верификации:

· Контекстная верификация для проверки текстовых полей;

· Групповая верификация для проверки цифровых данных;

· Верификация полей формы по заранее определённым правилам

Для повышения надёжности данных используют дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

И на шестом этапе распознанные и проверенные данные сохраняются в полях базы данных. Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день [1,10].

Следовательно, более широкое внедрение систем обработки форм не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных [8,13].

Выполнение двух основных процессов, сегментации документа и чтения текста документа из значимых полей, предполагает обработка форматируемых документов.

Сегментация -- это нахождение опорных элементов и вычисление относительно них положения значимых полей.

Эти процессы могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.

В документах, не имеющих строго определённого положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации. Пример характерного случая ложной геометрической сегментации и её последующей коррекции после чтения приведён на рис.1.

Рис.1. Пример геометрической сегментации полей формы и результата её коррекции

Очевидно, что различная сложность структуры и её визуальная вариативность порождают самый широкий спектр решений.

В машиночитаемых формах задача сегментации осложняется множеством факторов: помехами на опорных элементах, смещением текста в полях, искажениями формы документа в процессе сканирования (например, дефекты в виде разрыва и топографической грязи, прилегание текста к граничным линиям полей и т.п.). Вследствие этого даже исходно простая схема обработки многократно усложняется.

Документы, не имеющие строго заданной геометрии, но, тем не менее, использующие явно заданные разделители (например, таблицы с разделителями в виде горизонтальных и вертикальных прямых), обрабатываются достаточно надёжно. Если линии непрерывные, а текст их не касается, то принципиальных сложностей при обработке не возникает. На практике эти условия обеспечиваются далеко не всегда, поэтому приходится пользоваться априорными сведениями о характере возможных разрывов, находить части изолированных от текста линий и т.д. Но при этом характеристики устройства документа должны быть чётко определены [1,2].

2.2 Основные принципы потокового ввода форм

При вводе данных из форм целесообразно придерживаться следующих принципов:

1. Пакетная обработка данных.

Смысл этого принципа состоит в том, что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера. Каждый такой пакет имеет уникальный идентификатор. Подобное решение позволяет структурировать поток вводимых данных. Этот принцип даёт определённые преимущества: во-первых, с каждым пакетом могут быть связаны свои программные настройки, во-вторых, в потоковой системе ввода структурирование облегчает администрирование, маршрутизацию потоков и дальнейшее хранение данных.

2. Распределение функций операторов.

Мощные системы ввода данных обычно функционируют по принципу конвейера. Специализация повышает производительность труда, а также позволяет практически неограниченно масштабировать систему. Например, всегда можно увеличить количество мест операторов сканирования, не вмешиваясь в работу операторов распознавания, верификаторов, и так далее.

3.Масштабируемость системы.

Благодаря распределению функций между операторами, система оказывается состоящей из узкоспециализированных модулей. При этом количество модулей каждого вида определяется только особенностями конкретной ситуации и может быть при необходимости легко изменено. Эта особенность делают систему более гибкой и управляемой, что существенно удешевляет комплекс ввода в целом.

4. Очередность заданий.

Важным для таких систем является понятие маршрута движения пакета. Пакеты движутся по системе не произвольным образом, а в соответствии с заданной схемой маршрутизации. Простейшим примером схемы маршрутизации может служить линейная схема: станция сканирования -- станция распознавания -- станция верификации -- станция корректировки -- станция экспорта. Основное преимущество системы, использующей очереди заданий, -- равномерное распределение нагрузки по всем ресурсам (операторам) системы. Как только, например, оператор верификации освободился от задания и сообщил о своей готовности продолжить работу, на его рабочее место доставляется очередной пакет форм, стоящий следующим в очереди пакетов на верификацию [3].

2.3 Требования к системам массового ввода стандартных форм

Основные требования к системам обработки форм:

1. Соответствие предъявляемым функциональным требованиям.

Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных. Для одних целей использование таких приложений может быть эффективно, в то время как для других, напротив, -- вести к лишним расходам.

Поскольку производится обработка образов документов с распознаванием содержащихся в них данных, они должны быть спроектированы с учётом максимально удобного сканирования, а данные -- внесены таким образом, чтобы их было удобно распознавать. Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации. Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).

2. Точность распознавания.

Модуль распознавания текста встроен в систему обработки форм. Существуют две его разновидности, основанные на технологиях оптического распознавания: OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание -- ICR, способное работать с написанными вручную символами. Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена. Несмотря на то, что ICR базируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.

В табл.1 приведены основные характеристики методов распознавания.

Таблица 1

Характеристики методов распознавания

Метод	Точность распознавания, %	Процент нераспознанных символов	Процент символов, распознанных ошибочно
Вручную	97-98	--	3
OCR	99,5	1-2	0,1
ICR	90-95	10-30	0,9-2

Как видно из таблицы, ни один из доступных способов не гарантирует полного отсутствия ошибок в тексте, однако чем выше точность распознавания и меньше количество не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCR и ICR сталкиваются с ошибками двух типов: во-первых, это символы, которые система вообще не способна распознать, и, во-вторых, -- те, что распознаются ошибочно. Причём последние наиболее опасны, так как ошибка, вполне вероятно, может остаться незамеченной. Первых также не должно быть слишком много, иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем: более дорогие, как правило, обеспечивают лучшие показатели.

3. Наличие эффективной системы редактирования.

Нельзя построить системы со 100%-м распознаванием форм и полностью исключить действия человека. Но их надо минимизировать и построить систему так, чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью (или части формы), где выделены «сомнительно» распознанные символы. Оператор просматривает и вносит необходимые изменения, после чего подтверждает ввод данных.

4. Настраиваемость системы.

Лучшие системы обработки форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и будущими решениями. Они также должны быть настроены на требования конкретного заказчика и изменяться согласно меняющимся внешним условиям без программирования. Настраиваемость системы обработки форм подразумевает:

· Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.

· Наличие редактора форм, настраивающего систему на новые формы.

· Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.

· Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.

· Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.

· Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных данных и начальной формы, с которой они были взяты.

· Возможность наращивания функций системы [1,2,11].

2.4 Подходы к реализации систем обработки форм

В идеале системы должны включать все функции, необходимые для сканирования, обработки, исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала.

Существуют два подхода для реализации систем обработки форм: компонентный и монолитный.

При компонентном методе система обработки форм состоит из компонентов, которые разрабатываются и представляются различными производителями. В случае компонентного подхода, заказчик обладает возможностью получить приложение, обладающее оптимизированным для своих потребностей набором функциональности. Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание. В качестве компонентов рассматриваются: компоненты работы со сканерами, с платами обработки изображений; компоненты обработки изображений и распознавания изображений.

При монолитном подходе вся система поставляется одним производителем, например разработчиком систем распознавания изображений. При сосредоточении ответственности за всю систему в одних руках необходимо отметить некоторые недостатки.

Во-первых, узость подхода производителя монолитных систем определяется его корнями. Так, производители систем распознавания и обработки форм обычно уверяют, что главное в системе -- это модуль распознавания их производства, а всё остальное не так важно.

Во-вторых, нельзя гарантировать, что система от одного производителя способна поддерживать на высоком уровне все функциональны особенности.

В-третьих, невозможно заменить какой-либо элемент на более качественный другого производителя.

И, наконец, нельзя модернизировать систему своими силами, и, как следствие этого, возникает сильная зависимость от одной компании-производителя [1].

Выводы к разделу 2

Ввод информации из полей формы в базу данных, включает несколько этапов: подготовка обработки формы, сканирование, сегментация полученного изображения, распознавание значимых полей, верификация, сохранение данных в полях базы данных. Причём сегментацию изображения формы и извлечение данных из значимых полей подразумевает обработка форм.

При вводе форм целесообразно придерживаться определённых принципов, брать во внимание основные требования, предъявляемые к системам массового ввода форм и учитывать подходы к их реализации. Это обеспечит реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных, а также освободит сотни людей от неэффективного утомительного труда.

3 СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОРМ

Существует несколько сотен компаний, которые предлагают решения или компоненты систем обработки форм по всему миру. Выбор решения, наиболее соответствующего потребностям заказчика и являющегося оптимальным по стоимости, -- непростая задача. Выбирая систему обработки форм, следует ориентироваться на особенности организации и виды преобладающих в ней форм.

Больших успехов в разработке систем массового ввода и распознавания форм достигли наши отечественные компании. Наиболее известными системами ввода форм являются системы «ABBYY Fine Reader Form» и «Cognitive Forms».

3.1 Система ABBYY Fine Reader Form

Система Fine Reader Form предназначена для автоматического ввода данных из стандартных форм и форматированных документов в информационные системы и базы данных.

Преимущества системы:

· Реализация пилотного проекта и принятие решения о внедрении по его результатам.

· Лёгкость настройки на любые виды форм -- как структурированные, так и гибкие.

· Уменьшение времени на ввод данных с бумажных форм в 10 раз.

· Повышение точности итоговых данных благодаря поддержке технологий OCR, ICR, OMR и технологии распознавания штрихкодов.

· Быстрая окупаемость системы благодаря разумной стоимости и низким затратам на внедрение.

Семейство ABBYY Form Reader 6.5 включает в себя:

· простую во внедрении и изучении систему ABBYY Form Reader 6.5 Desktop Edition для использования на локальной рабочей станции.

· распределённое и легко масштабируемое решение ABBYY Form Reader 6.5 Enterprise Edition для потокового ввода больших объёмов данных;

· средство разработки ABBYY Form Reader 6.5 Developer Edition для интеграции функций Form Reader во внешние приложения;

· инструментарий ABBYY Flexi Capture Studio 1.5 для создания на базе ABBYY Form Reader с технологией ABBYY Flexi Capture решений для обработки гибких форм и документов.

ABBYY Form Reader успешно используют банки, страховые компании, маркетинговые агентства и производственные компании, государственные учреждения и учебные заведения, торговые компании и медицинские организации.

ABBYY Form Reader способен обрабатывать любые типы форм, соответствующие простым требованиям машиночитаемости, автоматически сортирует бланки, проверяет комплектацию многостраничных форм, не требует вмешательства оператора на этапах сканирования и распознавания.

Система предполагает автоматический контроль результатов распознавания с помощью перекрёстных проверок, правил контроля сумм, сверок по словарям и базам данных. Существует возможность создать собственные правила проверки, в том числе с подключением списков и словарей, и использовать их для контроля качества вводимых данных.

Использование локальной версии ABBYY Form Reader позволяет силами одного сотрудника вводить ежедневно от 500 до 1000 страниц в зависимости от сложности формы и аппаратной конфигурации. Если объём работ по вводу данных увеличится, пользователь в течение дня сможет модифицировать существующий комплекс, перейдя на версию с большей производительностью. Чтобы увеличить скорость обработки форм на 1000 страниц в день, достаточно установить Form Reader на еще одно рабочее место [3,4,12].

Fine Reader Bank -- система автоматизированного ввода платежных поручений -- также является продуктом разработки компании ABBYY. Fine Reader Bank -- готовое приложение, в основе которого лежит технология распознавания гибких форм [5,6].

3.2 Система Cognitive Forms

Компания Cognitive Technologies разработала систему для ввода и обработки форм -- Cognitive Forms. Процесс её работы осуществляется следующим образом.

Оператор на станции сканирования помещает пачку документов в устройство автоматической подачи сканера. Нажатием клавиши запускается процесс потокового сканирования документов.

Подсистема распознавания -- Cognitive Form-Reader в автоматическом режиме управляет распознаванием и контекстной проверкой правильности распознавания.

На станции визуального контроля (модуль редактирования Cognitive Form Editor) оператор имеет возможность визуально контролировать и редактировать распознанные поля форм перед экспортом в базу данных.

В подсистеме описания форм (Cognitive Form Designer) производится компьютерное описание обрабатываемых форм, используемое на всех этапах процесса ввода от распознавания до экспорта в базу данных.

Подсистема экспорта результатов формирует текстовое представление документа перед его записью в базу данных, с окончательной проверкой на допустимость значений экспортируемых данных. Регистрация записи осуществляется пользователем после ввода и проверки определенного количества документов.

Одним из важных элементов Cognitive Forms является система контроля за правильностью ввода информации. Ее основная функция состоит в том, чтобы точность распознавания на выходе составляла 100%, обеспечивая при этом минимальную степень утомляемости оператора. Человек контролирует лишь те данные, которые не удовлетворяют требованиям правильности распознавания.

Слова документа, содержащие сомнительно распознанные символы или автоматически исправленные подсистемой контекстного контроля, подсвечиваются. Оператору не нужно проверять все содержание текста и сравнивать его с исходным документом. Это гарантирует меньшую утомляемость оператора и соответственно 100%-ю точность ввода информации в самых ответственных операциях. Экспорт в базу данных осуществляется клиентом системы после ввода определенного количества форм.

Благодаря гибкой модульной организации системы имеется возможность простого масштабирования для увеличения производительности ввода.

Система работает по принципу максимальной автоматизации ввода. Все операции, связанные с навигацией по форме, распознаванием, контекстным контролем за корректностью ввода и экспортом в базу данных, происходят без участия оператора.

Участие оператора может потребоваться только на стадии окончательного контроля перед экспортом в базу данных.

По описанию заметно, что в системе обработки форм Cognitive Forms ярко представлены все этапы ввода стандартных форм, а также система является масштабируемой и открытой, что даёт ей преимущества [10,13,14,15].

Выводы к разделу 3

Из нескольких сотен компаний, предлагающих решения или компоненты систем обработки форм, наиболее известными являются системы «ABBYY Fine Reader Form» и «Cognitive Forms». Они предлагают различные модули ввода и обработки форм. Организация может приобрести как всю систему, так и отдельные модули. Кроме того, многие компании разрабатывают свои собственные решения, лицензируя у производителей модули обработки. Следовательно, в выборе системы массового ввода следует ориентироваться на особенности организации и формы, преобладающие в ней.

ЗАКЛЮЧЕНИЕ

В деятельности большого количества государственных, акционерных и частных предприятий возникает необходимость обработки структурированных и неструктурированных форм документов, изначально выполненных на бумаге. Обычно под этим понимается первоначальный ввод информации с бумажного документа в информационную систему предприятия и, затем, собственно обработка данных в СУБД и прикладных информационных системах.

Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день. Можно представить, в каком масштабе подобные работы производятся в целом по Украине. На это тратятся огромные средства, в то время как проблема может быть решена намного более эффективно.

С ростом числа документов растут и проблемы по вводу и обработке больших объёмов данных в вычислительных системах. Практически в любом бизнесе, связанном с обслуживанием клиентов, а также в деятельности государственных органов, занятых сбором данных о физических и юридических лицах, возникают стандартные формы.

Стандартными формами являются однотипные, имеющие априорную структуру документы, которые классифицируются по таким признакам: способ нанесения информации, геометрическая вариативность полей и наличие явных разделителей полей.

Осуществление автоматизированного ввода форм в базу данных подразумевает выполнение нескольких этапов: подготовка обработки формы, сканирование, сегментация полученного изображения, распознавание значимых полей, верификация, сохранение данных в полях базы данных. Причём сам процесс обработки формы включает именно сегментацию изображения формы и извлечение данных из значимых полей.

Придерживание определённых принципов при вводе форм освободит сотни людей от неэффективного утомительного труда. Учёт основных требований, предъявляемых к системам массового ввода форм, а также учёт подходов к их реализации обеспечит реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных.

Подчас неосведомленность начальства и неэффективная организация работы приводят к тому, что в компьютер вручную вбиваются тысячи однотипных печатных и рукопечатных форм. Объемы подобного труда просто огромны. Если в организации обрабатывается 100 и более форм в день, то нецелесообразность автоматизации их ввода исключается, так как автоматизация экономически себя оправдает.

Наиболее известными системами, предлагающими решения или компоненты систем обработки форм, являются «ABBYY Fine Reader Form» и «Cognitive Forms». Они предлагают различные модули ввода и обработки форм. Организация может приобрести как всю систему, так и отдельные модули. Кроме того, многие компании разрабатывают свои собственные решения, лицензируя у производителей модули обработки.

Следовательно, автоматизацию ввода форм могут позволить себе крупные организации с большим объёмом документооборота. Автоматизация сократит затраты на ручной ввод данных из форм и повысит эффективность работы организации вцелом.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Асєєв, Г.Г. Методологія електронного документообігу: динамічні архіви /Г.Г. Асєєв //Вісн. Кн. Палати. -- 2005. -- № 11. -- С. 22-25

2. Асеев, Г.Г. Электронный документооборот. Учебник /Г.Г. Асеев. -- К.: Кондор, 2007. -- 500 с.

3. ABBYY: Как правильно организовать автоматизированный ввод документов. [Электронный ресурс]. -- Режим доступа: http://www.scandocs.ru/page.jsp?pk=node_1185012951516(5)

4. АBBYY Form Reader. [Электронный ресурс]. -- Режим доступа: http://www.radius-soft.ru/products/document159.shtml(6)

5. ABBYY Form Reader 6.5. [Электронный ресурс]. -- Режим доступа: http://www.itprogress.ru/products_ABBYY.html(14)

6. Гулинин, В. Иванова, Г. Документооборотные средства: одиннадцатилетка конференции-выставки DOCFLOW в действии. [Электронный ресурс]. -- Режим доступа: http://www.buhcomp.ru/htm/new_namb/arhive_ 2005/07/statyi/statya_3.shtml(9)

7. Журавлёва, Н. Система электронного документооборота: выгоды эксплуатации для сотрудников разных отделов компании /Н. Журавлёва //Секретарское дело. -- 2007. -- № 5. -- С. 31-37(8)

8. Івахненков, С.В. Інформаційні технології в організації бухгалтерського обліку та аудиту: Навч. посіб. /С.В. Івахненков. -- 3-тє вид., випр. і доп. -- К.: Знання, 2006. -- 350 с.(10)

9. Комова, М.В. Діловодство: Навч. посіб. /М.В. Комова; Національний ун-т «Львівська політехніка». - Львів: Тріада плюс, 2006. - 220 с.( 11)

10. Никольский, Н. Технология обработки стандартных форм документов. [Электронный ресурс]. -- Режим доступа: http://www.bmw2.ru/tekhnologiya-obrabotki-standartnikh.html(1)

11. Пахчанян, А. Технологии массового ввода данных. [Электронный ресурс]. -- Режим доступа: http://www.iemag.ru/articles/detail.php?ID=2634(4)

12. Полонская, Е. Заменитель терпения /Е. Полонская //Компьютеры + программы. -- 2004. -- № 1. -- С. 78-81(7)

13. Прохоров, А. Системы автоматического распознавания форм. [Электронный ресурс]. - Режим доступа: http://www.compress.ru/article.aspx?id=12211&iid=470(2)

14. Уланов, Д. Решения Cognitive и Fujitsu облегчат ввод стандартных форм. [Электронный ресурс]. -- Режим доступа: http://www.cognitive.ru/products/faq-forms.htm(12)

15. Шашенкова, Е. Cognitive Forms Network -- коробочный вариант программного продукта для массового ввода стандартных форм документов. [Электронный ресурс]. -- Режим доступа: http://www.osp.ru/cw/2006/16/1155120/(13)