Потоковый сканер. Организация электронного архива документов.Потоковое сканирование

Что такое сканер, наверняка знают все. Мало кого сейчас можно удивить этим словом. Данное устройство давно вошло в обиход среднестатистического пользователя компьютера. Для чего предназначены сканеры так же понятно из названия: сканировать, то есть преобразовывать изображения материального объекта в электронный цифровой вид. Но далеко не каждый обыватель представляет себе, какие бывают разновидности этих устройств.

Сканеры бывают 2 типов - домашние и промышленные. Домашние сканеры мы рассматривать не будем, т.к. данный вид периферии широко распространен (например планшетные сканеры). В этой статье мы хотим немного рассказать о типе сканеров, специально разработанном для сканирования документов.

Документные сканеры или сканеры документов отличаются от планшетных увеличенной скоростью работы, а этому способствуют автоподатчики документов. Листы в данном случае загружаются не по одному, а сразу целой пачкой. Документные сканеры, как правило, создаются компаниями, имеющими неплохой опыт работы в сфере документооборота, например Xerox, Canon, Kodak или Fujitsu. Устройства этих компаний, в принципе, мало отличаются друг от друга. В основном различия лишь в техническом плане - какой-то из документных сканеров быстрее, у какого-то автоподатчик на большее число листов, какой-то может сканировать сразу с 2 сторон, а некоторые могут отправлять отсканированные изображения сразу по электронной почте.

Итак мы раскрыли понятие Документный сканер , - то есть это сканер, предназначенный для сканирования документов. Таким образом, Документный сканер - это классификация сканера по назначению.

Понятие Протяжной относится к классификации по принципу действия: сканеры данного типа позволяют автоматизировать процесс сканирования больших объемов офисной документации. Ролики системы автоматической подачи листов протягивают сканируемый оригинал перед неподвижной фотосчитывающей системой, которая преобразует отраженный от поверхности оригинала свет в последовательность электронных сигналов.

Все протяжные сканеры подразделяются на уровни в зависимости от скорости сканирования и рассчитанной дневной нагрузки. Но в любом случае, вне зависимости от уровня сканера, основное назначение протяжных сканеров - это работа с большим объемом документов, работа на поток . Поэтому данный тип сканеров так же еще называют поточные сканеры .

Исходя из основной задачи - сканирование документов - сфера применения документных протяжных сканеров - это предприятия, организации и компании, в процессе жизнедеятельности которых возникает много задач по сканированию и обработке документов.

Если рассматривать уровень крупного предприятия, то объем документов, которые может потребоваться отсканировать может быть колоссальным, и оборудование, используемое для этих целей, должно обладать соответствующими скоростными характеристиками и высокой надежностью. Категорию сканеров, обеспечивающих данные характеристики по праву называют Промышленными сканерами.

Теперь, разобравшись с основными понятиями в области сканирования документов, мы можем сделать несколько важных выводов:

1. Документный сканер - это устройство для сканирования документов. Для домашнего использования он может быть и планшетным, но для работы в режиме офиса (в потоке) - это по принципу действия всегда Протяжной сканер.

2. Любой Протяжной сканер так же можно назвать Поточным , разве что для настольных моделей начального уровня объем обрабатываемого потока сравнительно небольшой.

3. Протяжной поточный сканер документов, позволяющий обрабатывать большие объемы документов (до 100 и более листов в минуту, до 100 000 листов в день или даже без ограничений по количеству листов) - называется Промышленным сканером.

Таким образом, если взять к рассмотрению Документный сканер среднего и верхнего уровня, то его можно одинаково назвать Протяжным , Поточным и Промышленным . Иными словами, все рассмотренные в этой статье понятия относятся и могут быть применимы к устройствам одного класса.

Какое понятие является наиболее общим, объединяющим все остальные в единое направление (или класс)? Очевидно, что это понятие Документные сканеры . Оно наиболее полно определяет сферу деятельности (или даже специфический рынок) устройств, технологий и решений на их основе.

Существует некоторое количество специфических характеристик и особенностей, характерных только для Документных сканеров. Подробнее о классификации и характеристиках документных сканеров , а так же о разновидностях сканеров читайте на страницах нашего сайта.

Опция «Поточное сканирование» компании «Электронные Офисные Системы» помогает легко и быстро перевести в электронный вид большой объем бумажных документов. Эффективная организация поточного сканирования позволяет значительно сократить время массового перевода документов в электронный вид. Высокая скорость достигается благодаря автоматизации процесса сканирования и применению технологии параллельных вычислений при распознавании текста. Опция «Поточное сканирование» - это коробочное решение. Продукт можно использовать совместно с любой системой электронного документооборота.

Документы загружаются в сканер одной пачкой. В процессе сканирования каждый документ из нее автоматически идентифицируется по штрих-коду. Таким образом, все операции, начиная с загрузки документов в сканер, выполняются автоматически, без участия оператора. Штрих-код для документа может быть сгенерирован системой и распечатан на документе или на отдельном листе бумаги. Если на страницы документов уже нанесены штрих-коды стандартного формата, то они также могут быть использованы для идентификации.

Система поддерживает работу с сетевым сканером - достаточно загрузить в него документы и нажать кнопку сканирования на самом устройстве. Полученные результаты будут автоматически сохраняться и отправляться на дальнейшую обработку. Таким образом, управление сканированием сводиться к нажатию одной кнопки. А значит, не требуется ни специальных программ для управления сканером, ни отдельного рабочего места для управления сканированием, благодаря чему достигается существенная экономия времени.

Процедура регистрации сканируемых документов практически не отличается от стандартной. Опция «Поточное сканирование» запускается непосредственно из используемой системы документооборота.

При покупке системы лицензируется только параметр «количество обрабатываемых страниц в месяц». А дополнительно, для выполнения задач OCR-распознавания текста, в комплект могут быть включены лицензии на использование одного или нескольких экземпляров продукта ABBYY FineReader Engine.

На этапе запуска системы в эксплуатацию предусмотрена возможность вручную управлять работой системы. Это позволяет установить наиболее подходящие параметры настроек и подобрать оптимальное качество сканируемых документов.

Для работы опции «Поточное сканирование» рекомендуется использовать ОС Windows Server 2003 или Windows Server 2008.

Описание технологического процесса обработки документов

Принцип поточного сканирования основан на том, что на документ при регистрации наносится штрих-код. Потом помеченные штрих-кодом документы сканируются и автоматически (по штрих-коду) связываются с регистрационной карточкой соответствующего документа. Если на сканируемые документы уже нанесен штрих-код стандартного формата, то он также может быть использован для идентификации. Структурная схема работы системы представлена на рисунке.

В процессе сканирования предусмотрены как опция сохранения непосредственно графического образа документа, так и возможность последующего распознавания и сохранения в текстовом формате. Это существенно облегчает дальнейшую работу с документом и расширяет возможности использования поиска. Распознавание и перевод в текстовый формат реализуются с помощью ABBYY FineReader Engine.

Многоязычные документы

Опция «Поточное сканирование» позволяет обрабатывать документы на всех поддерживаемых ABBYY FineReader языках, включая русский, английский, немецкий, французский, испанский, итальянский, шведский, финский, болгарский, венгерский, словацкий, чешский, башкирский, белорусский, казахский, украинский.

Интеграция произвольной СЭД с опцией

Интеграция с опцией «Поточное сканирование» предполагает реализацию со стороны произвольной СЭД только двух функций:

    Формирование и отправка в опцию «Поточное сканирование» заявки на сканирование - cо стороны СЭД передается запрос, содержащий требования на обработку документа. Опция регистрирует заявку и возвращает в СЭД ее уникальный идентификатор. На данном этапе осуществляется связка уникального идентификатора заявки на сканирование с штрих-кодом, уже существующем на документе, либо вновь сгенерированным.

    Выполнение приема и сохранение итоговых результатов, сформированных опцией «Поточное сканирование» - при этом сопоставляются результатов выполнения сканирования с объектами СЭД. Причем данное действие, осуществляющееся на основе уникального идентификатора заявки на сканирование и может быть расширено любой бизнес - логикой СЭД.

Регистрация и сканирование документов

Регистрация документа, т.е. создание регистрационной карточки, выполняется по обычным правилам используемой системы электронного документооборота. Далее, при обращении к опции «Поточное сканирование» , происходят регистрация заявки на сканирование, а также генерация штрих-кода и указание параметров заявки (расположение штрих-кода, требуемые форматы, необходимость распознавания). После того как регистрационная карточка документа будет записана в базу данных, на его первую страницу или на отдельный лист бумаги с помощью принтера наносится штрих-код. Он содержит уникальный идентификационный номер документа и устанавливает правила его обработки. Печать полученного изображения штрих-кода осуществляется средствами системы документооборота. Затем пакет зарегистрированных документов помещается в устройство подачи бумаги сканера, после чего их обработка производится автоматически.

Применение штрих-кода

В процессе сканирования, нанесенный штрих-код используется как признак окончания текущего документа и начала следующего, а содержащаяся в штрих-коде дополнительная информация применяется для дальнейшей идентификации обрабатываемого документа.

Результаты сканирования

При сохранении графического образа документов система обеспечивает возможность конвертации изображений сканируемых документов в следующие форматы:

    BMP (Windows or OS/2 bitmap);

    PNG (Portable Network Graphics);

    TIFF (Tagged Image Format);

    JPEG (Joint Photographic Experts Group);

Для каждого из них предусмотрена возможность указывать размеры изображения и дополнительные атрибуты (глубина цвета, тип сжатия и т.п.). Если размер требуемого формата отличается от текущего графического представления, то конвертация может быть выполнена с использованием заданных параметров.

Текстовые документы

В случае применения технологии распознавания текста, предусмотрена возможность сохранения в большинстве наиболее распространенных форматах файлов*:

    Текстовый файл (.txt);

    Rich Text Format (.rtf);

    Microsoft Excel, Microsoft Excel 2007 (.xls, .xlsx);

    Microsoft Word 2007 (.docx);

  • PDF (Portable Document Format).

Для каждого из них предусмотрена возможность указывать дополнительные атрибуты (размер страницы, кодировка и т.п.). В режиме сохранения в виде PDF-файла возможна как запись в виде изображения, так и в виде распознанного текста.

Таким образом, опция «Поточное сканирование» реализует эффективную технологию преобразования бумажных документов в электронный вид и позволяет в сжатые сроки осуществить переход к работе с их электронными образами. Продуманные настройки, гибкие механизмы управления и подробная документация для разработчиков делают работу с системой удобной и результативной.

*Список поддерживаемых текстовых форматов зависит от возможностей используемой системы распознавания и может изменяться.

На фоне растущей популярности многофункционального оборудования кажутся все менее заметными специализированные устройства. Сложно недооценивать значимость техники, которая способна выполнять несколько задач - особенно если при этом не страдает качество. Но когда потребности в универсальности нет, то в целях экономии и оптимизации процесса обслуживания есть смысл приобретать именно аппараты для конкретных нужд. К таким относится и поточный сканер, позволяющий обрабатывать большое количество документов разного рода. Главная особенность этого типа сканирующей техники заключается в сочетании скорости и точности. Собственно, все ресурсы устройства ориентированы на выполнение сканирования, поэтому в массе своей поточные модели лишены возможностей печати.

Основные критерии выбора

Одной из главных характеристик любого сканера является производительность, то есть скорость обработки листов. Модели начального уровня позволяют в среднем обрабатывать до одной тысячи страниц. В среднем сегменте представлены поточные способные выдавать результат порядка 6-7 тыс. стр. Более высокий уровень производительности уже относится к профессиональному оборудованию.

Еще одной важной является возможность работы с разными форматами документов. Поскольку сама концепция оборудования рассчитана на большие объемы автоматической обработки, то логично, что каждый производитель ориентирует свой поточный сканер на поддержку массовых бумажных материалов. Это могут быть визитницы, анкетные бланки, буклеты, пластиковые карточки и т. д. Но здесь важно учитывать и толщину листа - обычно максимум достигает 1,5 мм.

Одно- или двухсторонние аппараты?

Возможность двухстороннего сканирования повышает производительность практически без потери в качестве. Это значит, что лист можно сканировать с обеих сторон одновременно, а не каждую по отдельности. Поэтому в том случае, если требуется оперативная обработка больших объемов, то лучше выбрать сканер поточный двухсторонний, который также облегчает и работу оператора. Но перед покупкой важно учесть и преимущества односторонних моделей.

Аппараты исключительно с односторонним сканированием сегодня практически не встречаются, но некоторые производители не зря продолжают их выпуск. Дело в том, что двухсторонняя обработка неизбежно увеличивает размеры оборудования и, конечно, стоимость. Кроме этого, усложненная конструкция приводит к более серьезным неисправностям. Поэтому выбирать поточный односторонний сканер целесообразно в тех ситуациях, если требуется надежность и компактность оборудования, но с меньшими возможностями производительности.

Отзывы о моделях Epson

Модели фирмы Epson традиционно ассоциируются с высоким качеством, однако в условиях жесткой конкуренции даже зарекомендовавшая себя продукция должна регулярно повышать планку. Судя по отзывам пользователей, у японского производителя это получается. Владельцы техники отмечают высокую скорость сканирования, разнообразие поддерживаемых форматов и точность перевода информации в цифровой вид. На рынке поточный сканер Epson представлен несколькими линейками, в которых можно найти и компактные модели для небольших офисов, и высокопроизводительные устройства для обслуживания нескольких отделов больших предприятий. Независимо от принадлежности к сериям, оборудование Epson вызывает у владельцев только положительные впечатления благодаря точности, надежности и продуманной эргономики.

Отзывы о моделях Canon

Продукция этой марки разрабатывается с уклоном в сторону технологичности и повышения точности сканирования. Практика эксплуатации техники это подтверждает. К примеру, многие отмечают неплохой эффект от функции улучшения обработки изображений, которой снабжается поточный сканер Canon в серии DR. Вместе с этим разработчики подключают средства автокоррекции текста с целью повышения его качества. Подобные нововведения охотно принимают и сами пользователи, имея дело с хорошим результатом сканирования.

В последних моделях появляются устройства, оптимизирующие процесс подачи материалов. Довольно распространенной проблемой многих аппаратов такого типа является нарушение приемки листа. Canon же предлагает поточный сканер с автоматической подачей, которая дополнена возможностью ультразвукового определения двойной приемки.

Рассмотрим модель бизнес процесса потокового сканирования текста для организации электронного архива документов

Назначение:


– Предварительное формирование штрих-кодов

– Формирование сканированного образа документа

– Формирование электронной учётной карточки, содержащей электронный образ отсканированного документа

– Передачу корректно отсканированного электронного образа документа в БД

Возможно осуществление потокового сканирования в пакетном режиме.

При этом каждый пакет документов для сканирования может идентифицироваться по:

– Количеству указанных страниц

– Пустым страницам-разделителям

– Штрих-кодам

Возможный вариант идентификации пакета сканирования определяется настройками сканирования.

Преимущества использования потокового сканирования для организации электронного архива документов:

– Снижение трудозатрат на ввод информации в базы данных

– Возможность замены бумажного документооборота и бумажных архивов электронной системой документооборота

– Повышение эффективности управления документами

– Снижение временных затрат на поиск документов

Электронный архив документов. Жизненный цикл сканированных документов

  1. Сканирование документов
  2. Распознавание информации
  3. Верификация данных
  4. Коррекция данных
  5. Экспорт данных

Подробнее по этапам.

Этап «Сканирование» может также интерпретироваться как «Импорт документов», т.к. системы потокового сканирования могут осуществлять считывание изображений не только со станций сканирования, но и из локальных, сетевых ресурсов, а также осуществлять считывание из электронной почты.

Но в рамках данной статьи мы рассматриваем конкретно потоковое сканирование, и как следствие, 1 этап – сканирование документов. Под системой потокового сканирования подразумеваются программные комплексы, предназначенные для потоковой обработки данных.

Поточные сканеры в большинстве своем оснащены системой автоматической подачи документов, что позволяет достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.

Для выделения отдельных документов из потока в начале сканируемого документа должна быть нанесена штамп-метка/маркер/штрих-код, либо документы потока должны быть разделены чистыми листами.

Если же при этом требуется определение типа и вида документа, то метка должна сопровождаться кодом сканирования, на основании которого будет проводиться сопоставление бумажного и электронного документов.

Если документ является многостраничным, метка и код сканирования наносятся только на первый лист документа, и в дальнейшем при вводе массива документов они служат признаком конца текущего документа и началом нового.

Место нанесения метки и кода сканирования может находиться в любой свободной от текста части документа. При отсутствии на лицевой стороне документа свободного места их можно нанести с обратной стороны листа.

Итого, мы можем выделить следующие подэтапы для первого этапа:

Формирование штамп-метки/маркера/штрих-кода специализированной программой

  • Одномерные штрих-коды
  • Двухмерные штрих -коды

Распечатка штамп-метки/маркера/штрих-кода

Подготовка комплекта документов для сканирования, нанесение штамп-метки/маркера/штрих-кода

Сканирование пакетов документов :

  • Исправление перекосов, искажений, удаление частей изображений и др.
  • Сборка документов по типам, видам
  • Корректировка качества сканирования

Сканирование документов можно осуществлять в рамках локальной сети, удаленно по средствам http, а также с использованием интерфейсов TWAIN, WIA и ISIS.

Результат выполнения этапа: отсканированный документ в формате PDF, TIFF, JPEG, JPEG2000, BMP, PNG, PCX, DCX, DjVu, JBIG2.

Системы, поддерживающие распознавание текста, позволяют:

  • Осуществлять распознавание печатного текста на разных языках , таких как: латинский, греческий, тайский, армянский, японский, корейский, китайский и др. Перечень поддерживаемых языков зависит от возможностей конкретной программы.
  • Осуществлять распознавание документов, содержащих текст сразу на разных языках . При этом, система сама распознает какой текст к какому языку относится.
  • Распознавать текст различного типа : типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
  • Распознавать штрих коды.

В качестве настроек обычно можно указывать максимальное количество неуверенно распознанных символов на страницы для дальнейшей корректировки содержания на этапе Верификации.

Результат выполнения этапа: отсканированный документ в формате Microsoft Word, HTML, PDF и др.

Распознавание штрих-кодов: Контроль качества распознавания: Преобразование PDF-файлов Этап 3. Верификация данных

Этап верификации включает:

  • Проверка на неуверенно распознанные символы
  • Проверку полученной от сканирования информации на ожидаемые типы данных
  • Проверку полученной от сканирования информации на присутствие значений
  • Редактирование распознанного текста
  • Формирование учетной карточки документа
  • Заполнение атрибутов карточки отсканированного документа
    • Автоматически
    • Вручную

На этом этапе, в случае обнаружения ошибок при сканировании и всех неточностей, информация помечается специальными маркеровками для дальнейшего исправления на этапе Коррекции. При необходимости, этап Верификации можно проводить повторно.

Результат выполнения этапа: заполненная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.

Этап 4. Коррекция данных

Оператор обрабатывает информацию, полученную на стадии верификации данных, вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). В некоторых случаях может объединяться с предыдущим этапом верификации данных.

Результат выполнения этапа: заполненная отредактированная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.

Этап 5. Экспорт данных

Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов сканирования.

При этом экспорт данных может осуществляться:

  • В локальную или сетевую папку
  • В корпоративный портал
  • В систему электронного документооборота/электронный архив

Результат выполнения этапа: размещение/отправка итогового документа на требуемом ресурсе.

————
Используемые ресурсы:
Приложение «Потоковое сканирование»
ABBYY

Назначение: предназначено для автоматизации перевода бумажных документов в электронный вид, создание электронного документооборота и электронного архива документов.

Функции потокового сканирования включают:

– Предварительное формирование штрих-кодов

– Формирование сканированного образа документа

– Формирование электронной учётной карточки, содержащей электронный образ отсканированного документа

– Передачукорректно отсканированного электронногообраза документа в БД

Возможно осуществление потокового сканирования в пакетном режиме. При этомкаждый пакет документов для сканирования может идентифицироваться по:

– Количеству указанных страниц

– Пустым страницам-разделителям

– Штрих-кодам

Возможный вариант идентификации пакета сканирования определяется настройками сканирования.

Преимущества использования потокового сканирования:

– Снижение трудозатрат на ввод информации в базы данных

– Возможность замены бумажного документооборота и бумажных архивов электронной системой документооборота

– Повышение эффективности управления документами

– Снижение временных затрат на поиск документов

Жизненный цикл сканированных документов

Документы в процессе сканирования проходят определенные этапы, совокупность которых мы обозначим как жизненный цикл сканированных документов (ЖЦ сканирования).

Основной процесс сканирования включает общие этапы:

Этапы ЖЦ сканирования включают:

1. Сканирование документов

2. Распознавание информации

3. Верификация данных

4. Коррекция данных

5. Экспорт данных

Роли пользователям выделяются в соответствии с их участием в ЖЦ сканирования.

Подробнее по этапам.

Этап 1. Сканирование документов

Этап «Сканирование» может также интерпретироваться как «Импорт документов», т.к. системы потокового сканирования могут осуществлять считывание изображений не только со станций сканирования, но и из локальных, сетевых ресурсов, а также осуществлять считывание из электронной почты.Но в рамках данной статьи мы рассматриваем конкретно потоковое сканирование, и как следствие, 1 этап – сканирование документов. Под системой потокового сканирования подразумеваются программные комплексы, предназначенные для потоковой обработки данных.

Поточные сканеры в большинстве своем оснащены системой автоматической подачи документов, что позволяет достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.

Для выделения отдельных документов из потока в начале сканируемого документа должна быть нанесена штамп-метка/маркер/штрих-код, либо документы потока должны быть разделены чистыми листами. Если же при этом требуется определение типа и вида документа, то метка должна сопровождаться кодом сканирования, на основании которого будет проводиться сопоставление бумажногои электронного документов. Если документ является многостраничным, метка и код сканирования наносятся только на первый лист документа, и в дальнейшем при вводе массива документов они служат признаком конца текущего документа и началом нового.

Место нанесения метки и кода сканирования может находиться в любой свободной от текста части документа. При отсутствии на лицевой стороне документа свободного места их можно нанести с обратной стороны листа.

Итого, мы можем выделить следующие подэтапы для первого этапа:

– Формирование штамп-метки/маркера/штрих-кода специализированной программой

o Одномерные штрих-коды

o Двухмерные штрих -коды

– Распечатка штамп-метки/маркера/штрих-кода

– Подготовка комплекта документов для сканирования, нанесение штамп-метки/маркера/штрих-кода

– Сканирование пакетов документов:

o Исправление перекосов, искажений, удаление частей изображений идр.

o Сборка документов по типам, видам

o Корректировка качества сканирования

Сканирование документов можно осуществлять в рамках локальной сети, удаленно по средствам http , а также с использованием интерфейсов TWAIN, WIA и ISIS.

Результат выполнения этапа: отсканированный документ в формате PDF, TIFF, JPEG, JPEG2000, BMP, PNG, PCX, DCX, DjVu, JBIG2.

Этап 2. Распознавание информации

На этапе распознавания используются программные OCR компоненты.

Системы, поддерживающие распознавание текста, позволяют:

o Осуществлять распознавание печатного текста на разных языках, таких как: латинский, греческий, тайский, армянский, японский, корейский, китайский и др. Перечень поддерживаемых языков зависит от возможностей конкретной программы.

o Осуществлять распознавание документов, содержащих текст сразу на разных языках. При этом, система сама распознает какой текст к какому языку относится.

o Распознавать текст различного типа: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.

o Распознавать штрих коды.

В качестве настроек обычно можно указывать максимальное количество неуверенно распознанных символов на страницы для дальнейшей корректировки содержания на этапе Верификации.

Результатвыполнения этапа: отсканированный документ в формате Microsoft Word, HTML, PDF и др.

Высокое качество распознавания и восстановления оформления документа:

  • Поддержка 191 языка распознавания печатного текста, включая языки на основе латинского, греческого, тайского, армянского и кириллического алфавитов, а также японский, корейский, китайский и тайский языки.
  • Распознавание многоязычных документов.
  • Режим быстрого распознавания увеличивает скорость обработки изображений хорошего качества в 2-2,5 раза.
  • Поддержано распознавание различных типов текста: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.

Распознавание штрих-кодов:

  • Поддержано распознавание наиболее популярных одномерных и двумерных штрих-кодов.
  • Автоматически идентифицируются и распознаются штрих-коды, расположенные на странице под любым углом к горизонтали.

Контроль качества распознавания:

  • Установка порога качества распознавания изображений, основанная на допустимом количестве неуверенно распознанных символов на страницу.

Преобразование PDF-файлов

  • Определение текстового слоя и его целостность дляообеспечения более быстрого и качественного преобразования PDF-файлов.
  • В создаваемых PDF-файлах сохраняются метаданные документа (название, автор, тема, ключевые слова) и восстанавливаются гиперссылки внутри документа.
  • Поддержаны алгоритмы шифрования и другие средства разграничения доступа: сохранение результатов распознавания в PDF-файл, защищённый паролем.

Этап 3. Верификация данных

Этап верификации включает:

o Проверка на неуверенно распознанные символы

o Проверку полученной от сканирования информации на ожидаемые типы данных

o Проверку полученной от сканирования информации на присутствие значений

o Редактирование распознанного текста

o Формирование учетной карточки документа

o Заполнение атрибутов карточки отсканированного документа

§ Автоматически

§ Вручную

На этом этапе, в случае обнаружения ошибок при сканировании и всех неточностей, информация помечается специальными маркеровками для дальнейшего исправления на этапе Коррекции. При необходимости, этап Верификации можно проводить повторно.

Станция верификации позволяет оператору проверять, правильно ли была проанализирована страница, создавать и редактировать блоки, проверять неуверенно распознанные символы, а также редактировать распознанный текст.

После верификации и устранения ошибок, страница будет отправлена на дальнейшую обработку или проэкспортирована. При неудовлетворительных результатах распознавания, оператор станции верификации может отправить страницу на повторную обработку.

Результатвыполнения этапа: заполненная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.

Этап 4. Коррекция данных

Оператор обрабатывает информацию, полученную на стадии верификации данных, вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). В некоторых случаях может объединяться с предыдущим этапом верификации данных.

Результатвыполнения этапа: заполненная отредактированная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.

Этап 5. Экспорт данных

Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов сканирования. При этом экспорт данных может осуществляться:

o В локальную или сетевую папку

o В корпоративный портал

o В систему электронного документооборота/электронный архив

Результат выполнения этапа: размещение/отправка итогового документа на требуемом ресурсе.

www.abbyy.ru

Рожкова Елена

GD Star Rating
a WordPress rating system

Организация электронного архива документов.Потоковое сканирование , 5.0 out of 5 based on 1 rating

Этапы процесса

Сканирование бумажных документов

Эффективность данного этапа определяется в большей степени качеством используемого оборудования.

Современные поточные сканеры оснащены системой автоматической подачи документов, что позволяет сократить ручной труд и достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.

Распознавание информации

На этапе распознавания используются программные OCR компоненты. Качество результирующих записей зависит от степени готовности анкеты к машинному чтению и тщательности предварительной настройки программного обеспечения.

Верификация данных

Производится автоматическая верификация полученных после распознавания данных. Наиболее частые проверки - проверка на ожидаемый тип данных (число/чекбокс/строка), проверка на присутствие значений. Все проблемные места, отмеченные на данном этапе маркируются для передачи на стадию коррекции.

Коррекция данных

Оператор обрабатывает информацию полученную на стадии верификации данных и вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). На данном этапе повторно производится «обучение» программного комплекса. Все накопленные правки анализируются алгоритмами и применяются для дальнейшей работы с данным набором анкет.

Экспорт данных

Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов анкетирования.

Производительность систем ввода анкет

На этапах сканирования и распознавания анкет важную роль играет применяемая техника. Использование профессиональных промышленных сканеров и мощных станций распознавания позволит добиться максимальной скорости оцифровки (около 96000 анкет за 1 рабочий день для 1 сканера). Узким местом на пути получения готовой базы данных является этап коррекции данных. Для обеспечения минимального количества ошибок операторы вручную обрабатывают информацию помеченную на этапе верификации данных. Процедура занимает много времени и требует серьёзного специализированного обучения сотрудников.


Wikimedia Foundation . 2010 .

  • Счастлива
  • Потпорань

Смотреть что такое "Поточное сканирование документов" в других словарях:

    Оцифровка книг - Сверхпроизводительный сканер APT BookScan Оцифровка книг это процесс перевода бумажных книг в электронны … Википедия