Сканирование документов и системы распознавания. Поточное сканирование документов в центре сканирования осг

01.02.2019

«Ретроспективная конверсия» («Ретроконверсия») - именно так называется трудоемкий, но необходимый для формирования электронного архива документов (е-Архив) процесс перевода документов бумажного архива или библиотеки в электронный вид.

Сканирование документов происходит чаще всего в центре сканирования ОСГ, но при необходимости процесс оцифровки документов может быть налажен и в месте хранения архива на территории клиента.

В наиболее распространенном варианте сотрудничества после архивной подготовки документов курьеры ОСГ забирают ваши документы и доставляют транспортом ОСГ в центр сканирования. Затем квалифицированный персонал компании при помощи самой современной специализированной техники производит сканирование и распознавание документов, и в итоге создают цифровые копии оригиналов ваших документов в любом из форматов: TIFF, PDF или JPG. Полученные файлы можно записать на диск, карту памяти или другой носитель.

Сканирование документов с распознаванием текста и поиск по ключевым словам

В дополнение к услуге сканирования документов мы предлагаем воспользоваться нашей системой оптического распознавания символов (OCR), которая позволит автоматически извлечь точные данные из заполненных форм, распознает не только машинописный текст, но и написанный «от руки» и даже штрих-коды. Заказывая услуги сканирования и распознавания текста документов вы создаете основу для увеличения производительности и эффективности работы вашего персонала за счет ускорения документооборота. Немалую долю прироста эффективности при этом составляет появляющаяся при распознавании документов возможность поиска документов по ключевым словам. Сам по себе такой поиск в разы ускоряет работу с документами и это - только часть преимуществ вашей новой системы хранения документов!

Отсканируем любое количество документов - даже весь архив!

Сканирование большого количества текстовых и других документов - специализация компании ОСГ. Мы произведем сканирование архивных документов архива любого объема, отсканируем каждый документ, который Вы хотите поместить в электронный архив (e-Архив), даже если этих документов тысячи, сотни тысяч, миллионы…

Благодаря этому у ваших сотрудников появится круглосуточный ежедневный онлайн доступ ко всей оцифрованной документации из любого места при наличии выхода в Интернет. Оцифровка и распознавание документов освободят ваш офис от лишних бумаг и чем больше документов будет обработано, тем заметнее эффект.

Преимущества сканирования документов с осг:

    Высокая скорость и аккуратность обработки - обеспечивается качественным потоковым сканированием

    Сканирование любого количества документов

    Низкая себестоимость сканированной копии

    Удобная передача оцифрованных документов через сеть Интернет или на дисках

    Возможность сканирования документов больших форматов

    Возможность сканирования многостраничных документов

    Оцифровка применима для любых договоров, приказов, бухгалтерских, медицинских документов

    Возможность извлекать данные из форм

    Освобождение офисного пространства от завалов бумажных документов

    Возможность сканирования любых документов для создания e-Архива

    Хранящиеся в ОСГ бумажные документы всегда можно отсканировать

    Предоставляется место хранения документов после их оцифровки

    Конкурентная стоимость сканирования документов

    Возможность перевода технической документации (чертежей) в электронный вид

Архивная опись и индексация документов

Для любого бизнеса очень важно хранить постоянно растущее число документов в архиве в идеальном порядке. Опись документов в архив является одним из главных секретов поддержания оперативности работы, позволяющим экономить время и силы на поисках различной документации. Четкая каталогизация и индексация документов позволит Вам быстро находить и получать отдельные архивные единицы. Экспертные услуги по каталогизации и индексации документов, оказываемые ОСГ, позволят Вам профессионально организовать ваш архив независимо от его размера. Опись для архива составляется с целью создания систематизированного перечня единиц различных документов.

ОСГ проведет опись документов для архива и превратит его в ценный ресурс

Архивная опись дел, необходимая для каталогизации и реорганизации ваших файлов в логическом порядке, производится специалистами ОСГ с использованием технологии штрихового кодирования. Важная информация о файлах (дата, тема, отдел и краткое описание) вводится в новую базу данных. Опись архивных документов для Вас будет означать быстрый поиск и получение отдельных файлов одним щелчком мыши. ОСГ превращает Ваш архив в ценностный ресурс, позволяющий Вашей компании вести дела более эффективно. Архивная опись значительно упрощает работу всей организации.

Опись документов в архив - услуга невероятно полезная, особенно если Вы впервые передаете ваши бумажные документы в центр безопасного хранения ОСГ. Наша большая команда специалистов занесет в каталог и проиндексирует документы даже самых больших архивов в кратчайшие сроки.

Фотокаталогизация

Помимо описи документов в архив, ОСГ предлагает каталогизацию архива с фото. Мы делаем цифровые фотографии ярлыков / титульных страниц Ваших документов. Изображения размещаются в базе данных, после чего можно просматривать и заказывать их доставку. Это полезная услуга для рукописных документов, учет которых обычно сложен.

Архивная опись дел и индексация документов дает Вам множество преимуществ:

    Новая эффективная база данных

    Хранение важной информации

    Быстрый поиск и восстановление данных

    Предоставляется полный инвентарный перечень

    Исключается потеря файлов

    Работа с профессионалами ОСГ

    Скорость и точность обработки больших объемов данных

Курьерская доставка и вывоз документов

ОСГ имеет свою собственную курьерскую службу, которая собирает и доставляет Ваши документы и диски в любую точку мира. Наши водители носят униформу и удостоверения личности. Они хорошо обучены и осознают всю важность надежной и своевременной доставки Ваших документов и дисков. Документы сканируются при поступлении и при выдаче, поэтому Вы всегда знаете их точное местонахождение и получаете уведомления для проверки и подтверждения операций с ними.

Благодаря обширному автопарку современных грузовых автомобилей ОСГ, мы всегда готовы осуществить любые перевозки, начиная от одного документа и заканчивая целыми архивами, состоящими из миллионов файлов.

Ваши преимущества

    Заказ в режиме онлайн или по телефону

    Заказ любого объема документов

    Быстрое и надежное обслуживание

    Документы сканируются при поступлении и при выдаче

    Безопасность на высшем уровне

Внеофисное хранение документов

Различные нормативные акты и корпоративные процедуры предписывают необходимость долговременного хранения множества бумажных документов в архиве, например, договоров, личных дел, финансовых бумаг. Одни из наиболее распространенных - задачи хранения документов бухгалтерского учета и хранения кадровых документов.

Правила хранения бухгалтерских документов, документов налогового учета, в том числе сроки хранения денежных документов (накладных, счетов-фактур, актов, кассовых документов, документов строгой отчетности, т.е. так называемой «первички») регулируются законами РФ, приказами Росархива и варьируются. (см. также Программа управления кредиторской задолженностью) Кроме того, в определенный момент количество хранимых документов превращается в ощутимую проблему для многих государственных и коммерческих компаний, предприятий и организаций, сдерживая скорость движения документов и эффективность работы в целом, не говоря уже об увеличении стоимости затрат содержания архива.

До недавнего времени большинству компаний и организаций в такой ситуации приходилось отнимать площади под архив у дорогого офисного пространства, приходилось также самостоятельно заботиться о сохранности архива, обучении персонала подготовке документов к архивному хранению, систематизации и хранению документов. Несовершенные условия хранения документов, устаревшие технологии и текучка кадров замедляли поиск документов и становились частой причиной их утери. ОСГ предлагает компаниям современное альтернативное решение, которое позволяет уменьшить расходы и повысить эффективность - это организация архивного хранения документов.

Услуги по хранению документов, т.е. организация депозитарного хранения документов в специализированном архивном комплексе при постоянном контроле сроков и других условий хранения каждого из многочисленных видов документов - современное решение проблемы дорогостоящего содержания собственного архива для крупных компаний и компаний с большим документооборотом в бумажной форме.

Введение

Преобразование документа в электронный вид делится на два этапа: получение графического образа документа и перевод графического образа в текстовый формат. Графический образ документа является результатом сканирования. Перевод графического образа документа в текстовый формат может быть произведен вручную (этот способ будет подробно рассмотрен в лекции "Индексация и имиджинг") или посредством автоматического распознавания.

Настоящая лекция посвящена вопросам сканирования и распознавания, в ней будут рассмотрены следующие темы:

  1. Технология сканирования
  2. Обзор сканеров для ЭА, их основные характеристики и примеры
  3. Суть процесса распознавания
  4. Точность распознавания и пути ее достижения

Сканирование - процесс оцифровки аналогового изображения (документ, фотография, иллюстрация, слайд) при помощи специального устройства, называемого сканером. Сканирование производится для получения, на основе оригинала, его цифрового "портрета", пригодного для компьютерной обработки.

Сканер - оптико-электронное устройство для ввода в компьютер графических зображений. Сканер создает оцифрованное изображение документа и помещает его в память компьютера.

Для работы с архивными документами в настоящее время используются, в основном, черно-белые и полутоновые монохромные сканеры. Это связано в первую очередь, с тем, что преобладающим типом архивного документа является текстовый документ, отпечатанный на пишущей машинке или монохромном принтере, с рукописным заполнением или правкой темными чернилами и эпизодически включающий печати, рисунки, схемы или черно-белые фотографии. Исходя из этого, в настоящей лекции будут рассмотрены только монохромные сканеры.

Обзор сканеров для ЭА

По характеру использования в технологическом процессе сканеры документов принято подразделять на следующие типы:

  1. Планшетные
  2. Протяжные или роликовые
  3. Планетарные или книжные

Планшетный сканер.

Планшетный сканер - сканер, в котором оригинал кладется на стекло и сканируется при помощи подвижной линейной ПЗС матрицы. Прибор с зарядовой связью (ПЗС) - светочувствительная матрица сканера. Принцип ее работы состоит в том, что падающий на датчик ПЗС свет создает на нем электрический заряд, величина которого определяется интенсивностью падающего света. Измерение величины этого заряда и позволяет представить информацию о цвете в цифровом виде.

Планшетные сканеры предназначены для ежедневного сканирования небольшого объёма фотографий, слайдов (при наличии слайд-адаптера) или документов (до 300 листов в день). Особенность данного типа сканеров - простота конструкции, ручная обработка документов, низкая производительность.

Протяжной или роликовый сканер.

Протяжной или роликовый сканер - сканер, в котором оригинал протягивается мимо неподвижной линейной ПЗС матрицы, разновидность такого сканера - факс-аппарат.

Скоростной сканер для работы с документами - разновидность протяжного сканера, предназначенная для высокопроизводительного многостраничного ввода. Сканеры могут быть оборудованы подающими и приемными лотками объемом свыше 1000 листов, и вводить информацию со скоростью до 180 и более листов в минуту.

Дополнительными возможностями, присущими данному типу сканеров, являются:

  1. двустороннее сканирование (дуплекс)
  2. подсветка оригинала разными цветами для отсечки цветного фона
  3. система компенсации неоднородного фона
  4. модули динамической обработки разнотипных оригиналов
  5. надпечатывание отметки о том, что документ прошел обработку

Скоростные протяжные сканеры предназначены для поточного сканирования (ввода) формализованных документов (бланки, накладные, картотеки и т.д.), а также обычных документов (договоры, письма, и т.д.)

Особенность данного типа сканеров - повышенная надёжность конструкции, пакетная обработка документов, высокая производительность.

Планетарный или книжный сканер.

Планетарный сканер - устройство, в котором при сканировании оригинал неподвижен и располагается лицевой стороной вверх на значительном удалении относительно оптической системы и сканирующей линейной ПЗС матрицы сканера. Планетарные сканеры могут быть оборудованы специальными книжными колыбелями для удобного размещения фолиантов при сканировании.

Данный тип сканера предназначен для сканирования скреплённых документов, периодических изданий и книг.

Особенность планетарных сканеров - бесконтактный метод сканирования, нет необходимости расшивки оригиналов, большая производительность при оцифровке книг и сшитых оригиналов.

Основные характеристики сканеров

Разрешение (Resolution) - число точек или растровых ячеек, из которых формируется изображение, на единицу длины или площади. Чем больше разрешение устройства, тем более мелкие детали могут быть воспроизведены. Измеряется в "точках на квадратный дюйм" (DPI, dots per inch). Типовое разрешение промышленных сканеров - 200-300 DPI.

Разрядность цвета (глубина цвета) - количество разрядов каждого пикселя в цифровом изображении, в т.ч. выдаваемом сканером. Описывает максимальное количество цветов, воспроизводимое сканером в виде степени числа 2. Одному разряду соответствует черно-белое изображение, 8-ми - серое полутоновое (типовое для рассматриваемых в данной лекции сканеров), 16-ти - цветное, 24-цветное изображение, наиболее близкое к человеческому восприятию (модель RGB), 36bit и больше - полноцветное изображение с высокой достоверностью цветопередачи, предназначенное для профессиональной работы, чаще всего в издательском деле.

Время сканирования. Измеряется в страницах в минуту (иногда - в секундах на изображение). Типовые значения различны для разных типов сканеров и приведены далее в примерах.

Формат. Формат сканируемого документа. Как правило - A3/A4.

Интерфейс передачи данных - способ подключения сканера к компьютеру. Способы могут быть различны (к COM или USB порту, к SCSI карте и др.).

Примеры сканеров

ЭЛАР ПЛАНСКАН.

ЭЛАР ПЛАНСКАН относиться к типу планетарных сканеров. Конструктивной особенностью подобных устройств является расположение документа на значительном удалении от модуля сканирования. Сканеры планетарного типа первоначально разрабатывались для сканирования книг. Отсюда и пришло их общепринятое название - книжные сканеры.

Со временем, сфера применения данных сканеров значительно расширилась и, помимо сканирования книг, они стали повсеместно использоваться для оцифровки любых скреплённых и крупноформатных документов.

  1. Перевод в электронный вид архивных документов и дел
  2. Оцифровка периодических изданий и книг
  3. Сканирование инженерной и картографической документации (до А2)

Принцип работы сканера ПЛАНСКАН заключается в получении изображения неподвижной рабочей поверхности оригинала методом её сканирования ПЗС линейкой. Оригинал документа размещается на рабочей поверхности сканера и, с помощью оптической системы, проецируется на ограниченную область, по плоскости которой в течение 3 секунд производится перемещение ПЗС линейки. С помощью специальной электроники сканера, сформированное ПЗС линейкой изображение переводится в цифровой вид и преобразуется в полностью готовый образ документа. При этом, в зависимости от выбранного режима, производится обрезка по формату документа, выравнивание и очистка от мелких пятен. В последствии документ, уже в электронном виде, передаётся компьютеру для последующей обработки и архивации.

Данная технология сканирования даёт ряд преимуществ, особенно при работе со скреплёнными и крупноформатными документами. Основными из них являются:

  1. Высокая сменная производительность благодаря возможности быстрой смены оригиналов или переворота страниц оператором и наличию встроенных функций автоматической обработки изображений
  2. Возможность сканирования документов формата до А2 с разрешением 300 dpi
  3. Автоматическая фокусировка даёт возможность сканировать книги и папки толщиной до 20 см без перенастройки сканера
  4. Скорость сканирования - 2/3/6 сек.(формат А4/А3/А2)

ЭЛАР СКАМАКС.

ЭЛАР СКАМАКС относится к типу протяжных документных сканеров. Он предназначен для задач скоростного сканирования не сшитых документов до формата А3 (до 30.000 листов в день). Для отличия от обычных, не скоростных, протяжных сканеров, ЭЛАР СКАМАКС носит название “промышленного" документного сканера. Это обусловлено особыми требованиями к функциональности и надёжности работы устройства сканирования при столь высоких нагрузках.

Сканер обычно используется для решения следующих задач:

  1. Перевод бумажного архива в электронный вид
  2. Автоматизированная обработка формуляров
  3. Ввод текущих поступлений документов в электронный архив

Принцип работы ЭЛАР СКАМАКС заключается в поочерёдном протягивании через оптическую систему поступающих из подающего лотка документов. При этом изображение документа проецируется оптической системой, на камеру с неподвижной ПЗС линейкой для последующего преобразование оптического сигнала в цифровой вид. Встроенный в сканер документный процессор способен в реальном времени, не теряя скорости сканирования, обрабатывать сформированные ПЗС линейкой электронные образы документов, улучшая их качество и преобразуя в требуемый графический формат, например, осуществлять сжатие в TIFF G4. Для одновременного сканирования обеих сторон документа в сканер устанавливается дополнительная задняя камера.

Преимуществом данной конструкции сканирующего устройства является высокая скорость оцифровки документов. Для работы сканера оператору необходимо только загрузить пачку в подающий лоток сканера и запустить процесс сканирования, все остальные операции выполняются в полностью автоматическом режиме.

Прочие характеристики:

  1. Одно- и двухсторонний режимы сканирования
  2. Формат оригиналов от 2,6х6 см до А3
  3. Скорость сканирования
    1. 90 стр./мин. (односторонний режим)
    2. 180 стр./мин. (двусторонний режим)
  4. Разрешение 200/240/300dpi.

Программное обеспечение сканирования

  1. ПО сканирование малых объёмов документов
  2. ПО сканирования больших объёмов документов
  3. ПО для специальных задач сканирования

ПО сканирование малых объёмов документов.

Применяется при домашнем и офисном сканировании.

Используется практически любое программное обеспечение, совместимое со стандартом TWAIN и поддерживающее функцию сканирования - система управления документооборотом, программа распознавания графических образов или любой распространенный графический редактор.

TWAIN (Toolkit Without An Interesting Name) - "инструментальный набор, для которого не удалось придумать интересного названия". Является стандартом для прикладного программного интерфейса (API) таких периферийных устройств, как сканеры, т.е. связующим звеном между компьютером и сканером.

Примеры ПО сканирования малых объемов:

  1. ABBYY FineReader
  2. Adobe PhotoShop
  3. Cognitive Cuineiform
  4. Microsoft Photo Editor
  5. ACDSEE

ПО сканирования больших объёмов документов.

Применяется при промышленном сканировании.

При поточном сканировании один сканер ежедневно может обрабатывать до 50.000 и более документов. При таких нагрузках возможностей универсального стандарта TWAIN становится не достаточно, и для программного управления сканерами используется промышленный стандарт ISIS (ISIS - Image and Scanner Interface Specification).

Примеры применяемого ПО:

  1. Kofax Ascent Capture
  2. Captiva InputAccel

ПО для специальных задач сканирования.

Применяется при планетарном, высококачественном сканировании.

Программное обеспечение специально разрабатывается с учётом специфики сканирующего устройства, не совместимо с другими стандартами.

Применяемое ПО:

  1. ПланСкан BSC-2
  2. RZ ProScan Book (Minolta PS7000 edition)
  3. Zeutschel OmniScan

Что такое системы распознавания?

Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы:

  1. определение областей распознавания
  2. определение таблиц
  3. определение картинок
  4. выделение в тексте строк и отдельных символов

и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.

Точность распознавания

Ключевым параметром систем распознавания, характеризующим их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.

OCR-системы могут достигать наилучшей точности распознавания - свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.

Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение указанных ниже причин ошибок.

Причины ошибок при распознавании

Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для "нечистых" текстов часто недопустимо велик. Грязные изображения - здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с "человеческим фактором", так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.

Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.

Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.

Вопросы практического применения систем распознавания, а также проблем, вызванных недостаточной точностью распознавания, и путей их решения будут рассмотрены в следующей лекции, "Индексация и имиджинг".

Если у вас возникла необходимость в электронных копиях документов или изображений, то вы можете воспользоваться услугой цветного или чёрно-белого сканирования. Такие электронные копии будут пригодны, как для редактирования, хранения, так и для последующего их тиражирования в любом месте, где есть возможность распечатки. Сканирование в нашей сети копировальных центров, можно произвести, как ручным способом, так и автоматическим. Размер и план изображений не имеют значения. Можно сканировать, как отдельные страницы из книг или журналов, так и книги полностью, а также лекции, чертежи, плакаты или слайды. Есть возможность, воспользовавшись быстрым сканированием, получить большой объём страниц в самые короткие сроки.

Быстрое сканирование документов

Услуги оперативного сканирования документов

Качество изображений при быстром сканировании, ничем не уступает от обычного сканирования. Если вы ограничены во времени, можно воспользоваться услугой экспресс сканирования, выполненной на профессиональном сканере. Кроме высококачественного сканирования документов и фотографий, есть возможность сканирования ветхих изображений или документов. В этом случае всё будет отсканированно вручную и вы получите обработанные на компьютере цветные или чёрно-белые копии документов или изображений, которые по качеству, без сомнения, превзойдут их оригинал. Если документы, которые нужно отсканировать сшиты, их можно сканировать через стекло вручную или же, предварительно расшив их, воспользоваться автоматическим сканированием.

Обработка отсканированного материала

Для нашей сети копировальных центров свойственна не только услуга по недорогому сканированию различных документов, но и возможность дальнейшей их обработки. По желанию заказчика есть возможность графические изображения подвергнуть ретуши и цветокоррекции, после чего их можно, как печатать на различных материалах, так и использовать при создании различной печатной продукции, а в других случаях просто хранить в электронном альбоме. В наших центрах уже готовые электронные документы мы можем записать на диски, дискеты, флеш-карту или же отправим вам на вашу электронную почту. Если у вас будет необходимость в сканировании большого объёма документов, и при этом вы воспользуетесь услугой их обработки и печати, наши копицентры предоставят вам систему скидок, что немаловажно при ограниченном бюджете.