Технология преобразования бумажного документа в электронный
(смотри также университетские файлы по сканированию)
Для хранения документальной или иной информации в памяти ПК она должна быть представлена в электронном виде. Одним из методов решения этой задачи является ввод данных с помощью клавиатуры. Однако при больших объемах информации основной технологией преобразования бумажного документа в электронную форму является сканирование. Сканирование обеспечивает получение графического образа бумажного документа, т. е. в результате сканирования создается графический файл, в котором хранится растровое (т. е. состоящее из точек) изображение документа.
Для ввода текста и иллюстраций можно использовать ручные, листовые и планшетные сканеры. Наилучшее качество и максимальное удобство при работе с бумажными документами обеспечивают планшетные сканеры. Подключение сканера к ПК обеспечивается через аппаратные и программные интерфейсы. Большинство программ работы со сканером обеспечивают возможность:
1. отсканировать весь документ и далее уточнить (выбрать) область окончательного сканирования;
2. выбрать место размещения сканированного изображения (передать для печати на принтер, сохранить в файле, передать в графический редактор, отправить по электронной почте);
3. автоматической настройки параметров сканирования;
4. вручную задать дополнительные настройки (разрешение, размер вывода и др.).
После обработки документа сканером получается графическое изображение документа, но оно не является текстовым документом с точки зрения компьютера. Следовательно, он не может быть полноценно обработан текстовым процессором. Для преобразования графического образа в текстовой документ используется технология распознавания текста. Современные технологии распознавания текста не ориентируются нина конкретный шрифт, ни на конкретный алфавит. Их функциональные возможности универсальны.
Наиболее распространенной программой данного назначения, обеспечивающей высокое качество и удобство применения, является программа FineReader.
Процесс преобразования бумажного документа в электронный происходит в три этапа, каждый из которых может быть выполнен как автоматически, так и под контролем пользователя. На первом — сканирующее устройство выполняет сканирование и передает информацию программе FineReader. При естественном порядке распознавания текста программа последовательно обрабатывает строки слева направо. Однако если текст неоднороден (содержит таблицы, рисунки, примечания и пр.) или разбит на несколько колонок, то необходимо провести его сегментацию, т. е. разбиение на блоки. На втором этапе программа осуществляет автоматическую сегментацию и в зависимости от типа информации, содержащейся в каждом блоке, проводит далее распознавание текста. Текст документа появляется в окне документа. Его можно сохранять постранично или собирать весь документ в один файл. Есть возможность прямой передачи полученного текста в Word и Excel, а также в буфер обмена.
Особый интерес представляет режим распознавания заполненных бланков или анкет. При их обработке распознается и вводится в компьютер лишь переменный текст. На основе же постоянного текста предварительно создается шаблон формы. Созданный шаблон используется на этапе сегментации для разбиения текста по полям бланка. В результирующем документе присутствует как переменный, так и постоянный текст.
Дата добавления: 2017-10-09; просмотров: 2504;