Технологии обработки текстовой информации
Технология обработки текстовой информации включает:
- процесс обработки текстовой информации – процесс создания (подготовки) текстовых документов;
- редактирование – процесс изменения содержания текстового документа;
- форматирование – процесс придания тексту формы.
В процессе обработки текстовой информации решаются следующие типовые задачи:
- ввод и отображение текста;
- редактирование;
- форматирование;
- запись документа на диск в виде файла (сохранение);
- считывание документа из файла в память компьютера (загрузка);
- вывод на бумагу.
Выше перечисленные задачи возможно решить с помощью систем подготовки и обработки текстовых документов.
Системы данного класса можно разбить по функциональному наполнению на:
- текстовые редакторы обеспечивают ввод, изменение и сохранение символьного текста, не требующего форматирования, т.е. изменения шрифта, цвета текста и т. д. Результатом работы текстового редактора является текстовый ASCII-файл (ASCII — American Standard Code for Information Interchange — Американский стандартный код для обмена информацией);
- текстовые процессоры - это система подготовки сложных текстовых документов.
С точки зрения удобства для пользователя одним из важнейших свойств текстовых процессоров является полное соответствие бумажной копии документа его образу на экране.
Среди функций текстовых процессоров можно выделить:
o форматирование текста, при этом изменения, вносимые пользователем, сразу находят отражение в документе;
o возможность предварительного описания структуры будущего документа. В этом описании задаются такие параметры, как величина абзацных отступов, размер шрифта, расположение заголовков, междустрочные интервалы, число колонок текста, расположение и способ нумерации сносок и т.д.;
o возможность автоматической проверки орфографии и получения подсказки при выборе синонимов;
o возможность ввода и редактирования таблиц и формул с отображением их на экране в том виде, в каком они будут напечатаны;
o возможность объединения документов в процессе подготовки текста к печати;
o возможность автоматического составления оглавления и указателя.
- настольные издательские системы (НИС) не являются более совершенным продолжением текстовых процессоров, так как у них совсем иная предметная область. Настольные издательские системы предназначены не столько для создания больших документов, сколько для реализации различного рода полиграфических эффектов.
Во всех НИС реализованы функции, отсутствующие в большинстве текстовых процессорах, например, сжатие и растяжение строк, вращение текста, обтекание рисунка текстом по произвольному контуру и т. д.
Существуют НИС профессионального уровня и НИС начального уровня. Системы первой группы предназначены для работы над изданиями документов со сложной структурой типа иллюстрированного журнала.
Системы второй группы обычно используются для создания информационного бюллетеня или простого рекламного буклета.
Первый этап (процесс создания (подготовки) текстовых документов) в технологической цепочке обработки информации может осуществляться несколькими способами, одним из них является процес сканирования документов.
Преобразование документа в электронный вид делится на два этапа: получение графического образа документа и перевод графического образа в текстовый формат. Графический образ документа является результатом сканирования. Перевод графического образа документа в текстовый формат может быть произведен посредством автоматического распознавания.
Сканирование - процесс оцифровки аналогового изображения (документ, фотография, иллюстрация, слайд) при помощи специального устройства, называемого сканером. Сканирование производится для получения, на основе оригинала, его цифровой копии, пригодного для компьютерной обработки.
Сканер - устройство для ввода в компьютер графических изображений. Сканер создает оцифрованное изображение документа и помещает его в память компьютера.
По характеру использования в технологическом процессе сканеры документов принято подразделять на следующие типы:
- планшетный сканер - сканер, в котором оригинал кладется на стекло и сканируется при помощи подвижной линейной ПЗС матрицы. Прибор с зарядовой связью (ПЗС) - светочувствительная матрица сканера. Принцип ее работы состоит в том, что падающий на датчик ПЗС свет создает на нем электрический заряд, величина которого определяется интенсивностью падающего света. Измерение величины этого заряда и позволяет представить информацию о цвете в цифровом виде.
Планшетные сканеры предназначены для ежедневного сканирования небольшого объёма документов (до 300 листов в день). Особенность данного типа сканеров - простота конструкции, ручная обработка документов, низкая производительность.
- протяжной или роликовый сканер - сканер, в котором оригинал протягивается мимо неподвижной линейной ПЗС матрицы.
Скоростной сканер для работы с документами - разновидность протяжного сканера, предназначенная для высокопроизводительного многостраничного ввода. Сканеры могут быть оборудованы подающими и приемными лотками объемом свыше 1000 листов, и вводить информацию со скоростью до 180 и более листов в минуту.
Дополнительными возможностями, присущими данному типу сканеров, являются:
o двустороннее сканирование (дуплекс);
o подсветка оригинала разными цветами для отсечки цветного фона;
o система компенсации неоднородного фона;
o модули динамической обработки разнотипных оригиналов.
Особенность данного типа сканеров - повышенная надёжность конструкции, пакетная обработка документов, высокая производительность.
- планетарный сканер - устройство, в котором при сканировании оригинал неподвижен и располагается лицевой стороной вверх на значительном удалении относительно оптической системы и сканирующей линейной ПЗС матрицы сканера. Планетарные сканеры могут быть оборудованы специальными книжными колыбелями для удобного размещения фолиантов при сканировании.
Данный тип сканера предназначен для сканирования скреплённых документов, периодических изданий и книг.
Особенность планетарных сканеров - бесконтактный метод сканирования, нет необходимости расшивки оригиналов, большая производительность при оцифровке книг и сшитых оригиналов.
Основными характеристиками сканеров любого типа являются:
- разрешение - число точек или растровых ячеек, из которых формируется изображение на единицу длины или площади. Чем больше разрешение устройства, тем более мелкие детали могут быть воспроизведены;
- разрядность цвета (глубина цвета) - количество разрядов каждого пикселя в цифровом изображении. Описывает максимальное количество цветов, воспроизводимое сканером. Одному разряду соответствует черно-белое изображение, 8-ми - серое полутоновое, 16-ти - цветное, 24-цветное изображение, наиболее близкое к человеческому восприятию, 36bit и больше - полноцветное изображение с высокой достоверностью цветопередачи, предназначенное для профессиональной работы, чаще всего в издательском деле.
- время сканирования. Измеряется в страницах в минуту (иногда - в секундах на изображение).
Выделяют три категории программного обеспечения сканирования:
- программное обеспечение сканирования малых объёмов документов. Применяется при домашнем и офисном сканировании.
Используется практически любое программное обеспечение, совместимое со стандартом TWAIN и поддерживающее функцию сканирования - система управления документооборотом, программа распознавания графических образов или любой распространенный графический редактор.
TWAIN (Toolkit Without An Interesting Name) - является стандартом для прикладного программного интерфейса сканеров, т.е. связующим звеном между компьютером и сканером.
Примеры такого типа программ могут служить ABBYY FineReader, Adobe PhotoShop, Microsoft PhotoEditor, ACDSEE.
- программное обеспечение сканирования больших объёмов документов. Применяется при промышленном сканировании.
При поточном сканировании один сканер ежедневно может обрабатывать до 50000 и более документов. При таких нагрузках возможностей универсального стандарта TWAIN становится не достаточно, и для программного управления сканерами используется промышленный стандарт ISIS (ISIS - Image and Scanner Interface Specification).
Примеры применяемого программного обеспечения: Kofax Ascent Capture, Captiva InputAccel.
- программное обеспечение для специальных задач сканирования. Применяется при планетарном, высококачественном сканировании.
Программное обеспечение специально разрабатывается с учётом специфики сканирующего устройства, не совместимо с другими стандартами (ПланСкан BSC-2, RZ ProScan Book (Minolta PS7000 edition), Zeutschel OmniScan).
Следующим этапом автоматического перевода бумажных документов в электронный вид является процесс распознавания содержимого документов с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа.
Процесс анализа графическогто файла разбивает изображение на качественно различные области (определение таблиц, картинок, выделение в тексте строк и отдельных символов), а затем опираясь на базу данных по шрифтам, осуществляет распознование каждого символа в отдельности. Целенаправленный поиск и учет контекста позволяют распозновать искаженные символы, делая систему устойчивой к возможным дефектам печати. В результате компануются текстовые блоки, выстроенные с учетом всех параметров форматирования (размер, начертание, цвет шрифта и т.д.), которые можно отредактировать и сохранить в наиболее удобном для пользователя формате (RTF, DOC, PDF и др.).
Ключевым параметром систем распознавания, характеризующим их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.
В России наибольшее распространение получил пакет ABBYY FineReader (низкая стоимость, русская версия). Программа распознает тексты на 170 языках, имеется встроенная проверка информации, входит несколько специализированных словарей. Программа обладает высокой точностью распознавания и малой чувствительностью к дефектам печати, что достигается благодаря технологии, называемой «целостным, целенаправленным адаптивным распознаванием».
CuneiForm – программа для распознавания текста в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах. Произведена фирмой Cognitive Technologies (Россия), программа распространяется бесплатно. Программа сохраняет структуру документа и его форматирование, распознает любые печатные шрифты, распознает документы более чем на 20 языках, в состав входит словарная проверка, рапознает таблицы любой структуры и сложности, распознает тексты факсов и не качественных ксерокопий.
После завершения процесса распознавания документ можно сохранить в любом из форматов.
В настоящее время используется много форматов электронных документов. Каждый из них обладает своими преимуществами и недостатками. Один из самых популярных и универсальных форматов электронных документов — документы Microsoft Word (DOC, DOCX).
Файлы документов в другом не менее популярном формате PDF в свою очередь занимают меньше места и поддерживаются многими мобильными телефонами, коммуникаторами и прочими устройствами.
Portable Document Format (PDF) — кроссплатформенный формат электронных документов (PDF-файл «работает» в любой операционной системе). Создан Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, а также программы сторонних разработчиков. Один PDF-файл заменяет множество документов, так как формат позволяет внедрять в один файл необходимые шрифты, векторные и растровые изображения, формы и мультимедиа-вставки. В этом формате распространяется большое количество сопутствующей документации.
DjVu (от франц. déjà vu — уже виденное) — графический формат, разработанный фирмой AT&T, оптимизированный для хранения отсканированных документов. Особое значение этот формат приобретает для переноса в сеть математической и вообще технической литератуы, где обилие схем и формул делает распознавание и перевод в текстовый формат практически невыполнимым. Формат быстро становится популярным в Интернете. Это особого рода архивный файл, в котором хранятся многостраничные изображения, которые можно смотреть, листать как книгу, напечатать и т.п. Формат DjVu позволяет сохранять текстовые документы и картинки с высоким качеством в файлы малого размера.
Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия.
Очень часто книги, руководства и другие многостраничные документы в Интернете можно встретить в формате DjVu. Для просмотра документов в этом формате необходимо установить средство для просмотра документов в формате DjVu (DjVu Control Browser Plug-in).
Так же можно использовать быструю и компактную программу для просмотра и печати DjVu-файлов — WinDjView. WinDjView поддерживает непрерывный и одностраничный режимы просмотра, закладки, гиперссылки, поиск по тексту, расширенные возможности печати, экспорт страниц в графический формат BMP, настройку яркости, контраста и гаммы. К тому же она имеет русский интерфейс и больше возможностей, чем названный выше плагин.
Одним из способов эффективной организации текстовой информации является гипертекстовая технология.
Гипертекст (нелинейный текст) — это организация текстовой информации, при которой текст, представляет собой множество фрагментов с явно указанными ассоциативными связями между этими фрагментами.
Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эффективно, чем при традиционных методах поиска.
Доступ к информации осуществляется не путем последовательного просмотра текста, как в обычных информационно-поисковых системах, а путем движения от одного фрагмента к другому.
Создание гипертекста состоит, прежде всего, в формировании системы переходов от одного текстового фрагмента к другому (системы ссылок). В зависимости от типа гипертекстовой системы такая система может задаваться как разработчиками, так и пользователем в процессе работы с гипертекстом.
Движение в гипертекстовой сети, совершаемое в процессе чтения гипертекста, называется навигацией.
Структурно гипертекст состоит из информационного материала, тезауруса гипертекста, списка главных тем и алфавитного словаря.
Информационный материал подразделяется на информационные статьи, состоящие из заголовка статьи и текста. Заголовок содержит тему или наименование описываемого объекта. Информационная статья содержит традиционные определения и понятия, должна занимать одну панель и быть легко обозримой.
Текст, включаемый в информационную статью, может сопровождаться пояснениями, примерами, документами, объектами реального мира.
Тезаурус гипертекста — это автоматизированный словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка и предназначенный для поиска слов по их смысловому содержанию.
Список главных тем содержит заголовки всех справочных статей, для которых нет ссылок типа род — вид, часть — целое.
Алфавитный словарь включает в себя перечень наименований всех информационных статей в алфавитном порядке.
Гипертекстовые технологии широко используются в различных прикладных системах:
- в настольных издательских системах — для создания документов большого объема со свойствами гипертекста;
- в системах управления документами (СУД) — например, для сведения в один итоговый документ информации, содержащейся в разнородных документах;
- в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществления навигации.
Наиболее известным инструментом создания гипертекста остается система HyperCard, HyperStudio, SuperCard, QuickTime фирмы Apple для персональных компьютеров «Макинтош», Linkway - для IBM; из отечественных –FLEXIS.
Фирма Microsoft выпустила утилиту Microsoft Assistant for Word для создания и редактирования гипертекстовых документов на языке HyperText Markup Language (HTML) и конвертирования файлов WinWord в формат HTML.
Одним из перспективных направлений развития гипертекстовых систем является технология гипермедиа — соединение технологии гипертекста и технологии мультимедиа (интеграция текста, графики, звука, видео). С помощью этих средств создаются различные электронные издания — справочники, энциклопедии; разрабатываются обучающие программы.
HyperCard - первый продуманный и удобный авторский инструмент для работы с Multimedia, поскольку имеет аппарат ссылок на видео- и аудиоматериалы, цветную графику, текст с его озвучиванием.
Дата добавления: 2016-03-15; просмотров: 1859;