Текстовые процессоры
Текстовые процессоры — программные средства, предназначенные для создания, редактирования и форматирования простых и комплексных текстовых документов.
Принцип WYSIWYG (what you see is what you get) был реализован в версии программы Microsoft Word 6.0. Благодаря этому принципу значительно упростились и стали наглядными приемы форматирования документов.
Типы документов
Современные текстовые процессоры позволяют создавать документы трех типов.
1. Печатные документы, которые создаются и распечатыва
ются на одном рабочем месте или в одной рабочей груп
пе. Дальнейшее движение документа происходит только
в бумажной форме. Состав допустимых средств оформ
ления в данном случае определяется только технически
ми возможностями печатающего устройства.
2. Электронные документы в формате текстового процессора.
Такие документы передаются заказчику в виде файлов.
Электронный документ, как правило, не является окон
чательным. В большинстве случаев заказчик может его
дорабатывать, редактировать, форматировать, распеча
тывать или использовать его компоненты для подготов
ки своих документов (книг, журналов, сборников статей
и т.п.). Набор разрешенных средств в данном случае обычно минимален и определяется заказчиком.
3. Web-документы. Предполагается, что в этом качестве они останутся навсегда, и их преобразование в печатные документы не планируется. В web-документах большую роль играет управление цветом. Для этой категории наиболее широк выбор средств форматирования и оформления.
Специальные средства Автотекст
Автотекст — это режим автоматического ввода фрагментов текста. Он представлен двумя функциями: автозавершением и собственно автотекстом. Их принцип действия состоит в следующем.
Текстовый процессор хранит словарь автотекста, состоящий из слов и фраз, встречающихся в документах достаточно часто. При вводе первых четырех символов словарного элемента на экране появляется всплывающая подсказка с полным текстом слова или фразы. Если это то, что имел в виду пользователь, он завершает ввод всего фрагмента нажатием клавиши enter — так работает функция автозавершения. Однако пользователь может самостоятельно выбрать необходимый элемент текста из списка с иерархической структурой — это функция автотекста. Список элементов автотекста открывается с помощью панели инструментов Автотекст (Вид > Панели инструментов > Автотекст).
Настройку словаря автотекста выполняет в диалоговом окне Автозамена (Сервис > Автозамена > Автотекст). Простейший способ наполнения словаря новым содержанием — выделить текст на экране, щелкнуть на кнопке Автотекст на панели инструментов Автотекст и в открывшемся диалоговом окне использовать кнопку Добавить.
Использование средства автозамены при вводе
Последние версии текстового процессора Word позволяют эффективно сократить объем вводимого текста за счет исполь-
зования средства Автозамена (рис. 3). Оно позволяет заменить ввод длинных последовательностей символов произвольным (желательно коротким) сочетанием других символов. Например, если в тексте очень часто встречается словосочетание «муниципальный округ», его можно заменить коротким сочетанием «.мг». Соответственно, вместо «муниципальных округов» использовать «.мв», а вместо «муниципального округа» — «.ма». Точку перед символами ставят специально, чтобы отличать их от двухбуквенных предлогов или союзов.
Рис. 3. Диалоговое окно «Автозамена»
Настройку средства Автозамена выполняют в диалоговом окне Сервис > Автозамена. Для этого надо установить флажок
Заменять при вводе, ввести заменяемую комбинацию в поле Заменить, а замещающую комбинацию в поле На, после чего пополнить список автозамены щелчком на кнопке Добавить.
Как будет показано ниже, средство автоматической замены символов при вводе используется также для ввода специальных символов. Например, выполнив соответствующие настройки, можно вводить греческие буквы обычным русским текстом «пи» или «ро».
Ввод специальных и произвольных символов
При вводе текста часто существует необходимость ввода специальных символов, не имеющих соответствующей клавиши в раскладке клавиатуры, а также произвольных символов, раскладка для которых неизвестна. Основным средством для ввода специальных и произвольных символов, а также для закрепления их за избранными клавишами является диалоговое окно Символ (Вставка > Символ). Данное диалоговое окно имеет две вкладки: Символы и Специальные символы (рис. 4).
Рис. 4. Диалоговое окно «Символ» 43
На вкладке Специальные символы присутствует их список (например, «длинное» («полиграфическое») тире (—), «копирайт» (©), «торговая марка»). Для вставки такого символа достаточно щелкнуть на кнопке Вставить. Вместе с тем для большинства специальных символов существуют клавиатурные комбинации, они приведены в списке, и их стоит запомнить. На первых порах, пока навык их ввода не закреплен, это окно используют для получения справки.
В том же окне имеются кнопки Автозамена и Клавиша, позволяющие либо выполнять ввод специальных символов обычными символами и автоматически производить замену, либо закрепить специальный символ за избранной комбинацией клавиш.
На вкладке Символы представлены элементы управления для ввода произвольных символов любых символьных наборов. Центральное положение в окне занимает таблица символов текущего набора. Выбор шрифта выполняют в раскрывающемся окне, выбирают символ и нажимают Вставить.
Использование Тезауруса
Тезаурус представляет собой словарь смысловых синонимов. При подготовке технической документации особую роль играют смысловые синонимы к используемым глаголам. Для выделенного слова тезаурус удобно вызывать через пункт Синонимы контекстного меню. Однако этот прием срабатывает далеко не для всех слов (преимущественно для глаголов в неопределенной форме). Общий прием вызова тезауруса состоит в использовании команды строки меню Сервис > Язык > Тезаурус (рис. 5).
Окно Тезаурус имеет две панели. Его интересная особенность состоит в том, что, в то время как на левой панели отображаются синонимы выделенного слова, на правой панели могут отображаться синонимы к выбранному синониму, т.е. поиск синонима является как бы двухуровневым. Заменяющий синоним можно выбирать как на левой, так и на правой панели. Замена производится щелчком на командной кнопке Заменить. Кроме синонимов, в некоторых случаях тезаурус позволяет на-
ходить антонимы слов и связанные (как правило, однокорен- ные) слова.
Рис. 5. Диалоговое окно «Тезаурус»
Средства автоматизации проверки правописания
Средства автоматизации проверки правописания включают средства проверки орфографии и грамматики. Текстовый процессор позволяет реализовать два режима проверки правописания: автоматический и командный.
Дли работы в автоматическом режиме надо установить флажки Автоматически проверять орфографию и Автоматически проверять грамматику на вкладке Правописание диалогового окна Параметры (Сервис > Параметры > Правописание). В автоматическом режиме слова, содержащие орфографические ошибки, подчеркиваются красным цветом, а выражения, содержащие грамматические ошибки, — зеленым. Для того чтобы узнать характер ошибки, надо щелкнуть правой кнопкой мыши на помеченном фрагменте. В зависимости от характера ошибки контекстное меню содержит пункт Орфография или Грамматика. С их помощью открывается диалоговое окно, в котором
имеются элементы управления для получения более точной справки о том, какое правило нарушено, и предложены варианты исправления предполагаемой ошибки.
Встроенное автоматическое средство проверки правописания является, по существу, экспертной системой и допускает настройку. Так, например, если рекомендации экспертной системы неточны или неприемлемы, от них можно отказаться командой Пропустить (обычно такое бывает при проверке грамматики). Если же слово отмечено как орфографическая ошибка только потому, что оно отсутствует в словаре системы автоматической проверки (например, слово броузер), то его можно добавить в словарь.
Встроенный словарь системы проверки правописания не подлежит правке. Все дополнения и изменения вносятся в специальный подключаемый пользовательский словарь. Каждый пользователь может создать несколько специализированных словарей, ориентированных на различные области знаний (экономика, право, вычислительная техника и т.п.). Подключение нужного словаря для работы с конкретным документом выполняется выбором словарного файла в раскрывающемся списке Вспомогательные словари на вкладке Сервис > Параметры > Правописание. Постепенно наполняясь конкретным содержанием, вспомогательные словари становятся мощным средством повышения производительности труда.
В командном режиме проверка правописания выполняется независимо от установки элементов управления на вкладке Сервис > Параметры > Правописание. Запуск средства проверки выполняют командой Сервис > Правописание. Проверка начинается от начала документа и продолжается до появления первой ошибки. В тех случаях, когда пользователь отказывается от предлагаемых исправлений и дает команду Пропустить, в документе накапливается список пропускаемых слов, т.е. слов и выражений, не подлежащих проверке. Для того чтобы очистить этот список и начать проверку заново, используют командную кнопку Сервис > Параметры > Правописание > Повторная проверка.
2.1.2. Программы анализа и лингвистической обработки текстов
• Российская компания «ABBYY» — один из ведущих миро
вых разработчиков ПО в области распознавания документов
(OCR), ввода форм (ICR) и прикладной лингвистики — пред
лагает следующие программы.
1. ABBYY FINEREADER 6.0 PROFESSIONAL http://www.abbyy.
ru/flnereader/ — программа распознавания, которая удов
летворяет самым высоким требованиям, касающимся
точности распознавания, сохранения оформления и про
изводительности. Этот факт подтверждается победами
системы FineReader более чем в 60 тестах по всему миру.
В новой версии программы заметно улучшена точность распознавания и сохранение форматирования исходных документов. Программа стала еще проще в использовании и приобрела ряд новых функций и возможностей, например распознавание и сохранение документов в формате PDF. FineReader позволит легко и точно распознавать отсканированные тексты и экспортировать их в офисные приложения. Основными достоинствами программы являются:
• непревзойденная точность распознавания;
• безупречное сохранение оформления документа;
• открытие PDF-файлов и сохранение в формате PDF;
• полное сохранение оформления в формате HTML;
• простота использования;
• распознавание многоязычных документов;
• поддержка Windows XP и Windows 2000;
• прямой экспорт в Microsoft Word, Excel и Outlook.
2. ABBYY LINGVO 8.0 ENGLISH-RUSSIAN EDITION (АНГЛО
РУССКАЯ ВЕРСИЯ) http://www.lingvo.ru/. ABBYY Lingvo 8.0 -
наиболее полный и современный на сегодняшний день
англо-русско-английский электронный словарь. Англорусская версия словаря ABBYY Lingvo 8.0 содержит более 1 200 000 словарных статей (при этом объем наиболее авторитетных бумажных словарей составляет, как правило, не более 300—400 тысяч слов). Словарем ABBYY Lingvo 8.0 удивительно удобно пользоваться: выделите английское или русское слово в любом приложении Windows, нажмите «горячие клавиши» CTRL-INS-INS или CTRL-C-C, и через 2—3 секунды на экране появится полный перевод этого слова с примерами использования и грамматическими комментариями. Для сравнения: на поиск одного слова в бумажном словаре уходит обычно 20—30 секунд.
Наиболее употребительные слова в ABBYY Lingvo 8.0 озвучены диктором из Оксфорда (5000 слов). Кроме того, ABBYY Lingvo предоставляет возможность создания собственных полноценных словарей, содержащих лексику, необходимую именно вам. В восьмую версию Lingvo вошел также новый грамматический словарь, который делает Lingvo настоящим пособием для изучения иностранного языка. Теперь вы сможете не только перевести то или иное слово, но и грамотно составить английское предложение.
ABBYY Lingvo давно пользуются заслуженной популярностью у пользователей благодаря полноте и современности лексической базы, удобству в работе, быстроте поиска. В независимых опросах популярности продуктов на российском рынке в 1999, 2000 и 2001 гг., проводимых одним из самых читаемых изданий о компьютерах — журналом «Мир ПК», ABBYY Lingvo 5.0/ 6.0/6.5/7.0 занял первое место в категории «Электронные словари и системы перевода текста», значительно обогнав своих конкурентов.
Основные возможности ABBYY Lingvo 8.0 (англо-русская версия):
— перевод из любого Windows-приложения по нажатию «горя
чих клавиш»;
— простота использования и продуманный интерфейс;
—точность и полнота перевода;
—быстрый поиск по словарным статьям;
—качественные словари с самой современной лексикой;
—английский грамматический словарь;
—создание пользовательских словарей;
—профессиональное озвучивание 5000 наиболее важных слов;
—транскрипция более 50 000 английских слов;
—работа по сети.
3. ABBYY LINGVO 8.0 MULTILINGUAL EDITION (МНОГО
ЯЗЫЧНАЯ ВЕРСИЯ). В наше время все большее количе
ство людей использует в работе два языка (английский и
какой-либо еще из европейских). Для них новый ABBYY
Lingvo 8.0 (Многоязычная версия) станет поистине неза
менимым помощником. Эта версия ABBYY Lingvo 8.0 под
держивает восемь направлений перевода: с английского,
немецкого, французского, итальянского на русский и
обратно.
4. ABBYY Form Reader (http://www.abbyy.ru/formreader/) — это
система распознавания форм, заполненных от руки. Она
помогает эффективно обрабатывать большие объемы раз
личных форм: анкет, опросных листов, бланков, заявле
ний клиентов и т.д.
· Фирма «Гарант-Парк-Интернет» (http://www.rco.ru/) специализируется на технологиях анализа и поиска текстовой информации. Серия продуктов, выпускаемых под маркой RCOTM, предназначена для поддержки широкого класса систем, использующих средства поиска и анализа текстовой информации, таких как информационно-поисковые и аналитические системы, электронные архивы и системы управления документооборотом. Продукты серии RCO задействуют передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для решения широкого класса задач: от контекстного
4 Заказ 105
поиска документов с учетом всех словоформ, синонимов и опечаток до создания систем поддержки принятия экспертных решений на основе анализа информационных массивов.
Морфология
Библиотека полного морфологического анализа позволяет решать следующие задачи:
• определять все грамматические характеристики слова (часть
речи, род, число, падеж, одушевленность, спряжение и т.п.);
• приводить различные грамматические формы слова к нор
мальной форме;
• получать все грамматические формы слова;
• проверять орфографию.
Библиотека включает в себя:
— алгоритм точного морфологического анализа слов заданно
го словаря (для русского языка используемый словарь со
держит более 110 тысяч слов);
— алгоритм вероятностного морфологического анализа неиз
вестных слов по аналогии с известными на основе оценки
флективной и суффикальной частей слова.
Разработанный подход к описанию морфологической системы языка использует обучение на примерах словоизменения, в ходе которого автоматически выделяются окончания, основы, суффиксы и строятся модели, описывающие изменение различных классов слов. Такие алгоритмы допускают простую настройку морфологического модуля практически на любой язык флективного типа.
Используемый словарь лингвистических данных для русского языка включает в себя около 110 000 словооснов, 6000 окончаний, 1500 моделей словоизменения, 200 суффиксов, что соответствует 2,5 млн распознаваемых словоформ. Объем бинарного словаря — 3 Мбайта. Скорость морфологического анализа — 100 тыс. слов в секунду (Pentium-Il, 400МГц).
Средства автоматизированного пополнения словаря морфо- анализа входят в комплект поставки продуктов фирмы «Гарант-Парк-Интернет».
Семантика
В целом в состав тезауруса вошло около 75 тыс. слов и словосочетаний, объединенных в 22 тыс. гипонимических рядов (22 тыс. гиперонимов), в том числе 17 тыс. синонимических рядов, охватывающих 45 тыс. слов. Основой для лексического наполнения тезауруса послужил разработанный самой фирмой словарь общей лексики русского языка объемом более 110 тыс. единиц, являющийся расширением грамматического словаря А.А. Зализняка и используемый для морфологического анализа.
■ ..:.-, •: ' ■■■■■.
Синтаксис
Библиотека полного синтаксического анализа текста на русском языке предназначена для решения следующих задач:
• грамматический разбор предложения с построением дерева
синтактико-семантических зависимостей между его словами;
• выделение понятий предложения с определением их синтак
сических и семантических ролей, генерация канонической
формы понятий с использованием тезауруса;
• разрешение морфологической омонимии.
Скорость работы синтаксического анализатора — около 20 Мбайт текста в час (на Р-П, 400 Мгц).
2.1.3. Генераторы текстов и «говорящие» программы
Компания «Сакрамент» основана в Минске в 1994 г. и на сегодняшний день является одним из ведущих разработчиков программного обеспечения в области систем распознавания и синтеза русской речи.
Компания «Сакрамент» предлагает услуги:
■ .
• по внедрению своих систем синтеза и распознавания речи в
программное обеспечение и оборудование заказчика;
• по разработке программного обеспечения с использованием
своих достижений в области речевых технологий.
Реализация голосового интерфейса в компьютерной технике позволяет не только сделать ее доступной для людей с ослабленным зрением или ограниченной дееспособностью, но и предоставляет возможность всем пользователям перейти на качественно новый уровень работы с ПК.
«Модуль синтеза и распознавания речи» может быть реализован как программно, так и аппаратно, что обеспечивает возможность внедрения его и в различные программные продукты, и в офисную технику. Речевой интерфейс в программных продуктах позволяет не только осуществлять выполнение команд, но и совершать голосовую навигацию по настройкам меню.
Идентификация голоса
Голосовая идентификация является одной из ветвей развития технологии обработки речи и применяется при создании различных систем охраны или систем ограничения доступа. Программные и аппаратные средства идентификации голоса человека преследуют одну главную цель — убедиться в том, что говорящий является именно тем, за кого себя выдает, либо идентифицировать незнакомого человека.
Распознавание речи
Технология распознавания речи предоставляет возможность распознавания отдельных слов или слитной человеческой речи с последующим ее преобразованием в текст либо последовательность команд. Эта технология используется при создании средств речевого управления — программ, управляющих действиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации телефонных справочных и информационных служб.
Синтез речи
Синтез речи — возможность обработки текстовой или числовой информации согласно установленным правилам произношения для конкретного языка и преобразование ее в синтезированный голос, по восприятию близкий к человеческому.
Система синтеза русской речи, созданная минской компанией «Сакрамент», полностью соответствует стандарту Microsoft Speech API (SAPI) 5.1. Она позволяет произносить тексты мужским и женским голосом, делая при этом интонационные паузы, изменяя по желанию пользователя тон и тембр речи.
МАШИННЫЙ ПЕРЕВОД
Почему машинам с трудом дается перевод?
Отчасти потому, что он с трудом дается всем, даже людям.
Дуг Арнольд, профессор университета
г. Эссекса (Великобритания)
Дата добавления: 2016-07-09; просмотров: 752;