Текстовые процессоры

Текстовые процессоры — программные средства, предназ­наченные для создания, редактирования и форматирования простых и комплексных текстовых документов.

Принцип WYSIWYG (what you see is what you get) был реали­зован в версии программы Microsoft Word 6.0. Благодаря этому принципу значительно упростились и стали наглядными при­емы форматирования документов.

Типы документов

Современные текстовые процессоры позволяют создавать до­кументы трех типов.

1. Печатные документы, которые создаются и распечатыва­
ются на одном рабочем месте или в одной рабочей груп­
пе. Дальнейшее движение документа происходит только
в бумажной форме. Состав допустимых средств оформ­
ления в данном случае определяется только технически­
ми возможностями печатающего устройства.

2. Электронные документы в формате текстового процессора.
Такие документы передаются заказчику в виде файлов.
Электронный документ, как правило, не является окон­
чательным. В большинстве случаев заказчик может его
дорабатывать, редактировать, форматировать, распеча­
тывать или использовать его компоненты для подготов­
ки своих документов (книг, журналов, сборников статей


и т.п.). Набор разрешенных средств в данном случае обыч­но минимален и определяется заказчиком.

3. Web-документы. Предполагается, что в этом качестве они останутся навсегда, и их преобразование в печатные до­кументы не планируется. В web-документах большую роль играет управление цветом. Для этой категории наиболее широк выбор средств форматирования и оформления.

Специальные средства Автотекст

Автотекст — это режим автоматического ввода фрагментов тек­ста. Он представлен двумя функциями: автозавершением и соб­ственно автотекстом. Их принцип действия состоит в следующем.

Текстовый процессор хранит словарь автотекста, состоящий из слов и фраз, встречающихся в документах достаточно часто. При вводе первых четырех символов словарного элемента на экране появляется всплывающая подсказка с полным текстом слова или фразы. Если это то, что имел в виду пользователь, он заверша­ет ввод всего фрагмента нажатием клавиши enter — так работает функция автозавершения. Однако пользователь может самостоя­тельно выбрать необходимый элемент текста из списка с иерархи­ческой структурой — это функция автотекста. Список элементов автотекста открывается с помощью панели инструментов Авто­текст (Вид > Панели инструментов > Автотекст).

Настройку словаря автотекста выполняет в диалоговом окне Автозамена (Сервис > Автозамена > Автотекст). Простейший способ наполнения словаря новым содержанием — выделить текст на экране, щелкнуть на кнопке Автотекст на панели ин­струментов Автотекст и в открывшемся диалоговом окне ис­пользовать кнопку Добавить.

Использование средства автозамены при вводе

Последние версии текстового процессора Word позволяют эффективно сократить объем вводимого текста за счет исполь-


зования средства Автозамена (рис. 3). Оно позволяет заменить ввод длинных последовательностей символов произвольным (желательно коротким) сочетанием других символов. Напри­мер, если в тексте очень часто встречается словосочетание «му­ниципальный округ», его можно заменить коротким сочетани­ем «.мг». Соответственно, вместо «муниципальных округов» ис­пользовать «.мв», а вместо «муниципального округа» — «.ма». Точку перед символами ставят специально, чтобы отличать их от двухбуквенных предлогов или союзов.

Рис. 3. Диалоговое окно «Автозамена»

Настройку средства Автозамена выполняют в диалоговом окне Сервис > Автозамена. Для этого надо установить флажок


Заменять при вводе, ввести заменяемую комбинацию в поле Заменить, а замещающую комбинацию в поле На, после чего пополнить список автозамены щелчком на кнопке Добавить.

Как будет показано ниже, средство автоматической замены символов при вводе используется также для ввода специальных символов. Например, выполнив соответствующие настройки, можно вводить греческие буквы обычным русским текстом «пи» или «ро».

Ввод специальных и произвольных символов

При вводе текста часто существует необходимость ввода спе­циальных символов, не имеющих соответствующей клавиши в раскладке клавиатуры, а также произвольных символов, рас­кладка для которых неизвестна. Основным средством для ввода специальных и произвольных символов, а также для закрепле­ния их за избранными клавишами является диалоговое окно Символ (Вставка > Символ). Данное диалоговое окно имеет две вкладки: Символы и Специальные символы (рис. 4).

 

Рис. 4. Диалоговое окно «Символ» 43


На вкладке Специальные символы присутствует их список (например, «длинное» («полиграфическое») тире (—), «копи­райт» (©), «торговая марка»). Для вставки такого символа дос­таточно щелкнуть на кнопке Вставить. Вместе с тем для боль­шинства специальных символов существуют клавиатурные комбинации, они приведены в списке, и их стоит запомнить. На первых порах, пока навык их ввода не закреплен, это окно используют для получения справки.

В том же окне имеются кнопки Автозамена и Клавиша, по­зволяющие либо выполнять ввод специальных символов обыч­ными символами и автоматически производить замену, либо закрепить специальный символ за избранной комбинацией клавиш.

На вкладке Символы представлены элементы управления для ввода произвольных символов любых символьных наборов. Центральное положение в окне занимает таблица символов те­кущего набора. Выбор шрифта выполняют в раскрывающемся окне, выбирают символ и нажимают Вставить.

Использование Тезауруса

Тезаурус представляет собой словарь смысловых синонимов. При подготовке технической документации особую роль игра­ют смысловые синонимы к используемым глаголам. Для выде­ленного слова тезаурус удобно вызывать через пункт Синонимы контекстного меню. Однако этот прием срабатывает далеко не для всех слов (преимущественно для глаголов в неопределенной форме). Общий прием вызова тезауруса состоит в использова­нии команды строки меню Сервис > Язык > Тезаурус (рис. 5).

Окно Тезаурус имеет две панели. Его интересная особен­ность состоит в том, что, в то время как на левой панели ото­бражаются синонимы выделенного слова, на правой панели могут отображаться синонимы к выбранному синониму, т.е. по­иск синонима является как бы двухуровневым. Заменяющий синоним можно выбирать как на левой, так и на правой панели. Замена производится щелчком на командной кнопке Заменить. Кроме синонимов, в некоторых случаях тезаурус позволяет на-


ходить антонимы слов и связанные (как правило, однокорен- ные) слова.

Рис. 5. Диалоговое окно «Тезаурус»

Средства автоматизации проверки правописания

Средства автоматизации проверки правописания включают средства проверки орфографии и грамматики. Текстовый про­цессор позволяет реализовать два режима проверки правописа­ния: автоматический и командный.

Дли работы в автоматическом режиме надо установить флажки Автоматически проверять орфографию и Автоматиче­ски проверять грамматику на вкладке Правописание диалогово­го окна Параметры (Сервис > Параметры > Правописание). В ав­томатическом режиме слова, содержащие орфографические ошибки, подчеркиваются красным цветом, а выражения, со­держащие грамматические ошибки, — зеленым. Для того чтобы узнать характер ошибки, надо щелкнуть правой кнопкой мыши на помеченном фрагменте. В зависимости от характера ошибки контекстное меню содержит пункт Орфография или Граммати­ка. С их помощью открывается диалоговое окно, в котором


имеются элементы управления для получения более точной справки о том, какое правило нарушено, и предложены вариан­ты исправления предполагаемой ошибки.

Встроенное автоматическое средство проверки правописа­ния является, по существу, экспертной системой и допускает на­стройку. Так, например, если рекомендации экспертной систе­мы неточны или неприемлемы, от них можно отказаться ко­мандой Пропустить (обычно такое бывает при проверке грам­матики). Если же слово отмечено как орфографическая ошибка только потому, что оно отсутствует в словаре системы автомати­ческой проверки (например, слово броузер), то его можно доба­вить в словарь.

Встроенный словарь системы проверки правописания не подлежит правке. Все дополнения и изменения вносятся в спе­циальный подключаемый пользовательский словарь. Каждый пользователь может создать несколько специализированных словарей, ориентированных на различные области знаний (эко­номика, право, вычислительная техника и т.п.). Подключение нужного словаря для работы с конкретным документом выпол­няется выбором словарного файла в раскрывающемся списке Вспомогательные словари на вкладке Сервис > Параметры > Пра­вописание. Постепенно наполняясь конкретным содержанием, вспомогательные словари становятся мощным средством повы­шения производительности труда.

В командном режиме проверка правописания выполняется независимо от установки элементов управления на вкладке Сер­вис > Параметры > Правописание. Запуск средства проверки вы­полняют командой Сервис > Правописание. Проверка начинает­ся от начала документа и продолжается до появления первой ошибки. В тех случаях, когда пользователь отказывается от предлагаемых исправлений и дает команду Пропустить, в доку­менте накапливается список пропускаемых слов, т.е. слов и вы­ражений, не подлежащих проверке. Для того чтобы очистить этот список и начать проверку заново, используют командную кнопку Сервис > Параметры > Правописание > Повторная про­верка.


2.1.2. Программы анализа и лингвистической обработки текстов

Российская компания «ABBYY» — один из ведущих миро­
вых разработчиков ПО в области распознавания документов
(OCR), ввода форм (ICR) и прикладной лингвистики — пред­
лагает следующие программы.

1. ABBYY FINEREADER 6.0 PROFESSIONAL http://www.abbyy.
ru/flnereader/ —
программа распознавания, которая удов­
летворяет самым высоким требованиям, касающимся
точности распознавания, сохранения оформления и про­
изводительности. Этот факт подтверждается победами
системы FineReader более чем в 60 тестах по всему миру.

В новой версии программы заметно улучшена точность рас­познавания и сохранение форматирования исходных докумен­тов. Программа стала еще проще в использовании и приобрела ряд новых функций и возможностей, например распознавание и сохранение документов в формате PDF. FineReader позволит легко и точно распознавать отсканированные тексты и экспор­тировать их в офисные приложения. Основными достоинства­ми программы являются:

• непревзойденная точность распознавания;

• безупречное сохранение оформления документа;

• открытие PDF-файлов и сохранение в формате PDF;

 

• полное сохранение оформления в формате HTML;

• простота использования;

• распознавание многоязычных документов;

• поддержка Windows XP и Windows 2000;

• прямой экспорт в Microsoft Word, Excel и Outlook.

2. ABBYY LINGVO 8.0 ENGLISH-RUSSIAN EDITION (АНГЛО­
РУССКАЯ ВЕРСИЯ) http://www.lingvo.ru/.
ABBYY Lingvo 8.0 -
наиболее полный и современный на сегодняшний день


англо-русско-английский электронный словарь. Англо­русская версия словаря ABBYY Lingvo 8.0 содержит более 1 200 000 словарных статей (при этом объем наиболее ав­торитетных бумажных словарей составляет, как правило, не более 300—400 тысяч слов). Словарем ABBYY Lingvo 8.0 удивительно удобно пользоваться: выделите английское или русское слово в любом приложении Windows, нажми­те «горячие клавиши» CTRL-INS-INS или CTRL-C-C, и через 2—3 секунды на экране появится полный перевод этого слова с примерами использования и грамматичес­кими комментариями. Для сравнения: на поиск одного слова в бумажном словаре уходит обычно 20—30 секунд.

Наиболее употребительные слова в ABBYY Lingvo 8.0 озву­чены диктором из Оксфорда (5000 слов). Кроме того, ABBYY Lingvo предоставляет возможность создания собственных пол­ноценных словарей, содержащих лексику, необходимую имен­но вам. В восьмую версию Lingvo вошел также новый граммати­ческий словарь, который делает Lingvo настоящим пособием для изучения иностранного языка. Теперь вы сможете не толь­ко перевести то или иное слово, но и грамотно составить анг­лийское предложение.

ABBYY Lingvo давно пользуются заслуженной популярнос­тью у пользователей благодаря полноте и современности лекси­ческой базы, удобству в работе, быстроте поиска. В независи­мых опросах популярности продуктов на российском рынке в 1999, 2000 и 2001 гг., проводимых одним из самых читаемых из­даний о компьютерах — журналом «Мир ПК», ABBYY Lingvo 5.0/ 6.0/6.5/7.0 занял первое место в категории «Электронные слова­ри и системы перевода текста», значительно обогнав своих кон­курентов.

Основные возможности ABBYY Lingvo 8.0 (англо-русская версия):

перевод из любого Windows-приложения по нажатию «горя­
чих клавиш»
;

— простота использования и продуманный интерфейс;


точность и полнота перевода;

быстрый поиск по словарным статьям;

качественные словари с самой современной лексикой;

английский грамматический словарь;

создание пользовательских словарей;

профессиональное озвучивание 5000 наиболее важных слов;

транскрипция более 50 000 английских слов;

работа по сети.

3. ABBYY LINGVO 8.0 MULTILINGUAL EDITION (МНОГО­
ЯЗЫЧНАЯ ВЕРСИЯ).
В наше время все большее количе­
ство людей использует в работе два языка (английский и
какой-либо еще из европейских). Для них новый ABBYY
Lingvo 8.0 (Многоязычная версия) станет поистине неза­
менимым помощником. Эта версия ABBYY Lingvo 8.0 под­
держивает восемь направлений перевода: с английского,
немецкого, французского, итальянского на русский и
обратно.

4. ABBYY Form Reader (http://www.abbyy.ru/formreader/) — это
система распознавания форм, заполненных от руки. Она
помогает эффективно обрабатывать большие объемы раз­
личных форм: анкет, опросных листов, бланков, заявле­
ний клиентов и т.д.

· Фирма «Гарант-Парк-Интернет» (http://www.rco.ru/) специа­лизируется на технологиях анализа и поиска текстовой инфор­мации. Серия продуктов, выпускаемых под маркой RCOTM, предназначена для поддержки широкого класса систем, ис­пользующих средства поиска и анализа текстовой информа­ции, таких как информационно-поисковые и аналитичес­кие системы, электронные архивы и системы управления документооборотом. Продукты серии RCO задействуют пе­редовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использо­ваны для решения широкого класса задач: от контекстного

4 Заказ 105


поиска документов с учетом всех словоформ, синонимов и опечаток до создания систем поддержки принятия эксперт­ных решений на основе анализа информационных массивов.

Морфология

Библиотека полного морфологического анализа позволяет решать следующие задачи:

• определять все грамматические характеристики слова (часть
речи, род, число, падеж, одушевленность, спряжение и т.п.);

• приводить различные грамматические формы слова к нор­
мальной форме;

• получать все грамматические формы слова;

• проверять орфографию.
Библиотека включает в себя:

 

— алгоритм точного морфологического анализа слов заданно­
го словаря (для русского языка используемый словарь со­
держит более 110 тысяч слов);

— алгоритм вероятностного морфологического анализа неиз­
вестных слов по аналогии с известными на основе оценки
флективной и суффикальной частей слова.

Разработанный подход к описанию морфологической систе­мы языка использует обучение на примерах словоизменения, в ходе которого автоматически выделяются окончания, основы, суффиксы и строятся модели, описывающие изменение различ­ных классов слов. Такие алгоритмы допускают простую на­стройку морфологического модуля практически на любой язык флективного типа.

Используемый словарь лингвистических данных для русско­го языка включает в себя около 110 000 словооснов, 6000 окон­чаний, 1500 моделей словоизменения, 200 суффиксов, что соот­ветствует 2,5 млн распознаваемых словоформ. Объем бинарно­го словаря — 3 Мбайта. Скорость морфологического анализа — 100 тыс. слов в секунду (Pentium-Il, 400МГц).

 


 


 

Средства автоматизированного пополнения словаря морфо- анализа входят в комплект поставки продуктов фирмы «Гарант-Парк-Интернет».

Семантика

В целом в состав тезауруса вошло около 75 тыс. слов и сло­восочетаний, объединенных в 22 тыс. гипонимических рядов (22 тыс. гиперонимов), в том числе 17 тыс. синонимических ря­дов, охватывающих 45 тыс. слов. Основой для лексического на­полнения тезауруса послужил разработанный самой фирмой словарь общей лексики русского языка объемом более 110 тыс. единиц, являющийся расширением грамматического словаря А.А. Зализняка и используемый для морфологического анализа.

■ ..:.-, •: ' ■■■■■.

Синтаксис

Библиотека полного синтаксического анализа текста на рус­ском языке предназначена для решения следующих задач:

• грамматический разбор предложения с построением дерева
синтактико-семантических зависимостей между его словами;

• выделение понятий предложения с определением их синтак­
сических и семантических ролей, генерация канонической
формы понятий с использованием тезауруса;

• разрешение морфологической омонимии.

Скорость работы синтаксического анализатора — около 20 Мбайт текста в час (на Р-П, 400 Мгц).

2.1.3. Генераторы текстов и «говорящие» программы

Компания «Сакрамент» основана в Минске в 1994 г. и на се­годняшний день является одним из ведущих разработчиков программного обеспечения в области систем распознавания и синтеза русской речи.


Компания «Сакрамент» предлагает услуги:

■ .

• по внедрению своих систем синтеза и распознавания речи в
программное обеспечение и оборудование заказчика;

• по разработке программного обеспечения с использованием
своих достижений в области речевых технологий.

Реализация голосового интерфейса в компьютерной техни­ке позволяет не только сделать ее доступной для людей с ослаб­ленным зрением или ограниченной дееспособностью, но и пре­доставляет возможность всем пользователям перейти на каче­ственно новый уровень работы с ПК.

«Модуль синтеза и распознавания речи» может быть реали­зован как программно, так и аппаратно, что обеспечивает воз­можность внедрения его и в различные программные продукты, и в офисную технику. Речевой интерфейс в программных про­дуктах позволяет не только осуществлять выполнение команд, но и совершать голосовую навигацию по настройкам меню.

Идентификация голоса

Голосовая идентификация является одной из ветвей разви­тия технологии обработки речи и применяется при создании различных систем охраны или систем ограничения доступа. Программные и аппаратные средства идентификации голоса человека преследуют одну главную цель — убедиться в том, что говорящий является именно тем, за кого себя выдает, либо идентифицировать незнакомого человека.

Распознавание речи

Технология распознавания речи предоставляет возможность распознавания отдельных слов или слитной человеческой речи с последующим ее преобразованием в текст либо последова­тельность команд. Эта технология используется при создании средств речевого управления — программ, управляющих дей­ствиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации теле­фонных справочных и информационных служб.


Синтез речи

Синтез речи — возможность обработки текстовой или чис­ловой информации согласно установленным правилам произ­ношения для конкретного языка и преобразование ее в синтези­рованный голос, по восприятию близкий к человеческому.

Система синтеза русской речи, созданная минской компа­нией «Сакрамент», полностью соответствует стандарту Microsoft Speech API (SAPI) 5.1. Она позволяет произносить тексты муж­ским и женским голосом, делая при этом интонационные пау­зы, изменяя по желанию пользователя тон и тембр речи.

МАШИННЫЙ ПЕРЕВОД

 

Почему машинам с трудом дается перевод?

Отчасти потому, что он с трудом дается всем, даже людям.

Дуг Арнольд, профессор университета

г. Эссекса (Великобритания)








Дата добавления: 2016-07-09; просмотров: 689;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.032 сек.