Некоторые категории мультимедиа-приложений
Системы синтеза речи (TTS – text-to-speech) – программы, обладающие возможностью обработки текстовой или числовой информации, согласно установленным правилам произношения для конкретного языка, и преобразования ее в синтезированный голос, по восприятию близкий к человеческому.
Синтезаторы речи различают прежде всего по характеру синтезируемой речи. Существуют два основных подхода:
– на основе образцов. Для синтеза речи используются заранее записанные речевые сообщения, которые могут делиться на фразы, слова, слоги, фонемы, дифоны и аллофоны. Для уменьшения объема занимаемой памяти применяют различные способы сжатия сигнала. Основная сложность при реализации таких систем состоит в правильном выборе звукошаблонов для воспроизведения необходимого текста с учетом интонационных выделений, вопросов, восклицаний и др. По алгоритмам подбора выделяют различные техники: дифонную, аллофонную, фонемную, сложную, словарную, фразную (используются готовые фразы) и т.д. Этот подход в настоящее время наиболее широко распространен, поскольку позволяет воспроизвести текст в виде речи вполне на уровне обычного человеческого голоса;
– на основе правил. Попытка полностью воспроизвести речевой аппарат человека путем синтеза соответствующих частотных сигналов. Качество воспроизведения невысокое, но при этом не требуется хранить большие объемы образцов. В принципе, с доработкой соответствующих алгоритмов частотного синтеза звука, данный подход имеет больше перспектив.
Системы распознавания речи (ASR – automatic speech recognition)– программы, осуществляющие процесс преобразования речевого сигнала в цифровую форму.
Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Надо сказать, что с тех пор в этой области наблюдается прогресс, но не слишком сильный. Только в последние несколько лет происходит действительно серьезное развитие.
Подходы к распознаванию речи в целом соответствуют системам синтеза речи.
Виртуальная реальность (virtual reality, VR) – модельная трехмерная (3D) окружающая среда, создаваемая компьютерными средствами и реалистично реагирующая на взаимодействие с пользователями. Технической основой виртуальной реальности (ВР) служат технологии компьютерного моделирования и компьютерной имитации, которые в сочетании с ускоренной трехмерной визуализацией позволяют реалистично отображать на экране движение, воспроизводить звук и т.д.
(Видеоролик Sight.)
Понятие искусственной реальности, моделируемой компьютером, впервые было введено еще в 1960-е гг. Первая система, реализующая этот подход, появилась в 1962 году – мультисенсорный симулятор «Сенсорама» (Sensorama). Он погружал зрителя в искусственную реальность при помощи коротких фильмов, которые сопровождались запахами, ветром (при помощи фена) и шумом мегаполиса с аудиозаписи. В 1967 году был сконструирован первый шлем, изображение на который генерировалось при помощи компьютера и изменялось соответственно движениям головы.
В 1970-е гг. компьютерная графика в симуляторах полностью заменила видеосъемку. Графика была крайне примитивной, однако важным было то, что тренажеры (это были симуляторы полетов) работали в режиме реального времени. Первая реализация такой искусственной реальности была созданная в Массачусетском Технологическом Институте в 1977 году. Она симулировала прогулку по городу, давая возможность выбрать между разными способами отображения местности. При этом летний и зимний варианты были основаны на реальных фотографиях.
В середине 1980-х появились системы, в которых пользователь мог манипулировать с трехмерными объектами на экране благодаря их отклику на движения руки. В 1985 году музыкант, бизнесмен и изобретатель Джарон Ланир ввёл термин «виртуальная реальность». Он, кстати, возглавлял группу специалистов, которая создала первые программы виртуальной реальности. Эти программы работали в области симуляции хирургического вмешательства, разработки салона автомобиля и т. д.
Вообще, слово «виртуальный», имеет двоякий смысл – оно переводится как «фактический, отражающий действительное состояние» и «возможный, который может или должен проявиться при определенных условиях». Основой мира виртуальной реальности являются нематериальные понятия – информация, мысли и образы. Основное выражение, определяющее весь смысл виртуальной реальности – это «ощущение присутствия» в виртуальном мире.
Немало примеров виртуальной реальности можно найти в литературе и кинематографе. В литературе этому посвящено целое направление – киберпанк, основоположником которого стал Уильям Гиббсон с романом «Нейромант» (1984). В кинематографе яркий пример – фильм «Матрица», в котором идея виртуальной реальности доведена до логического конца.
Дополненная реальность (augmented reality, AR) – общий термин, относящийся ко всем проектам, направленным на дополнение видимой реальности любыми виртуальными элементами. Часто этими объектами выступают, например, текстовые подсказки с описанием окружающих предметов.
Основной подход, практикуемый сегодня – получение изображения с камеры, обработка алгоритмами распознания образов и дальнейшее наложение дополнительного текста или изображения, которое берется из локальной или сетевой базы данных. Кроме него, применяется наложение информации без распознавания образов, однако при этом необходимо использовать сведения о текущей ситуации, полученные из других источников, так, например, работают некоторые автомобильные навигационные системы. И не только, к примеру, General Motors совместно с Университетом Южной Калифорнии разрабатывают систему дополненной реальности для вывода различной информации на все лобовое стекло. Такая система будет собирать данные с большого количества датчиков и камер и проектировать изображения на внутреннюю поверхность лобового стекла. Причем в разных случаях информация будет разной.
Вероятно, в ближайшем будущем (в частности, с развитием Google Project Glass) появятся более серьезные решения.
Дата добавления: 2019-10-16; просмотров: 413;