Корпусная лингвистика 125
употреблений каждый, представляющих тексты различных типов, опубликованные в 1968 г. Объем корпуса — 1 млн словоупотреблений. Хотя внешне LIMAS-корпус идентичен Брауновскому, жанровая классификация текстов LIMAS-Kopnyca существенно отличается от него. В основу жанровой классификации положена тематическая классификация предметных областей, принятая в Немецкой библиографии за 1971 г. Всего было выделено 33 области; наиболее значимые из них — религия, культура, право, политика/управление, общество, экономика, литература, искусство, история, география, медицина, техника, беллетристика. Оттуда же заимствованы и пропорции представления текстов. LI MAS-корпус считается представительным для современного немецкого языка.
Корпусы текстов немецкой разговорной речи.Создание разговорных корпусов текстов в Германии началось довольно давно. Разумеется, исходная форма хранения корпусов разговорной речи — запись на магнитной ленте. Однако в последующем акустическая форма переводилась в фонетическую транскрипцию. Полный вариант фонетической транскрипции из-за сложности транскрибирования и восприятия пользователем оказался неудачным. В результате нескольких опытов графической фиксации разговорной речи выработался неполный вариант фонетической транскрипции, сохраняющий некоторые особенности произношения и отражающий последовательность и/или одновременность произнесения речевых актов. В сокращенном варианте фонетической транскрипции использовались средства фиксации интонации, диалектных черт произношения, степени разборчивости речи и т. п. Неполный вариант фонетической транскрипции существует в двух нотациях — драматургической и партитурной. Драматургическая нотацияпредусматривает оформление реплик участников диалога как персонажей пьесы, причем «режиссерские» ремарки указывают на характер наложения реплик говорящих друг на друга, темп речи, громкость и пр. Партитурная нотация,считающаяся более удачной, строится как музыкальная партитура, но вместо инструментов выступают участники коммуникации. Это позволяет более точно отразить процесс общения в абсолютном измерении (на временной оси) и в относительном измерении, характеризующем речь участников коммуникации в сравнении друг с другом [Menge 1993]. Чисто технически партитурная нотация требует большей точности и более сложна в написании. Однако использование специальных средств компьютерной поддержки позволяет упростить создание партитурных транскриптов речи. Таким образом, графическое представление разговорной речи в настоящее время уже не является такой сложной технологической проблемой, как раньше.
Хотя в области графической фиксации устной речи даже при отсутствии единого и обязательного для всех стандарта достигнут некоторый прогресс (связанный прежде всего с наличием прецедентов), то в описании невербальной составляющей естественноязыковой коммуникации — чрезвычайно важной для обыденной речи — царит полнейший произвол, что затрудняет дальнейшее продвижение в этой области. Проблема
невербального в общении осложняется еще и тем, что относительно лингвистической релевантности тех или иных невербальных компонентов естественного диалога нет единого мнения, как нет и общепризнанной теории невербальной коммуникации.
К числу наиболее известных корпусов текстов немецкой разговорной речи можно отнести «Корпус базового немецкого» (Grunddeutsch-Korpus), который начал создаваться с 1961 г. в Стэнфорде (Institute for Basic German). Метод сбора материала предполагал охват всех основных областей функционирования немецкого языка. Всего в корпусе содержится 401 интервью, средней продолжительностью 12 мин. (общая продолжительность звучания — около 80 часов). Записи производились в 36 городах ФРГ и 10 городах ГДР, шести городах Австрии и четырех городах Швейцарии. Методика сбора материала не давала возможности получать по-настоящему естественный диалог, поскольку ситуация общения искусственно конструировалась: эксплицитно задавалась тема коммуникации, участники диалога были информированы о целях опроса и т. д. Письменный вариант корпуса, созданный на основе полной транскрипции, а затем (для упрощения восприятия) приближенный к орфографической норме, был опубликован в 1984 г. [Pfeffer, Lohnes 1984]. Книга, кроме собственно текстов, включает приложения, в которых указаны результаты предварительной обработки (список «фонетических маркеров хезитации», частотный список словоформ, список незавершенных высказываний и т.д.). Корпус существует также и в компьютерной форме. Существенно, что «Корпус базового немецкого» доступен для исследователя и в фонетической, и в письменной, и в компьютерной форме.
«Саарбрюккенский корпус», опубликованный в 1987 г. [Rath, Immeis-berger, Schu 1987], содержит транскрипции речи (диалоги с интервьюером) итальянских, турецких и немецких детей. Цель создателей корпуса состояла в демонстрации особенностей спонтанного овладения вторым языком в детском возрасте. Записи речи немецких детей привлекались как эталон для возможного сравнения. Всего записан 231 час, а опубликовано около 36 часов звучания. О компьютерном аналоге этого корпуса информация
отсутствует.
Та же проблемная область — детская речь — представлена в «Дорт-мундском корпусе спонтанной детской речи» (DOКО). Корпус включает тринадцать подкорпусов; каждый подкорпус представляет собой запись речевого поведения одного и того же ребенка в нормальных жизненных ситуациях. Запись, как правило, производилась родителями, которые вели подробный протокол условий протекания коммуникации. По результатам обработки Дортмундского корпуса был создан словарь словоформ, характеризующий речевую активность каждого ребенка. Материалы корпуса доступны как в акустической записи, так и в компьютерной форме. Дортмундский корпус является частью международного банка данных «Система обмена данными по детской речи», хранящегося на психологическом факультете университета «Карнеги-Меллон» в Питтсбурге
Дата добавления: 2016-09-20; просмотров: 798;