Коэффициент корреляции речевого сигнала для случая стационарной его модели выглядит следующим образом
Rx(τ) = e -α |τ| cos 2π foτ,
где α = 103 Гц, fo = 400 Гц.
График этой нормированной корреляционной функции речевого сигнала приведен на рис. 10.
Рис.10. Средняя нормированная корреляционная функция речевого сигнала.
Функции корреляции, полученные путем усреднения на более коротких интервалах времени, будут отличаться от данной кривой. Кроме того, функции корреляции для различных фонем будут сильно отличаться друг от друга.
Корреляция между между последовательно следующими отсчетами широкополосного ЗВС исчезает, в среднем, через 0,5 мс.
Функция корреляции огибающей речевого сигнала на интервалах слогов и слов (ширина полосы пропускания около 50 Гц), показана на рис.11.
τ
Рис. 11. Коэффициент корреляции огибающей речи и огибающей спектральной составляющей речи.
При увеличении τ функция корреляции огибающей сначала уменьшается по экспоненциальному закону до τ примерно 80 мс, а затем приобретает колебательный характер. Первый колебательный максимум имеет место при τ примерно 160 мс, что соответствует средней периодичности следования фонем. Следующий максимум в районе 500 мс соответствует периодичности слогов. Последующий максимум в районе 1300 мс соответствует периодичности слов.
Выражение для спектральной плотности речевого сигнала, для случая стационарной его модели выглядит следующим образом
Gx(f) = 2α{ 1/[ α2 + 4 π2(f - fo)2] + [ α2 + 4 π2(f + fo)2]}
А график спектрального распределения средней мощности речевого сигнала показан на рис.12.
Максимум этой кривой находится на частоте 400 Гц, а затем спадает, по мере увеличения частоты со скоростью, примерно, 9 дБ на октаву. Из графика видно, что мощность высокочастотных составляющих в речевом сигнале будет небольшой. Этим составляющим соответствуют некоторые согласные фонемы, которые несут большое количество информации.
Рис. 12. Спектральное распределение средней мощности речевого сигнала
Спектральные плотности для различных звуков речи связаны с представлением их в виде трех типов случайных процессов:
По - белый шум с гауссовским законом распределения;
П1, П2 - гауссовские марковские процессы первого и второго порядков с
характеристической частотой fо=400 Гц.
В табл. 2 приведены относящиеся к этим случайным процессам группы звуков речевого сигнала.
Таблица 2
Про-цесс | Спектра-льная плотность мощности | Звуки PC, соответствующие процессу |
По | Go(f) | пь, г, кь, х, ш, ч, ф, фь, д, дь, т, сь, щ, с, ц, ть |
П1 | G1(f) | мь, рь, зь, вь, ж, и, б, бь, нь |
П2 | G2(f) | а, з, р, ль, э, в, о, ы, м, н, у |
Спектральные плотности мощности трех случайных процессов, связанных с различными группами звуков речи показаны на рис. 13.
Рис. 13. Спектральные плотности мощности трех случайных процессов
Спектральные составляющие звуковых сигналов изменяются достаточно медленно на длительности, в среднем 200 мс. Кусочное представление сигнала в частотной области представляется обычно кадрами длительностью 8- 20 мс.
Спектральная плотность огибающей речи на интервалах слогов и слов (ширина полосы пропускания около 50 Гц), показана на рис. 14.
Рис. 14. Спектральная плотность огибающей речи и огибающей спектральной составляющей речи.
Дата добавления: 2016-05-16; просмотров: 1027;