Энтропийный анализ текстов
Понимание энтропии как меры неупорядоченности системы позволяет применять ее для описания свойств не только материальных объектов, но и сообщений.
Представим себе, что у нас есть отрывок текста, написанного буквами русского алфавита, причем из всех знаков препинания используются только пробелы между словами. Вместо букв с тем же успехом можно было бы использовать числа от 1 до 34 (№34 означает пробел). Физической моделью такого текста служит ящик с количеством отделений, равном количеству букв в тексте, причем количество молекул в каждом отделении соответствует номеру буквы в алфавите. Можно определить понятие статистического веса и для такой системы и вычислить его с помощью приемов, похожих на те, что описаны в п. 4.4.3 .
Формула Больцмана говорит, что энтропия этой системы максимальна, если вероятность обнаружить в заданном отделении N молекул (вероятность того, что заданная буква текста имеет номер N в алфавите) одна и та же для любого N (на заданном месте может с равной вероятностью стоять любая буква или пробел). Состоянием с наибольшей энтропией (примерно 3,5k на одну букву), как и положено, оказывается наиболее однородное состояние. Однако оно соответствует и наиболее бессмысленному тексту! Вот классический пример текста, в котором вероятность появления (другими словами, распространенность) любой буквы одна и та же[37]:
СУХЕРРОБЬДЩ ЯЫХВЩИЮАЙЖТЛФВНЗАГФОЕНВШТЦР ПХГБКУЧТЖЮРЯП…
Понять, что приведенная фраза бессмысленна, может и человек, не знающий русского. Во-первых, в естественном языке слова не такие длинные, то есть пробел должен встречаться гораздо чаще. Во-вторых, в каждом языке есть буквы, употребляемые чаще других (например, в русском это «о», в английском — «e»). В-третьих, вероятность того, что на данном месте стоит данная буква, сильно зависит от ее окружения: после пробела мы никогда не увидим твердого или мягкого знака, а после букв «тьс» наверняка идет «я». Таким образом, осмысленный, упорядоченный текст не может рассматриваться как однородная система. Именно благодаря свойству неоднородности осмысленного текста разгадывают зашифрованные послания герои рассказов А. К. Дойля «Пляшущие человечки» и Э. По «Золотой жук».
Расчет, учитывающий неоднородность текста на естественном языке, показывает, что его энтропия составляет примерно 0,7k на букву, то есть в пять раз меньше, чем у беспорядочного набора букв. Этот результат оказывается практически не зависящим от того, какой именно язык мы выбрали для анализа. Снова мы убеждаемся, что снижение энтропии эквивалентно повышению упорядоченности.
В 1994 г. группа ученых, возглавляемая известным специалистом по статистической физике Ю. Стэнли, рассчитала энтропию генетического текста в некодирующих участках ДНК (п. 4.3.3.4) и обнаружила[38], что она существенно ниже, чем для чисто случайной последовательности нуклеотидов. Более того, она оказалась ниже, чем энтропия кодирующих последовательностей! Это заставляло предположить, что и молчащие участки несут какой-то смысл. Прошедшие с тех пор 10 лет полностью подтвердили это предположение.
Дата добавления: 2015-01-13; просмотров: 1255;