КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: НЕСТАНДАРТНЫЕ ПРИМЕНЕНИЯ

 

Определение языка сообщения

В живых языках буквы в текстах встречаются с разной часто­той, другими словами, можно построить диаграммы распреде­ления частот символов, характерные для каждого языка. Произ­водится так называемая частотная селекция, текст сообщения анализируется как поток символов и высчитывается частота встречаемости (вес) каждого символа. Иногда таблицу для удоб­ства нормализуют: веса делят на общее количество символов в обработанном сообщении. При анализе можно абстрагировать­ся от букв и их семантической нагрузки, взяв только номера символов и рассчитывая таблицу частот по номерам. Это позво­лит обойти наличие нескольких, временами несовместимых ко­дировок. Для принятия решения полученная таблица распреде-


ления сравнивается с эталонными таблицами и по близости к тому или иному распределению делается предположительный вывод о языке сообщения. Для анализа минимальная длина текста должна равняться длине трех алфавитов, что для русско­го языка составляет около сотни символов.

 

Таблица встречаемости букв в распространенных европейских языках
Английский Французский Немецкий Испанский Итальянский
Е 12,86 Е 17,76 Е 19,18 Е 14,15 I 12,04
Т 9,72 S 8,23 N 10,20 А 12,90 Е 11,63
А 7,96 А 7,68 I 8,21 О 8,84 А 11,12
7,77 N 7,61 S 7,07 S 7,64 О 8,92
N 7,51 Т 7,30 R 7,01 I 7,01 N 7,68
R 7,03 I 7,23 Т 5,68 R 6,95 Т 7,07







Дата добавления: 2014-12-21; просмотров: 1150;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.004 сек.