КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: НЕСТАНДАРТНЫЕ ПРИМЕНЕНИЯ
Определение языка сообщения
В живых языках буквы в текстах встречаются с разной частотой, другими словами, можно построить диаграммы распределения частот символов, характерные для каждого языка. Производится так называемая частотная селекция, текст сообщения анализируется как поток символов и высчитывается частота встречаемости (вес) каждого символа. Иногда таблицу для удобства нормализуют: веса делят на общее количество символов в обработанном сообщении. При анализе можно абстрагироваться от букв и их семантической нагрузки, взяв только номера символов и рассчитывая таблицу частот по номерам. Это позволит обойти наличие нескольких, временами несовместимых кодировок. Для принятия решения полученная таблица распреде-
ления сравнивается с эталонными таблицами и по близости к тому или иному распределению делается предположительный вывод о языке сообщения. Для анализа минимальная длина текста должна равняться длине трех алфавитов, что для русского языка составляет около сотни символов.
Таблица встречаемости букв в распространенных европейских языках | |||||||||
Английский Французский Немецкий Испанский Итальянский | |||||||||
Е | 12,86 | Е | 17,76 | Е | 19,18 | Е | 14,15 | I | 12,04 |
Т | 9,72 | S | 8,23 | N | 10,20 | А | 12,90 | Е | 11,63 |
А | 7,96 | А | 7,68 | I | 8,21 | О | 8,84 | А | 11,12 |
7,77 | N | 7,61 | S | 7,07 | S | 7,64 | О | 8,92 | |
N | 7,51 | Т | 7,30 | R | 7,01 | I | 7,01 | N | 7,68 |
R | 7,03 | I | 7,23 | Т | 5,68 | R | 6,95 | Т | 7,07 |
Дата добавления: 2014-12-21; просмотров: 1150;