Установление авторства

Компьютерная лингвистика находит применение в крими­налистике и при проведении оперативно-розыскных меропри­ятий. Каждый человек имеет свой характерный набор слов, идиом и словесных штампов. Следовательно, в принципе, воз­можно построение марковской матрицы для отдельного челове­ка, уникальной и выделяющей его лексикон, а также характер­ные орфографические и пунктуационные ошибки. Далее, сопо­ставляя полученную при анализе текста матрицу с эталонной, необходимо сделать более или менее достоверный вывод о том, мог испытуемый быть автором данного сообщения или нет. Другими словами, провести экспертизу, аналогичную иденти­фикации отпечатков пальцев. Решение обратной задачи позво­ляет сделать предположение о том, кому из людей, матрицы ко­торых хранятся в банке данных, принадлежит данное сообще­ние, и установить авторство или найти затерявшегося человека.

2.3.4. Построение роботов-поисковиков и снифферов

Самый простой вариант применения статистической линг­вистики — это создание робота-странника, который в режиме

5 Заказ 105


 


автопилота будет лазать по ссылкам в html-документах и искать необходимого человека, анализируя тексты. В усложненном ва­рианте можно построить систему автоматического слежения за сообщениями в html- или irc-чатах. Программа будет нацелена на отслеживание всех переговоров (дифференцируя их по учас­тникам), анализ текстов и поиск заданных объектов. Хакер мо­жет запросто сменить IP-адрес, зайти под другим эккаунтом или ником, но изменить свой лексикон вряд ли догадается. Впрочем, подобная система легко сбивается с толку. В более продвинутых технологиях могут создаваться или сниффер, ана­лизирующий проходящие пакеты, или вирус-шпион, путеше­ствующий по компьютерам и анализирующий тексты для выяв­ления заданного автора сообщений.

2.3.5. Построение роботов-автоответчиков

 

Имея готовую матрицу рассчитанных марковостей с поряд­ком как минимум выше пятого, можно построить подобие авто­ответчика. Генерируется псевдослучайная последовательность с большим периодом, например, при использовании математи­ческого аппарата конечных полей Галуа. С помощью случайной последовательности матрица марковостей обращается вспять, т.е., используя значение выброшенного последовательностью случайного числа, статистический вес (вероятность появления того или иного символа, взятого из матрицы) и предысторию символа, можно высчитывать следующий символ сообщения. Такое случайное моделирование на выходе выдает осмыслен­ный текст. Уже вполне осмысленный текст получается при об­ращении марковости четвертого порядка. Среднее количество символов в словах русского языка равно восьми, и марковости шестого порядка вполне достаточно для генерации осмыслен­ного текста. Для построения программного робота, способного к диалогу, нужно усложнить анализ введением расчета корреля­ций (или зависимостей, выражаясь обиходным языком). Про­изводится расчет корреляций в зависимости от отклика челове-


 


ка на задаваемые ему фразы. Или берется литературное произ- ведение, изобилующее диалогами, и рассчитываются корреля­ции в потоках сообщений вопрос — ответ. Программный робот обучается диалогу. Это можно применить для эмуляции присут­ствия в html-чате, ire-цепях или ICQ. Так что следует критичес­ки отнестись к тому, что собеседник выдает осмысленные, но бестолковые ответы: возможно, вы разговариваете с хорошо по­строенным роботом. Чтобы проверить это предположение, можно повторить вопрос, заданный собеседнику. Программа обычно зацикливается и начинает, как попугай, повторять одно

и то же в ответ на один и тот же вопрос.

■ ■ '■ ■

■■■■■.■■ '

.■■■■'

■■'■■■■■'■'■'■ .... .. ; ■..

| ■ . ■' ■ ■■ ■ :

: ' '-.,■>:

■' .. . :


 








Дата добавления: 2015-04-25; просмотров: 622;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.004 сек.