Wordstat (распространяется бесплатно).
Пользоваться программой предельно просто - выбираете файл (правда, поддерживаются только форматы txt и html\htm), нажимаете на кнопку
и получаете файл - опять в формате txt - с ключевыми словами:
Как можно заметить по результатам, алгоритм программы также предельно прост: программа считает количество употреблений каждого слова, и на основании этих данных строит свой список-рейтинг. В результате - на первое место попадают предлоги, союзы, артикли - совсем не то, что в действительности несет важную информацию. К тому же, слова анализируются только "в розницу" - это минус, ведь в глоссарий ключевых терминов нужно включать и словосочетания.
TextAnalyst (распространяется бесплатно)
Программа построения семантической сети понятий, выделяемых из обрабатываемого текста, со ссылками на контекст. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Лингвистический анализ проводится в основном на основе стемминга. Морфологический анализ реализован для сравнительно небольшого количества слов. Из лингвистического анализа исключаются не только стоп-слова, но и все глаголы. При поиске не учитывается порядок слов. Синтаксический и семантический машинный анализ тестов не реализован.
SDK реализует функции лемматизации для русского и английского языков, построения частотных списков понятий, поиска слов в контексте. TextAnalyst Lib реализует создание гипертекстовых связей выявляемых понятий.
TextAnalyst обладает более совершенным алгоритмом, учитывающим, наряду с частотностью, целый ряд лингвистических параметров: положение слова в предложении, положение предложения в тексте, связь слов между собой, семантические параметры.
И, хотя в результатах получается много "шума", важные термины действительно выделяются и могут быть использованы для создания глоссария ключевых слов. Программа поддерживает только русский язык.
Дата добавления: 2015-04-21; просмотров: 1401;