Глава 1. ОСОБЕННОСТИ ПРОЦЕССОВ ОБНАРУЖЕНИЯ ЗАКОНОМЕРНОСТЕЙ В МАССИВЕ АНАЛИЗИРУЕМОЙ ИНФОРМАЦИИ ПРИ РЕШЕНИИ ЗАДАЧ РАСПОЗНАВАНИЯ И ПРОГНОЗИРОВАНИЯ
Закономерности, говорящие о реальном мире, имеют характер эмпирических гипотез или теоретических предположений, формулирующих некоторые утверждения о связях между характеристиками объектов или процессов. Выдвижению гипотез предшествует четкое определение представляющих интерес объектов и их характерных свойств, выбор измерительных средств и системы символов, с помощью которых можно анализировать результаты наблюдений. Должны быть сформулированы требования к протоколам наблюдений, которые будут подтверждать
либо опровергать достоверность гипотезы.
Несколько эмпирических гипотез могут быть сформулированы для одних и тех же объектов или явлений с помощью наблюдений на одних и тех же приборах с использованием идентичных или различных протоколов. Если N1 – количество возможных неизоморфных (различных) протоколов, опровергающих те или иные гипотезы, то отношение , где N – общее число всех возможных неизоморфных протоколов, принимается за потенциальную недостоверность эмпирической гипотезы. Эта характеристика часто используется для оценки практической полезности эмпирической гипотезы, она позволяет отличать содержательные научные гипотезы (теории) от псевдонаучных вариантов.
Другой важной характеристикой эмпирических гипотез считается степень их подтвержденности. Доверие к гипотезе выше, когда большее число проведенных различных исследований подтверждают, а не опровергают. В тех случаях, когда по одному и тому же поводу существует более одной эмпирической гипотезы, значительно отличающихся по характеристикам, обычно затруднительно определить такие способы количественной оценки, на основании которых одну гипотезу можно было бы предпочесть другой.
Гипотезы-претенденты становятся законами природы в тех случаях, когда многочисленные эксперименты не опровергали, а лишь подтверждали их, природа описываемых ими явлений нашла глубокое и всестороннее объяснение. Исследователей в большей мере интересует выдвижение самых первых сырых гипотез, которое предполагает выделение из бесконечного числа свойств части мира некоторого конечного их набора, формулирование исходных предположений о том, что может и чего не может быть, определение закономерностей и поиск возможностей их усиления.
Наиболее известный алгоритм F усиления одной из важнейших характеристик гипотез – потенциальной опровержимости Q – характеризуется исходными гипотезой (h0) и «обучающим» протоколом наблюдений (pr0), результатом является формирование более сильной гипотезы
h1= F(h0, pr0). Предполагается существование таких протоколов pr, которые согласуются с содержанием исходной гипотезы h0(эта гипотеза считает их допустимыми)и для них тестовый алгоритм T0(pr) = 1, а новая гипотеза h1считает их недопустимыми и выдает результат T1(pr) = 0.
К алгоритму F предъявляются следующие требования, сформулированные в теореме К. Ф. Самохвалова [7]:
· Универсальность.При наличии гипотезы h0 и ее допустимого обучающего протокола pr0 алгоритм F должен работать и выдавать новую гипотезу h1 = F(h0, pr0) применительно к паре < h0, pr0 > из любой предметной области.
· Нетривиальность.Новая гипотеза h1может оказаться эквивалентной гипотезе h0, если в протоколе pr0 имеются только известные факты. Новая гипотеза h1должна быть сильнее исходной по каким-либо другим допустимым протоколам. Алгоритм, который не дает усиление гипотез, никому не нужен.
· Последовательность. Дляновой гипотезы h1, полученной с помощью протокола pr0, этот протокол является допустимым.
· Инвариантность к языку. Результаты работы алгоритма F не должны зависеть от того, на каких эквивалентных языках был представлен обучающий протокол pr0. Следовательно, два изоморфных (или неизоморфных) протокола на одном языке должны оставаться таковыми и на другом.
Основной недостаток алгоритма К. Ф. Самохвалова заключается в том, что он применим только для работы с протоколами равной мощности (которая определяется количеством объектов, фигурирующих в протоколе) и среди них признает допустимыми только протоколы, изоморфные уже имеющимся. Когда из особенностей протокола одной мощности делают выводы о свойствах протоколов другой мощности, могут возникать ошибки. Для иллюстрации справедливости сказанного приведем пример из иероглифического словаря корейского языка. В нем один и тот же иероглиф, но в разном количестве имеет существенно отличающееся значение: один иероглиф означает понятие «женщина», два – «шум», три – «базар». Отмеченный недостаток не может служить основанием для даже минимальных отклонений от сформулированных в теореме Самохвалова требований универсальности, последовательности и нетривиальности.
В связи со сказанным проблема теоретического обоснования преимуществ одного алгоритма когнитивного анализа данных перед другими, например, в распознавании образов, имеет перманентную актуальность. Здесь, как и в любой другой области естествознания, критерием истины может служить только практика.
Дата добавления: 2016-01-20; просмотров: 761;