Главная > Распознавание образов > Метод потенциальных функций в теории обучения машин
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 3. Применение метода потенциальных функций к задаче обучения машины без учителя

1. Общие соображения.

При общем рассмотрении задачи, проведенном в предыдущем параграфе, мы рассматривали задачу классификации в евклидовом пространстве безотносительно к тому, каким образом это пространство введено. Между тем по самой постановке задачи обучения и классификации метрика в исходном

пространстве X (т. е. на том множестве объектов, которые подлежат разделению) должна выбираться в зависимости от особенностей исходной задачи, и, как неоднократно подчеркивалось в предыдущих главах, эта свобода выбора исходной метрики существенно используется при решении конкретных задач. Разумеется в некоторых случаях может оказаться целесообразным исходную метрику выбирать евклидовой. Однако это далеко не всегда так, и при использовании метода потенциальных функций выбор конкретной потенциальной функции как раз и означает, по существу, выбор соответствующей конкретной метрики в исходном пространстве

Если сделать обычное для метода потенциальных функций предположение о том, что искомые разделяющие функции представимы разложением по некоторой системе функций то всегда может быть введено в рассмотрение соответствующее спрямляющее пространство в котором разделяющая функция является линейной. Всюду далее ограничимся случаем, когда система функций конечна и, следовательно, спрямляющее пространство конечномерно. Спрямляющее прбстранство, являющееся линейным пространством (так как в нем определено понятие гиперплоскости), естественно считать евклидовым, так как значение потенциальной функции в точках может быть всегда интерпретировано как скалярное произведение соответствующих векторов поскольку

Если позволить себе в этом спрямляющем пространстве рассматривать в качестве разделяющих функций не только линейные функции, но и функции более высоких порядков, которым в исходном пространстве соответствуют более сложные разделяющие функции, нежели представимые разложением по системе то все, что было сказано в предыдущем параграфе о разделении в евклидовом пространстве, может быть непосредственно применено при рассмотрении задачи в спрямляющем

пространстве. Если все же ограничиться случаями, когда можно предполагать, что в исходном пространстве X искомая функция представима разложением в ряд по системе то в спрямляющем пространстве возникают лишь линейные разделяющие функции. В силу фактов, изложенных в предыдущем параграфе, при экстремальной постановке задачи в рассматриваемом случае естественно ограничиться лишь функционалами, зависящими только от моментов первого и нулевого порядков (например, функционалов типа (2а), (4а)), так как они достигают экстремума на линейных функциях.

Установим теперь связь между системой функции а следовательно, между видом потенциальной функции и метрикой в исходном пространстве.

Рассмотрим две точки, х и , и соответствующие им векторы где

Поскольку в спрямляющем пространстве метрика является евклидовой, то расстояние между точками х, у будет определяться соотношением

Учитывая теперь соотношение (38), представим формулу (39) в виде

Формула (40) и устанавливает как раз искомое соответствие между метрикой в пространстве X и видом потенциальной функции Ограничим себя в дальнейшем рассмотрением задачи классификации, в которой экстремизируется функционал, имеющий в спрямляющем пространстве вид (2а). Напомним, что эквивалентной формой этого функционала является форма (см.

Установим теперь, какой смысл в исходном пространстве X имеет этот функционал. С этой целью сначала

выразим его явно через евклидово расстояние в спрямляющем пространстве. Для этого установим соотношение

Действительно, имеет место цепочка равенств

которая и приводит к соотношениям (41). Разумеется, соотношение, аналогичное (41), имеет место и для множества В.

Заметим теперь, что стоящее под интегралом в формуле (41) выражение является квадратом расстояния между точками в спрямляющем пространстве и, следовательно, равно где х и у — точки исходного пространства, соответствующие точкам и и спрямляющего пространства. Используя это, функционалу можно придать такой вид:

Таким образом, рассматриваемый в этом параграфе функционал имеет смысл среднего квадрата расстояния между двумя точками пространства X, взятыми из одной области (где расстояние определяется в соответствии с формулой

При переходе от исходного пространства X к спрямляющему пространству плотность распределения, даже если она была непрерывной функцией в исходном пространстве, может стать разрывной. Так, например, будет в том типичном случае, когда размерность спрямляющего пространства выше размерности исходного пространства, и вся вероятность в этом пространстве оказывается сосредоточена на некотором множестве меньшей размерности — при этом, очевидно, плотность вероятности является -функцией.

В силу сделанного замечания теорема I, в которой требуется непрерывность функции непосредственно к функционалу неприменима. Тем не менее имеет место следующая

Теорема II. Пусть функционал в спрямляющем пространстве имеет вид

где Ф — дифференцируемая функция своих аргументов, а плотность вероятности в исходном пространстве X и функции непрерывные функции. Тогда:

1) если экстремум функционала достигается на некоторой разделяющей функции, этот же экстремум достигается и на разделяющей функции, являющейся в спрямляющем пространстве полиномом степени:

где

2) Если условия (44) и (45) выполнены, то функционал принимает стационарное значение.

Доказательство теоремы II. Для доказательства теоремы выразим моменты через

интегралы по множествам в исходном пространстве X:

где понимается как вектор с компонентами Рассмотрим вариацию функционала (43). Для вариаций моментов (46), учитывая непрерывность функций и применяя лемму, получим

Рассуждая точно так же, как и при доказательстве теоремы I (с учетом отличия в выражениях для вариаций моментов получим формулу для вариации функционала (43) в следующем виде:

Проведя, далее, почти дословно рассуждения, следующие после формулы (24) в доказательстве теоремы I, приходим к выводу, что экстремум функционала (43) достигается на следующей разделяющей функции в исходном пространстве X:

где удовлетворяют соотношениям (45). Одновременно получаем и обратное утверждение, т. е. что на разделяющей функции (48) функционал принимает стационарное значение. Переходя к спрямляющему пространству и заменяя в на завершаем доказательство теоремы II.

Используем теперь доказанную теорему для определения функции, экстремизирующей функционал (42),

который в спрямляющем пространстве может быть заменен функционалом вида (29):

В соответствии с формулами (44) и (45) в данном случае положим

и

Коэффициент 1/2 в формулах (50) и (51), очевидно, не влияет на вид разделяющей поверхности; он, однако, окажется удобным при формулировке алгоритма в следующем пункте.

<< Предыдущий параграф Следующий параграф >>
Оглавление