Главная > Распознавание образов > Метод потенциальных функций в теории обучения машин
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5. Вид потенциальной функции в симметрическом пространстве.

Для того, чтобы показать, каким образом приведенные выше факты используются при выборе потенциальной функции в методе потенциальных функций, нам понадобится конкретизировать ядро в функционалах (39) и (40). Зададим ядро формулой

где наименьшее из возможных расстояний между двумя несовпадающими точками, а множитель введен в целях нормировки. При таком выборе ядра функционал (40) пропорционален сумме всевозможных квадратов разностей между значениями функций в соседних точках, и поэтому величина функционала (40) с ядром (81) больше для тех функций, которые мы интуитивно считаем «худшими».

Легко установить следующие свойства функционала (40) с ядром (81):

и, разумеется, как и для любого функционала вида (40),

Для ядра (81) значения весов оценивающих качество слоев 2%, выражаются через значения функции формулой

Эти формулы получаются из следующих соображений. Веса как показано в пункте 4, являются просто коэффициентами разложения функции в ряд по Но для функции разложение в ряд получается сразу из (78), если положить там Это приводит к формуле (82), а формула (83)

получается затем из формулы (41), если учесть, что в данном случае в соответствии с (42)

Условимся в дальнейшем нумеровать слои 2% в соответствии со значениями функционала (40) с ядром (81) так, что

Обратимся теперь к вопросу о выборе потенциальной функции в методе потенциальных функций. На практике при использовании этого метода функцию выбирают как функцию расстояния: Такой выбор функции оправдывается следующими соображениями.

В пункте 4 была введена система функции и доказана ее полнота. Поэтому, как бы ни выбиралась функция она может быть представлена в виде суммы

где — коэффициенты.

В силу того, что в соответствии с методом потенциальных функций имеет место разложение (20) с неотрицательными коэффициентами коэффициенты также должны быть неотрицательны. Действительно, представляя в виде (62) и подставляя это выражение в (85), получаем для разложение

Если совокупность функций переобозначить и представить в виде совокупности функций ряд (86) примет вид

(20), причем коэффициенты для всех функций из одного слоя одинаковы и равны В силу этого коэффициенты неотрицательны:

Тот факт, что при выборе потенциальной функции как функции расстояния коэффициенты в формуле (20) (см. § 2) оказались одинаковыми для всех функций принадлежащих одному и тому же слою, интуитивно оправдывает такой выбор функций Действительно, выше было показано, что все функции одного и того же слоя эквивалентны с точки зрения их качества, и поэтому нет априорных оснований при использовании этих функций в разложениях в ряды приписывать этим функциям разный вес.

Из неотрицательности коэффициентов следует, что потенциальная функция должна удовлетворять условию

и что при всех значениях

Действительно,

а в силу первого свойства функций (см. стр. 115) и неотрицательности отсюда следует, что

Для того чтобы установить дальнейшие ограничения, которые разумно учитывать при выборе потенциальной функции т. е. при задании неотрицательных чисел в разложении (86), рассмотрим машинную реализацию метода потенциальных функций (см. § 3 гл. II).

На каждом шаге машинная реализация сводится к подсчету суммы

Если ввести функцию

где

то формулу (90) можно переписать следующим образом:

Функция равна нулю везде, кроме точек показанных в процессе обучения. Задача обучения имеет смысл только тогда, когда число точек, показанных в процессе обучения, намного меньше общего числа точек пространства Поэтому функция отлична от нуля лишь в отдельных удаленных друг от друга точках и интуитивно ясно, что она весьма «рваная», «вычурная». Это видно и по значению функционала Действительно, легко вычислить значение этого функционала в предположении, что среди показанных точек х нет соседних (т. е. при Это значение равно

и не зависит ни от числа показанных точек (лишь бы среди них не было соседних), ни от значений (т. е. от

конкретного алгоритма обучения). Значение функционала, равное 1/2, соответствует весьма «вычурной» функции (о чем свидетельствует, например, свойство 2) функционала стр. 120). Что касается функции то она должна быть достаточно гладкой, так как при достаточно больших (но еще намного меньших общего числа точек пространства значениях она должна аппроксимировать восстанавливаемую функцию которая предполагается «гладкой», не «вычурной», т. е. обладающей высоким качеством (см. пункт 1 § 1 этой главы). Таким функциям должно соответствовать малое значение функционала

В формуле (92) функцию можно рассматривать как ядро линейного «интегрального» оператора К, преобразующего функцию в функцию В силу сказанного выше оператор К должен переводить функцию плохого качества (с большим значением в функции хорошего качества (с малым В связи с этим имеет смысл ввести следующее определение: оператор К с ядром называется улучшающим (ухудшающим), если (соответственно для любой функции

Пусть слои а значит, и коэффициенты перенумерованы в соответствии с (84). Тогда имеет место следующая теорема.

Теорема Пусть функция соответствующая оператору К, представима разложением Тогда оператор К является улучшающим (ухудшающим) тогда и только тогда, когда последовательность невозрастающая (неубывающая).

Доказательство теоремы VI. Для определенности рассмотрим утверждение теоремы VI для улучшающих операторов (доказательство для ухудшающих операторов аналогично).

а) Доказательство необходимости. Пусть условие теоремы не выполнено, т. е. при

Рассмотрим функцию где какие-либо функции из слоев и соответственно.

В силу формулы (58)

Вместе с тем, поскольку

из формулы (58) также следует

Но, по предположению, в силу чего Кроме того, поскольку слои упорядочены в соответствии со значениями функционала, то

Поэтому

Тем самым доказано, что если условие теоремы не выполнено, то оператор К не является улучшающим.

б) Доказательство достаточности. Пусть условия теоремы выполнены. Рассмотрим произвольную функцию и величину

Для доказательства достаточности теоремы надо показать, что если условие теоремы выполнено, то В самом деле, используя формулу (58), имеем

Поскольку возрастающая последовательность и найдется такое что

Тогда можно записать:

причем члены каждой из сумм неотрицательны.

Но по условию теоремы для и для Поэтому

Подставляя эти неравенства в формулу (94), получим

В силу формулы (58) последняя скобка равна нулю, и поэтому . Это и доказывает достаточность теоремы. Теорема VI доказана полностью.

Замечание. Небольшое видоизменение в доказательстве теоремы VI позволяет установить, что если последовательность является не только невозрастающей (неубывающей), но и монотонно убывающей (монотонно возрастающей), то имеет место строгое неравенство для каждой функции не принадлежащей «целиком» ни одному из слоев .

Теорема VI устанавливает как раз те дополнительные ограничения на выбор потенциальной функции, о которых речь шла выше. Именно, в связи с тем, что оператор К должен быть улучшающим, коэффициенты в разложении (86) должны быть не только неотрицательными, но и невозрастающими при указанном выше упорядочивании слоев:

Более того, если потребовать, чтобы оператор К был строго улучшающим для любых функций, не принадлежащих «целиком» ни одному из слоев необходимо,

чтобы последовательность была монотонно убывающей:

В заключение этого пункта подытожим те соображения, с которыми приходится считаться при выборе потенциальной функции в симметрических пространствах:

1. Потенциальную функцию целесообразно выбирать в виде функции зависящей только от расстояния

2. Эта функция может быть задана разложением (85) в ряд по системе функций Система функций однозначно определяется для данного пространства

3. Коэффициенты в разложении (85) должны быть положительны.

4. При нумерации коэффициентов в соответствии с (84) последовательность должна быть монотонно убывающей.

В тех случаях, когда потенциальная функция задается первоначально в замкнутой форме (например, выражениями и т. п.), для проверки условий 3 и 4 можно вычислить коэффициенты воспользовавшись формулой (76). Функции для которых не выполнены условия (88) и (89), заведомо не пригодны в качестве потенциальных.

Практика применения метода потенциальных функций показывает, что результаты использования метода мало зависят от того, как выбраны коэффициенты в пределах указанных ограничений.

<< Предыдущий параграф Следующий параграф >>
Оглавление