Главная > Распознавание образов > Метод потенциальных функций в теории обучения машин
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава III. О ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ И ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ

§ 1. О выборе системы функций

1. Общие соображения. В § 4 главы II была введена основная гипотеза о функциях подлежащих восстановлению или приближению. Эта гипотеза предполагает, что функция принадлежит классу т. е. представима разложением

по некоторой системе функций с коэффициентами убывающими достаточно быстро с ростом номера

Для того чтобы можно было высказать предположение такого рода, следует позаботиться о подходящем выборе системы функций Действительно, одна и та же функция может принадлежать или не принадлежать классу в зависимости от того, как выбрана система функций Поэтому задача состоит в том, чтобы так выбрать систему функций чтобы предположение о принадлежности функции классу было правдоподобным.

Однако при решении конкретных задач о функции подлежащей восстановлению или приближению, ничего не известно, и системой приходится задаваться, опираясь лишь на интуицию, опыт и некоторые общие соображения. Поэтому естественно выбирать систему так, чтобы с ее помощью можно было бы представить разложением в ряд возможно более широкий класс функций заданных на В связи с этим, если из каких-либо соображений правдоподобно предположение о том, что функция принадлежит некоторому классу то целесообразно использовать в качестве какую-либо полную в 9? систему функций, т. е.

такую систему, что любая функция могла быть в определенном смысле представлена рядом

При этом, однако, коэффициенты ряда должны убывать достаточно быстро в связи со следующими двумя обстоятельствами. Во-первых, желательно обеспечить условие (т. е. чтобы так как при

этом метод потенциальных функций (как об этом уже говорилось в § 4 гл. II) обеспечивает восстановление функции во всех интересующих нас далее задачах. Во-вторых, персептронная реализация возможна лишь в том случае, когда можно, «обрезав» ряд, приближенно ограничиться конечным (и по возможности небольшим) числом его членов. Это подразумевает, что коэффициенты ряда убывают достаточно быстро.

Быстрота убывания коэффициентов определяется, с одной стороны, свойствами класса которому принадлежит функция и, с другой стороны, выбором системы Если считать, что класс известен, можно было бы поставить задачу о нахождении такой системы что коэффициенты разложения каждой функции из по такой системе убывают в определенном смысле достаточно быстро. Однако вряд ли можно думать, что существует универсальный, пригодный во всех задачах класс функций и поэтому вряд ли существует универсальная, пригодная во всех случаях система функций Вместе с тем можно надеяться, что в большинстве сравнительно простых практических задач при разумном выборе пространства X функция оказывается достаточно гладкой, не вычурной в интуитивном смысле этих слов. Поэтому можно надеяться на то, что, опираясь на подобное предположение о гладкости можно находить достаточно хорошо приспособленные для решения практических задач системы функций

Имея в виду рассмотреть соображения о выборе системы функции нам удобно будет рассматривать функции отличающиеся от М лишь постоянными множителями X, (см. § 2 гл. II).

Для представления функций одной переменной в математической физике установлен ряд «стандартных» полных ортогональных систем. Например, для функций,

заданных на конечном отрезке, используются тригонометрическая система функций, функции Лежандра и т. д.; для функций, заданных на всей действительной оси — функции Эрмита и т. д. Все системы такого рода обладают следующей замечательной особенностью: входящие в них функции могут быть упорядочены (и обычно упорядочиваются) так, что с увеличением номера функции растет ее «сложность», «вычурность».. Так, например, в тригонометрической системе функций с увеличением номера гармоники растет число нулей и экстремумов на заданном отрезке и увеличивается максимальное значение производной. Такое упорядочивание разумно потому, что оно позволяет при представлении часто встречающихся функций рядами сохранять в этих рядах тем меньше гармоник, чем «глаже», чем «менее вычурна» представляемая функция. Это является следствием того факта, что коэффициенты получающихся в таких случаях рядов убывают с ростом номера гармоник тем быстрее, чем «менее вычурна» представляемая функция.

В связи с тем, что функции, представляемые разложением, заранее не известны, существенно, чтобы можно было «обрезать» ряды для возможно более широкого класса функций. Если бы система была даже линейной независимой, но не ортогональной, то могло бы оказаться, что некоторые функции хорошо представимы в этой системе, а для иных функций, даже достаточно гладких, коэффициенты разложения медленно убывают с ростом номера, и приходится удерживать в ряду много гармоник. Это обстоятельство можно проиллюстрировать известной аналогией между разложением функций в ряды и разложением векторов по заданным

направлениям. Если эти направления близки друг к другу, то векторы, расположенные в их «конусе», хорошо разложимы, а векторы, примерно перпендикулярные к этим направлениям, плохо разложимы. Если же направления, по которым раскладывается вектор, ортогональны, то нет преимущественных направлений при разложении любых векторов, и все они достаточно хорошо разложимы. Подобно этому и при разложении функций ортогональные системы (или близкие к ним) имеют преимущества по сравнению с неортогональными.

Указанные выше «обычные» полные ортогональные системы функций, принятые в математической физике, состоят из функций одной переменной, в то время как нас интересуют функции большого числа переменных.

Если задана полная ортогональная система функций одной переменной, то с ее помощью можно построить полную ортогональную систему функций для любого числа переменных с помощью следующего часто используемого приема.

Пусть X — -мерное пространство с осями (каждая из переменных может принимать значения из одного и того же конечного или бесконечного интервала и пусть дана полная и ортогональная система функций от одной переменной х, заданная на Введем в рассмотрение систему функций

которая получается, если каждый из индексов принимает все возможные целые значения от 0 до т. е. берутся все возможные произведения из при подстановке вместо х различных переменных.

Система функций (1) ортогональная и полная. Докажем ортогональность двух произвольных разных функций Из того факта, что эти функции разные, следует, что найдется такое к, что Для этих

Но скалярное произведение

с учетом формулы (1) может быть представлено в виде

Это произведение равно нулю в силу (2).

Полнота системы (1) может быть установлена следующими рассуждениями.

Рассмотрим произвольную функцию интегрируемую с квадратом по совокупности переменных . В силу полноты системы она представима «одномерным» разложением

при любых фиксированных значениях

Применяя тот же прием к функциям т. е. рассматривая их как функции при параметрах строим ряды для и находим аналогично Далее продолжаем процесс последовательного разложения до тех пор, пока не придем к постоянным коэффициентам. В результате получим

Тем самым показано, что произвольная функция разложима по системе что система полная.

Нам предстоит теперь упорядочить систему функций аналогично тому, как упорядочены обычные одномерные системы функций.

Для дальнейшего удобен следующий метод упорядочивания системы Отнесем к «гармоникам» порядка все функции для которых Разумеется, в системе содержится много «гармоник» порядка, но это и не удивительно, так как даже для одномерных систем встречаются случаи, когда система содержит несколько гармоник одного и того же порядка. Такое упорядочивание системы также связано с тем, что «вычурность» функций растет с ростом т. е. с ростом номера гармоник. Это продемонстрировано далее на примерах.

Описанный выше «канонический» прием построения многомерной системы функций из одномерной удобен далеко не всегда. Он приводит к системе, в которой число функций очень быстро растет с ростом Еще более важно, что получаемые так функции практически трудно реализовать в функциональных преобразователях для построения персептронных схем. Далее, в пункте 2 для специального пространства будет описан другой прием построения многомерной системы функций, в этом отношении более удобный.

Перейдем теперь к примерам построения систем функций в конкретных пространствах, с которыми приходится сталкиваться в задачах распознавания образов.

2. Пространство Начнем с рассмотрения случая, когда пространством X является множество точек, принадлежащих -мерному кубу, т. е. часть -мерного

евклидова пространства, удовлетворяющая неравенствам

Иначе говоря, рассматриваются все точки евклидова пространства, расположенные внутри и на поверхности -мерного куба со стороной, равной 2. Такое пространство обозначается далее Оно, естественно, возникает в задачах распознавания образов как пространство рецепторов, если кодировать состояние каждого рецептора числом считая, что если рецептор наименее возбужден («не освещен») и при максимальном возбуждении («полном освещении») рецептора, а при промежуточном возбуждении может быть любым числом, ограниченным неравенством

Применительно к пространству мы рассмотрим два способа построения функций «канонический», описанный ранее, и другой способ, более удобный для практической реализации в схемах и основанный на применении системы пороговых функций.

Проиллюстрируем использование канонического метода на двух примерах. Рассмотрим сначала в качестве полной одномерной системы тригонометрическую систему функций

Гармоники порядка многомерной «канонической» системы имеют вид

где индексы I, выбираются так, что

а под понимается либо либо же

В связи с тем, что в данном случае составляя произведения (1), можно опустить сомножители с индексом 0. Поэтому, например, в случае останется лишь один сомножитель с индексом 2 или пара сомножителей с индексом 1 у каждого. Поэтому для любой -мерной системы тригонометрических функций гармоники второго порядка имеют вид

где принимают значения от 1 до

Легко подсчитать, что система содержит только гармоник второго порядка.

Число гармоник порядка быстро растет с ростом но при каждая гармоника является функцией не более, чем переменных.

Просматривая формулы (5), легко заметить, что для каждой из этих многомерных гармоник с в пространстве можно указать «направление», вдоль которого они изменяются с частотой Для первых двух гармоник такими направлениями являются сами оси Для остальных гармоник второго порядка такими «направлениями» являются так как при этом

Аналогично, если бы мы строили многомерные моники порядка, то всегда можно было бы указать «направления» в пространстве такие, что вдоль таких направлений гармоники изменяются с частотой

Перейдем теперь к построению многомеоной системы, когда исходной одномерной служит система ортогонализированных на отрезке полиномов

Выпишем для этой системы все «гармоники» второго порядка. Вновь, учитывая, что и что поэтому в каждой гармонике второго порядка присутствуют не более двух отличных от единицы сомножителей из числа одномерных гармоник, получим следующие гармоники второго порядка:

Общее число гармоник второго порядка равно

Здесь также можно указать направления, вдоль которых многомерные гармоники второго порядка в такой же мере «сложны», как и одномерные гармоники второго порядка. Для гармоники вида а) таким направлением является просто направление а для гармоник вида б) направление вдоль так как при этом

Так же как и в случае тригонометрической системы, здесь для гармоник произвольного порядка можно указать такие направления, вдоль которых эти гармоники являются одномерными полиномами порядка и в этом смысле их «сложность», «вычурность» растет с ростом

Приведенные два примера хорошо иллюстрируют естественность предложенного выше способа упорядочивания гармоник, получаемых «каноническим» способом. Далее в этом же параграфе будут приведены иные

примеры построения и упорядочивания многомерных гармоник для других пространств.

Выше уже отмечалось, что канонический прием приводит к слишком сложным для технической реализации функциям. С прикладной точки зрения удобно реализовывать гармоники с помощью линейных операций и добавления однотипных нелинейных преобразователей от одной переменной. Рассмотрим, например, систему функций

где некоторые константы.

Выберем, как это часто делается при построении персептронов, в качестве функции х функцию

и покажем, что любая функция интегрируемая с квадратом на может быть с любой точностью апароксимирована конечной линейной комбинацией функций (10).

Действительно, известно, что функция многих переменных интегрируемая с квадратом на может быть приближена тригонометрическими полиномами

где

С другой стороны, функции как функции одной переменной представимы разложением по одномерной системе функций так как каждая такая функция — ступенчатая, а полнота системы ступенчатых функций очевидна. В силу этого

Подставляя (13) в (12), получаем аппроксимацию функции линейной комбинацией функций вида (10), (11).

В отношении системы (10) может быть сделано следующее замечание. Как известно, «угол» между вектор-функциями можно определить с помощью формулы, аналогичной обычной формуле для угла между векторами

где под скалярным произведением понимается интеграл

Если система функций ортогональна, то все такие косинусы равны нулю. Для систем функций, близких к ортогональным, косинусы близки к нулю. Наоборот, если все такие косинусы велики, т. е. все вектор-функции лежат в узком конусе, то система далека от ортогональной.

При некоторых естественных (с точки зрения технической реализации) предположениях о том, как должны зависеть коэффициенты а от количества переменных оказывается, что для функций вида (10) раствор конуса, о котором выше шла речь, неограниченно, сужается с ростом если только функция непрерывна. Значительно лучше обстоит дело, если функция разрывна. В частности, если как это обычно делается

в персептронах, то в известном смысле раствор конуса не зависит от и поэтому подбором коэффициентов можно предельно расширять угол между векторами в пределах конуса. В этом смысле система функций (10), (11) удобна для разного рода реализаций персептронных схем, так как она полна (см. выше), легка для технических реализаций и вместе с тем при больших может быть сделана достаточно близкой к ортогональной.

3. Пространство вершин m-мерного куба. Рассмотрим теперь пространство вершин -мерного куба со стороной, равной 2, и началом координат в центре куба, так что координаты каждой вершины задаются набором каждое из которых есть число —1 или

Это пространство состоит из конечного (равного числа точек, так что полная система функций также должна содержать конечное число элементов. Для построения полной системы функций воспользуемся «каноническим» приемом, описанным в пункте 1 настоящего параграфа. «Одномерный куб» состоит лишь из двух точек, Поэтому в качестве исходной одномерной полной системы функций для этого случая нужны лишь две функции. Ими могут быть, например,

Непосредственно видно, что эти функции ортогональны и нормированы. В соответствии с формулой

каждая из многомерных гармоник имеет вид где теперь индексы могут принимать лишь два значения — 0 или 1. Принимая во внимание вид функций приходим к выводу, что гармоники порядка с точностью до нормирующего множителя представляют собой произведения различных координат во всех возможных комбинациях. Поскольку каждая переменная принимает лишь значения ±1, то и каждое такое произведение может принимать лишь те же два значения. Всего существует комбинаций сомножителей из различных координат, т. е. полная многомерная система содержит гармоник порядка.

Выпишем эти гармоники:

Общее число гармоник в системе есть т. е. равно, как и следовало ожидать, числу точек пространства.

Как и подобает «канонической» системе, «вычурность» гармоник нарастает с ростом номера гармоники. Действительно, рассмотрим какую-либо вершину -мерного куба и все вершин, соседних с ней. Тогда легко показать, что в из этих соседних вершин гармоника имеет знак, противоположный ее знаку в выбранной вершине, а для соседних вершин знаки совпадают. Число вершин куба, соседних с данной вершиной, переход в которые связан с изменением знака функции, соответствует интуитивному представлению о степени «вычурности» функции, заданной на вершинах куба. Так, например, на рис. 10 (стр. 133) показано распределение знаков для гармоник нулевого, порядка для трехмерного куба.

Гармоники в пространстве вершин -мерного куба нам будет удобно в дальнейшем обозначать через где верхний индекс означает порядок гармоники, а нижний индекс нумерует гармоники порядка.

<< Предыдущий параграф Следующий параграф >>
Оглавление