Главная > Математика > Восстановление зависимостей по эмпирическим данным
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

КОММЕНТАРИИ

К главе I

Проблема минимизации среднего риска по эмпирическим данным является одной из основных проблем прикладного анализа. Она изучалась многими авторами: Л. Ле-Камом [95, 96], П. Хубером [87, 90], Я. 3. Цыпкиным [67, 68], В. Я. Вапником [7 —14], A. Я. Червоненкисом [11 — 14] и др.

В этой книге рассматривается специальный класс задач минимизации среднего риска — задачи восстановления зависимостей, к которым относятся задачи: обучения распознаванию образов, восстановления регрессии, интерпретации результатов косвенных экспериментов.

Теория распознавания образов появилась в конце 50-х годов. В 60 - 70 годах ей были посвящены монографии М. А. Айзермана, Э. М. Бравермана, Л. И. Розоноэра [2], Я З. Цыпкина [66, 67], B. Я. Вапника, А. Я. Червоненкиса [12], Я. Г. Загоруйко [19], В. А. Ковалевского [25], К. [64], Я. Нильсона [43], В. Я. Фомина [62], Ю. И. Журавлева [18] и др.

Проблему восстановления регрессии изучали еще со времен Гаусса. Ей посвящена многочисленная литература и, в частности, такие классические работы, как монографии С. Рао [49], Ю. В. Линника [34], М. Кендалла, А. Стьюарта [24].

Наконец, проблема интерпретации результатов косвенных экспериментов приводится к решению операторных уравнений, образующих некорректно поставленные задачи.

Теории некорректно поставленных задач в 50-х — 70-х годах было посвящено много работ (см. библиографию в [56] ). Среди этих работ мы отметим монографию А. Я. Тихонова, В. Я. Арсенина [56] и работы В. К. Иванова [20, 21], по материалам которых написано приложение к главе I.

В книге выделен специальный класс стохастических некорректных задач — задача интерпретации результатов косвенных экспериментов.

К главе II

Применение методов стохастической аппроксимации для решения задач минимизации среднего риска на больших выборках связано с работами Я. 3. Цыпкина [66, 67] и М. А. Айзермана, Э. М. Бравермана, Л. И. Розоноэра [2]. В этих работах наряду с условиями сходимости процедур типа стохастической аппроксимации рассмотрены конкретные применения к задачам распознавания образов и восстановления регрессии. Математические вопросы теории стохастической

аппроксимации рассмотрены в монографии М. Б. Невельсона Р. 3. Хасьминского [42].

При минимизации функционала среднего риска по ограниченному множеству эмпирических данных различаются два направления исследования: классическое направление, основанное на методах параметрической статистики, и направление, основанное на минимизации эмпирического риска.

Методы параметрической статистики были разработаны в 20 — 40-х годах и связаны с именами таких замечательных статистиков как Р. Фишер, К. Пирсон, Г. Крамер. Сейчас методы параметрической статистики являются рабочим инструментом в решении многих задач. Они излагаются во всех руководствах по статистике. См, например, С. Уилкс [58], М. Кендалл, А. Стьюарт [24].

Вопрос о применимости методов минимизации эмпирического риска для поиска минимума среднего риска начали изучать позже.

В 1954 г. появился результат Л. Ле-Кама [95], согласно которому для определенных классов функций потерь метод минимизации эмпирического риска с ростом объема выборки определяет функцию, минимизирующую средний риск. В этой работе Лe-Кам впервые связал проблему минимизации риска с условиями равномерной сходимости средних к математическим ожиданиям и нашел условия равномерной сходимости для определенных видов функции потерь. В 1968 г. П. Хубер [87] показал, что метод минимизации эмпирического риска применим и для функций потерь более общего вида. Однако как работы Лe-Кама, так и работы Хубера исследуют асимптотические возможности метода.

В 1971 г. в работе В. Н. Вапника, А. Я. Червоненкиса [11] были найдены необходимые и достаточные условия равномерной сходимости частот появления событий к их вероятностям и получены оценки скорости такой сходимости. На базе этих оценок удалось обосновать применимость метода минимизации эмпирического риска для решения задачи обучения распознаванию образов на выборках ограниченного объема. Позже в 1974 г. этот результат был распространен и на задачи восстановления зависимостей более общей природы (В. Н. Вапник, А. Я. Червоненкис [13]).

К главе III

Проблеме восстановления плотности вероятностей заданной с точностью до конечного числа параметров посвящены многочисленные работы [49, 34, 24].

Однако оказалось, что до недавнего времени почти все работы в этом направлении сводились к оцениванию неизвестных параметров плотности, а не восстановлению функции плотности. Лишь в 1965 г. Д. Кин [93] получил байесову оценку плотности нормального закона (она приведена в § 7), которая оказалась не принадлежащей классу нормальных.

В 1969 г. П. Я. Лумельский и П. Н. Сапожников получили наилучшую несмещенную оценку плотности многомерного нормального закона [36]. (Этот результат приведен в § 10.) Наилучшую несмещенную оценку плотности одномерного закона ранее получил А. Н. Колмогоров [27].

Что же касается задачи оценивания параметров, то здесь основные результаты получены еще Р. Фишером [82]. Эти результаты и составляют основу методов параметрического анализа.

Проблемы дискриминантного анализа в основном концентрируются вокруг построения линейной дискриминантной функции. Постановка этой задачи впервые была дана Р. Фишером [82], который для ее решения предложил минимизировать функционал, приведенный в § 2. В 1966 г. задача построения линейной дискриминантной функции для нормальных распределений была решена Т. В. Андерсеном и P. P. Бахадуром [71].

Другие исследования здесь связаны с попыткой выписать функционал, минимизация которого приводила бы к построению линейной дискриминантной функции не только для нормальных распределений.

Сначала в качестве такого функционала использовался функционал Р. Фишера, а затем рассматривались и другие функционалы. Подробный обзор литературы по дискриминантному анализу приведен в [60].

Случай независимо распределенных дискретных признаков также рассматривался в дискриминантном анализе.

В 1952 г. А. М. Аттли построил дискриминантный автомат, алгоритм которого, по существу, мало отличается от современных дискриминантных автоматов, построенных в соответствии с гипотезой о независимости дискретных признаков [105].

К главе IV

Идея построения устойчивого в заданном классе плотностей метода оценивания параметра сдвига принадлежит П. Хуберу. В 1967 г. он получил устойчивый метод оценивания параметра сдвига в классе плотностей, заданных смесью [88] (результат Хубера и приведен в § 8).

Затем другими авторами были получены устойчивые методы оценивания параметра сдвига в разных классах функций. В частности, устойчивые методы оценивания были получены в классе плотностей, сосредоточенных в основном на отрезке, классе плотностей с функциями распределения, близкими к нормальным, и т. д. Подробно обзор имеющихся методов устойчивого оценивания дан в работе Б. Т. Поляка и Я. 3. Цыпкина [46].

Применение методов устойчивого оценивания параметра сдвига к оцениванию пораметров регрессии также связано с работами Б. Т. Поляка и Я. 3. Цыпкина [46]. На различных модельных примерах они показали преимущество устойчивого метода оценивания параметров регрессии в условиях ограниченного объема выборки.

К главе V

Оценивание параметров является традиционным методом решения задачи восстановления регрессии. Центральное место в теории оценивания параметров регрессии по выборке ограниченного объема занимают исследования метода наименьших квадратов, устанавливающие его экстремальность (теорема о нормальной регрессии, теорема Гаусса-Маркова).

Эти теоремы устанавливают оптимальность метода наименьших квадратов среди некоторого заданного множества методов. При этом предполагается, что метод наименьших квадратов является наилучшим методом оценивания параметров не только в заданном узком классе методов, но и хорошим вообще (в достаточно широком классе методов).

В 1956 г. К. Стейн [103] неожиданно привел пример, показывающий, что наилучшая оценка среднего многомерного нормального закона с известной ковариационной матрицей известное число, единичная матрица) отлична от вектора реализаций (т. е. не приводится к методу наименьших квадратов).

В 1961 г. В. Джеймс и К. Стейн [911 нашли метод оценки среднего для многомерного нормального закона с неизвестной величиной ковариационной матрицы равномерно лучший, чем оценка с помощью реализации. Наконец, в 1970 г. A. Я. Баранчик [73] построил класс оценок, равномерно лучших оценки с помощью реализации. Этот класс оценок и приведен в книге для получения оценок параметров нормальной регрессии равномерно лучших, чем оценки метода наименьших квадратов. Метод построения оценок параметров регрессии, использующий оценки Джеймса — Стейна — Баранчика, приведенный в § 3, получен с помощью теоремы П. К- Бхаттачария [75].

Пример, приведенный К. Стейном, показал необоснованность гипотезы о том, что несмещенные методы оценивания всегда содержат «хорошие». (Ведь уже в самой простой ситуации строятся методы оценивания, равномерно лучшие, чем классические.)

Приведенная в главе теория построения наилучшего линейного метода оценивания принадлежит В. А. Кощееву [31]. Эта теория дает возможность, используя априорную информацию, получить линейные оценки лучшие, чем те, которые следуют из метода наименьших квадратов.

Однако вопрос о том, существует ли метод оценивания параметров регрессии лучший, чем метод наименьших квадратов в случае, когда не используется дополнительная априорная информация, остается открытым и связан с построением метода оценивания среднего равномерно лучшего, чем эмпирическое среднее для случайных векторов, которые являются реализацией не обязательно нормального згкона.

Иначе говоря, проблема сводится к получению оценок стейновского типа, инвариантных по отношению к законам плотности вероятностей. Такие оценки возможны. (См., например, работу Дж. Бергера [74].)

К главам VI и VII

Проблема равномерной сходимости частот появления событий к их вероятностям впервые была рассмотрена в работах В. И. Гливенко [85] и Ф. П. Кантелли [92]. В 1933 г. они показали, что имеет место равномерная сходимость эмпирических кривых распределения к функции распределения (равномерная сходимость частот к вероятностям по специальному классу событий). В том же году А. Н. Колмогоров [94] нашел асимптотическую оценку скорости сходимости, которая цозже была уточнена Н. Смирновым [53].

Обоснование применимости метода минимизации эмпирического риска для решения задач обучения распознавания образов связано с установлением условий равномерной сходимости частот к вероятностям для произвольных классов событий.

В 1971 г. В. Я. Вапник и А. Я. Червоненкис [11] нашли необходимые и достаточные условия равномерной сходимости частот появления событий к их вероятностям для произвольной системы событий и получили оценки скорости такой сходимости.

В этой книге используются лишь достаточные условия. Подробно необходимые и достаточные условия изложены в монографии В. Я. Вапника, А. Я. Червоненкиса [12].

Содержание главы VII является прямым обобщением результатов, полученных при оценке скорости равномерного относительного уклонения частот от вероятностей на оценку скорости равномерного относительного уклонения средних от математических ожиданий. Они получены В. Я. Вапником и Л. Я. Червоненкисом в 1974 г. [13].

Оценки скорости сходимости равномерного относительного уклонения, выраженные через -энтропию множества функции, приводятся здесь впервые.

К главе VIII

Метод упорядоченной минимизации риска был сформулирован для решения задачи обучения распознаванию образов в монографии В. Я. Вапника, А. Я. Червоненкиса [12].

Однако, по существу, при построении алгоритмов минимизации риска к нему обращаются каждый раз, когда метод минимизации эмпирического риска приводит к абсурдным результатам. (Например, при восстановлении полиномиальной регрессии.)

Двухуровневая процедура выбора (элемента структуры и наилучшей функции, принадлежающей данному элементу структуры) содержится во всех эвристических алгоритмах, цель которых получить решение лучшее, чем то, которое следует из стандартной методики минимизации эмпирического риска (см., например, работы И. Пинскера [44] и А. Г. Ивахненко [22]).

В этой книге в качестве критерия выбора элемента структуры используются две идеи: оценка процедуры «скользящий контроль» и равномерная оценка величины среднего риска по величинам эмпирического.

Оценка среднего риска следует из теории равномерной сходимости. Что же касается процедуры «скользящий контроль», то, видимо, впервые она была предложена М. Н. Вайнцвайгом в 1968 г. В 1969 г. А. Л. Лунц и В. Л. Браиловский показали несмещенность оценки [37). В главе VIII дано эквивалентное представление оценки «скользящий контроль» для регрессии, позволяющее существенно сократить объем вычислений.

Селекция обучающей выборки рассмотрена здесь впервые.

К главе IX

Идея применения метода упорядоченной минимизации риска для решения некорректных задач измерений была реализована в 1974 г. в работе В. И. Вапника и Михальского [8]. Однако и ранее

использовались различные (эвристические) приемы, позволяющие выбрать подходящий вид приближения (см., например, работу Л. А. Вайнштейна [6] и работу Л. П. Грабарь [17]).

В 1975 г. в работе [14] В. Н. Вапник и А Я. Червоненкис установили факт сходимости с ростом объема эмпирических данных последовательности решений, получаемых методом упорядоченной минимизации риска к искомому при условии, что решение ищется в виде разложения по специальной системе функции, если же решение искать в виде разложения по полиномам, то такой сходимости может и не быть.

В 1974 г. А И Михальский показал, что для некоторых классов операторных уравнений существует сходимость с ростом объема выборки решений, определяемых с помощью метода упорядоченной минимизации риска, к искомой функции, если решение искать в классе сплайнов. Им же была развита техника построения сплайнов с заданным числом сопряжений, минимизирующих эмпирический риск [38].

Идея восстановления плотности распределения вероятностей, как решение некорректной задачи численного дифференцирования была реализована в работе В. Н. Вапника, А. Р. Стефанюка [10]. В этой же работе было получено обобщение теорем А. Н. Тихонова на стохастический случай, приведенное в приложении к главе IX.

К главе X

Впервые задача восстановления значений функции в заданных точках была рассмотрена в монографии В. Н. Вапника и А. Я. Червоненкиса [12] для восстановления значений характеристических функций. В работе В. Н. Вапника, А. М. Стерина [9] были рассмотрены различные структуры на классах эквивалентности характеристических функций.

Методы восстановления значений произвольной функции в заданных точках рассмотрены здесь впервые. Также впервые здесь исследуется селекция полной выборки.

К главам XI — XII

Библиотека программ метода обобщенного портрета была разработана Т. Г. Глазковой и А. А. Журавель. Алгоритмы восстановления значений характеристической функции в заданных точках реализовал и исследовал А. М. Стерин.

Алгоритмы восстановления регрессии были созданы Т. Г. Глаз ковой, В. А. Кощеевым, А. И. Михальским.

Алгоритмы интерпретации некорректных задач измерений созданы А. И. Михальским.

<< Предыдущий параграф Следующий параграф >>
Оглавление