Главная > Математика > Прикладной регрессионный анализ, книга 2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

6.10. РЕГРЕССИЯ НА СОБСТВЕННЫХ ЗНАЧЕНИЯХ

Дальнейшее развитие регрессии на главных компонентах для исследования альтернативных регрессионных моделей и для исключения предикторных переменных было дано Уэбстером, Гунстом и Масоном в работе: Webster J. Т., Gunst R. F., Маsоn R. L. Latent root regression analysis.- Technometrics, 1974, 16, p. 513-522. Эти авторы расширили матрицу данных, содержащую центрированные и нормированные предикторные переменные, дополнив ее центрированными и нормированными значениями отклика, разместив их первыми по порядку, т. е.

где - центрированная и нормированная «Х-матрица», Отсюда следует, что есть расширенная корреляционная матрица. Как и в методе главных компонент, здесь вычисляются скрытые корни и соответствующие

им собственные векторы. Однако в данном методе первый элемент (-коэффициент») каждого собственного вектора используется как мера предсказуемости отклика с помощью данного собственного вектора. Чем больше абсолютная величина первого элемента собственного вектора, тем больший вклад этого вектора в предсказание отклика, и наоборот. Наличие малых собственных значений указывает на возможное существование линейных связей между предикторными переменными. Чем меньше собственные значения, тем сильнее выражены эти связи. МНК-оценивание приводит к получению наилучшей линейной комбинации всех этих собственных векторов. Опуская скрытые векторы, для которых собственные значения по абсолютной величине малы, и первые элементы этих собственных векторов, мы получим модифицированное МНК-уравнение. Такой модифицированный метод приводит к смещенным оценивателям. Как только модифицированное уравнение получено, можно воспользоваться методом исключения, чтобы удалить из него малозначимые предикторные переменные.

Проиллюстрируем рассматриваемый метод на данных Хальда, см. приложение Б.

Шаг 1. Прежде всего получаем расширенную корреляционную матрицу.

Шаг 2. Затем определяем собственные числа расширенной корреляционной матрицы и соответствующие им собственные векторы Ниже собственные числа указаны первыми в каждой строке. Остальные элементы строк образуют соответствующие собственные векторы.

Шаг 3. Теперь исследуем собственные числа и соответствующие им величины Если для некоторого обе эти величины малы, то это указывает на то, что данные близки к вырожденным и отклик плохо предсказуем. Уэбстер и его соавторы (1974, р. 518) рекомендуют такие условия малости: Для данных

Хальда имеем и Это указывает на то, что последняя вектор-строка должна быть исключена из рассмотрения. Следующее наименьшее собственное число равно: что свидетельствует о вырожденности задачи. Однако при этом что указывает на достаточно высокую предсказуемость, так что этот вектор должен быть сохранен. Все другие превосходят пороговое значение, так что мы сохраняем соответствующие векторы, несмотря на невысокие значения

Шаг 4. Затем выполняем процедуру оценивания. Сначала мы должны решить на основании шага 3, какие векторы мы желаем сохранить. Затем следует вычислить модифицированные МНК-оценки параметров по формуле (см.: Webster et al. 1974, p. 514-515, в частности формулу

где с — константа, определяемая по формуле

а Б означает суммирование, но лишь по тем индексам которым соответствуют векторы, сохраняемые на данном шаге процедуры. Параметр для этой модели определяется как

Предположим, например, что мы сохраняем все векторы. В таком случае первый элемент вектора будет равен:

где

Таким образом, Это коэффициент при стандартизированной переменной

так что коэффициент при равен: Обращаясь к приложению Б, с. 301, можно обнаружить, что фактически это МНК-коэффициент. Это есть проявление общего правила: если

уравнения (6.10.4) и (6.10.5) применяются по отношению ко всем векторам, то модифицированные МНК-коэффициенты в точности совпадают с обычными МНК-коэффициентами. (На практике из-за ошибок округления они, конечно, могут слегка отличаться, в зависимости от числа знаков, которые сохраняются при вычислениях.)

Остаточная сумма квадратов для некоторого модифицированного МНК-уравнения может быть записана (см.: Webster et al., 1974, p. 515, формула (4.7)) в виде

Остаточная сумма

Используя ее для проверки правильности решения задачи МНК-оценивания, найдем остаточную сумму квадратов: Правильная величина равна 47,863.

Если мы теперь произведем параллельные вычисления, при которых вектор, соответствующий наименьшему собственному числу, опущен, то мы получим следующие результаты (в сравнении с обычным МНК-оцениванием). Символ соответствует обычному, а символ модифицированному МНК-оцениванию:

Мы видим, что имеют место заметные отклонения коэффициентов от их несмещенных МНК-оценок. Однако остаточная сумма квадратов совсем ненамного больше минимального значения, достигаемого при обычном МНК-оценивании. Таким образом, модифицированное МНК-уравнение может расцениваться как уравнение, которое будет по крайней мере почти таким же хорошим, как МНК-уравнение.

Шаг 5. Теперь можно применить процедуру исключения, предложенную Уэбстером и соавторами (1974, р. 517, в частности см. формулу Остаточная сумма квадратов, которая получается после вычеркивания из модифицированного МНК-уравнения, может быть вычислена по формуле

где

и где 2 снова обозначает оператор суммирования по элементам, остающимся при вычислении модифицированного МНК-уравнения. Согласно Уэбстеру и его коллегам (1974, р. 521): «Основное достоинство этого метода состоит в выявлении непредсказуемого эффекта почти вырожденности, в более четком представлении влияния

независимых переменных на зависимую». Как это проявляется на данных Хальда? Покажем, чему равна остаточная сумма квадратов, получаемая обычным и модифицированным методом наименьших квадратов, после удаления указанной Х-переменной.

Удаляемый предиктор

В обоих случаях в первую очередь представляется целесообразным удалять но это значительно более очевидно для модифицированной процедуры оценивания. Приближенный -критерий для удаления был предложен Уэбстером и его соавторами ( формула Модифицированная процедура исключения может затем выполняться параллельно с обычной МНК-процедурой исключения, с теми различиями, которые уже указывались. Окончательное модифицированное МНК-уравнение, полученное по данным Хальда, имеет вид

Упрощенное модифицированное МНК-уравнение

Из вычислений, приведенных выше, ясно, что наибольший вклад в регрессию вносит вектор, соответствующий Так что мы можем исследовать подгоняемое уравнение, содержащее только этот вектор. Символ теперь уже нам не требуется, а в общих уравнениях (6.10.4) и (6.10.5.) нужно положить Поэтому

или

Теперь воспользуемся для подстановки выражениями:

и получим модифицированное МНК-уравнение

Эта смещенная модель объясняет 0,9819 вариации данных относительно

среднего значения что очень близко к величине 0,9824 для полной МНК-модели. В этом смысле можно говорить, что подгонка отличная. Теперь было бы желательно выполнить модифицированную процедуру исключения, принимая полученное уравнение за исходное.

Мнение. Этот метод оставляет хорошее впечатление, когда его иллюстрируют на примере, но преимущества становятся сомнительными при детальном рассмотрении. Он снабжает нас той же основной информацией, которую мы получаем при использовании других методов. Вместе с тем можно легко не заметить произвола в процедуре смещенного оценивания (о природе которого подробно говорится в исходной статье: Webster et al., 1974, p. 514). Такая процедура может быть полезной для исследователя, который умудрен опытом и постоянно использует данный метод, но для большинства исследователей мы не можем ее рекомендовать.

<< Предыдущий параграф Следующий параграф >>
Оглавление