Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 3. ИССЛЕДОВАНИЕ ОСТАТКОВ

«Почти все величайшие открытия в астрономии вытекают из рассмотрения того, что мы уже раньше назвали качественными или численными ОСТАТОЧНЫМИ ФЕНОМЕНАМИ, иначе говоря, они вытекают из анализа той части числовых или качественных результатов наблюдения, которая «торчит» и остается необъясненной после выделения и учета всего того, что согласуется со строгим применением известных методов».

Сэр Джон Ф. В. Гершель 1. Основы астрономии. (Sir John F. W. Herschel, Bart К. H. in: Outlines of Astronomy. Philadelphia: Lea and Blanchard, 1849, p. 548.)

3.0. ВВЕДЕНИЕ

(Примечание. Материал этой главы полезен и имеет силу не только для линейных, но и для нелинейных регрессионных моделей, а также для моделей дисперсионного анализа. Фактически выводы этой главы приложимы к любой ситуации, где речь идет о подборе модели и есть пригодные для исследования меры необъясненных вариаций (в форме остатков).)

Остатки были определены как разностей где наблюдаемая величина, соответствующая прогнозируемая величина, получаемая при помощи найденного уравнения регрессии.

Из этого определения можно видеть, что остатки есть разности между тем, что фактически наблюдалось, и тем, что предсказывается

с помощью регрессионного уравнения. Иными словами — это величины, которые нельзя объяснить с помощью регрессионного уравнения. Таким образом, мы можем считать, что наблюдаемые проявления ошибок, если модель правильна. (Однако величины связаны ограничениями, см. параграф 3.7.) При проведении регрессионного анализа мы делали некоторые предположения относительно ошибок. Обычные предположения состоят в признании ошибок независимыми, имеющими нулевые средние, одинаковую (постоянную) дисперсию и подчиняющимися нормальному распределению. Последнее предположение необходимо для применения -критерия. Таким образом, если подбираемая нами модель правильна, то остатки будут проявлять тенденцию к подтверждению сделанных предположений или по меньшей мере не будут противоречить им. Именно эта идея лежит в основе исследования остатков; мы должны сформулировать вопрос: «Не показывают ли остатки, что наши предположения ошибочны?». А после того как остатки исследованы, мы можем прийти к одному из следующих выводов:

1) предположения, по-видимому, нарушены (в определенном смысле, который можно оговорить);

2) предположения, по-видимому, не нарушены.

Утверждение (2) не означает, что мы пришли к выводу о правильности предположений; это означает только, что на основе данных, которые рассматривались, мы не имеем оснований для утверждения о неправильности. Такое же положение возникает при проверке гипотез, когда мы либо их отвергаем, либо не отвергаем (но не принимаем). Теперь обсудим способы исследования остатков для проверки модели. Все они имеют графический характер, легко выполнимы и обычно позволяют без всяких затруднений обнаружить нарушения предположений.

Основные виды графиков остатков:

1) общий;

2) в зависимости от времени, если известна последовательность реализации опытов;

3) в зависимости от предсказываемых значений

4) в зависимости от независимых переменных для

Кроме того, графики остатков могут быть также вычерчены:

5) любым способом, который целесообразен для данной конкретной задачи.

Теперь рассмотрим эти графики подробно. Для иллюстрации возьмем следующий простой пример.

Пример. Регрессионный анализ дает одиннадцать остатков со значениями

[Примечание. Обычно остатки стоит записывать с тем же числом знаков после запятой, что и в исходных наблюдаемых откликах. Иногда выписывают еще один лишний знак, но, как правило, это просто «пустые хлопоты». (Приводимые в нашей книге машинные распечатки содержат больше знаков, чем это необходимо, поскольку так обычно выдает машина, но, конечно, их ничего не стоит округлить, если данные описываются для целей публикации.)]

3.1. ОБЩИЙ ГРАФИК

Если вычертить все остатки, приведенные выше, то мы получим диаграмму, показанную на рис. 3.1. Если наша модель правильна, то эти остатки должны иметь сходство с одиннадцатью наблюдениями из нормального распределения со средним, равным нулю. Противоречит ли общий график этим представлениям?

Рис. 3.1. Общий график остатков

Прежде всего заметим, что среднее остатков равно нулю. Но так обстоит дело в случае регрессионной модели со свободным членом Это хорошо видно из первого нормального уравнения, получаемого дифференцированием суммы квадратов ошибок по Если модель имеет вид то первое уравнение можно записать так:

где суммирование проводится по Это приводит к выражению

Таким образом,

Несмотря на то что график обнаруживает некоторую нерегулярность, она не кажется аномальной для одиннадцати наблюдений из нормального распределения. Но как это можно выразить? Для того чтобы установить какую-либо меру, позволяющую судить о графиках, подобных данному, можно использовать таблицу случайных нормальных отклонений. (Обширная таблица опубликована корпорацией Рэнд (Rand Corporation), более короткие таблицы приведены в некоторых учебниках по статистике.) Ряд выборок заданного объема (здесь — из 11 наблюдений) можно взять и нанести на график так же, как это сделано выше. Даже небольшой опыт выполнения подобных графиков позволяет получить хорошее «представление» о том, как выглядел бы нормальный график. И его полезно приобрести прежде, чем выносить суждения о противоречии данных предположению о нормальности.

Другая процедура состоит в построении либо нормального, либо полунормального графика остатков на стандартной вероятностной бумаге (см. приложение 3А). Точки должны ложиться приблизительно на прямую линию. Но и здесь опять-таки надо иметь некоторую меру для оценки графика. Следовательно, нет никаких особых преимуществ для использования той или другой процедуры, хотя отдельные авторы и отдают предпочтение некоторым из них.

Когда число остатков очень велико, общему графику лучше придавать вид гистограммы, а не точечной диаграммы. В этом случае нормальные или полунормальные графики стоит строить, только отбирая последовательно самые маленькие наблюдения. Пусть, например, 200 наблюдений наносятся на полунормальный график. Мы должны нанести сначала 10 наименьших результатов, затем 20 самых маленьких и действовать в том же духе до (скажем) 180 самых

маленьких значений, после чего остается нанести на график все неиспользованные точки, по которым очень хорошо видно поведение правого хвоста распределения.

Выражение остатков через «единичные нормальные отклонения»

Обычно предполагают, что так что Тогда если модель правильна, то средний квадрат остатков

служит оценкой величины

(Примечания: 1. Если не учитывать ошибки округления, то Величину часто называют единичным нормальным отклонением, образованным из остатка Величины можно исследовать с помощью общего графика и оценить, ошибочно ли предположение Поскольку с вероятностью значения случайной величины заключены в пределах , мы можем ожидать, что примерно величин будут в пределах . Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений («выбросов»), см. параграф 3.8. Если число мало, то при установлении -ных пределов вместо нормального распределения можно использовать -распределение.

2. Тот совет, что мы дали раньше, в некотором смысле не вполне точен. Ведь теоретически все случайные ошибки 8; предполагаются независимыми и имеющими одну и ту же дисперсию конкретные остатки отнюдь не независимы и, следовательно, не имеют одинаковых дисперсий. Как показано в параграфе где диагональный элемент матрицы который, таким образом, зависит от вида матрицы Отсюда следует, что рассмотренный выше общий график может вводить в заблуждение, когда в имеют место большие вариации, и что, вообще говоря, было бы лучше строить график не для а для если бы это было возможно. (Конечно, для обеспечения свободного выбора между тем и другим способом построения графиков пришлось бы написать новые программы.) Дело, однако, в том, что для подавляющего большинства наборов данных как в графиках для так и в графиках для в общем проявляются свойства (хорошие или плохие), которые обнаруживаются и в более правильном графике для означает, что гораздо проще продолжать пользоваться простейшими вариантами. Таким образом, хотя мы и советуем работать с величинами если только это возможно, мы чувствуем, что в большинстве реальных задач совершенно

достаточно ограничиться величинами см.: Behnken D. W., Draper N. R. Residuals and their variance patterns.- Technometrics, 1972, 14, p. 101-111.)

Максимальный нормированный остаток

Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не «слишком ли велик» наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stеfansку W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479).

<< Предыдущий параграф Следующий параграф >>
Оглавление