Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4.2. ИССЛЕДОВАНИЕ УРАВНЕНИЯ РЕГРЕССИИ

Чем полезно уравнение ...

Взяв данные из гл. 1 и 2, будем рассматривать уравнение, найденное для как функцию от

Рис. 4.6. Количество пара, используемого на заводе в месяц

Мы можем вычислить остатки, используя уравнение и результаты опытов. Эти остатки приведены в табл. 4.3. Имеем следующий дисперсионный анализ для регрессии:

ANOVA

Таблица 4.3. (см. скан) Остатки из модели для расхода пара

При -риске, равном 0,05, МНК-уравнение служит хорошим «предсказателем», расчетное значение для регрессии больше, чем табличное

График наблюденных значений и предсказанных изображен на рис. 4.6, где показано, что подобранная модель хорошо предсказывает месячное использование пара. Однако было ли полезным включение в модель

Что происходит при добавлении второго предиктора

Существует несколько полезных критериев, которые можно применять для ответа на этот вопрос и теперь мы их обсудим.

Квадрат множественного коэффициента корреляции Квадрат множественного коэффициента корреляции определяется (см. уравнение (2.6.11)) как

Его часто представляют в процентах, чем он больше, тем лучше

подобранное уравнение объясняет вариацию в данных. Мы можем сравнить величины на каждой стадии регрессионной задачи.

Стадия 1.

Уравнение регрессии

Стадия 2.

Уравнение регрессии

Таким образом, мы видим значительный рост Однако эту статистику следует применять с осторожностью, поскольку можно всегда сделать как показано в параграфе 2.6.

Если число наблюдений значительно больше, чем число Х-пере-менных, которые потенциально могут быть рассмотрены, то добавление новой переменной всегда будет повышать но не обязательно будет повышаться точность оценки отклика. Это происходит потому, что уменьшение остаточной суммы квадратов может быть меньшим, чем уменьшение величины первоначального остаточного среднего квадрата. Кроме того, так как из остаточных степеней свободы исключается одна, средний квадрат может оказаться даже больше. Подобный пример содержится в приложении Б (см. , которое мы еще не обсуждали. Можно провести следующее сравнение:

Мы видим, что, хотя в регрессионную модель был включен дополнительный фактор, остаточный средний квадрат увеличился, так как дополнительный фактор уменьшил остаточную сумму квадратов на при потере одной степени свободы. Величина в результате повысилась, правда, незначительно.

Оценка стандартной ошибки, s. Остаточный средний квадрат есть оценка для дисперсии относительно регрессии. До и после включения фактора в модель мы можем проверить, что

Исследование этой статистики показывает, что чем она меньше, тем лучше, тем более точными будут предсказания. Но поскольку «можно сделать равным нулю, включая в модель достаточно параметров

(точно так же, как можно сделать равным единице), этот критерий тоже следует использовать с осторожностью. Уменьшение желательно, если только почти нет повторений и остается много степеней свободы для ошибки. В нашем примере на стадии 1

на стадии 2

Отсюда вывод, что включение уменьшило и увеличило точность оценивания.

Оценка стандартной ошибки s в процентах от среднего отклика. Другой подход к оценке уменьшения это рассмотрение ее относительно отклика. В нашем примере на стадии в процентах от среднего составляет

На стадии в процентах от среднего есть

Следовательно, включение уменьшает стандартную ошибку оценки до величины порядка среднего отклика. Удовлетворителен ли такой уровень точности — это вопрос для экспериментатора, и его он должен решать на основе априорных знаний и личного опыта.

Последовательный F-критерий (показывающий влияние когда уже включен в уравнение). Этот метод, оценивающий значение как дополнительного фактора в модели состоит в разложении суммы квадратов, обусловленной регрессией, на следующие части:

Дисперсионный анализ

Поскольку 19,6361 превышает включение имело смысл. Этот -критерий обычно называют «последовательным -критерием» (см. параграф 2.9).

Проверка по частному -критерию (см. параграф 2.9). Еще один путь оценки значения это рассмотрение порядка включения

двух факторов в процедуре метода наименьших квадратов. Например, можно поставить следующие вопросы:

1. Если мы введем фактор в уравнение первым, то как он будет влиять?

2. Если был использован первым, то как будет влиять при включении его в регрессию?

Ответы на эти вопросы дают вычисления, приведенные выше, но выполненные в обратном порядке. Результаты таковы:

Дисперсионный анализ

Заметим, что влияние более велико в данном случае, чем после включения Заметим также, что это отражается в наблюдаемых значениях F для в двух вариантах,

Однако в обоих случаях все же более важная переменная, так как ее влияние на уменьшение остаточной суммы квадратов наибольшее независимо от порядка включения переменных.

Стандартная ошибка

Используя результат, полученный в параграфе 2.6, найдем матрицу дисперсий-ковариаций для Отсюда дисперсия где диагональный элемент соответствующий переменной с номером

Ковариация и равна где — недиагональный элемент соответствующий пересечению строки и столбца или строки и столбца, так как симметрична. Поэтому стандартная ошибка Например, используя данные со с. 247 и 258, получим следующую оценку стандартной ошибки

Доверительные пределы для «истинного» среднего значения при заданных значениях

Предсказанное значение есть оценка для

Дисперсия величины т. е. есть

Это выражение можно переписать совсем компактно в матричных обозначениях, полагая

Отсюда -доверительные пределы для «истинного» среднего значения при получаются из выражения

Например, в точке Х-пространства с координатами получается следующая дисперсия

95 %-ные доверительные пределы «истинного» среднего значения при будут:

Эти пределы интерпретируются следующим образом. Пусть несколько

раз повторяются выборки того же объема, что и исходная, и при тех же фиксированных значениях которые использовались при определении коэффициентов подобранного выше уравнения. Если всякий раз строить 95 %-ные доверительные интервалы для среднего значения при то из этих интервалов будут содержать «истинное» среднее значение в данных условиях. С практической точки зрения с вероятностью 0,95 справедливо утверждение, что «истинное» среднее значение при лежит между 10,8318 и 11,7154.

Доверительные пределы для среднего из наблюдений при заданных значениях X

Эти пределы вычисляются из соотношения

Например, -ные доверительные пределы для единичного наблюдения в точке есть

(Примечание. Для получения совместных доверительных поверхностен во всем диапазоне изменения регрессионной функции надо было бы подставить вместо выражение где общее число параметров модели с учетом и Стало быть, В нашем примере и См., например: Miller R. G. Simultaneous Statistical Inference.- New York: McGraw-Hill, p. 110-116.)

Исследование остатков

Остатки, показанные в табл. 4.3, могут быть, как видно, исследованы, если имеются какие-либо определенные признаки неадекватности. Мы предоставим это читателю в качестве упражнения, ограничившись следующими замечаниями:

1) остатки в зависимости от (см. рис. 4.7). Из этого графика не видно какого-либо необычного поведения;

Рис. 4.7. Остатки в зависимости от

2) критерий серий и критерий Дарбина-Уотсона не обнаружи вают каких-либо отклонений от случайного характера временной последовательности (см. упражнение 7 из гл. 3).

Упражнения

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

Ответы к упражнениям

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление