Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Предположения, связанные с распределением

Разбиение сумм квадратов в дисперсионном анализе основано на алгебраических (или геометрических, в зависимости от принятой точки зрения, см. параграф 10.6) соотношениях и не зависит от свойств распределения ошибок. Однако если мы предполагаем дополнительно, что и что независимы друг от друга, т. е. то мы можем сделать следующее:

1. Проверить неадекватность модели путем рассмотрения отношения

как -распределенной случайной величины и сравнения ее с Если рассогласование экспериментальных и расчетных данных статистически незначимо, то величина обычно обозначаемая как есть несмещенная оценка Если нет возможности произвести такую проверку, то, используя как оценку величины мы фактически предполагаем, что модель корректна. (Если это не так, то будет иметь слишком большое численное значение, тогда случайная величина, среднее значение которой больше, чем Однако справедливости ради надо заметить, что благодаря выборочной флуктуации, поскольку величина есть случайная переменная, она может быть также и слишком малой.)

2. Проверить все уравнение регрессии (более точно — проверить гипотезу против гипотезы не все с помощью отношения средних квадратов

рассматриваемого как -распределенная случайная величина, где число степеней свободы равно

Допустим, что мы задались уровнем риска а. Тот факт, что дисперсионное отношение превосходит значение , означает, что получено «статистически значимое» уравнение регрессии. Другими словами, доля вариаций, наблюдаемых в полученных данных, которая отнесена за счет уравнения регрессии, больше, чем можно было бы ожидать за счет случайных причин в подобных наборов данных с одним и тем же числом наблюдений и одинаковой матрицей

Это не обязательно означает, что такое уравнение полезно для прогнозирования. Если размах величин, предсказываемых уравнением регрессии, не слишком значительно превосходит величину случайной

ошибки, предсказание не будет иметь никакой ценности, хотя и была получена «значимая» величина так как уравнение будет «описывать только ошибки».

В работе Дж. М. Ветца (J. М. Wetz) (1964 г., автореферат диссертации «Критерий для суждения об адекватности при оценивании с помощью функции отклика», написанной под руководством доктора Бокса из Висконсинского университета) утверждается: чтобы уравнение можно было считать удовлетворительным для целей предсказания (в том смысле, что размах предсказываемых значений отклика будет значительно больше, чем стандартная ошибка отклика), наблюдаемое значение -отношения среднего квадрата, обусловленного регрессией, и остаточной дисперсии должно не просто превышать выбранную процентную точку -распределения, а превосходить ее примерно в 4 раза. Например, пусть Тогда наблюдаемое значение -отношения должно превосходить 9,4 для того, чтобы можно было расценивать полученное уравнение как удовлетворительную модель для предсказания. Для более детального ознакомления см. приложение

Распределение величины Мы видим, что

где величина

есть наша обычная F-статистика для проверки всей регрессии при наличии т. е. для проверки гипотезы все коэффициенты за исключением равны нулю против альтернативной гипотезы по крайней мере хотя бы один коэффициент (кроме не равен нулю. Величина не имеет значения. В соответствии с уравнением (2.6.13) следует положить Если справедлива гипотеза то величина F имеет распределение как переменная Из статистики известно, что величина следует -распределению, т. е. бета-распределению 14, с числами степеней свободы и Хотя мы не будем обсуждать бета-распределение, тем не менее ясно, что если мы располагаем подходящими статистическими таблицами, то можно проверить гипотезу против альтернативы используя величину Результат был бы в точности тем же, какой мы имеем, применяя стандартный F-критерий.

Значимая точка для может быть получена с помощью формулы (2.6.13а), в которой следует заменить F на По этой причине, а также поскольку таблицы бета-распределения в статистической литературе встречаются реже, чем таблицы -распределения, проверка гипотезы с помощью проводится редко.

3. Если мы используем оценку 4 для то -ные доверительные границы для среднего значения У при можно получить из соотношения

4. Доказать, что

5. Получить совместную -ную доверительную область для всех параметров из выражения

где есть -точка (верхняя -точка) для -распределения и где означает то же самое, что и в пункте 1, причем модель предполагается корректной. Такое представление доверительного множества полезно только в том случае, когда мало и равно, скажем, 2, 3 или 4, если не предпринимаются какие-либо специальные меры, чтобы представить информацию в форме, доступной пониманию. Неравенство (2.6.15) приводит к уравнениям эллипсоподобных контуров в пространстве, размерность которого равна числу параметров т. е. числу составляющих вектора Мы можем получить индивидуальные доверительные интервалы для различных параметров порознь с помощью формулы

где оценка стандартной ошибки в определении параметра есть корень квадратный из диагонального элемента матрицы (Вычисления такого рода в случае модели с двумя параметрами и проводятся с использованием формулы (2.3.1), если заменить в ней на см. параграф 1.4.) Доверительные интервалы для отдельных параметров рассматриваются в нашей книге, они оказываются часто полезными. Однако мы не придаем им особого значения по следующим причинам. На рис. 2.1 представлены ситуации, которые могут иметь место, когда рассматриваются два параметра. Совместная -ная доверительная область для двух истинных параметров как было показано выше, представляет собой тонкий, вытянутый эллипс и содержит точки с координатами которые можно рассматривать как совместно приемлемые. При этом принимается во внимание корреляция между оценками Индивидуальные -ные доверительные интервалы для порознь используются при указании диапазонов возможного изменения значений одного параметра безотносительно к значениям другого. Если попытаться интерпретировать эти интервалы одновременно, неправильно трактуя прямоугольник, который они образуют, как совместную

доверительную область, то можно, например, думать, что координаты точки Е дают приемлемые значения для Однако из рассмотрения совместной доверительной области ясно, что эта точка не подходит. Если имеются всего лишь два параметра, построение доверительного эллипса несложно. При большем числе параметров необходимые вычисления также не сложны и вполне выполнимы с помощью вычислительной машины, но интерпретация затруднительна. Один из возможных путей разрешения этой трудности состоит в нахождении координат точек, лежащих на концах главных осей области (на рис. 2.1 это точки ). Такая процедура должна включать получение уравнения доверительного контура и приведение его к каноническому виду. Это сделать несложно и здесь пригодны методы, рассмотренные в параграфах 6.9 и 6.10. Однако мы можем сформулировать такую мораль: «одновременное» сообщение индивидуальных доверительных интервалов следует воспринимать с определенной осторожностью и надо обращать внимание как на относительные значения величин так и на ковариации величин Если дисперсии коэффициентов имеют различные значения и коэффициент корреляции между а именно

не является малым (по абсолютной величине), то возникает ситуация, изображенная на рис. 2.1. Если же близок к нулю, то

Рис. 2.1. Совместная доверительная область и индивидуальные доверительные интервалы

Рис. 2.2. Примеры, показывающие, что прямоугольник, образованный индивидуальными доверительными интервалами, хорошо аппроксимирует совместную доверительную область для двух параметров

прямоугольник, образованный индивидуальными доверительными интервалами, будет приближенно равен по площади совместной доверительной области. Вытянутость области будет зависеть от соотношения величин некоторые примеры приведены на рис. 2.2.

(Примечание. Если первоначально записанная модель подбирается в альтернативной форме

где средние значения по имеющимся наблюдаемым данным, то могут быть получены совместные доверительные интервалы для всех параметров, кроме который обычно не представляет большого интереса.)

<< Предыдущий параграф Следующий параграф >>
Оглавление