Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.4. ИСПОЛЬЗОВАНИЕ «ФИКТИВНЫХ» ПЕРЕМЕННЫХ В МНОЖЕСТВЕННОЙ РЕГРЕССИИ

Общая концепция «фиктивных» переменных и пример их использования

Факторы, применяемые в регрессионных задачах, обычно могут принимать значения из какого-либо непрерывного интервала. Иногда мы можем вводить фактор, который имеет два или более различных уровня. Например, данные можно получать на трех машинах, или на двух фабриках, или с помощью шести операторов. В таком случае мы не можем построить непрерывную шкалу для факторов «машина», или «фабрика», или «оператор». Мы можем приписать этим факторам некоторые уровни по порядку, учитывая тот факт, что различные машины, фабрики или операторы могут иметь независимые детерминированные эффекты в отклике. Переменные такого типа обычно называют фиктивными переменными. Обычно (но не всегда) они не связаны с физическими уровнями, которые могут существовать у факторов сами по себе.

Первый пример фиктивной переменной — это дополнительная переменная при члене в регрессионной модели (она всегда равна единице). Переменную совсем не обязательно вводить в модель, но ее использование иногда обеспечивает удобство в обозначениях. Другие фиктивные переменные вводятся, как мы увидим, из соображений, более важных, чем просто удобство обозначений, что имеет место, скажем, при применении регрессионных методов к задачам дисперсионного анализа, как это показано в гл. 9.

Фиктивные переменные для разбиения данных на блоки

Допустим, мы хотим отразить в модели представление о том, что два типа машин (скажем, тип А и тип В) дают различные уровни отклика в дополнение к вариации, обусловленной другими факторами. Один путь состоит в том, чтобы включить в модель фиктивную переменную и коэффициент регрессии, скажем а, так что в модели появится дополнительный член Коэффициент а можно оценить

одновременно с оцениванием -коэффициентов. Фактору можно приписать следующие значения:

Фактически годятся любые два различных значения хотя приведенные выше обычно оказываются наилучшими. Однако иногда удобнее другие обозначения. Пусть, например, из общего числа наблюдений часть получена на машине типа А, а на машине типа В. Тогда если мы выберем уровни

и

то соответствующие столбцы матрицы X будут ортогональны к «столбцу и сумма их квадратов будет равна единице, что может быть также удобно.

(Примечание. Если желательно рассматривать три разные машины, то потребуются две фиктивные переменные: Тогда мы получим

и модель будет включать дополнительные члены с коэффициентами требующими оценивания. Снова возможно много различных вариантов уровней. Если желательны столбцы, которые ортогональны к «столбцу и имеют единичную сумму квадратов, то можно достигнуть этого, положив

где соответственно числа наблюдений на машинах

В общем, при продолжении такой процедуры мы можем прийти к уровням для фиктивных переменных. Структура такой системы фиктивных переменных получится, если выписать единичную матрицу I размером и приписать к ней строку, состоящую из нулей. Для случая это показано на столбцах во второй таблице из примера 2.

Теперь приведем пример такого использования фиктивных переменных.

Пример 1. Данные в табл. 5.12 представляют собой вес в фунтах и возраст (X) в неделях для тринадцати индеек, выращенных ко Дню Благодарения. Четыре из этих индеек были выращены в штате Джорджия четыре — в Виргинии и пять — в Висконсине Нам хотелось бы связать простой линейной моделью, но разное происхождение индеек может стать камнем преткновения. Если это так, то как нам его обойти?

Рис. 5.4. Данные об индейках. Остатки для модели в зависимости от происхождения индеек

Если бы мы построили регрессию на X, то получили бы такое уравнение: Вот его остатки, выписанные по порядку: Когда их нанесут на график в зависимости от происхождения индеек, они будут выглядеть так, как на рис. 5.4, где совершенно ясно видно, что надо брать различные уровни отклика. Для достижения этого введем фиктивные переменные показанные в табл. 5.12, а затем методом наименьших квадратов подберем модель

Тогда получится уравнение

Таблица 5.12. Данные об индейках происхождение) и фиктивные переменные

Оценки указывают на различия в индейках, первая — из Джорджии и Висконсина, а вторая — из Виргинии и Висконсина соответственно. Подставляя три различных набора значений мы получим уравнения для трех различных штатов:

Экспериментальные данные и три прямые, подобранные методом наименьших квадратов, приведены на рис. 5.5. Все три линии параллельны, но имеют разные свободные члены.

Дисперсионный анализ модели можно представить так, как показано в табл. 5.13. Оба значения F-критерия весьма значимы, и это указывает, что введение фиктивных переменных явно оправданно и что линии имеют определенно не нулевой наклон. Это уравнение объясняет вариации относительно среднего. (А без фиктивных переменных удается объяснить только 66,47 %.)

Рис. 5.5. График для данных об индейках и три прямые, подобранные методом наименьших квадратов

Если угодно, можно построить -критерий для проверки значимости различий между свободными членами этих уравнений. Так, например, истинное различие между оценивает коэффициент значит, разделив его на оценку стандартного отклонения, т. е. на корень квадратный из соответствующего диагонального элемента матрицы мы получим значение -критерия, модуль

(абсолютное значение) которого надо сравнить с процентной точкой двустороннего критерия, проверяющего нуль-гипотезу против альтернативы Ф 0. Пользуясь нашими данными, получим: что значимо на уровне Другой, но равноценный критерий получится, если воспользоваться соотношением

Этот результат сравнивается с для критерия с тем же уровнем значимости. Результат идентичен предыдущему, поскольку теоретически величина -критерия должна равняться квадрату величины -критерия, полученного выше. В данном случае что должно было бы быть равно: То, что нет полного совпадения, объясняется ошибками округления. Критерий для нуль-гипотезы где представляет собой истинную разность между можно построить точно так же. Величина -критерия окажется равной — что также значимо на уровне Оценкой различия между служит разность оценкой дисперсии которой в свою очередь служит выражение: все три члена которого можно извлечь из матрицы В результате получим: Тогда величина -критерия, равная окажется незначимой. Таким образом, фактические различия существуют между и между но не проявляются между

Таблица 5.13. Дисперсионный анализ для примера с индейками

Представление фиктивных переменных не единственно

Как можно понять из того, что сказано выше, для данной регрессионной задачи существует не единственный способ выбора фиктивных переменных, а в большинстве случаев путей их представления превеликое множество. Это обстоятельство может оказаться выгодным, если мы сумеем использовать его для объяснения некоторых особенностей, проявляющихся в наших данных. Правда, должна быть уверенность в том, что выбранное представление действительно сработает, т. е. даст возможность сосчитать результат для всех уровней (категорий) фиктивного фактора, не приводя к вырожденности

матрицы Основные представления мы советуем брать среди простейших. Все другие представления должны обязательно обеспечить такое же число линейно независимых столбцов матрицы X, причем так, чтобы они были линейными комбинациями исходных столбцов.

Пример 2. Ниже приведена схема фиктивного фактора. Пригодна ли она, если иметь в виду возможные различия в уровнях для шести групп?

Ответ утвердительный. Вспомните, что наша схема базисных векторов для описываемого случая, записанная ниже со столбцом была вот какой:

Сразу видно, что:

Таким образом, система столбцов представляет собой независимые линейные комбинации столбцов системы

Пример 3. Другая вполне пригодная схема в том же контексте, что и в примере 2, могла бы содержать столбцы Это привело бы к схеме:

Члены с взаимодействиями, включающие фиктивные факторы

Положим, для определенности, что мы имеем два аналогичных набора данных об отклике и предикторе X и что для каждого из этих наборов мы имеем в виду модель в форме

Нужно выяснить, можно ли использовать для обоих множеств данных одну и ту же модель и если можно, то как подобрать ее коэффициенты? Один из путей подхода к этой задаче заключается в том, чтобы одновременно подбирать модель для обоих наборов данных в виде

где фиктивный фактор, принимающий уровень 0 для одного набора данных и 1 — для другого. Тогда критерий дополнительной суммы квадратов позволяет нам проверять различные варианты гипотез, такие, например, как:

1. Гипотеза против альтернативы что это не так. Если эта гипотеза будет отвергнута, то мы придем к выводу, что модели не одинаковы, ну а если нет, то мы будем пользоваться одной моделью.

2. Если гипотеза окажется отвергнутой, то мы можем рассмотреть подмножества значений а. Так, например, мы моглн бы проверить гипотезу против альтернативы что это не так. Если бы не была отвергнута, то мы могли бы заключить, что имеющиеся два набора данных отличаются только уровнем отклика, но имеют одинаковые углы наклона и кривизну.

3. Если гипотеза окажется отвергнутой, то мы сможем проверить новую гипотезу против альтернативы чтобы увидеть, не отличаются ли модели только членами нулевого и первого порядка, на что указывало бы не отбрасывание

Могли бы быть выбраны и другие последовательности проверок, если бы это было разумно в контексте решаемой задачи. Выбранная последовательность представляет естественный порядок различий, который часто разумен.

В принципе нет никаких проблем, препятствующих распространению такого подхода на ситуации с большим числом наборов данных и с другими моделями, включающими больше предикторов, Если бы было наборов данных, нам пришлось бы образовать фиктивных факторов с уровнями, задаваемыми элементами матрицы к которой снизу приписана строка с нулями. Тогда строки будут соответствовать группам, а столбцы — фиктивным факторам.

Если бы для одного набора данных основная модель была бы

то по всем данным мы могли бы построить модель

где вектор параметров такого же размера, что и как в приведенном выше примере для

Мы должны получить такие же ответы, как если бы мы обрабатывали каждый набор данных отдельно. Так, если матрица: X для набора данных, а всего имеются два набора, то модель имеет вид:

и мы можем ее представить, скажем, так:

Преимущество использования взаимодействий с фиктивными факторами заключается в том, что появляется возможность простой формализации и естественный способ применения критериев дополнительной суммы квадратов.

Пример 4. Проиллюстрируем сказанное на примере с индейками. Для построения трех отдельных прямых (см. табл. 5.12) мы возьмем модель

т. е.

Тогда получится следующее уравнение

А вот три отдельных уравнения прямых линий:

Эти линии, которые в точности те же, что получились бы при подборе уравнений для каждого набора данных в отдельности, несколько отличаются от тех линий, что приведены на рис. 5.5, в чем читатель может убедиться, если построит их на графике или просто сравнит

с уравнениями (5.4.3). Таблица дисперсионного анализа для этих данных имеет вид:

Эти три подобранные прямые были бы идентичны, если бы была верна нуль-гипотеза Проверка этой гипотезы против альтернативы что не верна, требует дополнительной суммы квадратов для и с четырьмя степенями свободы:

(Величина 26,20 представляет собой сумму квадратов относительно регрессии для общего уравнения; она ранее не использовалась.) Соответствующее значение -критерия равно:

что превышает табличное значение так что гипотеза отвергается. Это, конечно, отнюдь не удивительно, как мы уже видели, когда рассматривали исходные данные.

Можно проверить гипотезу о существовании трех параллельных линий, т. е. против альтернативы что не верна. Для этого находим дополнительную сумму квадратов для в виде

где величина 38,61 представляет собой сумму второй строк из табл. 5.13. Это дает две степени свободы и приводит к незначимому -отношению Мы не отбрасываем гипотезу а это значит, что модель, показанная на рис. 5.5, вполне удовлетворяет ей.

Как показывает наш пример, использование взаимодействия с фиктивными факторами упрощает построение подходящих критериев и получение правильных статистик для проверки гипотез. Быть может, это наиглавнейшее достоинство данного метода.

<< Предыдущий параграф Следующий параграф >>
Оглавление