Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.8. НЕКОТОРЫЕ СЛЕДСТВИЯ ИЗ ГЛ. 1, ИМЕЮЩИЕ ПРАКТИЧЕСКОЕ ЗНАЧЕНИЕ

В этой главе мы занимались подбором прямой для модели по множеству данных Тщательному и всестороннему анализу был подвергнут вопрос о том, как лучше подбирать нашу прямую и могут ли повторные наблюдения или любые особенности данных указывать на то, что следовало бы предпочесть иную модель. Когда рассматривается только один предиктор, а постулируемая модель — прямая, в качестве альтернативных моделей чаще всего выступают полиномы более высокого порядка по X, например квадратичный вида кубический и т. д. Теперь мы воспользуемся всей этой информацией и рассмотрим задачу выбора стратегии эксперимента для случая одного предиктора с практической точки зрения.

Решения о стратегии эксперимента

Пусть некий экспериментатор хочет собрать данные об отклике при выбранных значениях управляемого предиктора для определения эмпирической зависимости между и этим предиктором. Положим, что предиктор не подвержен действию случайной ошибки (по меньшей мере, что отсутствие такого воздействия — удовлетворительное приближение), но что подвержен случаю. Еще будем считать, что все значений предиктора не обязательно различны, т. е. что повторные опыты допускаются. По началу экспериментатор спрашивает и хочет получить ответы на массу вопросов.

1. Какой диапазон значений предиктора представляет для него интерес в настоящий момент? Часто это трудно решить. Диапазон должен быть достаточно широк, чтобы стали возможны полезные выводы, вместе с тем он должен быть достаточно узок, чтобы стало возможным представление результатов наипростейшей моделью. Когда же решение уже принято, интервал может быть кодирован без нарушения общности. Если, например, для температуры выбран диапазон то кодирование

даст интервал . В общем, преобразование имеет вид

Половина натурального диапазона

2. Какого рода зависимость, как предчувствует экспериментатор, окажется правильной в выбранном диапазоне? Что это — модель первого порядка (т. е. прямая), второго порядка (т. е. квадратичная) или нечто иное? Для принятия решения ему понадобятся не только все его собственные знания, но скорее всего он станет еще искать способа воспользоваться опытом других. Для определенности давайте положим, что экспериментатор верит в возможность зависимости первого порядка, однако он неабсолютно в этом уверен.

3. А что если зависимость, предварительное решение относительно которой принято выше, в пункте (2), ошибочна? Какую альтернативу экспериментатор считает наиболее перспективной? Если, например, он верит, что истинная модель — это прямая, то он, по-видимому, должен ожидать, что при ее неверности надо рассматривать какую-нибудь криволинейную зависимость квадратичного типа. Менее вероятная возможность заключается в том, что действительная модель окажется кубической. Как правило, он будет на всякий случай решать, что, может быть, одного порядка ему слишком мало. Иначе он должен был бы, вероятно, сначала постулировать более высокий порядок модели.

4. Каков разброс, присущий отклику? Иначе говоря, чему равна У экспериментатора может быть богатый опыт работы с аналогичными данными, тогда он может «знать», чему же равна Более характерно, что он хочет присоединить к своему эксперименту повторные опыты, чтобы можно было оценить одновременно с получением зависимости между а заодно и проверить обычное

предположение о постоянстве во всем диапазоне значений предиктора.

5. Сколько опытов может понадобиться? Экспериментатор знает только ограничения на средства, персонал, оборудование и время.

Сколько опытов достаточно с учетом важности задачи и расходов?

6. Сколько мест (т. е. различных значений X) стоит выбрать? Сколько повторных опытов имеет смысл проводить в каждом месте?

Давайте теперь продолжим наше обсуждение на конкретном примере.

Пример. Допустим, наш экспериментатор решил, что во всем диапазоне — кодированного предиктора наиболее правдоподобна линейная зависимость, что в крайнем случае возможна квадратичная альтернатива, что дисперсии он не знает и что возможны 14 опытов. Так при каких же значениях X (т. е. в каких местах) стоит проводить опыты, по скольку в каждом из этих мест и на каком основании?

На рис. 1.13 представлен ряд возможностей, которые он может рассматривать. (Каждой точке соответствует опыт; столбики точек соответствуют повторным опытам.) Давайте взглянем, что требует каждый из этих вариантов.

Каждый план с самого начала имеет 14 степеней свободы. Две из них идут на оценки параметров после чего получается достаточных степеней свободы, которые надо разделить между неадекватностью «чистой» ошибкой. Строки (1) и (2) в табл. 1.9 показывают, как эти остаточные степени свободы разбиваются в различных планах.

В строке (3) приведены значения

которые, по уравнению (1.4.1), пропорциональны стандартному

Рис. 1.13. Некоторые возможные расположения опытов для получения данных при подборе прямой: мест; мест; мест; места; места; места; места. Что лучше, а что хуже при условиях, описанных в тексте? Места расположены равномерно в случаях

Таблица 1.9. Характеристики различных стратегий, представленных на рис. 1.13

отклонению коэффициента подобранной прямой. В строке (4) показано число параметров, которое можно найти по данным соответствующего плана. По плану с местами можно подобрать полином порядка параметрами, считая и Вторая причина того, что эти данные приведены, заключается в том, что места пропорциональны (когда фиксированы) величине а она есть среднее арифметическое для фиксированного места , усредненное по всем точкам плана, по которому оценивается полином порядка Иными словами,

Этот результат верен и в общем случае для любой линейной модели. А в случае прямой, когда его можно вывести из уравнения (1.4.11), заменив подстрочный индекс на 0 и просуммировав по

Общее доказательство приводится в упражнении 13 из гл. 2.

Заметим, что число степеней свободы для неадекватности равно числу различных мест для X в данных минус число параметров в постулированной модели. Действительно, так как в нашем примере есть два параметра, подлежащих оценке, (30 и то разность между числами, стоящими в строках (4) и (1) табл. 1.9, всюду равна 2.

Комментарии к табл. 1.9.

Поскольку в нашем примере требуется, чтобы оценивалась через «чистую» ошибку, стратегия (а) оказывается в данном случае плохой. А поскольку мы не в состоянии проверить адекватность, то и вариант тоже автоматически исключается.

Возьмем теперь случай (б). Действительно ли существенно использовать семь разных уровней, когда главной альтернативой нам служит квадратичная модель? Конечно нет, поскольку нам вовсе не нужно так много уровней для проверки этой альтернативы. Более того, из оставшихся планов этот имеет наибольшее стандартное

отклонение Следовательно, мы исключаем случай (б) из рассмотрения.

Ясно, что наилучший выбор заключается для нас в вариантах или А какой именно среди них выбрать, зависит от предпочтений экспериментатора. Всего трех уровней строго необходимо, чтобы можно было проверить неадекватность при квадратичной альтернативе, но при этом остается лишь одна степень свободы для неадекватности, как в случаях Причем с точки зрения стандартного отклонения лучше взять последний из них. План оставляет для неадекватности две степени свободы, а план возможно, идет слишком далеко, имея целых пять уровней. Таким образом, окончательный выбор осуществляется между вариантами причем вариант по-видимому, чуть более предпочтителен, если квадратичная альтернатива — это все, что можно себе представить.

Быть может, самое важное в этом обсуждении не то, какой конкретный план лучше всего выбрать, а решительное отбрасывание планов, которые в каких-то иных обстоятельствах вполне могли показаться разумными. План (а) был бы очень плохим выбором — кто же требует 14 уровней для оценки уравнения прямой? А план дает наименьшую дисперсию углового коэффициента но им нельзя пользоваться во всех случаях, если мы хотим иметь возможность проверять неадекватность против квадратичной (или действительно любой) альтернативы. Когда нужно выбрать план при наличии списка альтернатив, мы советуем проводить подробное рассмотрение данных, аналогичных тем, что представлены в табл. 1.9. Такое представление может быть и полезно, и поучительно.

Упражнения

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

Ответы к упражнению

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление