Макеты страниц 1.2. ЛИНЕЙНАЯ РЕГРЕССИЯ: ПОДБОР ПРЯМОЙМы упоминали, что уравнение прямой может быть полезно во многих ситуациях для обобщения наблюдаемой зависимости одной переменной от другой. Теперь покажем, как такое уравнение можно получить методом наименьших квадратов, когда имеются экспериментальные данные. Выделим в машинной распечатке на с. 30 двадцать пять наблюдений переменной 1 (количество пара (в фунтах), израсходованного за месяц) и переменной 8 (средняя температура воздуха в градусах Фаренгейта). Соответствующие пары наблюдений приведены в табл. 1.1 и нанесены на график рис. 1.4. Предположим, что линия регрессии переменной, которую мы обозначим
Рис. 1.4. Данные и подобранная прямая Тогда можно записать линейную модель:
так что для данного X соответствующее значение Таблица 1.1. Двадцать пять наблюдений переменных 1 и 8
Уравнение (Примечание. Когда мы говорим, что модель линейна или нелинейна, мы имеем в виду линейность или нелинейность по параметрам. Величина наивысшей степени предиктора в модели называется порядком модели. Например,
есть регрессионная модель второго порядка (по X) и линейная (по Итак, в уравнении (1.2.1) величины
где Общепринято обозначение оценок параметров маленькими латинскими буквами, а самих параметров — греческими: обозначения для оценок: Нашей процедурой оценивания будет метод наименьших квадратов. Возник спор, насчет того, кто же первый предложил этот метод. По-видимому, он был разработан независимо Карлом Фридрихом Гауссом (1777—1855) и Адриеном Мари Лежандром (1752—1833), ибо Гаусс начал им пользоваться до 1803 г. (он настаивал на дате около 1795 г., но доказательств для этой более ранней даты нет), а Лежандр опубликовал первое сообщение в 1805 г. Когда Гаусс в 1809 г. написал, что он пользовался методом наименьших квадратов раньше, чем были опубликованы результаты Лежандра, началась ссора из-за приоритета. Эти данные тщательно изучены и обсуждены в работе Плэкетта из цикла «Исследования по истории теории вероятностей и статистики» (см.: Plackett R. L. Studies in the history of probability and statistics. XXIX. The discovery of the method of least squares.- Biometrika, 1972, 59, p. 239-251), которую мы настоятельно рекомендуем читателю. Еще рекомендуем публикации: Eisenhart С. The meaning of «least» in least squares.- Journal of the Washington Academy of Sciences. 1964, 54, p. 24-33 (перепечатано в Precision Measurement and Calibration, ed. H. H. Ku. National Bureau of Standards Special Publication 300, 1969, 1) и статью «Карл Фридрих Гаусс» из Международной энциклопедии социальных наук (Gauss, Carl Friedrich. International Encyclopedia of the Social Sciences.- New York: Macmillan Co., Free Press Div., 1968, 6, p. 74-81), а также связанную с этой проблемой работу: Stig1ег S. М. Gergonnes’s 1815 paper on the design and analysis of polynomial regression experiments. Historia Mathematica, 1974, 1, p. 431- 447 (cm. c. 433). При некоторых предположениях, которые обсуждаются в гл. 2, этот метод обладает определенными свойствами. Пусть мы имеем множество из
Рис. 1.5. Вертикальные отклонения, минимизирующие сумму квадратов в методе наименьших квадратов где
Будем подбирать значения оценок
так что для оценок
где при приравнивании выражений (1.2.5) к нулю мы подставили
или
Эти уравнения называют нормальными. Решение уравнений (1.2.8) относительно угла наклона прямой —
где суммирование всегда ведется от той же величины. Так как по определению
имеем:
Отсюда следует эквивалентность числителей в (1.2.9), а заодно, при замене Первая форма уравнения (1.2.9) обычно используется для вычисления Здесь и далее возьмем удобные обозначения и запишем:
Заметим, что все эти выражения эквивалентны. Аналогично можно записать:
Вот легко запоминающаяся формула для
Решение уравнения (1.2.8) относительно свободного члена (отрезка на оси ординат при
С помощью подстановки уравнения (1.2.10) в уравнение (1.2.2) можно получить оцениваемое уравнение регрессии:
где определяется уравнением (1.2.9). Отметим, что если в (1.2.11) положить
Поэтому подобранное уравнение есть
Построенная линия регрессии нанесена на рис. 1.4. Мы можем составить таблицу предсказанных значений Отметим, что так как
то
Значит и сумма остатков будет равна нулю. На практике из-за ошибок округления она может оказаться не точно равной нулю. Таблица 1.2. Результаты наблюдений, расчетные значения и остатки
В любой регрессионной задаче сумма остатков всегда равна нулю, если член (30 входит в модель. Это следствие первого из нормальных уравнений. Исключение
или
где
в соответствии с уравнением (1.2.9) и
так как
Мы потеряли один параметр, но это соответствует потере в данных, так как величины
|
Оглавление
|