Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 1. ПОДБОР ПРЯМОЙ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ

1.0. ВВЕДЕНИЕ. ПОТРЕБНОСТЬ В СТАТИСТИЧЕСКОМ АНАЛИЗЕ

В современной промышленности нет недостатка в «информации» независимо от того, «увешан» ли процесс множеством измерительных приборов или их мало. Показания приборов говорят нам о таких вещах, как начальная температура, концентрация реагента, процент катализатора, температура пара, скорость расходования веществ, давление и т. д., в зависимости от характеристик процесса в данном исследовании. Некоторые из этих показаний получаются через равные интервалы, например каждые пять минут или каждые полчаса, другие измеряются непрерывно. Однако при небольших дополнительных затратах времени и усилий всегда можно иметь непрерывные показания. А анализ конечного продукта можно производить и периодически. В результате такого анализа получаются количественные данные о чистоте продукта, проценте выхода, блеске, сопротивлении разрушению, цвете и о многих других свойствах, имеющих значение для производителя или для потребителя. На многих заводах мы находим гигантские залежи подобных данных. И часто цифры просто коллекционируются без всякого понимания цели или смысла или же во имя целей, ставившихся в прежние годы. Несмотря на то что этих целей больше уже не существует, цифры все же благоговейно собираются час за часом, день за днем, неделя за неделей.

Цель этой книги, однако, не в разъяснении того, какая информация должна или не должна собираться для какого-либо процесса. Цель в другом. Данные только что указанного типа представляются в виде таблиц чисел. В этих числах могут быть завуалированы некоторые соотношения или же эти соотношения могут непосредственно следовать из данных. Мы будем довольно подробно рассматривать некоторые методы выявления основных черт таких соотношений. Сверх того, изучение методов регрессионного анализа может пролить некоторый свет на то, как надо планировать сбор данных, если к тому предоставляется возможность. Это видно, например, из параграфа 1.8.

Для любых задач с изменяющимися количественными переменными представляет интерес исследование влияния (действительного или подозреваемого) некоторых переменных на остальные. Таким влиянием, конечно, может быть простая функциональная связь между переменными; однако во многих физических процессах это скорее исключение, чем правило. Часто, видимо, существует функциональная связь, слишком сложная для понимания или для описания в простых терминах. В таком случае мы можем стремиться подобрать

аппроксимацию этой функциональной связи с помощью какой-нибудь простой математической функции (скажем, такой, как полином), которая включает подходящие переменные, и сглаживать или аппроксимировать «истинную» функцию в определенной ограниченной области изменения этих переменных. При исследовании такой сглаженной функции мы сможем больше узнать о рассматриваемой «истинной» зависимости и оценить отдельные или совместные эффекты изменения некоторых важных переменных.

Даже тогда, когда по смыслу не существует физической связи между переменными, мы можем стремиться к тому, чтобы отразить ее с помощью математического уравнения данного вида. Если уравнение физически бессмысленно, то оно тем не менее может оказаться весьма ценным для предсказания значений ряда переменных по известным значениям других переменных, быть может, при определенных ограничениях.

В этой книге будем пользоваться одним частным методом получения математической зависимости. Он включает исходное предположение о том, что имеетместо определенный тип зависимости, линейной относительно неизвестных параметров (за исключением гл. 10, где рассматриваются нелинейные модели). Неизвестные параметры оцениваются еще при ряде других предположений по имеющимся данным, и получается искомое уравнение. Можно оценить полезность полученного уравнения и проверить, не оказались ли некоторые из предположений ошибочными. Простейшим примером этой процедуры служит подбор прямой по парам наблюдений В данной главе мы рассмотрим его с помощью обычной алгебры. Если же задача включает большое число переменных, то основным становится матричный подход. Он вводится в связи с подбором прямой в гл. 2, которая включает также наиболее важные результаты для более общих регрессионных задач. Часть из этих результатов применяется в гл. 4, где обсуждается задача установления связи переменной с двумя переменными с помощью уравнения плоскости. В гл. 5 рассматривается более сложные модели, а в гл. 6— некоторые методы, используемые при выборе «наилучшего» уравнения. Типичные примеры изучаются в гл. 7, а основные этапы и задачи, связанные с построением моделей, содержатся в гл. 8. В гл. 9 обсуждается регрессионная обработка в задачах дисперсионного анализа, а в гл. 10 дается введение в нелинейное оценивание. В приложении приводятся машинные распечатки, упоминаемые и используемые в различных местах книги.

В гл. 1, 2, 3 и 4 изложен основной курс регрессионного анализа. Читатели, мало знакомые или вовсе не знакомые с матричной алгеброй, будут постепенно знакомиться с ней в гл. 2, остальные же могут пропустить начальные параграфы этой главы.

Читатели с весьма основательными знаниями в области регрессионного анализа могут относиться к последним параграфам гл. 2 как к резюме и обзору и бегло просмотреть конец гл. 2, так же как гл. 1,3 и 4 (возможно, и 5). Мы надеемся, что последующие главы они найдут интересными и полезными.

Читатели, занимающие промежуточное положение, извлекут пользу из систематической проработки всей книги.

Мы предполагаем, что все, кто воспользуется этой книгой, знакомы с начальным курсом статистики и понимают ее основные идеи. Сюда включаются представления о параметрах, оценках, распределениях (особенно нормальном), среднем и дисперсии случайной величины, ковариации между двумя переменными и проверке простых гипотез, в том числе и с использованием одно- и двусторонних -критериев. Мы полагаем, однако, что читатели, которые забыли эти понятия или знают их неполно, смогут тем не менее быстро восполнить пробелы.

Мы не собирались рассматривать эту книгу как всеобъемлющий учебник по всем аспектам регрессионного анализа. В наши намерения входило дать капитальный основной курс плюс материал, необходимый для решения распространенных практических регрессионных задач.

Теперь мы воспользуемся случаем пораньше ознакомить читателей с приложениями, где содержатся машинные распечатки. Взгляните, например, на начало распечатки в приложении А (см. кн. 2). Здесь вы увидите наблюдения за работой выпарного аппарата на большом промышленном предприятии, разбитые на интервалы. Фиксировались следующие десять переменных:

1. Количество используемого пара в фунтах ежемесячно.

2. Количество активной жирной кислоты в фунтах, накопленное за месяц.

3. Количество готового глицерина-сырца в фунтах.

4. Средняя скорость ветра в милях в час.

5. Число календарных дней в месяце.

6. Число рабочих дней в месяце.

7. Число дней с температурой ниже 32 °F.

8. Средняя температура воздуха (°F).

9. (Средняя скорость ветра).

10. Число пусков.

(Способ, которым в действительности были объяснены данные из приложения А, изложен ниже.)

Мы можем различить здесь два основных типа переменных. Назовем их предсказывающими переменными (предикторами), или независимыми переменными (факторами), и зависимыми переменными, или переменными-откликами. Под предикторами, или факторами, мы будем понимать такие переменные, для которых обычно можно устанавливать желаемые значения (например, начальную температуру или скорость подачи катализатора), либо те, которые можно только наблюдать, но не управлять ими (например, влажность воздуха). В результате преднамеренных изменений или изменений, происшедших с независимыми переменными случайно, появляется эффект, который передается на другие переменные, на отклики (например, на окончательный цвет или чистоту химического продукта). В общем, мы будем интересоваться тем, какие изменения предикторов влияют на значения откликов. Если мы сможем обнаружить простое соотношение или зависимость отклика от одного или нескольких факторов, то это, конечно, нам понравится. Разделение на предикторы и отклики не всегда вполне четко и иногда зависит от наших целей. Так, можно рассматривать отклик промежуточной стадии процесса как предиктор для (скажем) конечного цвета продукта. Практически, однако, роли переменных обычно легко различимы. Когда говорят «независимые переменные», не стоит понимать это выражение слишком буквально. В конкретной массе данных две или несколько переменных могут изменяться одновременно некоторым определенным образом, возможно, связанным с методом, лежащим в основе эксперимента. Это обычно нежелательно — прежде всего потому, что ограничивается информация об индивидуальной роли факторов, — но часто неизбежно.

Возвращаясь к приложению А, мы видим, что изучается 25 наборов наблюдений за переменными, по одному набору для каждого из двадцати пяти месяцев. Здесь нас прежде всего интересует количество продукта, произведенное за месяц, а затем его изменения из-за варьирования остальных факторов. Таким образом, мы будем считать переменную 1 откликом а остальные переменные — предикторами,

Теперь рассмотрим метод анализа, называемый методом наименьших квадратов. Его можно применять для обработки данных эксперимента и для получения разумных заключений о свойствах выбранного уравнения. Этот метод часто называют регрессионным

анализом. По-видимому, авторство слова «регрессия» принадлежит известному английскому антропологу и метеорологу сэру Фрэнсису Гальтону (1822—1911). Первоначально в неопубликованном докладе «Основные законы наследственности человека», прочитанном в Королевской ассоциации 9 февраля 1877 г., он употребил термин «реверсия» (обращение, движение вспять. - Примеч. пер.). Более поздний термин «регрессия» появился в президентском адресе, прочитанном перед секцией Н Британской ассоциации в Абердине в 1885 г. и опубликованном в журнале «Nature» в сентябре 1885 г. (с. 507-510), а также в статье «Регрессия к середине в наследовании роста», опубликованной в «Журнале антропологического института» (Journal of the Anthropological Institute, 1885, 15, p. 246-263). В этой статье Гальтон рассказывает о своих первоначальных исследованиях (с. 246), в которых «наследники» семян «не проявляли тенденции к воспроизведению размеров своих родителей, а, напротив, всегда были ближе к середине, чем они (под серединой имеется в виду среднее арифметическое). А именно: семена были меньше, чем их родители, если родители были велики, и больше, если родители были очень малы . . . Дальнейшие эксперименты показали, что в среднем сыновняя регрессия к середине прямо пропорциональна отклонению родителей от нее». Затем Гальтон переходит к описанию того, как та же самая картина проявилась в данных о «росте 930 взрослых детей и 205 их родителей». По существу, он показал, что, если равен росту ребенка, а X равен росту родителей (на самом деле взвешенному

среднему ростов матерей и отцов; подробности — в исходной статье), то прекрасно подойдет уравнение вида хотя он так и не выражался. (Обозначения объясняются в параграфе 1.1.) Статья Гальтона — увлекательное чтение. Сегодня анализ Гальтона надо было бы назвать «корреляционным анализом», впрочем, этот термин тоже придумал он. Термин «регрессия» вскоре начали применять к зависимостям в совершенно иных ситуациях, чем та, в которой он возник, и даже в таких ситуациях, где предикторные переменные не случайны, причем это словоупотребление сохранилось по сей день. В большинстве случаев построения современных моделей нет элемента «регрессии» в первоначальном смысле. Тем не менее слово так прижилось, что мы продолжаем им пользоваться. (Отметим, что метод

наименьших квадратов был известен задолго до появления Гальтона; см. с. 32.)

Мы начнем изучать метод наименьших квадратов в связи с простейшим приложением — подбором «наилучшей» прямой по данным для двух переменных а затем обсудим возможность распространения результатов на случаи, когда рассматривается большее число факторов.

<< Предыдущий параграф Следующий параграф >>
Оглавление