Главная > Математика > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Приложение 3А. НОРМАЛЬНЫЕ И ПОЛУНОРМАЛЬНЫЕ ГРАФИКИ

Нормальные графики

Площадь под кривой нормированного нормального распределения от до некоторой точки х дается интегралом

Если мы отложим на ординате а на абсциссе — х, то получим -образную» кривую, называемую кривой накопленной (или кумулятивной) вероятности распределения Множество точек принадлежит этой кривой, например точки:

и (1,96, 97,5). Все они легко находятся по таблицам кумулятивного распределения см. рис. 3А.1 и 3А.2.

Нормальная вероятностная бумага — это специальный вид миллиметровки, который продается в большинстве магазинов технической книги. Горизонтальная ось размечена, как обычно, равномерной сеткой без чисел, а на вертикальной оси нанесена специальная шкала. Эта вертикальная шкала размечена от 0,01 до 99,99, причем ее деления расширяются по мере удаления от точки 50 как к точке 99,99, так и к точке 0,01 симметрично относительно горизонтали со значением 50. Эта шкала устроена так, что если значения у из уравнения (3А. 1) умножить на 100 и отложить на графике в зависимости от значений х, то в результате должна получиться «кривая», называемая прямой линией. Таким образом, получается, что вертикальная шкала определяется функцией, обратной к уравнению и равной которая «спрямляет» верхнюю и нижнюю ветви -образной кривой, представленной на рис. 3А.2. Отметим, что, поскольку точки принадлежат графику прямой линии, значения 0 и 100 нельзя нанести на координатную ось, так как она имеет конечную длину, а не простирается от до Еще одна точка, принадлежащая нашей прямой, имеет координаты Нам будет интересно сейчас ее отыскать.

Если точки накопленного распределения (а не точки распределения нанести на нормальную вероятностную бумагу, то прямая будет проходить через такие точки, как и т. п. Этот факт очень полезен, когда у нас есть некая выборка а мы хотим

Рис. 3А.1. Площадь, накопленная под кривой нормального распределения до точки х (заштрихована)

Рис. 3А.2. Накопленная нормальная кривая

знать, подчиняется ли она нормальному распределению, и если действительно подчиняется, то мы хотим быстро оценить стандартное отклонение 0. Сначала упорядочим выборку по возрастанию с учетом величин и знаков. Положим, что это уже сделано, т. е. что как раз и есть нужный порядок. Теперь построим график зависимости от ординаты, имеющей следующее выражение:

Основанием для такого выбора служит следующее: если мы разделим единичную площадь под кривой нормального распределения на равных площадей, то можно «ожидать», что одно наблюдение

Рис. 3А.3. Разделение площади под кривой нормального распределения на равных частей. Мы можем «ожидать» по одному наблюдению в каждой такой части, которая делит площадь на равные доли

Рис. 3А.4. Нормальный график для остатков из табл. 1.2

придется на каждую из размеченных частей. Значит, наблюдению в упорядоченном ряду, на графике будет соответствовать накопленная площадь до середины части, которая равна Ну а умножение на 100 приводит данные в соответствие со шкалой нормальной вероятностной бумаги (см. рис. 3А.3).

Если наша выборка действительно принадлежит нормальному распределению, то мы сможем провести (на глаз) хорошую прямую через все множество экспериментальных точек, нанесенных на график, хотя, быть может, и не найдется ни одной точки, которая бы легла точно на прямую. Тогда мы сможем воспользоваться хорошо подобранной прямой для оценки 9. Найдем т. е. те значения х, при которых наша прямая пересекает горизонтали, соответствующие уровням 50 и 84,13. Тогда разность как раз и будет искомой оценкой (см. рис. 3А.4).

Очень полезный способ приобретения опыта принятия решений по графикам такого рода заключается в получении выборок различного объема из таблицы нормальных случайных отклонений и нанесении их на нормальную вероятностную бумагу. Тогда возникнут представления о таких отклонениях от линейности, которые могут встретиться, не будучи ненормальными.

Половинные нормальные графики

Когда «известно», что выборка подчиняется некоторому (быть может, нормальному) распределению с нулевым средним, удобной альтернативой полному нормальному графику служит половинный нормальный график. Если

то

Случайная величина подчиняется половинному нормальному распределению, имеющему в точности ту же форму, что и правая половина распределения только каждая ордината у него вдвое больше.

Положим

Если теперь мы возьмем на ординате, а на абсциссе

нормальной вероятностной бумаги при то в результате должна получиться прямая, проходящая через точку с координатами (абсцисса, ордината) Фактически это была бы верхняя половина теоретического «полного» нормального графика. Действительно, мы так сложили полный нормальный график, что его нижняя часть теперь совместилась с верхней. Пусть мы имеем выборку из какого-то (быть может, нормального) распределения, про истинное среднее которого «известно», что оно должно быть нулем. Тогда можно проверить нормальность и равенство среднего нулю, нанося на график половинного нормального распределения наши выборочные точки. При этом будем наносить иа график не сами точки, а их абсолютные значения (модули). Если, например, наша выборка включает наблюдения - 17, -4, 1, 2, 3, 6, 23 (отметим, что они приведены в возрастающем порядке, как и должно быть при использовании «полного» нормального графика), то их знаки надо отбросить, а сами числа снова упорядочить по возрастанию: 1, 2, 3, 4, 6, 17, 23. А если это числа, полученные после такого переупорядочения, то можно нанести на нормальную вероятностную бумагу, где на горизонтали будут последовательные значения

при

Основания этого метода подобны тем, что были у полного нормального графика. Мы делим равную единице площадь под половинной нормальной кривой на равных областей и «ожидаем», что одно из выборочных наблюдений попадет в каждую часть. Наблюдение с номером соответствует на графике площади, накопленной к середине части, которая равна Для приспособления этих значений к 50—100 долям на шкале ординат вероятностной бумаги мы на самом деле откладываем на ординате значения сущности, мы накладываем нижнюю половину полного нормального графика на верхнюю и с учетом этого меняем цену делений верхней части вертикальной шкалы. Если наша выборка действительно принадлежит нормальному распределению со средним нуль, то окажется возможным провести хорошую прямую через все множество точек, причем так, чтобы она проходила через точку с координатами (абсцисса, ордината) . Прямая обязана проходить через эту точку, если только верно предположение о нулевом среднем. В этом случае снова разность дает оценку 0 стандартного отклонения нанесенных на график наблюдений. Однако поскольку по построению линии, требуется только одно значение (см. рис. 3А.5).

Причина, по которой снова можно воспользоваться заключается в том, что если распределение то

Следовательно, для теоретической прямой на половинном нормальном графике величина лежит в 9 единицах от значения Причем мы не можем сказать, что «она лежит в одном стандартном отклонении от среднего», поскольку среднее половинного нормального распределения не равно и — не стандартное отклонение.

(Примечания: 1. Некоторые специалисты при использовании половинного нормального графика перестраивают интервал 50—100 на нормальной вероятностной бумаге. Для этого они берут преобразование при котором когда . В таком случае 0 оценивает поскольку . В этом преобразовании нет никакой необходимости, хотя оно и используется повсеместно. Но если все-таки преобразование сделано, то наблюдение в упорядоченном ряду, должно наноситься на график против

поскольку теперь размах включает значения от 0 до 100.

2. Вероятностную бумагу, где кривые накопленных распределений превращаются в прямые линии, можно аналогичным образом построить для любого непрерывного распределения. Для этого надо провести горизонтали с равным шагом на вертикальной шкале вероятностей от 0 до 1. В тех точках, где горизонтали пересекут нашу кривую, надо опустить перпендикуляры на произвольную горизонтальную прямую которая разделится основаниями этих перпендикуляров на 100 частей, определяемых теми значениями на вертикальной шкале вероятностей, что образуют перпендикуляры. Теперь на горизонтали получилась новая шкала. Она и должна работать на вертикали вероятностной бумаги. Фактически мы применяем обратное преобразование где накопленная функция распределения при равных интервалах по у. При разметке новой

Рис. 3А.5. Половинный нормальный график для остатков из табл. 1.2

вертикальной оси мы, как договаривались, умножаем результаты на 100.)

Некоторые модификации стандартных половинных нормальных графиков предлагались и обсуждались Д. Заном в работах: Zahn D. A. Modifications of and revised critical values for the halfnormal plot.- Technometrics, 1975, 17, p. 189-200; Zahn D. A. An empirical study of the half-normal plot.- Technometrics, 1975, 17, 201—211.

Д. Спаркс составил программу на языке Фортран «Половинные нормальные графики» (см.: Sparks D. N. Algorithm AS30.- Applied Statistics, 1970, 19, p. 192-196, см. также 19 заметку Манфорда: Munford A. G. Remark ASR5.- Applied Statistics, 1972, 21, p. 351).

Пример. Вернемся к остаткам, приведенным в табл. 1.2. Сначала мы упорядочим их с учетом знаков: . Для получения полного нормального графика по этим значениям мы положим в уравнении и, последовательно меняя найдем такие ординаты: 2, 6, 10, 14, 18, 22, 26, 30, 34, 38, 42, 46, 50, 54, 58, 62, 66, 70, 74, 78, 82, 86, 90, 94, 98. Эти значения ординат соответствуют упорядоченным остаткам. Отсюда нижняя точка на рис. имеет а ордината т. е. . Читателям полезно иметь в виду, что при таком построении надо пользоваться самой нижней точкой и строить на вероятностной бумаге шкалу, растущую слева направо (правостороннюю). Если бы шкала была левосторонней, то наша точка имела бы координаты , поскольку для левосторонней шкалы справедливо преобразование (100 — правосторонняя шкала). Это характерная особенность вероятностной бумаги, и с ней всегда приходится считаться. Вторая точка на графике имеет координаты и т. д. Линия на графике проведена «на глаз». Она представляет собой попытку грубого приближения к большинству точек, причем с несколько большим весом, придаваемым центральным точкам. Обычно абсцисса, отсекающая на ординате значение 50, должна давать оценку выборочного среднего, но на самом деле наша линия всегда проходит через точку (0, 50), поскольку сумма остатков равна нулю теоретически. (Конечно, на практике, как мы отмечали, могут проявиться ошибки округления.) Приближенная оценка стандартного отклонения равна: Она хорошо согласуется с величиной приведенной в табл. 1.5. Этот нормальный график отнюдь не нетипичен для

графиков, получаемых по нормальным выборкам такого объема. Два самых маленьких и два самых больших значения несколько «выпадают», но это совсем не необычно для остатков метода наименьших квадратов. Очевидно, здесь нет выбросов, которые бы резко отклонялись от графика влево внизу или вправо наверху.

Для построения по тем же остаткам половинного нормального графика сначала надо взять все остатки по модулю и заново их упорядочить: . Воспользовавшись уравнением для найдем соответствующие значения ординат: . Наша первая точка на таком графике имеет координаты (0,08; 51), что видно и на рис. Снова надо использовать эту нижнюю точку и правостороннюю шкалу. Проведенная «на глаз» прямая проходит через точку (0, 50). Она «обгоняет» самые нижние точки (если сразу ясно, что эти точки не связаны с началом координат, то предположение о нулевом среднем в исходной выборке остается под вопросом). Снова мы видим, что график получился не из ряда вон выходящий. Нет выбросов, которые лежали бы правее верхней части прямой. Стандартное отклонение теперь оценивается величиной чрезвычайно близкой к Она получена в таблице дисперсионного анализа 1.5.

Упражнения

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

Ответы к упражнениям

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление