Главная > Математика > Прикладной регрессионный анализ, книга 2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

6.15. НЕКОТОРЫЕ ЗАМЕЧАНИЯ О ПАКЕТАХ ПРИКЛАДНЫХ ПРОГРАММ ПО СТАТИСТИКЕ

BMDP-79. Пакет биомедицинских программ

(BMDP-79: Biomedical Compnter programs — Р Series, 1979 Edition)

В версии этого издания имеются шесть линейных и три нелинейные регрессионные программы.

Линейные регрессионные программы:

Множественная линейная регрессия.

Шаговая регрессия.

Регрессия на главные компоненты.

Регрессия полиномиальная.

Частные корреляции и многомерная регрессия.

Все возможные подмножества регрессий.

Нелинейные регрессионные программы:

Нелинейная регрессия.

Нелинейная регрессия без вычисления производных.

Шаговая логистическая регрессия.

Руководство к пакету биомедицинских программ BMDP-79 является более трудным для чтения, чем руководство к статистическому пакету для общественных наук (Чтобы модифицировать инструкции к программам, требуется некоторое знакомство с Фортраном.) Однако руководство к пакету биомедицинских программ гораздо лучше руководства к статистическому пакету для общественных наук при работе с регрессиями. Регрессионные программы приведены в гл. 13 и 14, в каждой из которых имеется обычно введение к содержащимся в ней программам. Вместо того чтобы обсуждать каждую программу в отдельности, мы укажем общие достоинства и недостатки программ, выявившиеся в процессе пользования.

В случае большого массива разнородных данных, когда число предикторных переменных превышает 30, пригодна только программа да и то лишь тогда, когда используется шаговая процедура включения. Программа в принципе применима и для процедуры исключения, но мы пришли к выводу, что от нее мало пользы. К тому же, если матрица составленная для всех предикторов, почти вырожденная, не является хорошей программой для применения процедуры исключения, поскольку в этом случае вычисления выполняются с одинарной точностью. Однако это не ограничение, когда применяется шаговая процедура включения.

Программа превосходна. В своей регулярной форме она ограничена использованием максимум 27 предикторов. Можно увеличить число предикторов, но это потребует модификации программы и увеличения объема памяти. Как и в предыдущем случае, если матрица для входных предикторных переменных почти вырожденная, программа не работает. Большим достоинством этого пакета программ является широкий выбор процедур анализа остатков.

Полезное качество всех этих программ состоит в том, что они позволяют использовать взвешенную регрессию со специально определенными весами. Так, например, назначая вес, равный единице, для одних опытов, и равный нулю — для других, программа позволяет построить регрессию по подмножеству опытов с единичными весами, и проверить ее по опытам с нулевыми весами. Это процедура проверки достоверности модели, которая обсуждается в гл. 8.

Если в наборе данных имеются недостающие значения, то каждый опыт, содержащий по меньшей мере одно недостающее значение, следует исключать из обработки. Если желают использовать только

те предикторные переменные X, для которых нет отсутствующих значений, то необходимо тщательно сформулировать описание формата, чтобы исключить такие переменные. Если данные полные, можно исключать переменные и можно установить произвольный порядок расположения переменных в регрессии, используя определенные правила выбора.

Нелинейные программы удобны для использования и показали себя очень полезными.

SPSS: Статистический пакет для общественных наук

(Statistical Package for the Social Sciences)

Эта система содержит одну основную регрессионную программу с заголовком «Множественный регрессионный анализ: подпрограмма регрессии». До сентября 1980 г. этот пакет содержал только процедуру включения. Однако система обладает некоторыми приятными особенностями, благодаря которым пользователь может получать дополнительные результаты.

Каждая потенциальная предикторная переменная может быть сразу включена в модель, исключена из уравнения, может быть введена в модель согласно шаговой процедуре, причем в заранее определенном порядке. Все эти альтернативы могут быть реализованы с помощью соответствующей формулировки задания на решение регрессионной задачи. Приведем в качестве примера некоторые возможные формулировки задания на построение регрессии по данным Хальда, где отклик обозначен как предикторами являются

а) Регрессия

б) Регрессия

в) Регрессия до

г) Регрессия до до

д) Регрессия

е) Регрессия до

Задание а) означает, что сначала подгоняется модель вида так как цифра (8) в круглых скобках есть наибольшее четное число. Затем подгоняется модель , поскольку после в скобках приведено наибольшее четное число из оставшихся, т. е. не считая 8. Потом подгоняется модель и, наконец, модель В итоге мы получили запись выражения модели, где предикторы в скобках расположены в порядке уменьшения четных чисел, приведенных в задании после каждого предиктора в круглых скобках.

Задание б) означает шаговую процедуру включения в модель всех предикторных переменных от до Это обозначено с помощью

единицы в скобках после Цифры в скобках после зависимой переменной определяют три параметра . Здесь обозначает максимальное число предикторов, которые могут быть введены в модель с использованием и Т-критериев; есть пороговое значение для включения новой переменной, если величина F превосходит указанный порог. Т есть та доля вариации, которая относится к новой переменной и не может быть отнесена на счет переменных, которые ранее содержались в модели. Переменная сохраняется в уравнении, если Т превосходит величину 0,01, или больше, чем

Задание в) соответствует шаговой процедуре включения всех переменных в модель, от до при условии, что реализация этой процедуры осуществляется с использованием определенных значений параметров . В данном пакете программ эти параметры по умолчанию имеют значения По существу это означает, что ограничений нет совсем.

Задание г) означает, что необходимо построить комбинированную регрессию, в которой часть переменных сразу вводится в модель, а оставшиеся — пошагово. А именно переменные включаются в модель сразу, а переменные пошагово. Причем делается это с использованием численных значений указанных при расшифровке предыдущего задания.

Задание д) означает, что в модель вводятся три переменные — причем порядок их введения, как и в задании а), определяется цифрами в круглых скобках. Итоговая модель имеет вид Переменная в процедуре не участвует, поскольку в следующих за ней скобках стоит 0.

Задание е) предполагает, что в модель сразу вводятся переменные и вычисляются остатки. Могут быть построены графики стандартизированных остатков, стандартизированных остатков в зависимости от значений стандартизированного отклика. Чтобы выполнить это, надо добавить слово «statistics». Могут быть вычислены также средние, стандартные отклонения и корреляции всех входных данных.

Если строится множество регрессий, то вычисления остатков и построение графиков проводятся в конце реализации программы на ЭВМ, а не в том порядке, как сказано в задании.

Укажем лишь одно предостережение: наш опыт использования говорит о том, что регрессионная программа требует большого объема машинной памяти.

Руководство для пользователей легко читается и воспринимается.

SAS: Статистический анализ систем (Statistical Analysis System)

Программы SAS превосходны, и, в частности, эта система включает очень простые и мощные процедуры обработки данных. Преимущества при обработке данных плюс возможность доступа к использованию пакета BMDP делают этот пакет достойным внимания для тех,

кто располагает компьютерами из серии IBM или компьютером, который может быть подсоединен к IBM.

Программы SAS существуют в двух формах. В виде стандартной библиотеки программ, включающей программы SAS полностью, и в виде дополнительной библиотеки программ, которая не полностью опирается на

Стандартная библиотека программ содержит 4 программы линейной регрессии и одну нелинейную программу.

К линейным программам относятся:

GLM. Общие линейные модели.

R Square. Все возможные регрессии.

Stepwise. Шаговая регрессия.

SYS Reg. Системы регрессий.

Нелинейная программа имеет имя -процедура есть общая программа целевого назначения для обработки и анализа определенной модели. Процедура R Square представляет собой метод всех возможных регрессий с выводом на печать и -статистики Маллоуза для каждой модели. Программа Stepwise содержит метод включения, метод исключения и шаговый метод, усовершенствованные процедуры выбора максимального и минимального критерия Последняя программа из линейных позволяет строить одно-, двух- и трехшаговые регрессии и делать некоторые другие стандартные выводы.

В дополнительной библиотеке программ содержится много программ специального назначения.

Logist. Логистическая регрессия.

PLglm. Регрессионная модель Кокса для таблиц дожития.

LAV. Линейная модель, основанная на минимизации максимального по абсолютной величине отклонения.

Minitab: Интерактивная (и пакетная) статистическая система вычислений на ЭВМ

Эта система содержит две регрессионные команды: и STEPWISE, каждая из которых допускает работу со 100 переменными на большинстве ЭВМ.

По команде REGRESS строится множественная регрессия. Должны быть определены переменные, которые включаются в модель, а также порядок, в котором они должны включаться (он соответствует порядку, в котором они записываются). Существует несколько вариантов представления конечных и промежуточных результатов. BRIEF output дает ( число предикторов) компактных строк с результатами, которые размещаются на экране дисплея. Вариант NOBRIEF позволяет представить больше конечных результатов, включая предсказываемые значения, стандартные отклонения предсказываемых значений, стандартизированные остатки, метки для

точек с большими остатками или большим влиянием на регрессию, отдельные числа степеней свободы, разложения сумм квадратов отклонений и элементы матрицы Полезные промежуточные подробности выдаются в соответствии с вариантом BRIEF относительно маркированных точек. Стандартизированные остатки, предсказываемые значения, коэффициенты и элементы матрицы можно еще и сохранить для дальнейшего анализа. С помощью простых манипуляций со стандартизированными остатками можно строить различные диагностические графики и доверительные интервалы для предсказываемых откликов и других наблюдений. Могут задаваться веса. Возможно использование в модели фиктивных переменных. Модели могут не содержать свободного члена. Данные вычеркиваются только в том случае, когда пропущенные наблюдения встречаются у переменных, фактически используемых в регрессии.

STEPWISE содержит процедуры включения и исключения, а также обычную шаговую процедуру. FENTER и FREMOVE можно задавать (по умолчанию = 4). Пользователь может сразу включить некоторые отобранные переменные, другие могут вводиться, но все же быть кандидатами на удаление, тогда как некоторые могут быть исключены (REMOVED) на определенном шаге, но все же оставаться кандидатами для включения на следующих шагах. Ближайшие К наилучших (BEST) предикторов можно вывести на печать, и они будут перечисляться на каждом шаге вместе со значениями -критерия, для включения предикторов в модель. Число шагов (STEPS) можно задавать с пульта управления (терминала). Если работа с программой проводится в режиме диалога (в интерактивном режиме), пользователь может вмешиваться в конце каждого кадра дисплея. Он может, например, вводить или исключать переменные или изменять значения -критерия. Выходные данные представляются в виде компактной итоговой таблицы. Наиболее ответственные вычисления выполняются с двойной точностью. Данные не приводятся, если пропущенные наблюдения относятся к переменным, которые состоят в списке кандидатов на включение. Свободный член может быть опущен.

Общей особенностью системы Minitab является легкость, с которой проводятся манипуляции с данными и их анализ. Например, можно произвести преобразование, опустить некоторые опыты, построить регрессию, график остатков, составить гистограмму, построить другую регрессию, рассчитать расхождения между двумя наборами остатков и работать с представлением типа «опора и консоль» для их разностей, причем все с помощью команд на языке, похожем на английский.

Система программ Minitab пригодна для эксплуатации на самых различных ЭВМ, как в режиме диалога, так и в пакетном режиме. Документация включает элементарное руководство на 348 с., а также инструкции для наиболее квалифицированных пользователей и инструкции по оказанию оперативной помощи (HELP).

Мнение. Мы считаем, что пакет регрессионных программ BMDP чрезвычайно полезен. В особенности нам нравится формат выходных данных. Однако простота в манипулировании с набором данных, преобразованиях переменных и др. - дает пользователям этой системы возможность ее присоединения к программам BMDP. А это объединяет все преимущества обеих систем. Пакет мы применяли мало. Однако он очень полезен при анализе таблиц сопряженности и категоризованных данных. А эти направления очень важны в общественных науках. Minitab отличается компактным представлением выходных данных, что делает его удобным для работы в диалоговом режиме. В пакетном режиме Minitab несколько легче использовать, чем SAS, но его возможности более ограничены. Он требует меньше затрат при работе, чем SAS, и потому годится для значительно большего числа типов ЭВМ.

<< Предыдущий параграф Следующий параграф >>
Оглавление