Математическая энциклопедия - дисперсионный анализ
Связанные словари
Дисперсионный анализ
в математической статистике статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Первоначально Д. а. был предложен Р. Фишером [1] для обработки результатов агрономич. опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай. Современные приложения Д. а. охватывают широкий круг задач экономики, социологии, биологии и техники и трактуются обычно в терминах статистич. теории выявления систематич. различий между результатами непосредственных измерений, выполненных при тех пли иных меняющихся условиях.
Если значения неизвестных постоянных a1, ... , aI могут быть измерены с помощью различных методов или измерительных средств М 1,..., MJ, и в каждом случае систематич. ошибка bij может, вообще говоря, зависеть как от выбранного метода Mj, так и от неизвестного измеряемого значения а i, то результаты таких измерений представляют собой суммы вида
где Кколичество независимых измерений неизвестной величины а i методом Mj,a у ijk случайная ошибка k-го измерения величины а i методом Mj (предполагается, что все yijkнезависимые одинаково распределенные случайные величины, имеющие нулевое математич. ожидание: Е у ijk=0). Такая линейная модель наз. двухфакторной схемой Д. а.; первый фактор истинное значение измеряемой величины, второй метод измерения, причем в данном случае для каждой возможной комбинации значений первого и второго факторов осуществляется одинаковое количество Кнезависимых измерений (это допущение для целей Д. а. не является существенным и введено здесь лишь ради простоты изложения).
Примером подобной ситуации могут служить спортивные соревнования I спортсменов, мастерство к-рых оценивается J судьями, причем каждый участник соревнований выступает Краз (имеет К"попыток"). В этом случае а iистинное значение показателя мастерства спортсмена с номером i, bij систематич. ошибка, вносимая в оценку мастерства i -го спортсмена судьей с номером j, xijkоценка, выставленная j -м судьей г-му спортсмену после выполнений последним k-й попытки, а yijkсоответствующая случайная погрешность. Подобная схема типична для так наз. субъективной экспертизы качества нескольких объектов, осуществляемой группой независимых экспертов. Другой пример статистич. исследование урожайности сельскохозяйственной культуры в зависимости от одного из J сортов почвы и J методов ее обработки, причем для каждого сорта г почвы и каждого метода обработки с номером J осуществляется kнезависимых экспериментов (в этом примере bijистинное значение урожайности для г-го сорта почвы при j-м способе обработки, xijkсоответствующая экспериментально наблюдаемая урожайность в k-м опыте, а yijkее случайная ошибка, возникающая из-за тех или иных случайных причин; что же касается величин а i, то в агрономич. опытах их разумно считать равными нулю).
Положим cij=ai+bij, и пусть с i*, с *j и с ** результаты осреднений с ij по соответствующим индексам, т. е.
Пусть, кроме того, a=c** ,bi= с i*- с **, gj= с *j -с ** и dij= с ij- с i*- с *j+c**. Идея Д. а. основана на очевидном тождестве
Если символом (cij )обозначить вектор размерности IJ, получаемый из матрицы ||с ij|| порядка IXJ с помощью какого-либо заранее фиксированного способа упорядочивания ее элементов, то (1) можно записать в виде равенства где все векторы имеют размерность IJ, причем aij=a, bij=bi, gij=gj. Так как четыре вектора в правой части (2) ортогональны, то aij=a наилучшее приближение функции cij от аргументов i и j постоянной величиной [в смысле минимальности суммы квадратов отклонений ]. В том же смысле aij+bij=a+bi наилучшее приближение cij функцией, зависящей лишь от i, aij+gij=a+gj наилучшее приближение cij функцией, зависящей лишь от j, a aij+bij+gij=a+bi+gjнаилучшее приближение cij суммой функций, из к-рых одна (напр., a+bi) зависит лишь от г, а другая лишь от j. Этот факт, установленный Р. Фишером (см. [1]) в 1918, позднее послужил основой теории квадратичных приближений функций.
В примере, связанном со спортивными соревнованиями, функция dij выражает "взаимодействие" г-го спортсмена и j-го судьи (положительное значение б/у означает "подсуживание", т. с. систематич. завышение /-м судьей оценки мастерства i-го спортсмена, а отрицательное значение б/у означает "засуживание", т. е. систематич. снижение оценки). Равенство всех б/у нулю необходимое требование, к-рое надлежит предъявлять к работе группы экспертов. В случае же агрономич. опытов такое равенство рассматривается как гипотеза, подлежащая проверке по результатам экспериментов, поскольку основная цель здесь отыскание таких значений i и j, при к-рых функция (1) достигает максимального значения. Если эта гипотеза верна, то
и значит, выявление наилучших "почвы" и "обработки" может быть осуществлено раздельно, что приводит к существенному сокращению числа экспериментов (напр., можно при каком-либо одном способе обработки испытать все Iсортов "почвы" и определить наилучший сорт, а затем на этом сорте опробовать все J способов "обработки" и найти наилучший способ; общее количество экспериментов с повторениями будет равно (I+J) К). Если же гипотеза {все dij=0} неверна, то для определения max cij необходим описанный выше "полный план", требующий при Кповторениях IJК экспериментов.
В ситуации спортивных соревнований функция gij=gj может трактоваться как систематич. ошибка, допускаемая j-м судьей по отношению ко всем спортсменам. В конечном счете gj характеристика "строгости" или "либеральности" j-го судьи. В идеале хотелось бы, чтобы все gj были нулевыми, но в реальных условиях приходится мириться с наличием ненулевых значений gj и учитывать это обстоятельство при подведении итогов экспертизы (напр., за основу сравнения мастерства спортсменов можно принять не последовательности истинных значений a+b1+gj, ..., a+bI+gj, a лишь результаты упорядочиваний этих чисел по их величине, поскольку при всех j=1, . . . , J такие упорядочивания будут одинаковыми). Наконец, сумма двух оставшихся функций aij+bij=a+bi зависит лишь от iи поэтому может быть использована для характеризации мастерства г-го спортсмена. Однако здесь нужно помнить, что Поэтому упорядочивание всех спортсменов по значениям a+bi (или по a+ + bi+gj при каждом фиксированном j) может не совпадать с упорядочиванием по значениям ai. При практической обработке экспертных оценок этим обстоятельством приходится пренебрегать, так как Упомянутый полный план экспериментов не позволяет оценивать отдельно ai и bi*. Таким образом, число a+bi=ai + bi* характеризует не только мастерство i -го спортсмена, но и в той или иной мере отношение экспертов к этому мастерству. Поэтому, напр., результаты субъективных экспертных оценок, осуществленных в разное время (в частности, на нескольких Олимпийских играх), едва ли можно считать сопоставимыми. В случае же агрономич. опытов подобные трудности не возникают, поскольку все ai=0 и значит, a+bi=bi*.
Истинные значения функций a, bi, gi и dij неизвестны и выражаются в терминах неизвестных функций cij. Поэтому первый этап Д. а. заключается в отыскании статистич. оценок для cij по результатам наблюдений xijk.Несмещенная и имеющая минимальную дисперсию линейная оценка для cij выражается формулой
Так как a, bi, gj и dij линейные функции от элементов матрицы ||cij||, то несмещенные линейные оценки для этих функций, имеющие минимальную дисперсию, получаются в результате замены аргументов cij соответствующими оценками, cij, т. е. причем случайные векторы и определенные так же, как введенные выше (aij),(bij), (gij). и (dij), обладают свойством ортогональности, и значит, они представляют собой некоррелированные случайные векторы (иными словами, любые две компоненты, принадлежащие разным векторам, имеют нулевой коэффициент корреляции). Кроме того, любая разность вида
некоррелирована с любой из компонент этих четырех векторов. Рассмотрим пять совокупностей случайных величин {xijk}, {xijk-xij*},Так как
то дисперсии эмпирич. распределений, соответствующих указанным совокупностям, выражаются формулами
Эти эмпирич. дисперсии представляют собой суммы квадратов случайных величин, любые две из к-рых некоррелированы, если только они принадлежат разным суммам; при этом относительно всех yijk справедливо тождество
объясняющее происхождение термина "Д. а."" Пусть и пусть
в таком случае
где s2 дисперсия случайных ошибок yijk.