Математическая энциклопедия - математическая статистика
Связанные словари
Математическая статистика
раздел математики, посвященный математич. методам систематизации, обработки и использования статистич. данных для научных и практич. выводов. При этом статистич. данными наз. сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Предмет и метод математической статистики. Статистич. описание совокупности объектов занимает промежуточное положение между индивидуальным описанием каждого из объектов совокупности, с одной стороны, и описанием совокупности по ее общим свойствам, совсем не требующим ее расчленения на отдельные объекты, с другой. По сравнению с первым способом статистич. данные всегда в большей или меньшей степени обезличены и имеют лишь ограниченную ценность в случаях, когда существенны именно индивидуальные данные (напр., учитель, знакомясь с классом, получит лишь весьма предварительную ориентировку о положении дела из одной статистики числа выставленных его предшественником отличных, хороших, удовлетворительных и неудовлетворительных оценок). С другой стороны, по сравнению сданными о наблюдаемых извне суммарных свойствах совокупности статистич. данные позволяют глубже проникнуть в существо дела. Напр., данные гранулометрич. анализа порвды (т. е. данные о распределении образующих породу частиц по размерам) дают ценную дополнит. информацию по сравнению с испытанием нерасчлененных образов породы, позволяя в нек-рой мере объяснить свойства породы, условия ее образования и пр.
Метод исследования, опирающийся на рассмотрение статистич. данных о тех или иных совокупностях объектов, наз. статистическим. Статистич. метод применяется в самых различных областях знания. Однако черты статистич. метода в применении к объектам различной природы столь своеобразны, что было бы бессмысленно объединять, напр., социально-экономич. статистику, физич. статистику, звездную статистику и т. п. в одну науку.
Общие черты статистич. метода в различных областях знания сводятся к подсчету числа объектов, входящих в те или иные группы, рассмотрению распределения количественных признаков, применению выборочного метода (в случаях, когда детальное исследование всех объектов обширной совокупности затруднительно), использованию теории вероятностей при оценке достаточности числа наблюдений для тех или иных выводов и т. п. Эта формальная математич. сторона статистич. методов исследования, безразличная к специфич. природе изучаемых объектов, и составляет предмет М. с.
Связь математической статистики с теорией вероятностей. Связь М. с. с теорией вероятностей имеет в разных случаях различный характер. Вероятнвстей теория изучает не любые массовые явления, а явления случайные и именно "вероятностно случайные", т. е. такие, для к-рых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее теория вероятностей играет определенную рель и при статистич. изучении массовых явлений любой природы, к-рые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и ошибок теорию. В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приемы их исследования.
Более важную роль играет теория вероятностей при статистич. исследовании вероятностно случайных явлений. Здесь в полной мере находят применение такие основанные на теории вероятностей разделы М. с., как статистических гипотез проверка, статистическое оценивание распределений вероятностей и входящих в них параметров и т. д. Область же применения этих более глубоких статистич. методов значительно уже, т. к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно определенным вероятностным закономерностям. Напр., статистич. изучение режима турбулентных водных потоков или флюктуации в радиоприемных устройствах производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам в виду того, что входящее в определение стационарного процесса допущение наличия сохраняющихся в течение длительного времени неизменных распределений вероятностей в этом случае, как правило, совершенно неприемлемо. Вероятностные закономерности получают статистич. выражение (вероятности осуществляются приближенно в виде частот, а математич. ожидания в виде средних) в силу закона больших чисел.
Простейшие приемы статистического описания. Изучаемая совокупность из побъектов может по какому-либо качественному признаку Аразбиваться на классы А 1, А2, ... , А r. Соответствующее этому разбиению статистич. распределение задается при помощи указания численностей (частот) n1, n2, ... , nr (где ) отдельных классов. Вместо численностей ni часто указывают соответствующие относительные частоты (частости) hi=ni/n (удовлетворяющие, очевидно, соотношению ). Если изучению подлежит нек-рый количественный признак, то его распределение в совокупности из побъектов можно задать, перечислив непосредственно наблюденные значения признака: x1 ,x2, ..., х п, напр., в порядке их возрастания. Однако при больших n такой способ громоздок и в то же время не выявляет отчетливо существенных свойств распределения. При сколько-либо больших пна практике обычно совсем не составляют полных таблиц наблюденных значений xi, а исходят во всей дальнейшей работе из таблиц, содержащих лишь численность классов, получающихся при группировке наблюденных значений по надлежаще выбранным интервалам.
Обычно группировка по 10-20 интервалам, в каждый из к-рых попадает не более 15-20% значений xi, оказывается достаточной для довольно полного выявления всех существенных свойств распределения и надежного вычисления по групповым численностям основных характеристик распределения (см. о них ниже). Составленная по таким группированным данным гистограмма наглядно изображает распределение. Гистограмма, составленная на основе группировки с маленькими интервалами, обычно многовершинная и не отражает наглядно существенных свойств распределения.
В качестве примера на рис. 1 дана гистограмма распределения 200 диаметров нек-рой детали (в мм), обнаруженного при статистич. исследовании массовой продукции при длине интервала группировки 0,05 мм, а на рис. 2 гистограмма того же распределения при интервале 0,01 мм. С другой стороны, группировка по слишком крупным интервалам может привести к потере ясного представления о характере распределения и к грубым ошибкам при вычислении среднего и других характеристик распределения (см. соответствующую гистограмму на рис. 3).
В пределах М. с. вопрос об интервалах группировки может быть рассмотрен только с формальной стороны:
полноты математич. описания распределения, точности вычисления средних по сгруппированным данным и т. д.
Простейшими сводными характеристиками распределения одного количественного признака являются среднее
и среднее квадратичное отклонение
где
При вычислении по группированным данным пользуются формулами
или
где т - число интервалов группировки, а k - их середины. Если материал сгруппирован по слишком, крупным интервалам, то такой подсчет дает слишком грубые результаты.
Иногда в таких случаях полезно прибегать к специальным поправкам на группировку. Однако эти поправки имеет смысл вводить лишь при условии выполнения определенных вероятностных предположений.
О совместных распределениях двух и большего числа признаков см. статьи Корреляция. Регрессия.
Связь статистических распределений с вероятностными. Оценка параметров. Проверка вероятностных гипотез. Выше были изложены лишь нек-рые избранные простейшие приемы статистич. описания, представляющего собой довольно обширную дисциплину с хорошо разработанной системой понятий и техникой вычислений. Приемы статистич. описания интересны, однако не сами по себе, а в качестве средства для получения из статистич. материала выводов о закономерностях, к-рым подчиняются изучаемые явления, и о причинах, приводящих в каждом отдельном случае к тем или иным, наблюденным статистич. распределениям.
Напр., данные, нанесенные на графики на рис. 1, 2, 3, собраны с целью установления точности изготовления деталей, расчетный диаметр к-рых равен 13,40 мм, при нормальном ходе производства. Простейшим допущением, к-рое может быть в этом случае обосновано не-к-рыми теоретич. соображениями, является предположение, что диаметры отдельных деталей можно рассматривать как случайные величины X, подчиненные нормальному распределению вероятностей:
Если это допущение верно, то параметры a и s2 среднее и дисперсию вероятностного распределения можно с достаточной точностью оценить по соответствующим характеристикам статистич. распределения (т. к. число наблюдений n=200 достаточно велико). В качестве оценки для теоретич. дисперсии s2 предпочитают не статистич. дисперсию
а несмещенную оценку
Для теоретич. среднего квадратичного отклонения s. не существует общего (пригодного при любом распределении вероятностей) выражения несмещенной оценки. В качестве оценки (вообще говоря, смещенной) для s чаще всего употребляют s. Точность оценок и s для аи s указывается соответствующими дисперсиями, к-рые в случае нормального распределения (1) имеют вид
тде знак обозначает приближенное равенство при больших п. Таким образом, уславливаясь прибавлять к оценкам со знаком их среднее квадратичное отклонение, имеем при больших пв предположении нормального распределения (1):
Объем выборки n=200 достаточен для законности пользования этими формулами теории больших выборок.
Дальнейшие сведения об оценке параметров теоретич. распределений вероятностей см. в статьях Статистическая оценка, Доверительное оценивание.
Все основанные на теории вероятностей правила статистич. оценки параметров и проверки гипотез действуют лишь с определенным значимости уровнемw<1, т. е. могут приводить к ошибочным результатам с вероятностью a=1-w. Напр., если в предположении нормального распределения и известной теоретич. дисперсии s2 производить оценку апо по правилу
то вероятность ошибки будет равна а, связанному с kХсоотношением: