Точечные оценки параметров нормального распределения.
Пусть случайная величина Xимеет нормальное распределение: Хе N (а, о). Параметры а, о нормального распределения, как правило, неизвестны. С целью их определения производится эксперимент, в результате которого фиксируется п значений случайной величины X:Xi,X2,
Вообще говоря, по результатам выборки, какого бы большого размера она ни была, нельзя определить точные значения неизвестных параметров а и о, но можно найти их приближенные значения а, а, которые называются оценками.
Для нахождения приближенных значений а, а неизвестных параметров а и о нормального закона, будем рассматривать функции вида: а = а<х<, х2. хп), а = o(xl5х2. хп), которые называются выборочными функциями или статистиками.
Задача оценки неизвестных параметров а и а сводится к нахождению таких статистик й, а, которые могут быть использованы для приближенного определения значений неизвестных параметров аио.
Оценки параметров подразделяются на точечные и интервальные.
Интервальной оценкой называют оценку, которая определяется двумя числами 0j и 02 — концами интервала, накрывающего оцениваемый параметр 0.
Можно показать, что если случайная величина X е N (а, а), то точечные оценки неизвестных параметров оио находятся по формулам (4.10) и (4.11):
Эти оценки обладают свойствами несмещенности, состоятельности и эффективности.
Интервальные оценки параметров нормального распределения.
Пусть X eN (а, а), причем я и о неизвестны. Для нахождения точечных оценок а и а из генеральной совокупности извлечена выборка объемом п. Пусть на основании этой выборки найдены точечные несмещенные оценки неизвестных параметров а и о по формулам (4.10) и (4.11). Точечные оценки, найденные по выборке объемом п, не позволяют непосредственно ответить на вопрос, какая ошибка допущена, если вместо точного значения неизвестного параметра а или а принимаются его приближенные значения а, а.
Поэтому во многих случаях выгоднее пользоваться интервальной оценкой, основанной на определении некоторого интервала, внутри которого с определенной вероятностью находится неизвестное значение параметра а (или а).
лучше качество оценки, тем она точнее. Таким образом, положительное число е характеризует точность оценки:
точечной оценки математического ожидания.
Квантили стандартизованного нормального распределения приведены в таблицах приложения 7.
Анализируя формулу доверительного интервала, задаваемого системой неравенств (4.15), можно заметить, что:
выборки, который обеспечивает заданную точность.
Если же о неизвестно, тогда доверительный интервал, накрывающий неизвестное математическое ожидание а случайной величины XeN(а, а), имеет следующий вид:
где ta — квантиль распределения Стьюдента, определяемый
ления; е = ta—j= — предельная погрешность точечного оцени- 2 V п
вания математического ожидания СВXeN(а, о) при неизвестном о обладает теми же свойствами, что и при известном а.
Доверительный интервал для среднеквадратического отклонения о задается системой неравенств
В статистике имеются два подхода к оцениванию неизвестных параметров распределений: точечный и интервальный. В соответствии с точечным оцениванием, которое рассмотрено в предыдущем разделе, указывается лишь точка, около которой находится оцениваемый параметр. Желательно, однако, знать, как далеко может отстоять в действительности этот параметр от возможных реализаций оценок в разных сериях наблюдений.
Ответ на этот вопрос – тоже приближенный – дает другой способ оценивания параметров – интервальный. В соответствии с этим способом оценивания находят интервал, который с вероятностью, близкой к единице, накрывает неизвестное числовое значение параметра.
Понятие интервальной оценки
Точечная оценка является случайной величиной и для возможных реализаций выборки принимает значения лишь приближенно равные истинному значению параметра . Чем меньше разность , тем точнее оценка. Таким образом, положительное число , для которого , характеризует точность оценки и называется Ошибкой оценки(или предельной ошибкой).
Доверительной вероятностью(или надежностью) называется вероятность β, с которой осуществляется неравенство , т. е.
. (3.20)
Заменив неравенство равносильным ему двойным неравенством , или , получим
. (3.21)
Интервал , накрывающий с вероятностью β, , неизвестный параметр , называется Доверительным интервалом(или интервальной оценкой), соответствующим доверительной вероятности β.
Случайной величиной является не только оценка , но и ошибка : ее значение зависит от вероятности β и, как правило, от выборки. Поэтому доверительный интервал случаен и выражение (3.21) следует читать так: “Интервал накроет параметр с вероятностью β ”, а не так: “Параметр попадет в интервал с вероятностью β ”.
Смысл доверительного интервала состоит в том, что при многократном повторении выборки объема в относительной доле случаев, равной β, доверительный интервал, соответствующий доверительной вероятности β, накрывает истинное значение оцениваемого параметра. Таким образом, доверительная вероятность β характеризует Надежность доверительного оценивания: чем больше β, тем вероятнее, что реализация доверительного интервала содержит неизвестный параметр.
Следует, однако, иметь в виду, что с ростом доверительной вероятности β в среднем растет длина доверительного интервала, то есть уменьшается точность доверительного оценивания. Выбор доверительной вероятности определяется конкретными условиями; обычно используются значения β, равные 0,90; 0,95; 0,99.
Вероятность (3.22)
называется Уровнем значимости и характеризует относительное число ошибочных заключений в общем числе заключений.
В формуле (3.21) границы доверительного интервала симметричны относительно точечной оценки. Однако не всегда удается построить интервал, обладающий таким свойством. Более общим является следующее определение.
Сущность задачи интервального оценивания параметров
Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью достоверности будет заключено значение оцениваемого параметра. Интервальная оценка характеризуется двумя числами – концами интервала, внутри которого предположительно находится истинное значение параметра. Иначе говоря, вместо отдельной точки для оцениваемого параметра можно установить интервал значений, одна из точек которого является своего рода «лучшей» оценкой. Интервальные оценки являются более полными и надежными по сравнению с точечными, они применяются как для больших, так и для малых выборок. Совокупность методов определения промежутка, в котором лежит значение параметра Т, получила название методов интервального оценивания. К их числу принадлежит метод Неймана.
Постановка задачи интервальной оценки параметров заключается в следующем:
Имеется: выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки n фиксирован.
Необходимо с доверительной вероятностью g = 1– a определить интервал t0 – t1 (t0
Ограничения: выборка представительная, ее объем достаточен для оценки границ интервала.
На практике применяют два варианта задания доверительных границ:
— устанавливают из условия равенства вероятностей выхода за верхнюю и нижнюю границу Р(Т > q + Е1,g )=Р(Т
Общий метод построения доверительных интервалов
Метод позволяет по имеющейся случайной выборке построить функцию и(Т, q ), распределенную асимптотически нормально с нулевым математическим ожиданием и единичной дисперсией. В основе метода лежат следующие положения. Пусть:
f(х, q ) – плотность распределения случайной величины Х;
ln [L(x, q )] – логарифм функции правдоподобия;
;
А2 =М(у)2 – дисперсия у.
Доверительный интервал для математического ожидания
Пусть по выборке достаточно большого объема, n > 30, и при заданной доверительной вероятности 1– a необходимо определить доверительный интервал для математического ожидания m1, в качестве оценки которого используется среднее арифметическое .
Нормальный закон полностью определяется двумя параметрами – математическим ожиданием и дисперсией. Величина m 1 является несмещенной, состоятельной и эффективной оценкой математического ожидания, поэтому ее значение принимаем за значение математического ожидания. Определим оценку дисперсии случайного параметра m 1, учитывая, что этот параметр равен среднему арифметическому одинаково распределенных случайных величин xi (следовательно, их дисперсии D(xi) одинаковы и равны m 2)
.
Итак, случайная величина m 1 распределена по нормальному закону с параметрами m 1 и m 2 / n. Для установления необходимых соотношений целесообразно перейти к центрированным и нормированным величинам. Выражение m 1 – m1 можно трактовать как центрирование случайной величины m 1. Нормирование осуществляется делением на величину среднеквадратического отклонения оценки m 1
.
Для стандартизованной величины вероятность соблюдения неравенства определяется по функции нормального распределения
где . Значение b равно квантили u1– a /2 стандартного нормального распределения уровня 1– a /2. В частности, уровням надежности 0,9, 0,95 и 0,99 соответствуют значения допустимого отклонения u1– a /2 величины z, равные 1,64, 1,96 и 2,58 соответственно. Окончательно можно записать
Нетрудно заметить, что это выражение аналогично по своему содержанию формуле, полученной с использованием общего метода построения доверительного интервала.
n = m 2 u 2 1– a /2 /(e 2m 1 2 ).
Таким образом, чтобы снизить относительную погрешность на порядок, необходимо увеличить объем выборки на два порядка. Приведенная формула часто используется в статистическом моделировании для определения необходимого количества испытаний модели.
Во многих случаях предположение о нормальном распределении случайной величины m 1 становится приемлемым при n > 4 и вполне хорошо оправдывается при n >10. Оценка m 1 вполне пригодна для применения вместо m1. Но не так обстоит дело с дисперсией, правомочность ее замены на m2 не обоснована даже в указанных случаях. При небольшом объеме выборки, n (n–1) распределения Стьюдента с (n–1) степенями свободы.
Доверительный интервал для дисперсии
Если стандартизовать оценку дисперсии, то величина (n–1)s 2 /m2 имеет распределение хи-квадрат с (n–1) степенями свободы. Из этого вытекает вероятностное утверждение относительно выборочной дисперсии
Функция хи-квадрат несимметричная, поэтому границы интервала
c 2 1(n–1) и c 2 2(n–1) выбирают из условия равной вероятности выхода за их пределы P[(n–1)s 2 /m2 2 1(n–1)] = P[(n–1)s 2 /m2 >c 2 2(n–1)] = a /2 или
Значения границ соответствуют квантилям распределения хи-квадрат уровня a /2 и 1– a /2 с количеством степеней свободы n–1. Нижняя граница
c 2 1(n–1) равна квантили c 2a /2(n–1), а верхняя – квантили c 2 1–a /2(n–1). Если воспользоваться критическими точками распределения, то следует записать
c 2 1(n–1) = c 2 (1– a /2; n–1) и c 2 2(n–1) = c 2 (a /2; n–1).
Доверительный интервал для вероятности
Пусть случайная величина Х имеет только два возможных значения: 0 и 1. В результате проведения достаточно большого количества наблюдений эта случайная величина приняла единичное значение т раз. Необходимо при заданной надежности 1– a определить доверительный интервал для вероятности р, оценка которой соответствует частоте h = m/n.
где u 1– a /2 – квантиль стандартизованного нормального распределения.
Чтобы связать доверительный интервал с исходными параметрами n, h и u1– a /2, возведем выражение для Е в квадрат, т. е. преобразуем равенство к виду (h–p) 2 =u 2 1– a /2(1–p)p/n. Доверительные границы можно получить, решив это уравнение второй степени
С увеличением объема выборки (nh >200, nh(1–h)>200) такими слагаемыми как u 2 1– a /2, 0,5u 2 1– a /2 и 0,25u 2 1– a /2 можно пренебречь, тогда приближенно
Более общие результаты получены с учетом того, что случайная величина h распределена по биномиальному закону
,
Где – число сочетаний из n по k.
Исходя из этого положения, для практического применения получены значения нижней р1 и верхней р2 доверительных границ
;
,
Где – квантиль распределения хи-квадрат уровня x с числом степеней свободы k.
Эти формулы можно применять и в тех случаях, когда частость h события близка (равна) нулю или близка (равна) количеству экспериментов n соответственно. В первом случае НДГ р1 принимается равной нулю и рассчитывается только ВДГ р2. Во втором случае рассчитывается НДГ р1, а верхняя граница р2 =1.
При оценивании неизвестных параметров наряду с точечными оценками используются и интервальные оценки. Они позволяют получить вероятностные характеристики точности и достоверности оценивания неизвестного параметра.
Например, предположим, что большая партия однотипных конденсаторов, изготовленных на автоматической линии, оказалась без маркировки. Для определения их номинальной емкости 0О из этой
партии случайным образом переложили по некоторому количеству конденсаторов в N коробок, каждую из которых отправили в одну из лабораторий для определения номинала 0О. В каждой из лабораторий по своим результатам измерений построили свой доверительный интервал (рис. 25.1).
Как видно из рисунка, доверительный интервал является случайным объектом. Возможно, что он не накрывает истинное значение 0О. При больших УУд ля числа т таких случаев справедливо соот- т
Один из наиболее распространенных методов построения доверительных интервалов состоит в следующем.
Требование в) гарантирует, что И* и /г* не зависят от 0.
Обычно при определении h* и И* полагают = а2 = —, т.е.
И* = Za/2 и h* = Zi-a/2* так как для симметричных распределений статистики Z (например, Z
St(k)) такой выбор дает доверительный интервал наименьшей длины, а для несимметричных распределений (Z
Fx, к2)) длина интервала будет близкой к минимальной.
Далее решаются неравенства
относительно параметра 0:
Отметим, что у симметричных распределений zan =
Кратко описанную последовательность действий можно представить в виде следующего алгоритма.
относительно 0 и в результате найти доверительный интервал:
Пример 25.13. Построить доверительный интервал для математического ожидания т генеральной совокупности X
метра т, находим доверительный интервал:
Замечание. Длина доверительного интервала (25.15)/(л) = 2u<_aj2 х х-^=->0, т.е. данная интервальная оценка обеспечивает как
угодно большую точность оценивания параметра т при достаточно
Пример 25.14. Построить доверительный интервал для дисперсии о 2 генеральной совокупности X
N(m, о) при неизвестном математическом ожидании т.
4. Решив неравенства Xn-i,a/2 Хя-и-а/2 относительно
Пример 25.15. Исследовать поведение длины доверительного ин-
? Используем представление квантили у>рк
к + ир[2к при к » 1 (см. п. 24.3). С учетом равенствам^ =
В данном случае длина интервала 1 <п) —случайная величина. В силу состоятельности оценки S 2 параметра а 2 (см. пример 25.6)
Замечание. При построении доверительных интервалов с использованием статистик, рассмотренных в п. 24.4, существенным является предположение о нормальном распределении генеральных совокупностей. Однако с учетом следствий из центральной предельной теоремы (см. п. 23.4) в некоторых случаях по выборкам большого объема можно построить приближенные доверительные интервалы для параметров и других законов распределения.
Пример 25.16. Генеральная совокупность X
В(п, р), причем ^Jnpq » 1. Найти приближенный доверительный интервал для параметра р.
В(п, р) приближенно имеем
где р(Х) =—относительная частота успеха в п испытаниях, см.
Итак, используем статистику
4. Необходимо решить относительно параметра р неравенства
где р(х) = —, а х — наблюдаемое число успехов в п испытаниях (реа- п
лизация X). Для упрощения этой задачи заменим их приближенно неравенствами
(приближенное равенство р = р(х)
р следует из примера 25.9 с учетом условия yjnpq » 1 настоящего примера). Из последних неравенств получаем искомый приближенный доверительный интервал:
Замечание. Как и в примере 25.15, длина данного доверительного
поскольку из состоятельности оценки р параметра р следует, что Р >Р, поэтому л/Ж1
? Из (23.9) следует приближенное соотношение
Пример 25.18. Генеральная совокупность имеет распределение Пуассона X
Ри(Х) с неизвестным параметром X. Построить приближенный доверительный интервал для этого параметра по выборке достаточно большого объема (п » 1).
? Для генеральной совокупности X
Ри(X) имеем тх = с 2 х = X, см. п. 22.10. Поэтому, учитывая результат предыдущего примера, мы можем записать
Выборочное среднее х есть несмещенная и состоятельная оценка параметра тх, а следовательно, и X. Кроме того, х — это эффективная оценка параметра X, см. пример 25.8. Поэтому при п » 1 можно считать, что X
х и заменить в левой и правой частях неравенств
(25.17) X на х. В результате получаем искомый приближенный доверительный интервал:
Доверительные интервалы из примеров 25.13, 25.14, 25.16—25.18, а также другие доверительные интервалы, построенные с помощью статистик из п. 24.4, сведены в табл. 25.1.
Окончание табл. 25.1
Пример 25.19. Для уточнения номинальной емкости т партии конденсаторов, произведенной на заводе, были измерены емкости п = 100 конденсаторов из этой партии и найдено выборочное среднее результатов измерений: х = 20,15 мкФ. Стабильность технологического процесса производства характеризуется средним квадратическим отклонением о емкости конденсаторов, найденным из статистических данных: о = 2 мкФ.
Доверительные интервалы строим по формуле из первой строки табл. 25.1. Квантили ux_aj2 находим из приложения 1. В результате получаем интервалы:
с использованием более точного второго дальномера проделали п2 =120 подобных измерений и подсчитали выборочную дисперсию
S$y = —- м) 2 = 0,64 полученных результатов у
Найти 95%-ный доверительный интервал для отношения показа-