Главная » Ядовитые грибы » Число степеней свободы критерий пирсона. Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL

Число степеней свободы критерий пирсона. Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL

Здесь вы сможете бесплатно решить систему линейных уравнений методом Гаусса онлайн больших размеров в комплексных числах с очень подробным решением. Наш калькулятор умеет решать онлайн как обычную определенную, так и неопределенную систему линейных уравнений методом Гаусса, которая имеет бесконечное множество решений. В этом случае в ответе вы получите зависимость одних переменных через другие, свободные. Также можно проверить систему уравнений на совместность онлайн, используя решение методом Гаусса.

Размер матрицы: 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 X 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101

О методе

При решении системы линейных уравнений онлайн методом Гаусса выполняются следующие шаги.

  1. Записываем расширенную матрицу.
  2. Фактически решение разделяют на прямой и обратный ход метода Гаусса. Прямым ходом метода Гаусса называется приведение матрицы к ступенчатому виду. Обратным ходом метода Гаусса называется приведение матрицы к специальному ступенчатому виду. Но на практике удобнее сразу занулять то, что находится и сверху и снизу рассматриваемого элемента. Наш калькулятор использует именно этот подход.
  3. Важно отметить, что при решении методом Гаусса, наличие в матрице хотя бы одной нулевой строки с НЕнулевой правой частью (столбец свободных членов) говорит о несовместности системы. Решение линейной системы в таком случае не существует.

Чтобы лучше всего понять принцип работы алгоритма Гаусса онлайн введите любой пример, выберите "очень подробное решение" и посмотрите его решение онлайн.

Вычислим определитель методом Гаусса.

Суть метода состоит в следующем: определитель приводится к треугольному виду с помощью элементарных преобразований, и тогда он равен произведению элементов, стоящих на главной диагонали.

Идея метода состоит в следующем: пусть дан определитель третьего порядка

элементдолжен быть равен
, для этого первую строку разделим на.

Получим определитель вида
(2)

Обнулим элементы, стоящие в первом столбце, кроме первого. Для этого из второй строки вычтем первую, умноженную на
, далее из третьей строки вычтем первую, умноженную на. Получим определитель вида
.

Обозначим его элементы буквой с, тогда

(3)

Теперь надо обнулить элемент . Элемент
должен быть равен
, для этого вторую строку разделим на
. Получим определитель вида
.

.

Обозначим его элементы буквой t, тогда

(4)

Вот мы привели определитель к треугольному виду, теперь он равен
.

Разберем теперь это на конкретном примере.

Пример 4: Вычислить определительметодом Гаусса.

Решение: Поменяем местами первую и третью строки (при замене двух столбцов (строк) определитель меняет знак на противоположный).

Получили

Из второй строки вычтем первую, умноженную на 2, далее из третьей строки вычтем первую, умноженную на 3. Получили

Получили -

§2.Матрицы Виды матриц

Определение 7: Если в матрицеmстрок иnстолбцов, то она называетсяразмерностью mnи пишут
.

Определение 8: Если
, то матрица называется квадратной.

Определение 9: Матрица, состоящая лишь из одной строки (столбца) называется матрицей-строкой (столбцом).

Определение 10: Матрица, состоящая из нулей, называется нулевой матрицей.

Определение 11: Диагональной матрицей называется квадратная матрица, у которой все элементы, не принадлежащие главной диагонали равны нулю.

Определение 12: Единичной матрицей называется диагональная матрица, у которой все элементы, стоящие на главной диагонали равны единице.

Определение 13: Треугольной называется квадратная матрица, у которой элементы, расположенные по одну сторону от главной диагонали равны нулю.

Действиянад матрицами.

Определение 14: Две матрицы считаются равными, если они имеют одинаковое число строк и столбцов и равные соответствующие элементы.

Пример 5:

Матрицы А и В равны, т.е.

Определение 15: Суммой (разностью) матриц А и В называется такая матрица С, у которой каждый элемент равен
.

Пример 6: Найти матрицу
, если

Решение:

Cвойства сложения

А+В=В+А(переместительное)

2 0 А+О=А, где О-нулевая матрица

3 0 А+(В+С)=(А+В)+С (дистрибутивное)

4 0 А+(-А)=О, где – А противоположная матрица

(т.е. элементы имеют противоположные знаки)

Определение 16: Произведением матрицы А на число
называется матрица, полученная из данной умножением всех ее элементов на число.

Пример 7:

Умножение матиц

Это действие распространяется на так называемые согласованные матрицы.

Определение 17: Матрица А называетсясогласованной с матрицей В, если число столбцов у матрицы А равно числу строк у матрицы В.

Пример 8:
и
- согласованные

и
- несогласованные

и
несогласованные

Определение 18: Произведением двух матриц А и В называется такая матрица С, каждый элемент которой равен сумме произведений элементовiстроки матрицы А на соответствующие элементыj-го столбца матрицы В.

Если матрица А имеет размерность
, а матрица В
, то
.

Пример 9: Умножить матрицы

Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины.Во многих практических задачах точный закон распределения неизвестен.Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому.Данная гипотеза требует статистической проверки, по результатам которой будет либо подтверждена, либо опровергнута.

Пусть X – исследуемая случайная величина. Требуется проверить гипотезу H 0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F"(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия.Одним из популярных является критерий согласия хи-квадрат К. Пирсона.

В нем вычисляется статистика хи-квадрат:

,

где N – число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i – номер интервала, p t i - вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, p e i – вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.

Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H 0 отвергается.В противном случае она принимается на заданном уровне значимости.Здесь k – число наблюдений, p – число оцениваемых параметров закона распределения.

Пирсона позволяет осуществлять проверку эмпирического и теоретического (либо другого эмпирического) распределений одного признака. Данный критерий применяется, в основном, в двух случаях:

Для сопоставления эмпирического распределения признака с теоретическим распределением (нормальным, показательным, равномерным либо каким-то иным законом);

Для сопоставления двух эмпирических распределений одного и того же признака.

Идея метода – определение степени расхождения соответствующих частот n i и ; чем больше это расхождение, тем больше значение

Объемы выборок должны быть не меньше 50 и необходимо равенство сумм частот

Нулевая гипотеза H 0 ={два распределения практически не различаются между собой}; альтернативная гипотеза – H 1 ={расхождение между распределениями существенно}.

Приведем схему применения критерия для сопоставления двух эмпирических распределений:

Критерий - статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.


В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:

§ , гипотеза выполняется.

§ (попадает в левый "хвост" распределения). Следовательно, теоретические и практические значения очень близки. Если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка и гипотеза : выборка распределена равномерно на , тогда генератор нельзя называть случайным (гипотеза случайности не выполняется), т.к. выборка распределена слишком равномерно, но гипотеза выполняется.

§ (попадает в правый "хвост" распределения) гипотеза отвергается.

Определение: пусть дана случайная величина X .

Гипотеза : с. в. X подчиняется закону распределения .

Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: . По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции -критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):

Гипотеза : Х n порождается функцией .

Разделим на k непересекающихся интервалов ;

Пусть - количество наблюдений в j-м интервале: ;

Вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;

- ожидаемое число попаданий в j-ый интервал;

Статистика: - Распределение хи-квадрат с k-1 степенью свободы.

Критерий ошибается на выборках с низкочастотными (редкими) событиями.Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями.Этот способ называется коррекцией Йетса (Yates" correction).

Критерий согласия Пирсона (χ 2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.

Использование критерия χ 2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) n j для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины.

Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10 ÷ 15, при n = 200 e = 15 ÷ 20, при n = 400 e = 25 ÷ 30, при n = 1000 e = 35 ÷ 40.

Интервалы, содержащие менее пяти наблюдений, объединяют с соседними. Однако, если число таких интервалов составляет менее 20 % от их общего количества, допускаются интервалы с частотой n j ≥ 2.

Статистикой критерия Пирсона служит величина
, (3.91)
где p j - вероятность попадания изучаемой случайной величины в j-и интервал, вычисляемая в соответствии с гипотетическим законом распределением F(x). При вычислении вероятности p j нужно иметь в виду, что левая граница первого интервала и правая последнего должны совпадать с границами области возможных значений случайной величины.Например, при нормальном распределении первый интервал простирается до -∞, а последний - до +∞.

Нулевую гипотезу о соответствии выборочного распределения теоретическому закону F(x) проверяют путем сравнения вычисленной по формуле (3.91) величины с критическим значением χ 2 α , найденным по табл. VI приложения для уровня значимости α и числа степеней свободы k = e 1 - m - 1. Здесь e 1 - число интервалов после объединения; m - число параметров, оцениваемых по рассматриваемой выборке.Если выполняется неравенство
χ 2 ≤ χ 2 α (3.92)
то нулевую гипотезу не отвергают.При несоблюдении указанного неравенства принимают альтернативную гипотезу о принадлежности выборки неизвестному распределению.

Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений.В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию χ 2 другими критериями.Особенно это необходимо при сравнительно малом объеме выборки (n ≈ 100).

В таблице приведены критические значения хи-квадрат распределения с заданным числом степеней свободы.Искомое значение находится на пересечении столбца с соответствующим значением вероятности и строки с числом степеней свободы. Например, критическое значение хи-квадрат распределения с 4-мя степенями свободы для вероятности 0.25 составляет 5.38527. Это означает, что площадь под кривой плотности хи-квадрат распределения с 4-мя степенями свободы справа от значения 5.38527 равна 0.25.

Задача 1.

Используя критерий Пирсона, при уровне значимости a = 0,05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.

Решение.

1. Вычислим и выборочное среднее квадратическое отклонение .
2. Вычислим теоретические частоты учитывая, что n = 200, h = 2, = 4,695, по формуле
.

Составим расчетную таблицу (значения функции j (x ) приведены в приложении 1).


i

3. Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия :


i
Сумма

По таблице критических точек распределения (приложение 6), по уровню значимости a = 0,05 и числу степеней свободы k = s – 3 = 9 – 3 = 6 находим критическую точку правосторонней критической области (0,05; 6) = 12,6.
Так как =22,2 > = 12,6, гипотезу о нормальном распределении генеральной совокупности отвергаем. Другими словами, эмпирические и теоретические частоты различаются значимо.

Задача2

Представлены статистические данные.

Результаты измерений диаметров n = 200 валков после шлифовки обобщены в табл. (мм):
Таблица Частотный вариационный ряд диаметров валков

i

xi , мм

xi , мм

Требуется:

1) составить дискретный вариационный ряд, при необходимости упорядочив его;

2) определить основные числовые характеристики ряда;

3) дать графическое представление ряда в виде полигона (гистограммы) распределения;

4) построить теоретическую кривую нормального распределения и проверить соответствие эмпирического и теоретического распределений по критерию Пирсона. При проверке статистической гипотезы о виде распределения принять уровень значимости a = 0,05

Решение: Основные числовые характеристики данного вариационного ряда найдем по определению. Средний диаметр валков равен (мм):
x ср = = 6,753;
исправленная дисперсия (мм2):
D = = 0,0009166;
исправленное среднее квадратическое (стандартное) отклонение (мм):
s = = 0,03028.


Рис. Частотное распределение диаметров валков

Исходное («сырое») частотное распределение вариационного ряда, т.е. соответствие ni (xi ), отличается довольное большим разбросом значений ni относительно некоторой гипотетической «усредняющей» кривой (рис.). В этом случае предпочтительно построить и анализировать интервальный вариационный ряд, объединяя частоты для диаметров, попадающих в соответствующие интервалы.
Число интервальных групп K определим по формуле Стерджесса:
K = 1 + log2n = 1 + 3,322lgn ,
где n = 200 – объем выборки. В нашем случае
K = 1 + 3,322×lg200 = 1 + 3,322×2,301 = 8,644 » 8.
Ширина интервала равна (6,83 – 6,68)/8 = 0,01875 » 0,02 мм.
Интервальный вариационный ряд представлен в табл.

Таблица Частотный интервальный вариационный ряд диаметров валков.

k

xk , мм

Интервальный ряд может быть наглядно представлен в виде гистограммы частотного распределения.


Рис . Частотное распределение диаметров валков. Сплошная линия – сглаживающая нормальная кривая.

Вид гистограммы позволяет сделать предположение о том, что распределение диаметров валков подчиняется нормальному закону, согласно которому теоретические частоты могут быть найдены как
nk , теор = n ×N (a ; s; xk )×Dxk ,
где, в свою очередь, сглаживающая гауссова кривая нормального распределения определяется выражением:
N (a ; s; xk ) = .
В этих выражениях xk – центры интервалов в частотном интервальном вариационном ряде.

Например, x 1 = (6,68 + 6,70)/2 = 6,69. В качестве оценок центра a и параметра s гауссовой кривой можно принять:
a = x ср.
Из рис. видно, что гауссова кривая нормального распределения в целом соответствует эмпирическому интервальному распределению. Однако следует удостовериться в статистической значимости этого соответствия. Используем для проверки соответствия эмпирического распределения эмпирическому критерий согласия Пирсона c2 . Для этого следует вычислить эмпирическое значение критерия как сумму
= ,
где nk и nk ,теор – эмпирические и теоретические (нормальные) частоты, соответственно. Результаты расчетов удобно представить в табличном виде:
Таблица Вычисления критерия Пирсона


[xk , xk+ 1), мм

xk , мм

nk ,теор

Критическое значение критерия найдем по таблице Пирсона для уровня значимости a = 0,05 и числа степеней свободы d .f . = K – 1 – r , где K = 8 – число интервалов интервального вариационного ряда; r = 2 – число параметров теоретического распределения, оцененных на основании данных выборки (в данном случае, – параметры a и s). Таким образом, d .f . = 5. Критическое значение критерия Пирсона есть крит(a; d .f .) = 11,1. Так как c2эмп < c2крит, заключаем, что согласие между эмпирическим и теоретическим нормальным распределением является статистическим значимым. Иными словами, теоретическое нормальное распределение удовлетворительно описывает эмпирические данные.

Задача3

Коробки с шоколадом упаковываются автоматически. По схеме собственно-случайной бесповторной выборки взято 130 из 2000 упаковок, содержащихся в партии, и получены следующие данные об их весе:

Требуется используя критерий Пирсона при уровне значимости a=0,05 проверить гипотезу о том, что случайная величина X – вес упаковок – распределена по нормальному закону. Построить на одном графике гистограмму эмпирического распределения и соответствующую нормальную кривую.

Решение

1012,5
= 615,3846

Примечание:

В принципе в качестве дисперсии нормального закона распределения следует взять исправленную выборочную дисперсию. Но т.к. количество наблюдений – 130 достаточно велико, то подойдет и “обычная” .
Таким образом, теоретическое нормальное распределение имеет вид:

Интервал

[xi ; xi+1 ]

Эмпирические частоты

ni

Вероятности
pi

Теоретические частоты
npi

(ni-npi)2

При проверке статистических гипотез о соответствии отдельных параметров закона распределения случайных величин предполагалось, что законы распределения этих величин известны. Однако при решении практических задач (особенно экономических) модель закона распределения в общем случае заранее неизвестна, поэтому возникает необходимость выбора модели закона распределения, согласующейся с результатами выборочных наблюдений.

Пусть x 1 , x 2 ,...,x n – выборка наблюдений случайной величины Х с неизвестной непрерывной функцией распределения F(x) . Проверяется гипотеза Н 0 , утверждающая, что Х распределена по закону, имеющему функцию распределения F(x) , равную функции F 0 (x) , т.е. проверяется нулевая гипотеза .

Критерии, с помощью которых проверяется нулевая гипотеза о неизвестном распределении, называются критериями согласия . Рассмотрим критерий согласия Пирсона.

Схема проверки нулевой гипотезы :

1. По выборке x 1 , x 2 ,..., x n строят вариационный ряд; он может быть как дискретным, так и интервальным. Рассмотрим для определенности дискретный вариационный ряд

x i x 1 x 2 ... x k-1 x k
m i m 1 m 2 ... m k-1 m k

2. По данным предыдущих исследований или по предварительным данным делают предположение (принимают гипотезу) о модели закона распределения случайной величины Х .

3. По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предположим, что закон распределения имеет r параметров (например, биномиальный закон имеет один параметр p ; нормальный – два параметра (a 0 , σ x ) и т.д.).

4. Подставляя выборочные оценки значений параметров распределения, находят теоретические значения вероятностей

, i=1, 2,..., k .

5. Рассчитывают теоретические частоты , где .

6. Рассчитывают значение критерия согласия Пирсона

.

Эта величина при стремится к распределению с степенями свободы. Поэтому для рассчетов используют таблицы распределения .

7. Задаваясь уровнем значимости α, находят критическую область (она всегда правосторонняя) ; значение определяют из соотношения . Если численное значение попадает в интервал , то гипотеза отклоняется и принимается альтернативная гипотеза о том, что выбранная модель закона распределения не подтверждается выборочными данными, при этом допускается ошибка, вероятность которой равна α.

Задача 6. Экзаменационный билет по математике содержит 10 заданий. Пусть Х – случайная величина числа задач, решенных абитуриентами на вступительном экзамене. Результаты сдачи экзамена по математике для 300 абитуриентов таковы:



i
x i
m i

Х .

Решение. Для составления гипотезы о модели закона распределения случайной величины Х сделаем следующие предположения:

· вероятность решения задачи не зависит от исхода решения других задач;

· вероятность решить любую отдельно взятую задачу одна и та же и равна p , а вероятность не решить задачу равна q=1-p .

При этих допущениях можно предположить, что Х подчинена биномиальному закону распределения (нулевая гипотеза), т.е. вероятность того, что абитуриент решит x задач, может быть подсчитана по формуле

Найдем оценку параметра p , входящего в модель (1).

Здесь p – это вероятность того, что абитуриент решит задачу. Оценкой вероятности p является относительная частота p * , которая вычисляется по формуле

,

где – среднее число задач, решенных одним абитуриентом;

v – число задач, решаемое каждым абитуриентом.

Тогда оценку для p получим в виде

Подставим значения p * =0,6 и q * =1-0,6=0,4 в выражение (1) и при различных x i получим теоретические вероятности и частоты (табл. 1).

Таблица 1

Номер группы i x i
0,0001 0,03
0,0016 0,48
0,0106 3,18
0,0425 12,75
0,1115 33,45
0,2007 60,21
0,2508 75,24
0,2150 64,50
0,1209 36,27
0,0403 12,09
0,0060 1,80

Из таблицы видно, что для групп 1, 2, 3 и 11 теоретическая частота . Такие группы обычно объединяются с соседними. Значения для групп 1, 2 и 3 можно объединить с . Это представляется естественным, потому что за 0, 1, 2 и 3 решенные задачи на экзамене обычно ставится неудовлетворительная оценка. Объединим так же группу 11 с группой 10 и составим табл. 2.



Таблица 2

Номер группы i
x i 0-3 9-10
m i

По данным табл. 2 рассчитываем величину критерия согласия:

Зададимся уровнем значимости α=0,05, тогда для степеней свободы .

Величина , следовательно, нулевая гипотеза должна быть отвергнута.

Задача 7. Результаты взвешиваний 50 случайным образом отобранных пачек чая приведены ниже (в граммах):

150, 147, 152, 148, 149, 153,. 151, 150,149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152, 150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149, 148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.

Оценить закон распределения случайной величины Х – массы пачки чая – для уровня значимости α=0,05.

Решение. Масса пачки чая – непрерывная случайная величина, но в силу того, что взвешивание проведено с дискретностью 1 г и размах составляет 147÷153 г, непрерывная величина может быть представлена дискретным вариационным рядом:

Таблица 1.

В качестве модели закона распределения выберем нормальный закон , число параметров которого r =2: a 0 математическое ожидание, σ x – среднее квадратичное отклонение.

По выборочным данным получим оценки параметров нормального закона распределения:

;

, s=1,68 .

Для рассчета теоретических частот воспользуемся табличными значениями функции Лапласа Ф(z ). Алгоритм вычисления состоит в следующем:

Находим по нормированным значениям случайной величины Z значения Ф(z ), а затем F N (x ):

, .

Например,

x 1 =147; z 1 =(147–150,14)/1,68= –1,87; Ф(–1,87)= –0,46926; F N (147)=0,03074;

Находим ;

Находим , и если некоторое , то соответствующие группы объединяются.

Результаты вычисления , и приведены в табл. 2.

По таблице находим по схеме: для уровня значимости и числа степеней свободы . Следовательно критическая область .

Величина не входит в критическую область, поэтому гипотеза о том, что случайная величина Х – масса пачки чая – подчинена нормальному закону распределения, согласуется с выборочными данными.

Таблица 2

i x i +x i +1 m i Ф(z i ) F N (x i ) F N (x i+1 ) = F N (x i+1 )– – F N (x i )
–∞÷147 –0,50000 0,00000 0,03074 0,03074 1,537 -
147÷148 –0,46926 0,03074 0,10204 0,07130 3,563 0,237
148÷149 –0,39796 0,10204 0,24825 0,14621 7,31 0,730
149÷150 –0,25175 0,24825 0,46812 0,21987 10,99 0,813
150÷151 –0,03188 0,46812 0,69497 0,22685 11,34 0,010
151÷152 0,19497 0,69497 0,86650 0,17153 8,58 0,683
152÷153 0,36650 0,86650 0,95543 0,08893 4,45 2,794
153÷∞ 0,45543 0,95543 1,00000 0,04457 2,23 -
Σ=50 Σ=1,00000 Σ=5,267

Цель занятий: Привить студентам навыки проверки статистических гипотез. Обратить особое внимание на усвоение понятий, связанных с проверкой гипотез (статистический критерий, ошибки 1 и 2 рода и т.д.). После решения каждой задачи обсудить другие варианты выводов с разными и разными уровнями значимости.

К занятию по данной теме должны быть подготовлены ответы на следующие вопросы:

1. Как изменяются вероятности совершения ошибки первого и второго рода при увеличении объема выборки?

2. Зависят ли вероятности совершения ошибок первого и второго рода от вида альтернативной гипотезы, от применяемого критерия?

3. В чем состоит односторонность действия статистических критериев значимости?

4. Можно ли, применяя статистический критерий значимости, сделать вывод: «Проверяемая нулевая гипотеза верна»?

5. В чем состоит различие между построением двусторонней критической области и построением доверительного интервала для одного и того же параметра?

Задача 1. Были исследованы 200 готовых деталей на отклонение истинного размера от расчетного. Сгруппированные данные исследований приведены в табл.5.

Таблица 5

По данному статистическому ряду построить гистограмму. По виду гистограммы выдвинуть гипотезу о виде закона распределения (например, предложить, что исследуемая величина имеет нормальный закон распределения). Подобрать параметры закона распределения (равные их оценкам на основе опытных данных). На том же графике построить функцию плотности вероятности, соответствующую выдвинутой гипотезе. С помощью критерия согласия проверить, согласуется ли гипотеза с опытными данными. Уровень значимости взять, например, равным 0,05 .

Решение. Для того чтобы получить представление о виде закона распределения изучаемой величины, строим гистограмму. Для этого над каждым интервалом построим прямоугольник, площадь которого численно равна частоте попадания в интервал


(рис.8.)

По виду гистограммы можно выдвинуть предположение о том, что исследуемая величина имеет нормальный закон распределения. Параметры нормального закона распределения (математическое ожидание и дисперсию) оценим на основе опытных данных, считая в качестве представителя каждого интервала его середину:

.

Итак, выдвигаем гипотезу, что исследуемая величина имеет нормальный закон распределения N(5;111,6) , т.е. имеет функцию плотности вероятности

.

График её удобнее строить с помощью таблиц функции

.

Например, точка максимума и точки перегиба имеют ординаты соответственно

Вычислим меру расхождения между выдвинутой гипотезой и опытными данными, т.е. . Для этого сначала вычисляем вероятности, приходящиеся на каждый интервал в соответствии с гипотезой

Аналогично ,

Вычисление удобно вести, оформляя запись следующим образом:

0,069 0,242 0,362 0,242 0,069 13,8 48,4 72,4 48,4 23,8 5,2 -6,4 -1,4 7,5 -1,8 -27,04 40,96 1,96 57,76 3,24 1,96 0,85 0,02 1,19 0,23

Итак, вычислено значение . Построим критическую область для уровня значимости . Число степеней свободы для равно 2 (число интервалов , а на наложено три связи: , и . В результате ). Для заданного уровня значимости и числа степеней свободы находим из таблицы, распределения такое значение , чтобы .

В нашем случае , и критической областью будет интервал [5,99; ¥). Значение в критическую область не входит. Вывод: гипотеза опытным данным не противоречит (что не означает, конечно, что гипотеза верна).

Задача 2. В виде статистического ряда приведены сгруппированные данные о времени безотказной работы 400 приборов:

Согласуются ли эти данные с предположением, что время безотказной работы прибора имеет интегральную функцию распределения ? Уровень значимости взять, например, равным 0,02 .

Решение. Подсчитаем вероятности, приходящиеся в соответствии с гипотезой на интервалы:

p =P(0;

p =P(500

p =P(1000

p = P(1500

Вычисляем c .

n i p i np i n i - np i (n i - np i) 2 (n i -np i) / np i
0,6324 0,2325 0,0852 0,0317 252,96 34,08 12,68 4,04 -15 14,92 3,32 16,32 222,6 11,02 0,06 2,42 6,53 0,87

Число степеней свободы равно трём, так как на 4 величины n наложена только одна связь Sn = n (r =4 -1=3). Для трех степеней свободы и уровня значимости b=0,02 находим из таблицы распределения c критическое значение c =9,84. Значение c =9,88 входит в критическую область. Вывод: гипотеза противоречит опытным данным. Гипотезу отвергаем и вероятность того, что мы при этом ошибаемся, равна 0,02.

Задача 3 . Монету подбросили 50 раз. 32 раза выпал герб. С помощью критерия согласия “хи-квадрат ” проверить, согласуются ли эти данные с предположением, что монета была симметричной.

Решение. Выдвигаем гипотезу, что монета была симметричной, т. е. вероятность выпадания герба равна 1/2 . В нашем опыте герб выпал 32 раза и 18 раз выпала цифра Вычисляем значение c в .

n i p i np i n i - np i (n i - np i) (n i - np i) / np i
1/2 1/2 1,96 1,96

Число степеней свободы для c равно r = 2–1=1 ; так как слагаемых два, а на n наложена одна связь ν + ν =50 .

Для числа степеней свободы r =1 и уровня значимости, например, равного β=0,05 находим из таблицы распределения c , что P(c 3,84)=0,05 , т.е. областью критических значений c при уровне значимости β=0,05 будет интервал [3.84; ). Вычисленное значение c =3,92 попадает в критическую область, гипотеза отвергается. Вероятность того, что мы при этом ошибаемся равна 0,05 .

Задача 4. Изготовитель утверждает что в данной большой партии изделий только 10% изделий низкого сорта.Было отобрано наугад пять изделий и среди них оказалось три изделия низкого сорта. С помощью леммы Неймана-Пирсона построить критерий и проверить гипотезу о том, что процент изделий низкого сорта действительно равен 10 (p =0,1) против альтернативы, что процент не низкосортных изделий больше 10 (p=p >p ). Вероятность ошибки первого рода выбрать »0,01 , т.е. включить в критическую область столько точек, чтобы вероятность отвергнуть проверяемую гипотезу, если она верна, была 0,01 . Эта вероятность назначается приблизительно, чтобы не прибегать к рандомизации, о которой студенты не имеют представления. Если p =0,6 , то какова вероятность ошибки второго рода?

Решение. Согласно гипотезе p 0 =0,1 при альтернативном значении p >p . По лемме Неймана-Пирсона в критическую область следует отнести те значения k , для которых

= >C,

где С - некоторая постоянная,

,

k + (5 -k) ,

.

Так как , то выражение в скобке неотрицательно. Поэтому

Значит в критическую область следует включить те из значений {0,2,1,3,4,5} , которые больше некоторого , зависящего от уровня значимости (от вероятности ошибки первого рода). Для определения в предположении, что гипотеза верна, вычисляем вероятности

Если к критической области отнести значения {3,4,5} , то вероятность ошибки первого рода будет равна

В условиях задачи оказалось, что среди пяти проверенных три бракованных изделия. Значение входит в критическую область. Гипотезу отвергаем в пользу альтернативы и вероятность того, что мы это делаем ошибочно, меньше 0,01 .

Вероятностью ошибки второго рода называется вероятность принять гипотезу, когда она не верна. Гипотеза будет принята при . Если вероятность изготовления бракованного изделия на самом деле равна , то вероятность принять ложную гипотезу равна

Задача 5. Известно, что при тщательном перемешивании теста изюмины распределяются в нём примерно по закону Пуассона, т.е. вероятность наличия в булочке изюмин равна приблизительно , где - среднее число изюмин, приходящееся на булочку. При выпечке булочек с изюмом полагается по стандарту на 1000 булочек 9000 изюмин. Имеется подозрение, что в тесто засыпали изюму меньше, чем полагается по стандарту. Для проверки выбирается одна булочка и пересчитываются изюмины в ней. Построить критерий для проверки гипотезы о том, что против альтернативы . Вероятность ошибки первого рода взять приблизительно 0,02.

Решение. Для проверки гипотезы: против альтернативы по лемме Неймана-Пирсона в критическую область следует включить те значения для которых

где - некоторая постоянная.

Тогдаn 1 Н 1 , так как ее справедливость означает эффективность применения новой технологии).

Фактическое значение статистики критерия

.

При конкурирующей гипотезе Н 1 критическое значение статистики находится из условия , т.е. , откуда t кр =t 0,95 =1,96 .

Так как фактически наблюдаемое значение t =4,00 больше критического значения t кр (при любой из взятых конкурирующих гипотез), то гипотеза Н 0 отвергается, т.е. на 5%-ом уровне значимости можно сделать вывод, что новая технология позволяет повысить среднюю выработку рабочих.

Задача 2. Произведены две выборки урожая пшеницы: при своевременной уборке урожая и уборке с некоторым опазданием. В первом случае при наблюдении 8 участков выборочная средняя урожайность составила 16,2 ц/га, а среднее квадратическое отклонение – 3,2 ц/га; во втором случае при наблюдении 9 участков те же характеристики равнялись соответственно 13,9 ц/га и 2,1 ц/га. На уровне значимости α=0,05 выяснисть влияние своевременой уборки урожая на среднее значение урожайности.

Решение. Проверяемая гипотеза , т.е. средние значения урожайности при своевременной уборке урожая и с некоторым опозданием равны. В качестве альтернативной гипотезы берем гипотезу , принятие которой означает существенное влияние на урожайность сроков уборки.

Фактически наблюдаемое значение статистики критерия

.

Критическое значение статистики для односторонней области определяется при числе степеней свободы l=n 1 +n 2 -2=9+8-2= =15 из условия θ(t,l )=1–2·0,05=0,9, откуда по таблице t -распределения (Приложение 6) находим, t кр =1,75. Так как , то гипотеза Н 0 принимается. Это означает, что имеющиеся выборочные данные на 5%-ом уровне значимости не позволяют считать, что некоторое запаздывание в сроках уборки оказывает существенное влияние на величину урожая. Еще раз подчеркнем, что это не означает безоговорочную верность гипотезы Н 0 . Вполне возможно, что только незначительный объем выборки позволил принять эту гипотезу, а при увеличении объемов выборки (числа отобранных участков) гипотеза Н 0 будет отвергнута.

Задача 3. Имеются следующие данные об урожайности пшеницы на 8 опытных участках одинакового размера (ц/га): 26,5; 26,2; 35,9; 30,1; 32,3; 29,3; 26,1; 25,0. Есть основание предполагать, что значение урожайности третьего участка x * =35,9 зарегистрировано неверно. Является ли это значение аномальным (резко выделяющимся) на 5%-ном уровне значимости?

Решение. Исключив значение x * =35,9, найдем для оставшихся наблюдений и . Фактически наблюдаемое значение больше табличного , следовательно, значение x * =35,9 является аномальным, и его следует отбросить.

Задача 4. На двух токарных станках обрабатываются втулки. Отобраны две пробы: из втулок, сделанных на первом станке n 1 =15 шт., на втором станке – n 2 =18 шт. По данным этих выборок рассчитаны выборочные дисперсии (для первого станка) и (для второго станка). Полагая, что размеры втулок подчиняются нормальному закону распределения, на уровне значимости α=0,05 выяснить, можно ли считать, что станки обладают различной точностью.

Решение. Имеем нулевую гипотезу , т.е. дисперсии размера втулок, обрабатываемых на каждом станке, равны. Возьмем в качестве конкурирующей гипотезу (дисперсия больше для первого станка).

.

По таблице P .

Решение. Проверяемая гипотеза . В качестве альтернативной возьмем гипотезу . Так как генеральная дисперсия σ 2 неизвестна, то используем t -критерий Стьюдента. Статистика критерия равна . Критическое значение статистики t кр =1,83.

Так как |t |>t кр (2,25>1,83), то гипотеза Н 0 отвергается, т.е. на 5%-ном уровне значимости сделанный прогноз должен быть отвергнут.

Задача 6. Для эмпирического распределени



Предыдущая статья: Следующая статья: