Критические значения критерия ирвина таблица. Краткие теоретические сведения

При относительном скольжении деталей пар трения происходит повреждение контактирующих поверхностей. Этот вид повреждения поверхностных объемов детали называют износом. Потеря всего одной тысячной массы машины в результате изнашивания приводит к полной утрате работоспособности. Каждые три года...
(Механика. Основы расчёта и проектирования деталей машин)

КРИТЕРИИ УСТОЙЧИВОСТИ СИСТЕМ И МЕТОДЫ ОПРЕДЕЛЕНИЯ КРИТИЧЕСКИХ НАГРУЗОК

Известны три основных критерия устойчивости сооружений: динамический, статический и энергетический, которые определяют и методику расчета сооружений на устойчивость. 1. Динамический (по Ляпунову) критерий основан на исследовании решений уравнений динамического движения отклоненной от начального...
(Строительная механика плоских стержневых систем)

КРИТЕРИИ ВЫБОРА КАНАЛОВ РАСПРОСТРАНЕНИЯ РЕКЛАМЫ

Среди всех решений, которые принимаются в процессе планирования, наиболее важным является выбор конкретных медианосителей внутри каждого медиа. Как правило, медиапланеры стремятся выбирать те носители, которые позволяют добиться следующих целей: 1) добиться заданной частоты предъявления рекламного сообщения...
(Психология массовых коммуникаций)

Корреляционно-регрессионный анализ

Корреляция и регрессия относятся к методам выявления статистической зависимости между исследуемыми переменными. “На основе анализа эмпирических данных, собранных в ходе проведения исследования, описывается не только сам факт существования статистической зависимости, но и математическая формула функции...
(Маркетинговые исследования)

КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ МЕТОД ИССЛЕДОВАНИЯ

Одним из методов моделирования экономических процессов является корреляционно-регрессионный метод исследования. Моделирование представляет собой процесс выражения сложных взаимосвязанных экономических явлений средствами математических формул и символов. Сочетание качественного анализа с применением математических...
(Общая и прикладная статистика)

КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ

Статистическое исследование экономических и технологических процессов в настоящее время является одним из важнейших инструментов при разработке систем управления процессами. Знание связей между параметрами позволяет выделить ключевые факторы, влияющие на качество готовой продукции или на исследуемые...
(Математика и экономико-математические модели)

Используется для оценки сомнительных значений выборки на грубые ошибки. Порядок его применения следующий.

Находят расчётное значение критерия λ расч = (|х к - х к пред |)/σ ,

где х к – сомнительное значение, х к пред – предыдущее значение в вариационном ряду, если х к оценивается от максимальных значений вариационного ряда, или последующее, если х к оценивается от минимальных значений вариационного ряда (Ирвин использовал в общем случае термин «первое значение»); σ – генеральное среднеквадратическое отклонение (СКО) непрерывной нормально распределённой случайной величины.

Если λ расч > λ табл , х к – грубая ошибка. Здесь λ табл – табличное значение (процентная точка) критерия Ирвина.

Возникающие при этом вопросы описаны на странице . В частности, в статье-первоисточнике табличные значения критерия рассчитаны для нормально распределенной случайной величины при известном генеральном среднеквадратическом отклонении (СКО) σ . Поскольку σ чаще всего неизвестно, Ирвином предложено использовать в расчётах вместо σ выборочное СКО s, определяемое по формуле

где n – объём выборки, х i – элементы выборки, х ср – среднее значение выборки.

Такой подход обычно и используется на практике. Однако приемлемость использования выборочного СКО, и при этом процентных точек для генерального СКО, не подтверждена.

В данной статье приведены табличные значения (процентные точки) критерия Ирвина, рассчитанные методом статистического компьютерного моделирования при использовании выборочного СКО для максимального значения вариационного ряда при стандартном нормальном распределении случайной величины (при других параметрах нормального распределения, а также для минимального значения вариационного ряда получаются такие же результаты). Для каждого объёма выборки n моделировали 10 6 выборок. Как показали предварительные расчёты, при параллельных определениях различия в значениях процентной точки могут достигать 0,003. Поскольку значения округляли до 0,01, в сомнительных случаях проводили от 2 до 4 параллельных определений.

Кроме того, по данным рассчитали табличные значения критерия Ирвина для известного генерального СКО и сопоставили их с приведёнными в .

Поскольку при практическом применении критерия Ирвина нередко возникают определённые затруднения из-за отсутствия в литературных источниках табличных значений критерия при некоторых объёмах выборок, были рассчитаны тем же методом статистического компьютерного моделирования некоторые из отсутствующих в табличных значений.

Ясно, что при объёме выборки 2 применение критерия с использованием выборочного СКО не имеет смысла. Это подтверждается тем, что упрощение выражения для расчётного значения критерия при выборочном СКО даёт квадратный корень из двух, что наглядно показывает бессмысленность применения критерия при объёме выборки 2 и выборочном СКО.

Полученные результаты приведены в табл. 1.

Таблица 1 - Табличные значения критерия Ирвина для крайних элементов вариационного ряда.

Объём выборки	По генеральному СКО			По выборочному СКО
	Уровень значимости
	0,1	0,05	0,01	0,1	0,05	0,01
2	2,33*	2,77*	3,64*	-	-	-
3	1,79*	2,17*	2,90*	1,62	1,68	1,72
4	1,58	1,92	2,60	1,55	1,70	1,88
5	1,45	1,77	2,43	1,45	1,64	1,93/
6	1,37	1,67	2,30	1,38	1,60	1,94
7	1,31	1,60	2,22	1,32	1,55	1,93
8	1,26	1,55	2,14	1,27	1,51	1,92
9	1,22	1,50	2,09	1,23	1,47	1,90
10	1,18*	1,46*	2,04*	1,20	1,44	1,88
11	1,15	1,43	2,00	1,17	1,42	1,87
12	1,13	1,40	1,97	1,15	1,39	1,85
13	1,11	1,38	1,94	1,13	1,37	1,83
14	1,09	1,36	1,91	1,11	1,35	1,82
15	1,08	1,34	1,89	1,09	1,33	1,80
20	1,03*	1,27*	1,80*	1,03	1,27	1,75
25	0,99	1,23	1,74	0,99	1,22	1,70
30	0,96*	1,20*	1,70*	0,96	1,19	1,66
35	0,93	1,17	1,66	0,94	1,16	1,63
40	0,91*	1,15*	1,63*	0,92	1,14	1,61
45	0,89	1,13	1,61	0,90	1,12	1,59
50	0,88*	1,11*	1,59*	0,89	1,10	1,57
60	0,86*	1,08*	1,56*	0,87	1,08	1,54
70	0,84*	1,06*	1,53*	0,85	1,06	1,52
80	0,83*	1,04*	1,51*	0,83	1,04	1,50
90	0,82*	1,03*	1,49*	0,82	1,03	1,48
100	0,81*	1,02*	1,47*	0,81	1,02	1,46
200	0,75*	0,95*	1,38*	0,75	0,95	1,38
300	0,72*	0,91*	1,33*	0,72	0,91	1,33
500	0,69*	0,88*	1,28*	0,69	0,88	1,28
1000	0,65*	0,83*	1,22*	0,65	0,83	1,22

Примечание: значения, помеченные звёздочкой, рассчитаны по данным и при необходимости уточнены при статистическом компьютерном моделировании. Остальные значения рассчитаны при статистическом компьютерном моделировании.

Если сравнить процентные точки для известного генерального СКО, приведённые в табл. 1, с соответствующими процентными точками, приведёнными в , то они в нескольких случаях различаются на 0,01, и в одном случае на 0,02. Видимо, приведённые в данной статье процентные точки более точны, поскольку в сомнительных случаях они проверялись статистическим компьютерным моделированием.

Из табл.1 видно, что процентные точки критерия Ирвина при использовании выборочного СКО при сравнительно небольших объёмах выборки заметно отличаются от процентных точек при использовании генерального СКО. Только при значительных объёмах выборки, примерно около 40, процентные точки становятся близки. Таким образом, при использовании критерия Ирвина следует пользоваться процентными точками, приведёнными в табл. 1, с учётом того, получено расчётное значение критерия по генеральному или по выборочному СКО.

ЛИТЕРАТУРА

1. Irvin J.O. On a criterion for the rejection of outlying observation //Biometrika.1925. V. 17. P. 238 – 250.

2. Кобзарь А.И. Прикладная математическая статистика. – М.: ФИЗМАТЛИТ, 2006. – 816с. © В.В. Заляжных
При использовании материалов ставьте ссылку.

Метод Ирвина используется для выявления аномальных значений уровней временного ряда. Под аномальным уровнем понимается отдельное значение уровней временного ряда, которое не отвечает потенциальным возможностям исследуемой экономической системы и которое, оставаясь в качестве уровня ряда, оказывает существенное влияние на значение основных характеристик временного ряда.

Причинами аномальных явлений могут быть ошибки технического порядка, или ошибки первого рода, они подлежат выявлению и устранению.

Кроме того, аномальные уровни во временных рядах могут возникать из-за воздействия факторов, имеющих объективный характер, но проявляющихся эпизодически. Их относят к ошибкам второго рода, которые не подлежат устранению.

Для выявления аномальных наблюдений может быть использован метод Ирвина. В этом случае вычисляется коэффициент λ t , равный:

,
,
.

Расчетные значения λ 2 , λ 3 ,... сравниваются с табличными значениями критерия Ирвина λ α . Если оказывается, что расчетное значение λ t больше табличного λ α , то соответствующее значение y t уровня ряда считается аномальным.

После выявления аномальных значений уровней ряда обязательно определение причин их возникновения. Если точно установлено, что они вызваны ошибками первого рода, то они устраняются обычно заменой средней арифметической двух соседних уровней ряда, либо заменой значением соответствующей трендовой кривой.

При проверке наличия аномальных колебаний с использованием метода Ирвина, получили следующие расчетные значения коэффициента λ t:

Таблица №13

Сравнивая найденные значения коэффициента λ t с табличным значением λ α , равным 1,3 для уровня значимости α = 0,05 и при n = 20 (число уровней временного ряда), получаем, что отдельные значения уровней ряда превосходят значение λ α , следовательно делаем вывод о том, что в данной модели присутствуют аномальные колебания, вызванные ошибками второго рода, которые устранению не подлежат.

Глава 8. Определение оптимального вида линии тренда. Прогноз показателей

Под трендом понимается изменение, определяющее общее направление развития, основную тенденцию временного ряда.

Для выбора линии тренда, наилучшим образом отражающей общее направление процесса развития ставки рефинансирования Центрального Банка, уровня безработицы и инфляции, необходимо построить несколько линий тренда и выбрать ту из них, которая лучше отражает динамику развития того или иного процесса.

Для построения линий тренда необходимо использовать возможности ТР Excel, применив команду "Диаграмма" - "Добавить линию тренда". В диалоговом окне "Линия тренда" на вкладке "Тип" необходимо выбрать требуемый тип линии тренда и указать степень полинома. На вкладке "Параметры" необходимо установить переключатель "Показывать уравнение на диаграмме", "Поместить на диаграмму величину достоверности аппроксимации".

После построения линий тренда, следует выбрать ту, которая наилучшим образом отражает динамику изменения того или иного процесса во времени.

Затем следует сделать прогноз значений на 3 периода вперед, используя выбранный тренд. Тренд, по которому необходимо сделать прогноз выбирается исходя из величины достоверности аппроксимации.

Для того чтобы сделать прогноз также необходимо воспользоваться возможностями ТР Excel. В данном случае необходимо в диалоговом окне "Линия тренда" на вкладке "Параметры" указать, на сколько периодов вперед необходимо сделать прогноз.

Данный прогноз позволяет определить, как через определенный промежуток времени изменится изучаемый показатель при неизменности остальных показателей.

После построения линии тренда для показателя ставки рефинансирования Центрального Банка, в качестве оптимальной линии тренда была выбрана линия тренда 2, которой соответствует уравнение:

Y = -0.0089х 3 +0ю3152х 2 -3.5642х+37.014; R 2 = 0.8048

Для показателя уровня безработицы в качестве оптимальной линии тренда была выбрана линия тренда 1, которой соответствует уравнение:

Y = -6E-06x 4 +0.0003x 3 -0.0038x 2 +0.0187x+0.0291; R 2 = 0.8771

Для показателя уровня инфляции в качестве оптимальной линии тренда была выбрана линия тренда 2, которой соответствует уравнение:

Y = -0.0064x 3 +0.2186x 2 -2.3701x+14.603; R 2 = 0.7703

Прогнозы, сделанные по выбранным линиям тренда дают наиболее точную характеристику повеления показателей в будущем.

z 1 прогнозное
z 2 прогнозное
y прогнозное
t прогнозное

Подставляя полученные прогнозные значения в ранее рассчитанное уравнение регрессии,

получаем у = 13,12990776.

Грубые погрешности (промахи) относятся к числу погрешностей, изменяющимся случайным образом при повторных наблюдениях. Они явно превышают по своему значению погрешности, оправданные условиями проведения эксперимента. Под промахом понимается значение погрешности, отклонение которого от центра распределения существенно превышает значение, оправданное объективными условиями измерения. Поэтому с точки зрения теории вероятности появление промаха маловероятно.

Причинами грубых погрешностей могут быть неконтролируемые изменения условий измерений, неисправность, ошибки оператора и др.

Для исключения грубых погрешностей применяют аппарат проверки статистических гипотез.

В метрологии используются статистические гипотезы, под которыми понимают гипотезы о виде неизвестного распределения, или о параметрах известных распределений.

Примеры статистических гипотез:

· рассматриваемая выборка (или ее отдельный результат) принадлежит генеральной совокупности;

· генеральная совокупность распределена по нормальному закону;

· дисперсии двух нормальных совокупностей равны между собой.

В первых двух гипотезах сделано предположение о виде неизвестного распределения и принадлежности отдельных (подозрительных) результатов данному виду распределения, а в третьей - о параметрах двух известных распределений. Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Нулевой (основной) называют выдвинутую гипотезу. А конкурирующей (альтернативной) называют ту, которая противоречит нулевой.

При выдвижении и принятии гипотезы могут иметь место следующие четыре случая:

· гипотеза принимается, причем и в действительности она правильная;

· гипотеза верна, но ошибочно отвергается. Возникающую при этом ошибку называют ошибкой первого рода, а вероятность ее появления называют уровнем значимости и обозначают q (α );

· гипотеза отвергается, причем в действительности она неверна;

· гипотеза неверна, но ошибочно принимается. Возникающую при этом ошибку называют ошибкой второго рода, а вероятность ее появления обозначают β .

Величину 1 - β, т. е. вероятность, что гипотеза будет отвергнута, когда она ошибочна, называют мощностью критерия .

Следует заметить, что в нормативной документации по статистическому контролю качества продукции и учебниках по управлению качеством вероятность признать негодной партию годных изделий (т. е., совершить ошибку первого рода) называют “риском производителя”, а вероятность принять негодную партию - “риском потребителя”.

Все статистические критерии являются случайными величинами, принимающими определенные значения (таблицы критических значений). Областью принятия гипотезы (областью допустимых значений) называют совокупность значения критерия, при которых гипотезу принимают. Критической называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Область принятия гипотезы и критическая область разделены критическими точками, в качестве которых и выступают табличные значения критериев.

Область непринятия гипотезы, как показано на рисунке 1, может быть односторонней (правосторонней или левосторонней) и двух сторонней.

Правосторонней

K набл > k кр , где k кр - положительное число (рисунок 1, а).

Левосторонней называют критическую область, определяемую неравенством

K набл < k кр, где k кр - отрицательное число (рисунок 1, б).

Двусторонней называют критическую область, определяемую неравенствами

K набл > k 1 ; K набл 2 , где k 2 >k 1 .

Если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами: K набл <-k кр, K набл >k кр, или равносильным неравенством \K набл \>k кр (рисунок 1, в).

Рисунок 1 - Графическая интерпретация к распределению области принятия гипотезы

Основной принцип проверки статистических гипотез формулируется следующим образом: если наблюдаемое (опытное) значение критерия принадлежит критической области - гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы - гипотезу принимают.

Проверку статистической гипотезы проводят для принятого уровня значимости q (принимается равным 0,1; 0,05; 0,01 и т. д.). Так принятыйуровень значимости q = 0,05 означает, что выдвинутая нулеваястатистическая гипотеза может быть принята с доверительной вероятностью P = 0,95. Или есть вероятность отвергнуть эту гипотезу (совершить ошибку первого рода), равная P = 0,95.

Нулевая статистическая гипотеза подтверждает принадлежность проверяемого “подозрительного” результата измерения (наблюдения) данной группе измерений.

Формальным критерием аномальности результата наблюдений (а, следовательно, и основанием для принятия конкурирующей гипотезы: “подозрительный” результат не принадлежит данной группе измерений) при этом служит граница, отнесенная от центра распределения на величину tS , т. е.:

(1)

где x iпод – результат наблюдения, проверяемый на наличие грубой погрешности; t – коэффициент, зависящий от вида и закона распределения, объема выборки, уровня значимости; S - СКО.

Таким образом, границы погрешности зависят от вида распределения, объема выборки и выбранной доверительной вероятности.

При обработке уже имеющихся результатов наблюдений произвольно отбрасывать отдельные результаты не следует, так как это может привести к фиктивному повышению точности результата измерений. Группа измерений (выборка) может содержать несколько грубых погрешностей и их исключение производят последовательно, по одному.

Все методы исключения грубых погрешностей (промахов) могут быть разделены на два основных типа :

· методы исключения при известном генеральном СКО;

· методы исключения при неизвестном генеральном СКО.

В первом случае X ц . р . и СКО вычисляется по результатам всей выборки, во втором случае из выборки перед вычислением удаляются подозрительные результаты.

В случае ограниченного числа наблюдений и (или) сложности оценки параметров закона распределения рекомендуется исключать грубые погрешности, используя приближенные коэффициенты вида распределения. При этом исключаются значения x i < x r - и x i > x r + , где x r - , x r + – границы промахов, определяемые выражениями:

(2),(3)

где A – коэффициент, значение которого выбирается в зависимости от заданной доверительной вероятности в диапазоне от 0,85 до 1,30 (рекомендуется выбирать максимальное значение А равное 1,3); γ – контрэксцесс, значение которого зависит от формы закона распределения величины (ЗРВ).

После исключения промахов операции по определению оценок центра распределения и СКО результатов наблюдений и измерений необходимо повторить.

Поскольку на практике чаще встречаются измерения при неизвестном СКО (ограниченное число наблюдений), в пособии рассмотрены следующие критерии проверки подозрительных (с точки зрения погрешностей) результатов наблюдений: Ирвина, Романовского, вариационного размаха, Диксона, Смирнова, Шовене.

Поскольку критериальные требования (коэффициенты), определяющие границу, за которой находятся “грубые” (в смысле погрешностей) результаты наблюдений у разных авторов различны, то проверку следует выполнять сразу по нескольким критериям (рекомендуется использовать не меньше трех, из рассматриваемых ниже). Окончательное заключение о принадлежности “подозрительных” результатов рассматриваемой совокупности наблюдений следует делать по большинству критериев. Кроме этого выбор критерия для определения грубых погрешностей должен выполняться после построения гистограммы результатов наблюдений. По виду гистограммы выполняется предварительная идентификация вида закона распределения (нормальный, близкий к нормальному или отличный от него).

Критерий Ирвина. Для полученных экспериментальных данных определяют коэффициент по формуле:

(4)

где х n + 1, x n – наибольшие значения случайной величины; S – среднее квадратическое отклонение, вычисленное по всем значениям выборки.

Затем этот коэффициент сравнивается с табличным значением λ q , возможные значения которого приведены в таблице 1.

Таблица 1 - Критерий Ирвина λ q .

Если λ >λ q , то нулевая гипотеза не подтверждается, т. е. результат ошибочный, и он должен быть исключен при дальнейшей обработке результатов наблюдений.

Критерий Романовского. Конкурирующая гипотеза о наличии грубых погрешностей в подозрительных результатах подтверждается, если выполняется неравенство:

(5)

где t p - квантиль распределения Стьюдента при заданной доверительной вероятности с числом степеней свободы k = п -k п (k n - число подозрительных результатов наблюдений). Фрагмент квантилей для распределения Стьюдента представлен в таблице 2.

Точечные оценки распределения и СКО S результатов

наблюдений вычисляется без учета k n подозрительных результатов наблюдений.

Таблица 2 - Критерий Стьюдента t p (квантили Стьюдента)

Критерий вариационного размаха. Является одним из простых методов исключения грубой погрешности измерений (промаха). Для его использования определяют размах вариационного ряда упорядоченной совокупности наблюдений (x 1 ≤x 2 ≤...≤x k ≤...≤x n):

Если какой-либо член вариационного ряда, например x k , резко отличается от всех других, то производят проверку, используя следующее неравенство:

(7)

где X - выборочное среднее арифметическое значение, вычисленное после исключения предполагаемого промаха; z - критериальное значение.

Нулевую гипотезу (об отсутствии грубой погрешности) принимают, если указанное неравенство выполняется. Если x k не удовлетворяет условию (7), то этот результат исключают из вариационного ряда.

Коэффициент z зависит от числа членов вариационного ряда n ,что представлено в таблице 3.

Таблица 3 - Критерий вариационного размаха

Критерий Диксона. Критерий основан на предположении, что погрешности измерений подчиняются нормальному закону (предварительно необходимо построение гистограммы результатов наблюдений) и проверка гипотезы о принадлежности нормальному закону распределения. При использовании критерия вычисляют коэффициент Диксона (наблюдаемое значение критерия) для проверки наибольшего или наименьшего экстремального значения в зависимости от числа измерений. В таблице 4 приведены формулы для вычисления коэффициентов. Коэффициенты r 10 , r 11 применяют, когда имеется один выброс, а r 21 и r 22 - когда два выброса. Требуется первоначальное упорядочение результатов измерений (объема выборки). Критерий применяется, когда выборка может содержать более одной грубой погрешности.

Таблица 4 – Формулы коэффициентов Диксона

Вычисленные для выборки по формулам значения коэффициентов Диксона r сравнивают с принятым (табличным) значением критерия Диксона r q (таблица 5).

Нулевая гипотеза об отсутствии грубой погрешности выполняется, если выполняется неравенство r < r q .

Если r > r q , то результат признается грубой погрешностью и

исключается из дальнейшей обработки.

Таблица 5 – Критериальные значения коэффициентов Диксона (при принятом уровне

значимости q )

Критерии Райта. Критерий “правило трех сигм” является одним из простейших для проверки результатов, подчиняющихся нормальному закону распределения. Сущность правила трех сигм: если случайная величина распределена нормально, то абсолютная величина ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения.

На практике правило трех сигм применяют так: если распределение изучаемой случайной величины неизвестно, но условие, указанное в приведенном правиле, выполняется, то есть основания предполагать, что изучаемая величина распределена нормально; в противном случае она не распределена нормально. С этой целью для выборки (включая подозрительный результат) вычисляется центр распределения и оценка СКО результата наблюдений. Результат, который удовлетворяет условию

,

считается имеющим грубую погрешность и удаляется, а ранее вычисленные характеристики распределения уточняются.

Этому критерию аналогичен критерий Райта , основанный на том, что если остаточная погрешность больше четырех сигм, то этот результат измерения является грубой погрешностью и должен быть исключен при дальнейшей обработке. Оба критерия надежны при числе измерений больше 20…50. Их правомочно применять, когда известна величина генерального среднеквадратического отклонения (S ).

Может оказаться, что при новых значениях и S другие результаты попадут в категорию аномальных.

Критерий Смирнова. Критерий Смирнова используется при объемах выборки п ≥ 25 или при известных значениях генеральных среднего и СКО . Он устанавливает менее жесткие границы грубой погрешности. Для реализации этого критерия вычисляются действительные значения квантилей распределения (наблюдаемое значение критерия) по формуле:

(8)

Найденное значение сравнивается с критериальным β k , приведенным в таблице6

Таблица 6 – Квантили распределения β k

Критерий Шовене. Критерий Шовене применяется для законов, не противоречащих нормальному, и строится на определении числа ожидаемых результатов наблюдений n ож , которые имеют столь же большие погрешности, как и подозрительный. Гипотеза о наличии грубой погрешности принимается, если выполняется условие:

Порядок проверки гипотезы следующий:

1) вычисляются среднее арифметическое и СКО S результатов наблюдений для всей выборки;

2) из таблицы нормированного нормального распределения (Приложение 1 – интегральная функция нормированного нормального распределения) по величине

определяется вероятность появления подозрительного результата в генеральной совокупности чисел n :

(9)

3) число ожидаемых результатов п ож определяется по формуле:

Указанные выше критерии во многих случаях оказываются “жесткими”. Тогда рекомендуется пользоваться критерием грубой погрешности «k» , зависящим от объема выборки п и принятой доверительной вероятности Р.

Таблица 7 - Зависимость критерия грубой погрешности k от объема выборки п

и доверительной вероятности Р

Для распределений, отличных от нормального, таких классов, как двух модальных кругловершинных композиций нормального и дискретного распределения c эксцессом ε = 1,5 - 3,0; островершинных двумодальных; композиций дискретного двузначного распределения и распределения Лапласа с эксцессом ε = 1,5 - 6,0; композиций равномерного распределения с экспоненциальным распределением эксцесса ε = 1,8-6,0 и классом экспоненциальных распределений в пределах изменения эксцесса ε = 1,8-6,0 граница грубой погрешности определяется величиной ± (t гр . σ ) или ±(t гр . S ), где:

(11)

где γ - контрэксцесс;

(12)

Погрешности в определении оценок S СКО и t sp являются отрицательно коррелированными, т. е. возрастание СКО S сопровождается уменьшением t zp . Поэтому определение границ грубой погрешности для законов, отличных от нормального, с эксцессом ε < 6 с помощью критерия t zp является достаточно точным и может широко использоваться на практике.

Оценки , S и ε должны вычисляться после исключения подозрительных результатов из выборки. После расчета границ грубой погрешности результаты наблюдений, оказавшиеся внутри границ, возвращаются, а ранее найденные характеристики распределения уточняются.

Для равномерного распределения за границы грубой погрешности можно принять величину ±1,8 . S.

Рассмотрим пример применения критериев для исключения грубых погрешностей при измерении скорости ударной волны. Получены результаты, представленные в таблице 8.

Таблица 8 - Результаты наблюдений

Требуется определить, не содержит ли результат наблюдения V =3,50 км/с грубую погрешность.

Для графического определения вида закона распределения построим гистограмму. При построении разбиение на интервалы осуществляем таким образом, чтобы измеренные значения оказались серединами интервалов, что показано на рисунке 2.

3
1 Технический институт (филиал) ФГАОУ ВПО "Северо-Восточный федеральный университет имени М.К. Аммосова"
2 Институт тектоники и геофизики им. Ю.А. Косыгина ДВО РАН
3 Академия наук Республики Саха (Якутия)

Приведены результаты численного моделирования выявления аномальных (пиковых) уровней положительно определенного временного ряда методом Ирвина. Для моделирования использован ряд числовых данных в виде отдельных пиковых значений, осложненных случайной помехой и синусоидальным сигналом. В рамках аддитивной модели исходного ряда задача разделения нормального и аномального уровней методом Ирвина успешно решается в случаях отдельных импульсов. Однако, даже в этом случае, следующий за пиковым значением член ряда с фоновым уровнем интерпретируется как аномальный. В задачах автоматизированной обработки данных ряды пиков осложняются пропорциональным количеством значений фоновых компонент. Для тех случаев, когда количество пиков превышает 50% от общего количества значений ряда и тем более для подряд стоящих пиков сформированный ряд фоновых данных осложняется пиковой компонентой за счет увеличения дисперсии. В результате численного моделирования была разработана методика в виде модифицированного метода Ирвина для адекватного выделения аномальных уровней ряда. Данная задача актуальна для систем электромагнитного мониторинга грозовых разрядов и поиска различных источников электромагнитного излучения тектонической природы.

электромагнитное излучение
разделение уровней ряда
модификация метода Ирвина
метод Ирвина
аномальные уровни ряда
временные ряды

1. Калинина В. Н., Панкин В. Ф. Математическая статистика. – М.: Высшая школа, 2001. – 336 с.
2. Трофименко С.В. Методы и примеры статистических оценок временных рядов //Международный журнал экспериментального образования", №9, 2013.-С.41-42.
3. Трофименко С.В. Проявление землетрясений на фоне стационарного сейсмического процесса Олекмо-Становой зоны (ОСЗ) Горный информационно-аналитический бюллетень (научно-технический журнал). 2007. Т. 17. №1. С. 208-213.
4. Трофименко С.В. Геофизические поля и сейсмичность Южной Якутии //Горный информационно-аналитический бюллетень (научно-технический журнал). 2007. Т. 17. №1. С. 188-196.
5. Трофименко С.В Детальные геолого-геофизические исследования зон активных разломов и сейсмическая опасность Южно-Якутского региона /А.Н. Овсюченко, Трофименко С.В., Мараханов А.В., П.С., Карасев, Е.А. Рогожин, В.С. Имаев, В. М. Никитин, Н.Н.Гриб // Тихоокеанская геология, 2009. – том 28. – №4. – С. 55-74.
6. Трофименко С.В. Очаговые зоны сильных землетрясений Южной Якутии /Овсюченко А.Н., Трофименко С.В., Мараханов А.В., П.С., Карасев, Е.А. Рогожин, В.С. //Физика Земли. 2009. №2. С. 15-33.
7. Трофименко С.В. Сейсмотектоника переходной области от Байкальской рифтовой зоны к орогенному поднятию Станового хребта /А.Н.Овсюченко, Трофименко С.В., Мараханов А.В., П.С., Карасев, Е.А. Рогожин, В.С. //Геотектоника, 2010, № 1, с. 29-51.
8. Трофименко С.В. Тектоническая интерпретация статистической модели распределений азимутов аномалий гравимагнитных полей Алданского щита. – Тихоокеанская геология. – 2010. – Том 29. – №3. – С. 64-77.
9. Трофименко С.В. Активные нектонические нарушения участка Алдан-Нагорный нефтепроводной системы Восточная Сибирь – Тихий океан /Карасев П.С., Овсюченко А.Н., Мараханов А.В., Трофименко С.В. // Нефтяное хозяйство. – 2008. – № 9. –С. 80-84.

Геофизический мониторинг атмосферных источников электромагнитного излучения, разработанный для регистрации и контроля движения грозовых разрядов, может быть использован для дистанционного отслеживания геодинамических процессов в земной коре , связанных с формирующимися очагами землетрясений и активными разломами земной коры . Важным вопросом при интерпретации аномалий электромагнитного излучения (ЭМИ) является разделение аномалий по типу источника излучения, что детально исследовано в работе .

Суммарный сигнал ЭМИ, можно представить в виде:

где и импульсная аномальная (пики) и фоновые составляющие сигнала, - случайный компонент. Причем, априори, функция источника сигнала не известна, т.е. для неё не известен тип модели, определяемой по (1).

В линейной теории электромагнитных волн принята аддитивная модель исходного ряда наблюдений ЭМИ на основе принципа суперпозиции. Если временной ряд представляется в виде суммы соответствующих компонент, то полученная модель носит название аддитивной и имеет вид (без учета тренда и сезонной компоненты):

, (2)

где - уровни временного ряда.

В данной работе представлены результаты имитационного моделирования разделения полей ЭМИ на основе статистического анализа временного ряда наблюдений, отражающих реальное состояние геофизической среды.

На рис. 1,2 показаны результаты наблюдений сигналов ЭМИ в периоды слабо возмущенного (рис. 1) и возмущенного (рис. 2) состояния геофизической среды. Качественно выделить фоновую составляющую в возмущенный день весьма проблематично.

Для отработки технологии разделения полей ЭМИ на фоновую и импульсную составляющие в модели (2) был создан имитационный файл в среде электронных таблиц Excel. Совокупный ряд исходных данных (2) был составлен из суммы рядов пиковых значений , количество импульсов которых можно задавать произвольно и фоновой компоненты ряда в виде суммы периодической синусоидальной и случайной компонент ряда (рис.3). Суммарный ряд подвергался алгоритму выделения импульсов по методу Ирвина (метод пиков), который используется в практике статистического анализа временных рядов с целью выделения аномальных уровней ряда.

Рис. 1. Исходный ряд значений амплитуд сигналов ЭМИ в слабо возмущенный день 04.01.2013.

Рис. 2. Исходный ряд значений амплитуд сигналов ЭМИ в сильно возмущенный день 13.01.2013.

Рис. 3. Компоненты модельного ряда для имитации сигналов ЭМИ

Пусть имеется временной ряд . Метод Ирвина предполагает использование соотношения

где - стандартное отклонение, - среднее значение амплитуд, для оценки аномального приращения амплитуды последующего члена ряда в предположении, что предыдущий член ряда относится к фоновой составляющей сигнала . Расчетные значения сравниваются с табличными значениями критерия Ирвина ; если какое-либо из них оказывается больше табличного , то соответствующее значение уровня ряда считается аномальным. Значения критерия Ирвина для уровня значимости приведены в таблице 1.

Таблица 1

Значения критических значений для уровня значимости

Для практических расчетов при известной длине реализации можно использовать аналитическое выражение для определения критических значений , для которой погрешность аппроксимации меньше 1%:

, (4)

Численные эксперименты показали следующее: во-первых, для одиночного пика (аномального уровня) относительно фонового уровня следующий член ряда также интерпретируется как аномальный, хотя амплитуда его импульса сравнима с фоновым значением. Во-вторых, эта же погрешность будет присутствовать при наличии в исходном ряде нескольких аномальных уровней , , …. В данном случае, за аномальный уровень рада будет принят первый аномальный и следующий за серией аномалий фоновый уровень . Все промежуточные аномалии , …, будут отнесены к фоновой составляющей ряда. Это приведет к искажению (завышению) огибающей фоновой компоненты (рис. 4).

При интерактивном способе разделения уровней ряда фиктивные аномальные уровни отбраковываются оператором. В задачах автоматизированной обработки данных ряды пиков осложняются пропорциональным количеством значений фоновых компонент.

Для тех случаев, когда количество пиков превышает 50% от общего количества значений ряда и тем более для подряд стоящих пиков сформированный ряд фоновых данных осложняется пиковой компонентой (рис.5). Видимо эти погрешности до сих пор не позволили методу Ирвина найти достаточно широкое применение в практике статистических исследований временных рядов.

Рис. 4. Иллюстрация осложнения фоновой компоненты ряда аномальными уровнями при использовании метода Ирвина

Рис. 5. Осложнение фоновой составляющей имитационного ряда при 50% соотношении пиковых и фоновых компонент

В результате численного моделирования различных соотношений «сигнал - помеха» была разработана методика в виде модифицированного метода Ирвина для адекватного разделения аномальных (пиковых) и фоновых уровней ряда. Данная задача, как было указано выше, актуальна для систем электромагнитного мониторинга грозовых разрядов и поиска различных источников электромагнитного излучения тектонической природы.

Для исключения указанных погрешностей метода Ирвина было разработано три варианта расчетов для разделения уровней рада, применение которых обосновано сложностью соотношений «сигнал-помеха» в реальных экспериментальных данных, например, как это показано на рис. 1, 2.

В простейшем случае, для выделения одиночных пиков положительно определенного ряда к условию Ирвина (3) добавляется условие не отрицательности разности , т.е. . Все аномальные уровни в фоновой компоненте ряда заменяются значениями по формуле параболического интерполирования:

, (5)

где члены ряда фоновой компоненты, предшествующие аномальному уровню . Так как первый член ряда может быть с аномальной амплитудой, то в начале ряда проставляются три дополнительных члена ряда с минимальной амплитудой. Результаты численного моделирования по данному алгоритму показаны на рис. 6.

Рис. 6. Выделение фоновой составляющей имитационного ряда при наличии одиночных пиковых компонент с дополнительным условием не отрицательности разности сравниваемых амплитуд последовательных членов ряда

Сравнение с результатами расчетов с применением простого алгоритма Ирвина (рис. 4) наглядно показывает необходимость введения в алгоритм дополнительного условия не отрицательности разности .

При увеличении количества аномальных уровней до 50% замена пиковых значений по формуле (5) приводит к осложнению фоновой компоненты усредненными значениями амплитуд аномальных уровней (рис. 5). В данном случае применяется алгоритм последовательного исключения аномальных уровней.

Амплитуды сигнала аномальных уровней в фоновой компоненте заменяются по формуле (5) с возвратом на начало цикла расчетов. При этом значение стандартного отклонения рассчитывается для первоначального ряда и при повторных расчетах принимается за константу.

Данный алгоритм позволяет адекватно разделять фоновую и импульсную компоненты, однако требует большего времени для расчетов, так как в массиве данных за сутки накапливается до 80000 импульсов и более, что приведет к задержке отображения результатов в реальном времени в системах автоматизированного мониторинга.

Для случаев возмущенного состояния геофизической среды (см. рис. 2) разработан алгоритм с построением вариационного ряда с возрастающими амплитудами сигнала. Для = (20-40)% от общего количества членов вариационного ряда рассчитывается стандартное отклонение и применяется метод Ирвина до появления первого аномального уровня . Максимальное значение из первых (k-1) уровней вариационного ряда принимается за граничное значение фоновой компоненты, по которому производится разделение компонент исходного ряда.

Численное моделирование с использованием данных натурного эксперимента показало, что, если в исходном ряде присутствует только две компоненты, то фоновая компонента выделяется из исходного ряда без искажений. При наличии нескольких источников ЭМИ метод чувствителен к выбору количества членов вариационного ряда для расчета . Это может привести к пропуску аномальных источников сигнала либо к выделению мнимых источников (ошибки первого и второго родов). Для исключения данных погрешностей в системе автоматического мониторинга предполагается производить расчеты с использованием различных процентных выборок из вариационного ряда для расчета и применения метода Ирвина. Адекватность модели во всех случаях проверяется по статистическим характеристикам остаточного ряда . Проведенные расчеты для двух дней с различным состоянием возмущенности геофизической среды (рис.1, 2) показали сходимость моделей фоновых компонент, выделенных по методам исключения пиков и построения вариационного ряда при = (35 - 45)%.

Рецензенты:

Омельяненко А.В., д.т.н., профессор, главный научный сотрудник лаборатории инженерной геокриологии Института мерзлотоведения им. П.И.Мельникова СО РАН, г. Якутск;

Имаев В.С., д.г.-м.н., профессор, гл. научный сотрудник Института земной коры СО РАН, г.Иркутск.

Библиографическая ссылка
Трофименко С.В., Трофименко С.В., Маршалов А.Я., Гриб Н.Н., Колодезников И.И. МОДИФИКАЦИЯ МЕТОДА ИРВИНА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНЫХ УРОВНЕЙ ВРЕМЕННЫХ РЯДОВ: МЕТОДИКА И ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ // Современные проблемы науки и образования. – 2014. – № 5.;
URL: http://science-education.ru/ru/article/view?id=15130 (дата обращения: 18.03.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Предыдущая статья: Углерод — характеристика элемента и химические свойства Следующая статья: Углерод — характеристика элемента и химические свойства