Совсем недавно Владимир Давыдов написал пост в facebook про A/B- или MVT-тестирование, который вызвал массу вопросов.

Обычно проведение A/B- или MVT-тестирований на сайтах — вещь очень сложная. Хотя «посадочникам» кажется, что это элементарно, ведь «этсамое, есть же специальные программы, гыг».

Если вы решили тестировать веб-содержимое, помните:

1. Для начала нужно изолировать равнозначную, равновеликую, равнокачественную аудиторию. Провести A/A-тесты. Подавляющее большинство тестов, которые проводят агентства на потоке или неопытные интернет-маркетологи, не верны. Именно по той причине, что тестируется содержимое на разных аудиториях.

2. Проводите десятки или лучше сотни тестов в течение нескольких месяцев. Тестировать недельку 2-3 варианта странички не стоит.

3. Помните, что тестировать можно и в формате MVT (то есть много вариантов), а не только A и B.

4. Статистически проанализируйте массив данных с результатами тестов (в Excel абсолютно окей, можно ещё SPSS использовать). Находятся ли результаты в рамках погрешности, насколько сильно отклоняются и как зависят от времени. Если, например, в первом пункте A/A-теста вы получили сильные отклонения одного варианта от другого — это провал, и дальше тестировать нельзя.

5. Не надо тестировать все подряд. Это не развлечение (только если вам реально больше нечего делать). Тестировать имеет смысл только то, что с точки зрения маркетингового и бизнес-анализа способно привести к заметным результатам. А также то, результат от чего можно реально измерить. Например, вы решили увеличить размер шрифта на сайте, потестировали пару недель страницу с большим шрифтом — продажи выросли. О чем это говорит? Вот и мне ни о чем (см. предыдущие пункты).

6. Тестировать нужно пути целиком. То есть недостаточно взять и протестировать страницу покупки (или какого-то действия на сайте) — нужно тестировать и те страницы и шаги, которые подводят к этой финальной конверсионной странице.

В комментариях был задан вопрос:

«Как устанавливать победителя? Вот протестировали мы заголовок на странице, продающей «в лоб». Какая разница в конверсии должна быть между А и B, чтобы признать победителя?»

Ответ Владимира:

Во-первых, нужно проводить длительные изолированные эксперименты (базовое правило любой статистической оценки). Во-вторых, все неминуемо сводится к статистике и математике (поэтому и рекомендую excel и spss или аналоги бесплатные) Нам нужно посчитать доверительную вероятность того, что разница в значениях чего-то значит. Есть хорошая статья (одна из многих). Там берут транзакции из GA по проводимым Optimizely-тестам https://www.distilled.net/uploads/ga_transactions.png , сравнивают транзакции (покупки) обычным колокольным распределением и смотрят, попадает ли среднее значение в рамки доверительного интервала погрешности https://www.distilled.net/uploads/t-test_tool.png

Хотите получить предложение от нас?

Начать сотрудничество

Роль статистической значимости при повышении конверсии: 6 вещей, которые нужно знать

1. Именно то, что это значит

«Изменение позволило достичь повышения конверсии на 20% с доверительной вероятностью 90%». К сожалению, это утверждение вовсе не равнозначно другому, очень похожему: «Шансы повысить конверсию на 20% составляют 90%». Так о чем же речь на самом деле?

20% — это рост, который мы зафиксировали по результатам тестов на одном из образцов. Если бы мы начали фантазировать и строить догадки, мы бы могли предположить, что этот рост может сохраняться постоянно – если мы будем продолжать тестирование до бесконечности. Но это никак не означает, что с вероятностью 90% мы получим двадцатипроцентный рост конверсии или рост «как минимум» в 20%, или «приблизительно» в 20%.

90% — это вероятность проявления каких бы то ни было изменений в конверсии. Другими словами, если бы мы проводили десять А/B-тестов, чтобы получить этот результат, и решили бы проводить все десять до бесконечности, то один из них (так как вероятность изменений 90%, то 10% остаётся на неизменный исход), вероятно, закончился бы приближением результата «после теста» к первоначальной конверсии – то есть, без изменений. Из остающихся девяти тестов некоторые могли бы показать рост, составляющий куда меньше 20%. В других результат мог бы превысить эту планку.

Если неверно интерпретировать эти данные, мы сильно рискуем, «выкатывая» тест. Легко обрадоваться, когда тест показывает высокие показатели роста конверсии с доверительной вероятностью в 95%, но мудрее было бы не ожидать слишком многого, пока тест не доведен до логического завершения.

2. Когда использовать

Самые очевидные кандидаты – сплит-тесты «А/В», но они далеко не единственные. Можно также проводить тестирование статистически значимой разницы между сегментами (например, посещениями через обычный и через оплаченный поиск) или временными промежутками (например, апрелем 2013 года и апрелем 2014 года).

Однако стоит заметить, что эта корреляция не подразумевает причинно-следственную связь. Проводя сплит-тесты, мы знаем, что можем приписать любые изменения результатов тем элементам, которыми различаются страницы – ведь особое внимание уделяется тому, чтобы в остальном страницы были совершенно идентичны. Если вы сравниваете такие группы, как посетители, пришедшие из обычного и платного поиска, сработать могут любые другие факторы – к примеру, из обычного поиска может быть много посещений по ночам, а конверсия среди ночных посетителей весьма высока. Тесты на значимость помогают установить, есть ли у изменений причина, но они не смогут сказать, в чем именно она заключается.

3. Как тестировать изменения показателей конверсии, отказов и выходов (exit rate)

Когда мы смотрим на «показатели», на самом деле мы видим усредненные значения двоичных переменных – кто-то либо выполнил целевые действия, либо нет. Если у нас есть выборка в 10 человек с показателем конверсии в 40%, на самом деле мы смотрим на подобную таблицу:

Эта таблица потребуется нам вкупе со средним показателем, чтобы вычислить среднее отклонение – ключевой компонент статистической значимости. Однако тот факт, что каждое значение в таблице является либо нулем, либо единицей, облегчает нам задачу – мы можем обойтись без необходимости копировать огромный список цифр, воспользовавшись калькулятором для подсчета доверительной вероятности А/B-тестов, и отталкиваясь от знания среднего показателя и размеров выборки. Это инструмент от KissMetrics .

(Важно! Этот инструмент в расчетах принимает во внимание только одну сторону “колокола” распределения вероятности . Чтобы использовать обе стороны и перевести результат в двустороннюю значимость, нужно удвоить дистанцию от 100% — например, односторонние 95% становятся двусторонними 90%).

Несмотря на то, что в описании значится «инструмент тестирования достоверности А/B-тестов», его также можно использовать для любого другого сравнения показателей – просто замените конверсию на показатель отказов или выходов. Кроме того, его можно использовать и для сравнения сегментов или промежутков времени – вычисления будут те же.

Также, он хорошо подходит для мультивариантных тестирований (MVT) – просто сравнивайте с оригиналом каждое изменение по отдельности.

4. Как тестировать изменения среднего чека

Чтобы тестировать средние значение недвоичных переменных, нам потребуется полный набор данных, так что здесь все немного сложнее. Например, мы хотим установить, есть ли значимые различия средней суммы заказа для сплит-теста А/В – этот момент часто опускают при оптимизации конверсии, хотя для бизнес-показателей он так же важен, как и сама конверсия.

Первое, что нам нужно, это получить из Google Analytics полный список транзакций для каждого варианта теста — для А и B (было, стало). Простейший способ это сделать – создать пользовательские сегменты, базирующиеся на переменных (custom variables) для вашего сплит-теста, а затем экспортировать отчет по транзакциям в таблицу Excel. Убедитесь, что туда войдут все транзакции, а не только 10 строк, указанных по умолчанию.

Когда у вас есть два списка транзакций, их можно скопировать в подобный инструмент :

В вышеозначенном случае у нас нет доверительной вероятности на выбранном уровне в 95%. На самом деле, если мы взглянем на показатель «p» над нижним графиком, составляющий 0,63, станет ясно, что у нас нет даже 50% значимости – существует вероятность в 63%, что разница между показателями страниц является чистой случайностью.

5. Как предугадать необходимую продолжительность сплит-теста А/В

На Evanmiller.org есть еще один удобный инструмент для оптимизации конверсии – калькулятор размера выборки .

Этот инструмент позволяет дать ответ на вопрос «Сколько потребуется времени, чтобы получить достоверные результаты теста?», и этот ответ не стоит пытаться угадать.

Стоит отметить несколько моментов. Во-первых, у инструмента есть переключатель «абсолютное/относительное» — если вы хотите выяснить разницу между базовым показателем конверсии в 5% и переменным показателем конверсии в 6%, он составит 1% в абсолютном выражении (6-5=1) или 20% в относительном выражении (6/5=1,2). Во-вторых, внизу страницы есть два «бегунка». Нижний отвечает за требуемый уровень значимости – если вашей целью является получение значимости в 95%, то бегунок нужно выставить на 5%. Верхний бегунок показывает вероятность того, что количество требуемых посещений страницы окажется достаточным – к примеру, если вы хотите узнать количество визитов, необходимых для достижения восьмидесяти процентного шанса обнаружить значимость в 95%, выставьте верхний бегунок на 80%, а нижний на 5%.

6. Чего не нужно делать

Есть несколько простых путей выявить непригодность сплит-теста, которые, однако, далеко не всегда очевидны с первого взгляда:

А) Сплит-тестирование недвоичных порядковых значений

Например, ваша цель – выяснить, имеет ли место значимая разница вероятностей того, что посетители из групп «первоначальная» и «после изменений» купят определенные продукты. Вы помечаете три продукта «1», «2» и «3», а затем вводите эти значения в поля теста на значимость. К сожалению, этот подход не сработает – продукт 2 не является средним значением продуктов 1 и 3.

Б) Настройки распределения трафика

В начале теста вы решаете не рисковать и выставляете распределение трафика 90/10. Спустя какое-то время вы видите, что изменение не привело к заметным изменениям в конверсии, и перемещаете бегунок к значению 50/50. Но возвращающиеся посетители по-прежнему принадлежат к своей первоначальной группе, поэтому вы оказываетесь в ситуации, где версия «до изменений» отличается большей долей вернувшихся посетителей, показывающих высокую вероятность конверсии. Все очень быстро усложняется, и единственный простой путь получить данные, на которые можно положиться, заключается в том, чтобы по отдельности рассматривать новых и вернувшихся посетителей. Однако в этом случае на получение значимых результатов уйдет больше времени. И даже если обе подгруппы покажут значимые результаты, что, если одна из них на самом деле генерирует больше вернувшихся посетителей? В общем, не нужно этого делать и менять в течение теста распределение трафика.

В) Планирование

Выглядит очевидным, но не стоит сравнивать данные, собранные в одно и то же время дня, с данными, собранными в течение суток или в другое время дня. Если вы хотите провести тест в отношении конкретного времени дня, у вас есть два варианта.

1. Обрабатывать запросы посетителей, как и всегда, в течение дня, но показывать им оригинальную версию страницы в то время дня, в котором вы не заинтересованы.

2. Сравнивать яблоки с яблоками – если вы рассматриваете только данные по изменениям за первую половину дня, сравнивайте их с первоначальными данными за первую половину дня.

Надеюсь, что-то из вышеизложенного окажется полезным для оптимизации вашей конверсии . Если у вас есть свои ноу-хау, пожалуйста, излагайте их в комментариях.

Статистическая значимость

Результаты, полученные с помощью определенной процедуры исследования, называют статистически значимыми , если вероятность их случайного появления очень мала. Эту концепцию можно проиллюстрировать на примере кидания монеты. Предположим, что монету подбросили 30 раз; 17 раз выпал «орел» и 13 раз выпала «решка». Является ли значимым отклонение этого результата от ожидаемого (15 выпадений «орла» и 15 - «решки»), или это отклонение случайно? Чтобы ответить на этот вопрос, можно, например, много раз кидать ту же монету по 30 раз подряд, и при этом отмечать, сколько раз повторится соотношение «орлов» и «решек», равное 17:13. Статистический анализ избавляет нас от этого утомительного процесса. С его помощью после первых 30 киданий монеты можно произвести оценку возможного числа случайных выпадений 17 «орлов» и 13 «решек». Такая оценка называется вероятностным утверждением.

В научной литературе по индустриально-организационной психологии вероятностное утверждение в математической форме обозначается выражением р (вероятность) < (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (р < 0,01). Этот факт важен для понимания литературы, но не следует считать, что он говорит о бессмысленности проведения наблюдений, не соответствующих этим стандартам. Так называемые незначимые результаты исследований (наблюдения, которые можно получить случайно более одного или пяти раз из 100) могут быть весьма полезными для выявления тенденций и как руководство к будущим исследованиям.

Необходимо также заметить, что не все психологи соглашаются с традиционными стандартами и процедурами (например, Cohen, 1994; Sauley & Bedeian, 1989). Вопросы, связанные с измерениями, сами по себе являются главной темой работы многих исследователей, изучающих точность методов измерений и предпосылки, которые лежат в основе существующих методов и стандартов, а также разрабатывают новые медики и инструменты. Может быть, когда-нибудь в будущем исследования в этой власти приведут к изменению традиционных стандартов оценки статистической значимости, и эти изменения завоюют всеобщее признание. (Пятое отделение Американской психологической ассоциации объединяет психологов, которые специализируются на изучении оценок, измерений и статистики.)

В отчетах об исследованиях вероятностное утверждение, такое как р < 0,05, связано некоторой статистикой, то есть числом, которое получено в результате проведения определенного набора математических вычислительных процедур. Вероятностное подтверждение получают путем сравнения этой статистики с данными из специальных таблиц, которые публикуются для этой цели. В индустриально-организационных психологических исследованиях часто встречаются такие статистики, как r, F, t, г> (читается «хи квадрат») и R (читается «множественный R»). В каждом случае статистику (одно число), полученную в результате анализа серии наблюдений, можно сравнить числами из опубликованной таблицы. После этого можно сформулировать вероятностное утверждение о вероятности случайного получения этого числа, то есть сделать вывод о значимости наблюдений.

Для понимания исследований, описанных в этой книге, достаточно иметь ясное представление о концепции статистической значимости и необязательно знать, как рассчитываются упомянутые выше статистики. Однако было бы полезно обсудить одно предположение, которое лежит в основе всех этих процедур. Это предположение о том, что все наблюдаемые переменные распределяются приблизительно по нормальному закону. Кроме того, при чтении отчетов об индустриально-организационных психологических исследованиях часто встречаются еще три концепции, которые играют важную роль - во-первых, корреляция и корреляционная связь, во-вторых, детерминант/ предсказывающая переменная и «ANOVA» (дисперсионный анализ), в-третьих, группа статистических методов под общим названием «метаанализ».

ДОСТОВЕРНОСТЬ СТАТИСТИЧЕСКАЯ

- англ. credibility /validity, statistical; нем. Validitat, statistische. Последовательность, объективность и отсутствие неясности в статистическом тесте или в к.-л. наборе измерений. Д. с. может быть проверена повторением того же теста (или вопросника) по отношению к тому же самому субъекту, чтобы убедиться, будут ли получены такие же результаты; или сравнением различных частей теста, которыми предполагают измерить один и тот же объект.

Antinazi. Энциклопедия социологии , 2009

Смотреть что такое "ДОСТОВЕРНОСТЬ СТАТИСТИЧЕСКАЯ" в других словарях:

ДОСТОВЕРНОСТЬ СТАТИСТИЧЕСКАЯ - англ. credibility /validity, statistical; нем. Validitat, statistische. Последовательность, объективность и отсутствие неясности в статистическом тесте или в к. л. наборе измерений. Д. с. может быть проверена повторением того же теста (или… … Толковый словарь по социологии

В статистике величину называют статистически значимой, если мала вероятность её случайного возникновения или еще более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль гипотезы. Разница называется… … Википедия

Физическое явление статистической устойчивости состоит в том, что при увеличении величины выборки частота случайного события или среднее значение физической величины стремится к некоторому фиксированному числу. Феномен статистической… … Википедия

ДОСТОВЕРНОСТЬ РАЗЛИЧИЯ (сходства) - аналитико статистическая процедура установления уровня значимости различий или сходств между выборками по изучаемым показателям (переменным) … Современный образовательный процесс: основные понятия и термины

ОТЧЕТНОСТЬ, СТАТИСТИЧЕСКАЯ Большой бухгалтерский словарь

ОТЧЕТНОСТЬ, СТАТИСТИЧЕСКАЯ - форма государственного статистического наблюдения, при которой соответствующие органы получают от предприятий (организаций и учреждений) необходимые им сведения в виде уставленных в законном порядке отчетных документов (статистических отчетов) за … Большой экономический словарь

Наука, занимающаяся изучением приемов систематического наблюдения над массовыми явлениями социальной жизни человека, составления численных их описаний и научной обработки этих описаний. Таким образом, теоретическая статистика есть наука… … Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона

Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

Статистика - (Statistics) Статистика это общетеоретическая наука, изучающая количественные изменения в явлениях и процессах. Государственная статистика, службы статистики, Росстат (Госкомстат), статистические данные, статистика запросов, статистика продаж,… … Энциклопедия инвестора

Корреляция - (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора

Книги

Исследование в математике и математика в исследовании: Методический сборник по исследовательской деятельности учащихся , Борзенко В.И.. В сборнике представлены методические разработки, применимые в организации исследовательской деятельности учащихся. Первая часть сборника посвящена применению исследовательского подхода в…

Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.

Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.

Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.

Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.

Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

Правило отклонения Hо и принятия h1

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H 0 отклоняется и принимается Н 1 .

Исключения : критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.

Критические значения критерия обозначены как Q о,о5 и Q 0,01, эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.

Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0 , 01 и, следовательно, безусловно, значимые.

Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.

Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп. =8;

Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н 0), но еще не можем принять гипотезы об их достоверности (H 1).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ 2 r Фридмана, L Пейджа, φ* Фишера.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.

Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.

Предыдущая статья: Чему равна скорость света Следующая статья: Гармонические колебания Физика формула частоты колебаний

Статистическая значимость различий. Основные термины и понятия медицинской статистики