Главная » Съедобные грибы » Прогноз по уравнению регрессии. Прогнозирование с применением уравнения регрессии

Прогноз по уравнению регрессии. Прогнозирование с применением уравнения регрессии

Построим в MS EXCEL доверительный интервал для оценки среднего значения распределения в случае известного значения дисперсии.

Разумеется, выбор уровня доверия полностью зависит от решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.

Формулировка задачи

Предположим, что из генеральной совокупности имеющей взята выборка размера n. Предполагается, что стандартное отклонение этого распределения известно. Необходимо на основании этой выборки оценить неизвестное среднее значение распределения (μ, ) и построить соответствующий двухсторонний доверительный интервал .

Точечная оценка

Как известно из , статистика (обозначим ее Х ср ) является несмещенной оценкой среднего этой генеральной совокупности и имеет распределение N(μ;σ 2 /n).

Примечание : Что делать, если требуется построить доверительный интервал в случае распределения, которое не является нормальным? В этом случае на помощь приходит , которая гласит, что при достаточно большом размере выборки n из распределения не являющемся нормальным , выборочное распределение статистики Х ср будет приблизительно соответствовать нормальному распределению с параметрами N(μ;σ 2 /n).

Итак, точечная оценка среднего значения распределения у нас есть – это среднее значение выборки , т.е. Х ср . Теперь займемся доверительным интервалом.

Построение доверительного интервала

Обычно, зная распределение и его параметры, мы можем вычислить вероятность того, что случайная величина примет значение из заданного нами интервала. Сейчас поступим наоборот: найдем интервал, в который случайная величина попадет с заданной вероятностью. Например, из свойств нормального распределения известно, что с вероятностью 95%, случайная величина, распределенная по нормальному закону , попадет в интервал примерно +/- 2 от среднего значения (см. статью про ). Этот интервал, послужит нам прототипом для доверительного интервала .

Теперь разберемся,знаем ли мы распределение, чтобы вычислить этот интервал? Для ответа на вопрос мы должны указать форму распределения и его параметры.

Форму распределения мы знаем – это нормальное распределение (напомним, что речь идет о выборочном распределении статистики Х ср ).

Параметр μ нам неизвестен (его как раз нужно оценить с помощью доверительного интервала ), но у нас есть его оценка Х ср, вычисленная на основе выборки, которую можно использовать.

Второй параметр – стандартное отклонение выборочного среднего будем считать известным , он равен σ/√n.

Т.к. мы не знаем μ, то будем строить интервал +/- 2 стандартных отклонения не от среднего значения , а от известной его оценки Х ср . Т.е. при расчете доверительного интервала мы НЕ будем считать, что Х ср попадет в интервал +/- 2 стандартных отклонения от μ с вероятностью 95%, а будем считать, что интервал +/- 2 стандартных отклонения от Х ср с вероятностью 95% накроет μ – среднее генеральной совокупности, из которого взята выборка . Эти два утверждения эквивалентны, но второе утверждение нам позволяет построить доверительный интервал .

Кроме того, уточним интервал: случайная величина, распределенная по нормальному закону , с вероятностью 95% попадает в интервал +/- 1,960 стандартных отклонений, а не+/- 2 стандартных отклонения . Это можно рассчитать с помощью формулы =НОРМ.СТ.ОБР((1+0,95)/2) , см. файл примера Лист Интервал .

Теперь мы можем сформулировать вероятностное утверждение, которое послужит нам для формирования доверительного интервала :
«Вероятность того, что среднее генеральной совокупности находится от среднего выборки в пределах 1,960 «стандартных отклонений выборочного среднего» , равна 95%».

Значение вероятности, упомянутое в утверждении, имеет специальное название , который связан с уровнем значимости α (альфа) простым выражением уровень доверия =1 . В нашем случае уровень значимости α=1-0,95=0,05 .

Теперь на основе этого вероятностного утверждения запишем выражение для вычисления доверительного интервала :

где Z α/2 стандартного нормального распределения (такое значение случайной величины z , что P (z >=Z α/2 )=α/2 ).

Примечание : Верхний α/2-квантиль определяет ширину доверительного интервала в стандартных отклонениях выборочного среднего. Верхний α/2-квантиль стандартного нормального распределения всегда больше 0, что очень удобно.

В нашем случае при α=0,05, верхний α/2-квантиль равен 1,960. Для других уровней значимости α (10%; 1%) верхний α/2-квантиль Z α/2 можно вычислить с помощью формулы =НОРМ.СТ.ОБР(1-α/2) или, если известен уровень доверия , =НОРМ.СТ.ОБР((1+ур.доверия)/2) .

Обычно при построении доверительных интервалов для оценки среднего используют только верхний α /2-квантиль и не используют нижний α /2-квантиль . Это возможно потому, что стандартное нормальное распределение симметрично относительно оси х (плотность его распределения симметрична относительно среднего, т.е. 0 ). Поэтому, нет нужды вычислять нижний α/2-квантиль (его называют просто α/2-квантиль ), т.к. он равен верхнему α /2-квантилю со знаком минус.

Напомним, что, не смотря на форму распределения величины х, соответствующая случайная величина Х ср распределена приблизительно нормально N(μ;σ 2 /n) (см. статью про ). Следовательно, в общем случае, вышеуказанное выражение для доверительного интервала является лишь приближенным. Если величина х распределена по нормальному закону N(μ;σ 2 /n), то выражение для доверительного интервала является точным.

Расчет доверительного интервала в MS EXCEL

Решим задачу.
Время отклика электронного компонента на входной сигнал является важной характеристикой устройства. Инженер хочет построить доверительный интервал для среднего времени отклика при уровне доверия 95%. Из предыдущего опыта инженер знает, что стандартное отклонение время отклика составляет 8 мсек. Известно, что для оценки времени отклика инженер сделал 25 измерений, среднее значение составило 78 мсек.

Решение : Инженер хочет знать время отклика электронного устройства, но он понимает, что время отклика является не фиксированной, а случайной величиной, которая имеет свое распределение. Так что, лучшее, на что он может рассчитывать, это определить параметры и форму этого распределения.

К сожалению, из условия задачи форма распределения времени отклика нам не известна (оно не обязательно должно быть нормальным ). , этого распределения также неизвестно. Известно только его стандартное отклонение σ=8. Поэтому, пока мы не можем посчитать вероятности и построить доверительный интервал .

Однако, не смотря на то, что мы не знаем распределение времени отдельного отклика , мы знаем, что согласно ЦПТ , выборочное распределение среднего времени отклика является приблизительно нормальным (будем считать, что условия ЦПТ выполняются, т.к. размер выборки достаточно велик (n=25)).

Более того, среднее этого распределения равно среднему значению распределения единичного отклика, т.е. μ. А стандартное отклонение этого распределения (σ/√n) можно вычислить по формуле =8/КОРЕНЬ(25) .

Также известно, что инженером была получена точечная оценка параметра μ равная 78 мсек (Х ср). Поэтому, теперь мы можем вычислять вероятности, т.к. нам известна форма распределения (нормальное ) и его параметры (Х ср и σ/√n).

Инженер хочет знать математическое ожидание μ распределения времени отклика. Как было сказано выше, это μ равно математическому ожиданию выборочного распределения среднего времени отклика . Если мы воспользуемся нормальным распределением N(Х ср; σ/√n), то искомое μ будет находиться в интервале +/-2*σ/√n с вероятностью примерно 95%.

Уровень значимости равен 1-0,95=0,05.

Наконец, найдем левую и правую границу доверительного интервала .
Левая граница: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)= 74,864
Правая граница: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)=81,136

Левая граница: =НОРМ.ОБР(0,05/2; 78; 8/КОРЕНЬ(25))
Правая граница: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРЕНЬ(25))

Ответ : доверительный интервал при уровне доверия 95% и σ =8 мсек равен 78+/-3,136 мсек.

В файле примера на листе Сигма известна создана форма для расчета и построения двухстороннего доверительного интервала для произвольных выборок с заданным σ и уровнем значимости .

Функция ДОВЕРИТ.НОРМ()

Если значения выборки находятся в диапазоне B20:B79 , а уровень значимости равен 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; СЧЁТ(B20:B79))
вернет левую границу доверительного интервала .

Эту же границу можно вычислить с помощью формулы:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРЕНЬ(СЧЁТ(B20:B79))

Примечание : Функция ДОВЕРИТ.НОРМ() появилась в MS EXCEL 2010. В более ранних версиях MS EXCEL использовалась функция ДОВЕРИТ() .

Пусть случайная величина распределена по нормальному закону, для которого дисперсия D неизвестна. Делается выборка объема n . Из нее определяется исправленная выборочная дисперсия s 2 . Случайная величина

распределена по закону 2 c n -1 степенями свободы. По заданной надежности можно найти сколько угодно границ 1 2 и 2 2 интервалов, таких, что

Найдем 1 2 и 2 2 из следующих условий:

P(2 1 2) = (1 -)/ 2(**)

P(2 2 2) = (1 -)/ 2(***)

Очевидно, что при выполнении двух последних условий справедливо равенство (*).

В таблицах для случайной величины 2 обычно дается решение уравнения

Из такой таблицы по заданной величине q и по числу степеней свободы n - 1 можно определить значение q 2 . Таким образом, сразу находится значение 2 2 в формуле (***).

Для определения 1 2 преобразуем (**):

P(2 1 2) = 1 - (1 -)/ 2 = (1 +)/ 2

Полученное равенство позволяет определить по таблице значение 1 2 .

Теперь, когда найдены значения 1 2 и 2 2 , представим равенство (*) в виде

Последнее равенство перепишем в такой форме, чтобы были определены границы доверительного интервала для неизвестной величины D:

Отсюда легко получить формулу, по которой находится доверительный интервал для стандартного отклонения:

Задача. Будем считать, что шум в кабинах вертолетов одного и того же типа при работающих в определенном режиме двигателях -- случайная величина, распределенная по нормальному закону. Было случайным образом выбрано 20 вертолетов, и произведены замеры уровня шума (в децибелах) в каждом из них. Исправленная выборочная дисперсия измерений оказалась равной 22,5. Найти доверительный интервал, накрывающий неизвестное стандартное отклонение величины шума в кабинах вертолетов данного типа с надежностью 98%.

Решение. По числу степеней свободы, равному 19, и по вероятности (1 - 0,98)/2 = 0,01 находим из таблицы распределения 2 величину 2 2 = 36,2. Аналогичным образом при вероятности (1 + 0,98)/2 = 0,99 получаем 1 2 = 7,63. Используя формулу (****), получаем искомый доверительный интервал: (3,44; 7,49).

Построение доверительного интервала для дисперсии нормально распределенной генеральной совокупности основывается на том, что случайная величина:

имеет c 2 -распределение Пирсона c n=n –1 степенями свободы. Зададим доверительную вероятность g и определим числа и из условия

Числа и , удовлетворяющие этому условию, можно выбрать бесчисленным числом способов. Один из способов состоит в следующем

и .

Значения чисел и определяются из таблиц для распределения Пирсона. После этого образуем неравенство

В результате получаем следующую интервальную оценку дисперсии генеральной совокупности:

. (3.25)

Иногда это выражение записывают в виде

, (3.26)

, (3.27)

где для коэффициентов и составляют специальные таблицы.

Пример 3.10. На фабрике работает автоматическая линия по фасовке растворимого кофе в жестяные 100-граммовые банки. Если средняя масса наполняемых банок отличается от точной, то линии налаживается для подгонки средней массы в рабочем режиме. Если дисперсия массы превышает заданное значение, то линия должна быть остановлена на ремонт и переналадку. Время от времени производится отбор банок с кофе для проверки средней массы и ее колеблемости. Предположим, что с линии в случайном порядке производится отбор банок с кофе и оценка дисперсии s 2 =18,540. Постройте 95%-й доверительный интервал для генеральной дисперсии s 2 .

Решение. Предполагая, что генеральная совокупность имеет нормальное распределение, воспользуемся формулой (3.26). По условию задачи уровень значимости a=0,05 и a/2=0,025. По таблицам для c 2 -распределение Пирсона с n=n –1=29 степенями свободы находим

и .

Тогда доверительный интервал для s 2 можно записать в виде

,

.

Для средне квадратичного отклонения ответ будет иметь вид

. â

Проверка статистических гипотез

Основные понятия

Большинство эконометрических моделей требует многократного улучшения и уточнения. Для этого необходимо проведение соответствующих расчетов, связанных с установлением выполнимости или невыполнимости тех или иных предпосылок, анализом качества найденных оценок, достоверностью полученных выводов. Поэтому знание основных принципов проверки гипотез является обязательным в эконометрике.



Во многих случаях необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид, то выдвигают гипотезу: генеральная совокупность распределена по этому закону. Например, можно выдвинуть предположение, что доход населения, ежедневное количество покупателей в магазине, размер выпускаемых деталей имеют нормальный закон распределения.

Возможен случай, когда закон распределения известен, а его параметры нет. Если есть основания предположить, что неизвестный параметр q равен ожидаемому числу q 0 , то выдвигают гипотезу: q=q 0 . Например, можно выдвинуть предположение о величине среднего дохода населения, среднего ожидаемого дохода по акциям, о разбросе в доходах и т.д.

Под статистической гипотезой H понимают любое предположение о генеральной совокупности (случайной величине), проверяемое по выборке. Это может быть предположение о виде распределения генеральной совокупности, о равенстве двух выборочных дисперсий, о независимости выборок, об однородности выборок, т.е. что закон распределения не меняется от выборки к выборке и др.

Гипотеза называется простой , если она однозначно определяет какое-либо распределение или какой-либо параметр; в противном случае гипотеза называется сложной . Например, простой гипотезой является предположение о том, что случайная величина X распределена по стандартному нормальному закону N (0;1); если же высказывается предположение, что случайная величина X имеет нормальной распределение N (m ;1), где a £m £b , то это сложная гипотеза.

Проверяемая гипотеза называется основной или нулевой гипотезой и обозначается символом H 0 . Наряду с основной гипотезой рассматривают и противоречащую ей гипотезу, которую обычно называют конкурирующей или альтернативной гипотезой и обозначают символом H 1 . Если основная гипотеза будет отвергнута, то имеет место альтернативная гипотеза. Например, если проверяется гипотеза о равенства параметра q некоторому заданному значению q 0 , т.е. H 0:q=q 0 , то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: H 1:q>q 0 , H 2:qH 3:q¹q 0 , H 4:q=q 1 . Выбор альтернативной гипотезы определяется конкретной формулировкой задачи.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Поскольку проверка осуществляется статистическими методами, то в связи с этим с определенной долей вероятности может быть принято неправильное решение. Здесь могут быть допущены ошибки двух видов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Вероятность ошибки первого рода обозначают буквой a, т.е.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Вероятность ошибки второго рода обозначают буквой b, т.е.

Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая – к неоправданному риску. Что лучше или хуже – зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если H 0 состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия этой ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив.

Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, т.к. задачи их уменьшения являются конкурирующими. И снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения обеих вероятностей состоит в увеличении объема выборки.

Правило, в соответствие с которым принимается или отклоняется основная гипотеза, называется статистическим критерием . Для этого подбирается такая случайная величина K, распределение которой точно или приближенно, известно и которая служит мерой расхождения между опытными и гипотетическими значениями.

Для проверки гипотезы по данным выборки вычисляют выборочное (или наблюдаемое ) значение критерия K набл . Затем, в соответствии с распределением выбранного критерия, строится критическая область K крит . Это такая совокупность значений критерия, при которых нулевую гипотезу отвергают. Оставшуюся часть возможных значений называют областью принятия гипотезы . Если ориентироваться на критическую область, то можно совершить ошибку
1-го рода, вероятность которой задана заранее и равна a, называемой уровнем значимости гипотезы. Отсюда вытекает следующее требование к критической области K крит :

.



Уровень значимости a определяет "размер" критической области K крит . Однако ее положение на множестве значений критерия зависит от вида альтернативной гипотезы. Например, если проверяется нулевая гипотеза H 0:q=q 0 , а альтернативная гипотеза имеет вид H 1:q>q 0 , то критическая область будет состоять из интервала (K 2 , +¥), где точка K 2 определяется из условия P (K>K 2)=a (правосторонняя критическая область H 2:qP (Kлевосторонняя критическая область ). Если альтернативная гипотеза имеет вид H 3:q¹q 0 , то критическая область будет состоять из двух интервалов (–¥;K 1) и (K 2 , +¥), где точки K 1 и K 2 определяются из условий: P (K>K 2)=a/2 и P (Kдвухсторонняя критическая область ).

Основной принцип проверки статистических гипотез можно сформулировать следующим образом. Если K набл попадает в критическую область, то гипотеза H 0 отвергается и принимается гипотеза H 1 . Однако поступая таким образом, следует понимать, что здесь можно допустить ошибку 1-го рода с вероятностью a. Если K набл попадает в область принятия гипотезы – то нет оснований, чтобы отвергать нулевую гипотезу H 0 . Но это вовсе не означает, что H 0 является единственно подходящей гипотезой: просто расхождения между выборочными данными и гипотезой H 0 невелико; однако таким же свойством могут обладать и другие гипотезы.

Мощностью критерия называется вероятность того, что нулевая гипотеза будет отвергнута, если верна альтернативная гипотеза; т.е. мощность критерия равна 1–b, где b – вероятность совершить ошибку 2-го рода. Пусть для проверки гипотезы принят определенный уровень значимости a и выборка имеет фиксированный объем. Поскольку в выборе критической области есть определенный произвол, то ее целесообразно строить так, чтобы мощность критерия была максимальной или чтобы вероятность ошибки 2-го рода была минимальной.

Критерии, используемые для проверки гипотез о параметрах распределения, называются критериями значимости . В частности, построение критической области аналогично построению доверительного интервала. Критерии, используемые для проверки согласия между выборочным распределением и гипотетическим теоретическим распределением, называются критериями согласия .

Здесь среднее считается известным фиксированным числом, а дисперсиявыступает в роли неизвестного параметра. Положим

Так как --, тоимеет стандартное нормальное распределение. Тем самым, функцияимеет-распределение сстепенями свободы, никаким образом не зависящее от неизвестного параметра. Обозначая черезквантили этого распределения и фиксируя некоторые, такие, что, приходим к неравенству

которое выполнено с вероятностью . Откуда получаем-доверительный интервал для:

Доверительный интервал для дисперсии при неизвестном среднем

Заметим, что функция определена таким образом, что при заданной выборке ее значения зависят лишь от параметра. Что касается распределения случайной величины, то по теореме Фишера (см.8.3) оно является -распределением сстепенями свободы и, следовательно, не зависит от неизвестных параметров. Фиксируя, такие, что, и рассуждая как в (47), приходим к следующему -доверительному интервалу для:

который, используя обозначение (30), можно переписать так

Доверительный интервал для среднего при неизвестной дисперсии

Как и в предыдущем пункте, оба параметра исчитаются неизвестными, при этомявляется мешающим параметром. По теореме Фишера

и

независимы и имеют распределения и-распределение сстепенью свободы соответственно. Следовательно, отношение

имеет распределение Стьюдента с степенью свободы. Выберем функциюравной правой части (48):

где -- выборочная дисперсия, определенная формулой (30). Функция не зависит явно от мешающего параметра. Обозначая черезквантиль распределения Стьюдента сстепенью свободы, получим, что неравенство

выполнено с вероятностью . Отсюда получаем-доверительный интервал для:

Так как распределение Стьюдента симметрично, то по Предложению 3.3

Поэтому доверительный интервал можно записать в виде

Таким образом, выборочное среднее является серединой этого интервала.

Пример 8.2

Обратимся к Примеру 6.4.Предположим , что каждая из выборокивзята изнормального распределения снеизвестными параметрами --исоответственно. (О том, на основании чего можно сделать такое допущение, мы поговорим позже в9.5.)

Наша цель -- найти доверительные интервалы для и, теоретических значений содержания углерода и прочности на разрыв стали GS50. Напомним, что объем каждой из выборок. Зафиксируем доверительную вероятность, близкую к единице, скажем. По таблице распределения Стьюдента на стр.определим приближенно, что. Вспоминая значенияи, найденные в Примере6.5на стр., вычисляем

и, пользуясь формулой (49), получаем -доверительный интервал для процентногосодержания углерода

и -доверительный интервал для значенияпрочности на разрыв

Лабораторная работа №12. Основы теории оценивания

Статистик имеет дело с данными, подверженными случайной изменчивости. Их поведение характеризуется некоторым законом распределения вероятностей. Такой закон, как правило, содержит неизвестные величины, которые принято считать параметрами закона. В силу случайной изменчивости наблюдаемых данных, нельзя, основываясь на них, указать совершенно точное значение параметров. Приходится довольствоваться лишь приближенными значениями. Итак, математический статистик работает с такими величинами: - случайной величиной, которую он никогда не наблюдает, но которую считает "душой" изучаемых им данных, причиной, их породившей. Эта величина определяется некоторыми параметрами; - изучаемыми данными, которые получены, как реализация случайной величины. Например, случайной величиной является точное время. Её реализациями - показания часов, доступных для статистика. Задача статистика - по показаниям n часов t 1 ,...,t n максимально точно установить время. Кроме того он обязан охарактеризовать точность установленного значения. Он выполняет оценивание искомой величины в виде t = t 0 + ξ(a,σ), где t 0 - истинное время в момент исследования, ξ(a,σ) - случайная величина, характеризующая отклонение от истинного значения, t 0 , a, σ - параметры, величина ξ характеризуется законом распределения, вероятностями того, что она принимает различные значения. Оцениванием в статистике называют правило вычисления приближенного значения параметра на основе наблюдаемых данных. Оценка - это приближенное значение параметра, найденное по наблюдаемым данным. При построении оценок для практического применения, к оценкам предъявляются три основных требования:

    точность, то есть близость к истинному значению параметра, в примере ξ(a,σ) должно быть мало;

    несмещенность, то есть требование, чтобы математическое ожидание оценки было равно истинному значению параметра, в примере ξ(a,σ) должно быть в среднем равно нулю;

    состоятельность, то есть требование, чтобы при увеличении числа наблюдений оценка сходилась по вероятности к истинному значению параметра. В примере при большом числе часов n значение ξ(a,σ) должно стремиться к нулю с вероятностью, стремящейся к единице.

Наилучших во всех отношениях оценок не бывает. Например, среднее арифметическое, широко распространенная оценка среднего значения случайной величины, обладает свойством оптимальности для нормально распределенных данных. Однако оно приводит к ошибкам, если среди данных есть выбросы, то есть резко выделяющиеся значения. Такие выбросы в экономике порождены грубыми ошибками в измерениях или опечатками, при которых может исчезнуть точка между рублями и копейками и зарплата возрастёт в сотню раз. Рассмотрим случайный процесс, связанный с историей нанесения на карту Великой Британии уточнённых границ её владений, разбросанных по всем частям света. Известно, что любая точка на Земле характеризуется двумя координатами - широтой и долготой. Сегодня любой школьник слышал о спутниковых приборах, задающих любую точку на Земле с точностью до метра. Однако в те времена даже подобный прибор не помог бы морякам, так как он не обнаружил бы на небе ни одного "опорного" спутника. Широта определялась непосредственно по высоте светил над горизонтом с помощью прибора "секстан", аналогичного современному теодолиту (подзорная труба плюс измеритель угла). Долгота представляет собой угол поворота земного шара, при котором совмещаются местный меридиан и выбранный за условный нуль гринвичский. Земля делает оборот в 360° почти за сутки, то есть за час она поворачивается на 15°, за 4 минуты - на 1°. Для определения долготы надо точно знать местное и гринвичское время. Если штурман говорит капитану: "Местный полдень, Сэр", а капитан знает время в этот момент в Гринвиче, то разность времени, делённая на 4 минуты, и определяет долготу местности в градусах. Сегодня всё было бы просто - позвонить в Гринвич и узнать их время. Но тогда радио ещё не было придумано. Если бы на корабле были кварцевые часы, которые уходят на долю минуты за год, проблемы тоже бы не было, но существовавшие тогда лучшие хронометры не обеспечивали необходимой для измерения долготы точности. Они за несколько месяцев плавания уходили от точного времени на десятки минут. И когда в 1831 году в кругосветное плавание для составления карт отправлялся корабль "Бигль", капитан корабля Фиц Рой, человек просвещенный и ученый, взял с собой 24(!) морских хронометра. Каждый хронометр показывал своё "гринвичское время". В данном исследовании случайная величина - момент, когда штурман определял точное местное время по какому-нибудь небесному светилу. "Душа" измеряемой случайной величины - истинное время в Гринвиче в этот момент. Такую величину обозначим ξ. Значение этой величины никогда не известно. Наблюдаемые значения случайной величины, это показания (разные) хронометров. Каждый из них несколько ошибался, но в целом они следовали за общей "душой", накладывая на неё свою случайную погрешность. Оценка случайной величины - это то гринвичское время, которое предполагал по наблюдаемым данным капитан. Пусть случайные величины x i , i = 1,...,n, являются реализациями одной случайной величины ξ, то есть имеют одинаковое распределение (одну "душу"), причём для любого i среднее значение показаний равно одному и тому же числу: Е(x i) = Е(ξ). Смысл этого утверждения таков: все часы не могут дружно отставать или спешить из-за конструктивных неполадок. В среднем, равновероятно, что они спешат или отстают. Кроме того, пусть они независимы. Другими словами, у них нет чего-то общего в группах. Так, матрос, записывающий показания часов, мог их регистрировать в одной последовательности. Тогда последние показания регистрировались бы на минуту позже первых. Или несколько часов могли висеть в тёплом месте и от нагрева дружно спешить. Предположение, что такого явления нет, соответствует условию независимости показаний в разных испытаниях. Самая простая задача оценивания - это определение вероятности некоторого события, например, того, что реальная (не обязательно правильная) монета выпадет гербом вверх. Определить вероятность события почти никогда нельзя непосредственно. Универсального метода, который позволял бы для произвольного события указать его вероятность, не существует. Можно оценить вероятность события А, если допустимо проводить независимые повторные испытания в ходе которых это событие наступает с постоянной вероятностью. Пусть в каждом из п испытаний вероятность р = Р(А) события А остается неизменной и результат каждого испытания независим от остальных. Обозначим через m случайное число тех испытаний из общего числа n, в которых произошло событие А. Говорят, что m - число "успехов" в n испытаниях Бернулли. Согласно статистическому определению вероятности, при большом n относительная частота m/n события А приближенно равна вероятности события наступления события А, то есть m/n ~ р, где р = Р(А). Докажем, что это следует из аксиоматики Колмогорова. В математическом анализе используется строгое понятие предела последовательности: при достаточно большом номере члена последовательности, его значение может быть сделано сколь угодно близким к предельному значению. Такое определение не соответствует реальной жизни, где крайне редко происходят совершенно невероятные события. Например, из первичного хаотического бульона возникает бактерия, способная воспроизводить себя. Или рыба создаёт нечто, которое сначала миллионы лет ей не надо (но развивается), а затем становится крылом. Или затапливается целый город (или страна). В теории вероятностей понятие предела толкуется в смысле, отличном от того, который вкладывается в него в математическом анализе. Определение теории вероятностей ближе к жизни. Оно не запрещает того, что в какой-то момент в последовательности будет число, резко отличающееся от других. Последовательность случайных величин u n сходится по вероятности к р, если для любого числа ε > 0 вероятность того, что модуль разности |u n - р| при n → ∞ меньше, чем ε, стремится к единице:

В теории вероятностей никакое событие не является достоверным, но событие: |u n - р| ≤ ε практически достоверно при достаточно больших n. Докажем неравенство Чебышева. Пусть ξ - случайная величина, имеющая математическое ожидание Е(ξ) = а и дисперсию D(ξ) = σ², ε - положительное число. Тогда вероятность события, состоящего в том, что центрированная (Е(ξ) - а) и нормированная случайная величина превышает ε менее, чем ε -2:

Действительно, σ² = Е(ξ - а)². При вычислении среднего в правой части, выделим две области значений ξ. Для тех ξ, у которых |ξ - а| < εσ, сумма (или интеграл) соответствующих произведений неотрицателен. Для тех ξ, у которых |ξ - а| > εσ, сумма (или интеграл):

Любопытный частный случай: σ = 0. При этом ясно, что |ξ - а| = 0, то есть ξ = а. Докажем теорему Чебышева. Пусть х 1 ,...,х n - независимые одинаково распределенные случайные величины, имеющие математическое ожидание и дисперсию. То есть каждый x i суть реализация случайной величины ξ, причём Е(ξ) = Е(x i) = а, D(ξ) = D(x i) = σ². Тогда для любого ε > 0:

Доказательство. Дисперсия среднего арифметического:

Рассмотрим случайную величину η n , представляющую собой среднее арифметическое n наблюдений. Её среднее и дисперсия . Наблюдаемыми реализациями η n являются . В соответствии с неравенством Чебышева для случайной величины η n , вероятность её отклонения от среднего значения на величину, большую чем стремится к нулю:

Вероятность противоположного события стремится при больших n к 1: P(|η n - a|) → 1. Значит, последовательность случайных величин n сходится по вероятности к a. Вернемся к измерению времени на "Бигле". Показание каждого хронометра x i , i = 1,...,n - это измерение, независимое от других приборов. Подразумевается, что конструкция хронометра такова, что его работе отсутствует систематическая ошибка. Это значит, что одни экземпляры хронометров могут "уходить вперёд", другие "отставать", но эти ошибки случайные, связанные с изготовлением данного образца. Математически это означает, что среднее время - истинное. Качество конструкции и технологии изготовления хронометров характеризуется тем, насколько однородна по точности хода вся продукция в целом. Математически это выражается разбросом показаний отдельных приборов, т.е. дисперсией случайных величин x i . Дисперсия среднего в n = 24 раз меньше, чем дисперсия отдельного хронометра. Поэтому "среднее время", определённое по 24 хронометрам в среднем ближе к истинному времени почти в 5 раз, чем время любого отдельного хронометра.

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим



Дисперсия коэффициента регрессии, как уже было показано

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .

б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .

Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что

,

.

Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с

И . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :

. (5.63)

Случайная величина

(5.64)

имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :

, (5.65)

где предельная ошибка D u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции :

где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Итого 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42

По данным таблицы находим:

, , , ,

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :

который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z ) будет иметь вид

,

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда

или . Обратное z -преобразование осуществляется по формуле

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

,

где отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

, .

По данным таблицы находим

Получено уравнение регрессии:

Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .

,

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p

ЛЕКЦИЯ 5 99

§5.2. Анализ точности оценок коэффициентов регрессии 99

5.2.1. Оценка дисперсии случайного отклонения 99

5.2.2. Проверка гипотез относительно коэффициентов регрессии 100

5.2.3. Интервальные оценка коэффициентов регрессии 103

§5.3. Показатели качества уравнения регрессии 104

5.3.1. Коэффициент детерминации 104

5.3.2. Проверка общего качества уравнения регрессии: F-тест 106

5.3.3. Проверка общего качества уравнения регрессии: t-тест 108

§5.4. Интервалы прогноза по уравнению регрессии 108



Предыдущая статья: Следующая статья:

© 2015 .
О сайте | Контакты
| Карта сайта