Главная » Съедобные грибы » Корреляционно-регрессионный анализ в Excel: инструкция выполнения. Свойства и предостережения

Корреляционно-регрессионный анализ в Excel: инструкция выполнения. Свойства и предостережения

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

Многофакторный регрессионный анализ в оценке недвижимости

Регрессия в математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов , т. е. эти явления многофакторны. Между факторами существуют сложные взаимосвязи, поэтому их влияние комплексное и его нельзя рассматривать как простую сумму изолированных влияний.

Факторный анализ позволяет определить, какое влияние на изучаемый показатель оказало изменение того или иного фактора.

При моделировании функциональных факторных моделей необходимо соблюдать ряд требований:

1. Факторы, включаемые в модель, должны реально существовать и иметь конкретноефизическое значение.

2. Факторы, которые входят в систему факторного анализа, должны иметь причинно-следственную связь с изучаемым показателем.

3. Факторная модель должна обеспечивать измерение влияния конкретного фактора на общий результат.

Метод применяется для построения прогноза какого-либо показателя с учетом существующих связей между ним и другими показателями. Сначала в результате качественного анализа выделяется k факторов (X 1 , X 2 ,..., X k), влияющих на изменение прогнозируемого показателя Y , и строится чаще всего линейная регрессионная зависимость типа:

где Ai - коэффициенты регрессии, i = 1,2,...,k.

Значения коэффициентов регрессии (A 0 , A 1 , A 2 ,..., A k) определяются в результате сложных математических вычислений , которые обычно проводятся с помощью стандартных статистических компьютерных программ.

Определяющее значение при использовании данного метода имеет нахождение правильного набора взаимосвязанных признаков, направления причинно-следственной связи между ними и вида этой связи, которая не всегда линейна.

Для успешного применения данного метода необходимо выполнение трёх основных условий :

Ø наличие обширной и достоверной базы данных о сделках купли-продажи с описанием физических и экономических характеристик объектов недвижимости, участвовавших в этих сделках;

Ø наличие критерия подбора аналогов из вышеуказанной базы данных;

Ø существование методологии расчёта соответствующих поправок к стоимости выбранных аналогов.

В основном, при подборе аналогов и внесении поправок эксперты-оценщики руководствуются профессиональным опытом и интуицией , что является заведомо субъективным подходом . Привлечение современных статистических методов для обработки и анализа данных, используемых для сопоставления, позволяет снизить влияние субъективизма оценщика.

Для решения задач, связанных с обработкой и анализом статистической информации применяются методы математической статистики. Эти методы позволяют выявить закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценку вероятностей их выполнения или невыполнения . В последнее время статистические методы, а в частности методы корреляционного и регрессионного анализа, находят всё более широкое применение в оценочной деятельности, правда. Оценщику, владеющему принципами, методами и навыками статистического моделирования, значительно легче обосновать результаты оценки, а также спрогнозировать рыночную стоимость на базе имеющихся данных.

После того, как выявлены наиболее существенные факторы, влияющие на стоимость рассматриваемых объектов, встает вопрос о подборе вида функциональной зависимости, т. е. виде многофакторной регрессионной модели. От правильности этого выбора зависит то, насколько построенная модель будет адекватна изучаемому явлению, т. е. будет ли она соответствовать ему при заданном уровне точности, что, в свою очередь, предопределяет практическую ценность получаемых результатов.

Запас кривых для описания статистических данных, которыми располагает математический анализ, бесконечно разнообразен . Для выбора той из них, которая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинной зависимости между изучаемым показателем и обуславливающими его факторами, исходят из соображений самого различного характера - логического, графического и статистического.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров , т. к. для их оценки требуется меньшее количество эмпирических данных.

На практике наибольшее распространение получили линейные (1), степенные (2) и экспоненциальные (3) формы зависимости.

y = a 0 + a 1 x 1 + a 2 x 2 + … + a n x n (1)

y = a 0 x 1 a1 x 2 a2 … x n an (2)

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://сайт

Многофакторная модель корреляционно-регрессионного ан а лиза

С помощью корреляционно-регрессионного анализа мы сможем определить динамику стоимости недвижимости, и влияние отдельных факторов на стоимость недвижимости, а так же установим, какие из этих факторов оказывают наибольшее влияние на стоимость недвижимости.

Система факторов всегда формируется на стадии логического анализа. Конкретное построение модели осуществляется на основе собранной исходной информации с количественными оценками факторов.

Показатели, включаемые в статистическую модель, должны быть качественно однородны, независимы друг от друга, достаточны по количеству измерителей для статистической обоснованности результатов регрессионного анализа. Количество измерений должно превосходить число факторов не менее чем в 2 раза.

Этапы выполнения работы:

1. Ввод исходных данных;

2. Расчет корреляционной матрицы;

3. Определить коллинеарность;

4. Определить параметры уравнения регрессии;

5. Анализ факторов по коэффициенту эластичности;

6. Оценка параметров уравнения регрессии;

7. Оценить значимость показателей тесноты связи r;

8. Оценка значимости коэффициента детерминации R 2 ;

9. Доверительные интервалы для коэффициентов уравнения регрессии;

10. Доверительные интервалы для средних значений факторных признаков;

11. Автокорреляция

Пример расчета

1. Ввод исходных данных

Систему функциональных показателей формируем на стадии логического анализа.

При построении многофакторной модели прогнозирования стоимости недвижимости, могут быть включены следующие факторы:

Результирующий признак: Y -стоимость недвижимости, $;

Факторные признаки:

Х 1 -стоимость одного квадратного метра объекта, $;

Х 2 - валютный курс;

Х 3 - уровень доходности населения, $;

Х 4 - социально-политическое положение, баллы;

Х 5 - инфраструктура, баллы;

Х 6 - состояние объекта, ремонт, баллы;

Х 7 - количество телефонов, штук;

Х 8 - количество телефонов

Так как для статистического анализа требуется ввести факторы за какой-то промежуток времени, то нами была составлена таблица данных факторов для нескольких наблюдений за 10 лет, которая представлена ниже:

2. Расчет корреляционной матрицы

Введем составленную матрицу в Excel. С помощью надстройки Анализ данных в меню Сервис рассчитаем корреляционную матрицу. Для этого в появившемся окне “Анализ данных” в поле “Инструменты анализа” активизируем строку “Корреляция”. В окне “Корреляция” введем входной интервал, выделяя с помощью мыши столбы и строки исходной таблицы, включая заголовки (за исключением столбца годы); установим флаг на “Метки в первой строке”; затем в поле “Выходной интервал” укажем левую верхнюю ячейку, начиная с которой должна появиться матрица результатов - корреляционная матрица.

Корреляционная матрица:

Корреляционная матрица - симметричная матрица, в которой относительно главной диагонали, на пересечении i-ой строки и j-го столбца, расположены коэффициенты парной корреляции между i-мы и j-ми факторами. По главной диагонали коэффициенты равны 1.

В последней строке корреляционной матрицы расположены коэффициенты парной корреляции между факторными и результирующим признаками.

Учитывая, что, при r < 0 связь обратная, при r > 0 - связь прямая.

Анализируя первый столбец корреляционной матрицы, отберем факторы, влияющие на результирующий признак.

Если коэффициент корреляции, то связь между i-ым фактором и результирующим признаком тесная, тогда этот фактор влияет на среднемесячную заработную плату и остается в модели. В соответствии с этим выпишем соответствующие коэффициенты корреляции:

Вывод: Анализ последней строчки корреляционной матрицы показывает, что факторы Х2 , Х4 , Х5 , Х6 , Х8 исключаются из модели, так как коэффициент корреляции, а для дальнейшего рассмотрения в данной модели остаются факторы Х1 , Х3 , Х7 .

3 . Определение колинеарности

Колинеарность - это зависимость факторных признаков между собой. Связь между факторными и результирующим признаками должна быть более тесная, чем связь между самими факторами, то есть для любой пары отобранных факторов должно выполнять отношение:

Если соотношения данной системы выполняются, то оба фактора остаются в модели. Если соотношения не выполняются, то один из факторов нужно исключить из модели. Обычно исключаются факторы с меньшим коэффициентом корреляции, зависимость которых с результирующим меньше. Но при удалении факторов в каждой конкретной задаче необходимо смотреть смысловое содержание факторов. Формальный подход не допустим.

Определяем колинеарность между факторами:

условие выполняется, оба фактора остаются в модели;

условие не выполняется, фактор Х 7 исключается, так как;

Вывод: Таким образом, в результате анализа, для составления прогнозируемой функции оставляем фактор Х 1 , Х 3 . Тогда уравнение регрессии приобретает следующий вид:

Y 0 + a 1 x 1 + a 2 x 3

4 . Определение параметров уравнения регрессии.

В рабочем поле Excel с помощью команды копирования создадим новую таблицу с исходными данными из оставшихся факторов и найдем средние значения по столбцам:

Для решения полученного уравнения регрессии после активизации сервисной программы Анализ данных в меню Сервис воспользуемся инструментом анализа - Регрессия. В данном диалоговом окне введем с помощью мыши входной интервал Y и X-ов; устанавим флаг на Метки; укажем начальную ячейку для выходного интервала и подтвердим начало расчета кнопкой ОК. В третьей из полученных таблиц ВЫВОДА ИТОГОВ найдем коэффициенты Y-пересечения и Х 1 , Х 3 и подставим полученные значения вместе со средними значениями Х-ов в уравнение регрессии:

Описательная статистика

Стандартная ошибка

Стандартное отклонение

Асимметричность

Интервал

Максимум

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

корреляционный регрессия матрица эластичность

Вывод:

1. Уравнение регресс имеет следующий вид:

2. Зависимость между стоимостью недвижимости (У) и стоимостью одного квадратного метра (Х 1), между стоимостью недвижимости (У) и уровнем доходности населения (Х 3), является более тесной, чем между стоимостью недвижимости и остальными факторами.

5 . Анализ факторов по коэффициенту эластичности

О значимости факторов нельзя судить по значению коэффициента регрессии. Анализ осуществляется по коэффициенту эластичности.

Коэффициент эластичности показывает, на сколько процентов изменяется резул ьтирующий признак при изменении факторного признака на 1%. Обычно берется 10%. Знак коэффициента эластичности всегда совпадает со знаком коэффициентов регрессии. Чем больше по модулю значение коэффициента эластичности, тем большее влияние оказывает этот фактор на результирующий признак.

.

Увеличим каждый фактор на 10%:

Подставляя средние значения факторов Х 1 , Х 3, а также их последовательно увеличенные на 10% значения в соответствующие уравнения регрессии, вычислим коэффициенты эластичности:

Коэффициент эластичности принято изображать графически.

Зависимость между Х 1 (стоимостью одного метра квадратного) и Y (стоимостью недвижимости объекта):

Вывод: при увеличении факторного признака Х 1 на 10 % результативный признак увеличивается на 11,91 %.

Зависимость между Х 3 (уровнем доходности населения) и Y (стоимостью недвижимости объекта)

Вывод: при увеличении факторного признака Х 3 на 10 % результативный признак сокращается на 3,42 %.

ВЫВОД: Анализ факторов по коэффициенту эластичности показал, что наибольшее влияние на стоимость недвижимости оказывает стоимость одного метра квадратного (фактор Х 1), затем уровень доходности населения (фактор Х 3).

6 . Оценка параметров уравнения регрессии

Для того, чтобы оценить параметры уравнения регрессии используется t- критерий Стьюдента. В таблице «дисперсионный анализ», в графе «t- статистика» содержатся рассчитанные на компьютере данные:

Эти значения сравниваются t - критическим, учитывая принятый уровень значимости б = 0,05 и k - число степеней свободы k = n-m-1; k=10-2-1=7, затем по таблице Стьюдента определяем, что: t кр = 2,365, либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку СТЮДРАСПОБР , с помощью которой компьютер возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, а в поле степень свободы -7

Параметры уравнения регрессии признаются типичными, если выполняются неравенства:

Подставим имеющие данные для сравнения:

Условие не выполняется

Условие не выполняется.

Вывод: Анализ параметров уравнения регрессии показал, что рассчитанные на компьютере данные не удовлетворяют условию сравнения. Поэтому математическая формула регрессии не может быть использована для прогнозирования стоимости недвижимости, а может быть использована только для практических расчетов.

7. Оценить значимость показателей тесноты связи r

Для этого применяется t- критерий Стьюдента. Расчетные значения t r для факторов Х 1 , Х 3 определяется по формуле:

где r - значения, рассчитанные в корреляционной матрице (столбец У) для объясняющих факторов

n - количество наблюдений.

Подставляя имеющиеся данные в формулу, получаем:

Рассчитанные значения надо сравнить с t- критическим равное 2,365. Показатели тесноты связи признаются типичными, если

Подставляя полученные данные, получим:

Условие выполняется

Условие выполняется

Вывод: все коэффициенты корреляции, соответствующие оставшимся факторам, признаются типичным, так как условие неравенства выполняется.

8 . Оценка значимости коэффициента детерминации R 2

Для этого используется F- критерий Фишера, величина которого берется из таблицы Фишера со степенями свободы:

к 1 = m = 2 - число объясняющих факторов.

к 2 = n-m-1= 10-2-1=7

Либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку F РАСПОБР , с помощью которой компьютер возвращает обратное значение для F-распределения вероятностей, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, в поле степень свободы1 ставим число объясняющих факторов, т.е. 2, а в поле степень свободы2 вводим к 2 = 7

Для определения статистической значимости коэффициента детерминации R 2 используется неравенство:

Значение F R рассчитывается по формуле:

Подставляя данные в неравенство получим: F расч =337,55 F крит. =4,737

Вывод:

Коэффициент детерминации R 2 является значимым, так как неравенство выполняется;

Величина R 2 =0,990- это означает, что 99 % общей вариации результативного признака объясняется изменением факторных признаков Х 1 ,Х 3 , а 1 % объясняется изменениями других факторов.

9. Доверительные интервалы для коэффициентов уравнения регрессии

Доверительные интервалы для коэффициентов множественной регрессии определяются:

а=499,986; Sa=29,254; tкрит.= 2,365

a 2 =-779,762; Sa 2 =644,425; tкрит.= 2,365

Вывод:

95% коэффициента регрессии а 1 лежит в интервале, а 5% вне этого интервала.

95% коэффициента регрессии а 2 лежит в интервале, а 5% вне этого интервала.

10 . Доверительные интервалы для средних значений факторных призн а ков

Доверительные интервалы для средних значений факторных признаков определяются:

где -стандартное отклонение (среднеквадратическое отклонение);

n - число наблюдений;

t находится по функции таблицы Лапласа

95% факторного признака (стоимость 1 м 2) лежит в интервале, а 5% вне этого интервала.

95% факторного признака (уровень доходности населения) лежит в интервале, а 5% вне этого интервала.

1 1 . Автокорреляция

А) Для определения величины коэффициента автокорреляции используются значения остатков, которые имеют следующий вид:

ВЫВОД ОСТАТКА

Дополнительные расчеты

Наблюдение

Предсказанное Y

Остатки i

Для определения величины коэффициента автокорреляции используется формула Дарвина - Оутсона:

использование, которой связано с дополнительными расчетами. Подставим данные в формулу и получим:

Коэффициент корреляции изменяется в пределах 0?dw?4.

Значит и размер автокорреляционного поля должен иметь эти же пределы.

Б) В автокорреляции содержатся (слева направо):

1. Зона положительной автокорреляции

2. Зона неопределенности

3. Зона отсутствия автокорреляции

4. Зона неопределенности

5. Зона отрицательной автокорреляции.

Размер зон неопределенности зависят от показателей таблицы Дарвина-Оутсона.

Для того чтобы найти в таблице нужные показатели надо знать номер столбца и строки.

Номер нужного столбца - это число объясняющих факторов уравнения регрессии: k=m=2;

Номер строки- это количество наблюдений: n=10.

В таблице находятся показатели d l и d u:

В левой половине автокорреляционного поля:

Нижняя граница зоны равна d l =0,697

Верхняя граница зоны равна d u = 1,641

Для правой половины автокорреляционного поля границы неопределенности надо рассчитать:

Верхняя граница зоны равна 4-d u = 4-1,641= 2,359

Нижняя граница зоны равна 4-d l =4-0,697= 3,303

Общая картина автокорреляционного поля может быть представлена в виде:

В) Коэффициент автокорреляции, его значение соответствует зоне отсутствия автокорреляции.

Размещено на сайт

Подобные документы

    Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа , добавлен 27.03.2009

    Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.

    задача , добавлен 20.01.2010

    Расчёт параметров линейного уравнения регрессии. Оценка регрессионного уравнения через среднюю ошибку аппроксимации, F-критерий Фишера, t-критерий Стьюдента. Анализ корреляционной матрицы. Расчёт коэффициентов множественной детерминации и корреляции.

    контрольная работа , добавлен 29.08.2013

    Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа , добавлен 27.07.2015

    Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат , добавлен 25.01.2009

    Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.

    курсовая работа , добавлен 22.05.2015

    Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция , добавлен 23.12.2014

    Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа , добавлен 22.07.2015

    Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа , добавлен 29.06.2013

    Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов.

Многофакторный корреляционный и регрессионный анализ позволяет оценить меру влияния на исследуемый результативный показатель каждого из включенных в модель (уравнение) факторов при фиксированном положении (на среднем уровне) остальных факторов. Он позволяет также при любых возможных сочетаниях факторов с определенной степенью точности найти теоретическое значение этого показателя (важным условием является отсутствие между факторами функциональной связи).

Математически задача формулируется следующим образом. Требуется найти аналитическое выражение, наилучшим образом отражающее установленную теоретическим анализом связь независимых признаков с результативным, т.е. функцию:

В условиях использования ЭВМ выбор аппроксимирующей математической функции осуществляется перебором решений, наиболее часто применяемых в анализе корреляции уравнений регрессии.

После выбора типа аппроксимирующей функции приступают к многофакторному корреляционному и регрессионному анализу, задачей которого является построение уравнения множественной регрессии и нахождение его неизвестных параметров.

Параметры уравнения множественной регрессии, как и в случае парной регрессии, находят по способу наименьших квадратов.

Для расчета параметров простейшего уравнения множественной линейной двухфакторной регрессии, которая имеет вид:

где _ расчетные значения зависимой переменной (результативного признака);

x 1, х 2 _ независимые переменные (факторные признаки);

a 0, a 1, a 2 _ параметры уравнения,

строится следующая система нормальных уравнений:

(8.5)

Параметры этой системы могут быть найдены методом К. Гаусса.

Парные коэффициенты корреляции применяются для измерения тесноты связи между двумя из рассматриваемых переменных (без учета их взаимодействия с другими переменными). Методика расчета таких коэффициентов и их интерпретация аналогичны методике расчета линейного коэффициента корреляции в случае однофакторной связи. Если известны средние квадратические отклонения анализируемых величин, то парные коэффициенты корреляции можно рассчитать проще, по следующим формулам:



(8.6)

(8.7)

. (8.8)

Частные коэффициенты корреляции. Однaкo в реальныx условиях все переменные, как правило, взaимoсвязaны. Тeснота этой связи определяется частными кoэффициентами корреляции, которые характеризуют степень и влияние одного из аргументов на функцию при условии, что остальные независимые переменные закреплены на постоянном уровне. В зависимости от количества переменных, влияние которых исключается, частные коэффициенты корреляции могут быть различного порядка: при исключении влияния одной переменной получаем частный коэффициент корреляции первого порядка; при исключении влияния двух переменных _ второго порядка и т.д. Парный коэффициент корреляции между функцией и аргументом обычно не равен соответствующему частному коэффициенту.

Частный коэффициент корреляции первого порядка между признаками x 1 и y при исключении влияния признака х 2 вычисляют по формуле:

(8.9)

Зависимость y от х 2 при исключенном влиянии x 1 рассчитывают по формуле:

(8.10)

(8.11)

где r _ парные коэффициенты корреляции между соответствующими признаками.

Показателем тесноты связи, устанавливаемой между результативными и двумя или более факторными признаками, является совокупный коэффициент множественной корреляции _ . В случае линейной двухфакторной связи совокупный коэффициент множественной корреляции может быть рассчитан по формуле:

(8.12)

где r _ линейные коэффициенты корреляции (парные); подстрочные индексы показывают, между какими признаками они исчисляются.

Совокупный коэффициент множественной корреляции измеряет одновременное влияние факторных признаков на результативный. Его значения находятся в пределах _1 до +1. Чем меньше наблюдаемые значения изучаемого показателя отклоняются от линии множественной регрессии, тем корреляционная связь является более интенсивной, а следовательно, значение R ближе к единице.

Совокупный коэффициент множественной детерминации. Величина R 2 называется совокупным коэффициентом множественной детерминации . Она показывает, какая доля вариации изучаемого показателя объясняется влиянием факторов, включенных в уравнение множественной регрессии. Значение совокупного коэффициента множественной детерминации находится в пределах от 0 до 1. Поэтому, чем ближе R 2 к единице, тем вариация изучаемого показателя в большей мере характеризуется влиянием отобранных факторов.

Динамические ряды

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование взаимосвязи случайных величин биржевых ставок приводит к теории корреляции, как разделу теории вероятностей и корреляционному анализу, как разделу математической статистики. Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Формально корреляционная модель взаимосвязи системы случайных величин может быть представлена в следующем виде: , где Z - набор случайных величин, оказывающих влияние на

Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

  • - для объяснения;
  • - для предсказания;
  • - для управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент. Однако, в силу его сложности, освоение его требует значительно больших знаний и усилий, чем освоение простых электронных таблиц.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. В экономике значимое уравнение используется, как правило, для прогнозирования изучаемого явления или показателя.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные таблицы делают такой анализ легко доступным. Таким образом, регрессионные вычисления и подбор хороших уравнений - это ценный, универсальный исследовательский инструмент в самых разнообразных отраслях деловой и научной деятельности (маркетинг, торговля, медицина и т. д.). Усвоив технологию использования этого инструмента, можно применять его по мере необходимости, получая знание о скрытых связях, улучшая аналитическую поддержку принятия решений и повышая их обоснованность.

Корреляционно-регрессионный анализ считается одним из главных методов в маркетинге, наряду с оптимизационными расчетами, а также математическим и графическим моделированием трендов (тенденций). Широко применяются как однофакторные, так и множественные регрессионные модели.

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков.

Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.

Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

  • 1. Парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными).
  • 2. Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
  • 3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить “полезность” факторных признаков при построении уравнений множественной регрессии. Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.

Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Пример 1.Даны следующие данные:

№ предприя-тия

Уров.издержек обращ.(y)

Грузооборот, тыс.руб(x1)

Фондоемкость руб/тыс.т(x2)

Необходимо провести многофакторный корреляционно-регрессионный анализ.

Чтобы провести многофакторный корреляционно-регрессионный анализ нужно составить следующую таблицу:

Таблица 1

№ предприятия

Уров.издержек обращ.(y)

Грузооборот, тыс.руб(x1)

Фондоемкость руб/тыс.т(x2)

ср. знач-е:

(x1-x1среднее)^2

(x2-x2среднее)^2

(y-y среднее)^2

Исходя из таблицы 1 получаем таблицу 2:

Таблица 2

0,03169Z2-0,6046Z1



Предыдущая статья: Следующая статья:

© 2015 .
О сайте | Контакты
| Карта сайта