SlideShare ist ein Scribd-Unternehmen logo
1 von 86
Регрессионный анализ 
с MS Excel 2007 
Теория и практические советы
Про корреляцию & регрессию) 
Задача корреляционного анализа – 
определение тесноты и направления связи 
между изучаемыми величинами.
Про корреляцию & регрессию) 
Задача регрессионного анализа - 
выяснение действия на зависимую 
переменную главных факторов, при 
неизменных прочих условиях, и при условии 
исключения случайных воздействий на 
значение зависимой переменной.
Про корреляцию & регрессию) 
Результат регрессионного анализа - 
аналитическое выражение связи – 
функция регрессии 
случайной предполагаемо зависимой 
величины Y (результативный признак) 
с независимыми между собой случайными 
величинами Х1, Х2, …Хm (факторами).
Функция регрессии 
Функция регрессии представляется 
уравнением регрессии – формой 
отображения связи 
значения результативного признака Y 
со значениями факторов Х1, Х2, …Хm.
Уравнение регрессии - 
В зависимости от типа выбираемого 
уравнения различают регрессии: 
- линейную; 
- нелинейную (квадратичную, 
экспоненциальную, логарифмическую и т.д.).
Формы зависимости 
1. положительная или отрицательная линейная 
регрессия (выражается в равномерном росте 
или падении функции); 
2. положительная равноускоренно или 
равнозамедленно возрастающая регрессия; 
3. отрицательная равноускоренно или 
равнозамедленно убывающая регрессия.
Формы зависимости 
Обычно, описанные разновидности 
встречаются не в чистом виде, 
а в сочетании друг с другом, 
т.е. имеет место комбинированная 
форма регрессии.
Линейная регрессия 
Уравнение линейной регрессии: 
Y=А+b*X 
A – константа (свободный член); 
b - угол наклона прямой (угловой 
коэффициент, коэффициент регрессии, B- 
коэффициент); 
X – объясняющая переменная.
Основное ограничение метода 
регрессионный анализ позволяет 
обнаружить лишь зависимость значений 
случайных переменных, 
а не связи, лежащие в основе этих 
зависимостей.
Особенность регрессионного 
анализа 
можно получить конкретные сведения о 
форме и характере зависимости между 
значениями исследуемых переменных.
Парная и множественная 
В зависимости от числа исследуемых 
переменных (признаков) различают парную и 
множественную регрессию. 
•Парная – исследуется связь между двумя 
признаками (одним результативным и одним 
факторным). 
•Множественная (многофакторная) – между 
тремя и более признаками (одним 
результативным и несколькими факторными).
Прогнозирование 
Результат регрессионного анализа – 
уравнение регрессии – можно использовать 
для решения задачи прогнозирования. 
Прогнозные значения Y вычисляются путем 
подстановки в уравнение регрессии 
предполагаемых значений объясняющих 
переменных Х1, Х2, …Хm .
Задачи регрессионного анализа 
• оценка степени связи (зависимости) между 
переменной Y и факторами Х1, Х2, …Хm. 
• установление формы зависимости, 
• определение функции регрессии, 
• оценка неизвестных значений зависимой 
переменной (интерполяция и 
экстраполяция - прогнозирование).
Этапы исследования 
1. Формулировка задачи. Формируются предварительные гипотезы о 
зависимости исследуемых явлений. 
2. Определение зависимых и независимых (объясняющих) 
переменных величин. 
3. Сбор статистических данных для каждой из переменных, 
включенных в регрессионную модель. 
4. Формулировка гипотезы о форме связи (парная или 
множественная, линейная или нелинейная). 
5. Определение функции регрессии - расчет численных значений 
параметров (коэффициентов) уравнения регрессии. 
6. Оценка точности результатов регрессионного анализа. 
7. Интерпретация полученных результатов. Результаты анализа 
сравниваются с предварительными гипотезами. Оценивается 
корректность и правдоподобие полученных результатов. 
8. Предсказание неизвестных значений зависимой переменной.
Этапы регрессионного анализа 
1. Задание аналитической формы уравнения 
регрессии и определение параметров регрессии. 
2. Определение в регрессии степени 
стохастической взаимосвязи результативного 
признака и факторов, проверка общего качества 
уравнения регрессии. 
3. Проверка статистической значимости каждого 
коэффициента уравнения регрессии и 
определение их доверительных интервалов.
Инструментальное средство 
MS Excel : инструмент пакета анализа 
"Регрессия" применяется для подбора 
параметров уравнения регрессии методом 
наименьших квадратов.
Оценка неизвестных значений 
зависимой переменной 
Решается задача одного из типов: 
1.Задача интерполяции - оценка значений зависимой 
переменной внутри рассматриваемого интервала 
исходных данных, т.е. пропущенных значений; 
2.Задача экстраполяции - оценка будущих значений 
зависимой переменной, т.е. нахождение значений вне 
заданного интервала исходных данных. 
Обе задачи решаются путем подстановки в уравнение 
регрессии найденных оценок значений независимых 
переменных. 
Результат решения уравнения представляет собой 
оценку значения целевой (зависимой) переменной.
Исходные предположения 
регрессионного анализа 
1. Зависимость между значениями переменных Y и X 
предполагается линейной. 
Построенная диаграмма рассеивания может 
показать явную линейную связь. Если на диаграмме 
рассеивания мы видим явное отсутствие линейной 
связи, т.е. присутствует нелинейная связь, следует 
использовать нелинейные методы анализа. 
2. Распределение разницы предсказанных и 
наблюдаемых значений (остатков) является 
нормальным. 
Для визуального определения характера 
распределения можно воспользоваться 
гистограммами остатков.
Разброс и остатки 
Обычно имеет место разброс наблюдаемых 
значений относительно линии регрессионной 
прямой. 
Остаток - это отклонение отдельной 
точки (наблюдения) от линии регрессии 
(предсказанного значения).
Этап 1 
Уравнение множественной линейной регрессии 
y =b+b +b + +b 
y 
... , 0 1 1 2 2 x x xm m 
где – теоретические значения результативного признака, 
полученные путем подстановки соответствующих 
значений факторных признаков в уравнение регрессии; 
– значения факторных признаков; 
– параметры уравнения (коэффициенты 
x , x ,... x1 2 
m b , b ,... 
b 0 1 
m 
регрессии).
Метод наименьших квадратов 
(МНК) 
находятся параметры модели , при которых 
минимизируется сумма квадратов отклонений 
(остатков) эмпирических (наблюдаемых, 
фактических) значений результативного признака Y 
от теоретических, полученных по выбранному 
уравнению регрессии. 
= å - = å - - - - - ® 
mi( ) ( ... )2 n 
0 1 1 2 2 
i i 
1 
2 
= = 
1 
i m mi 
n 
i 
n 
i 
i y y y x x x i 
S b b b b
Метод наименьших квадратов 
(МНК) 
Рассматривая S в качестве функции параметров βi и проводя 
математические преобразования (дифференцирование), получаем 
систему нормальных уравнений с m неизвестными (по числу параметров 
βi ). 
å å å å 
ì 
ï ï 
y n b b x b x b 
x 
... , 
0 1 1 2 2 
å å å å å 
í 
ï ï 
yx b x b x b x x b 
x x 
2 2 1 1 
2 
1 0 1 1 1 
å å å å å 
î 
= + + + + 
= + + + + 
= + + + + 
m m m m m m 
Здесь n – число наблюдений, m – число факторов в уравнении 
регрессии. 
Решение данной системы уравнений позволяет получить значения 
параметров (коэффициентов) регрессии βi . 
... . 
... 
... , 
2 
0 1 1 2 2 
m m 
m m 
yx b x b x x b x x b 
x
Дисперсии 
Для определения величины степени стохастической (вероятностной) 
связи значений результативного признака Y и факторов Хi 
необходимо знать следующие дисперсии: 
- общую дисперсию результативного признака Y, отображающую 
влияние как основных (учтенных), так и остаточных (неучтенных) 
факторов: 
, 
i å= 
y - 
y 
( ) 
n 
2 1 
2 
n 
s y 
= 
i 
y 
где - среднее значение результативного признака Y;
Дисперсии 
- факторную дисперсию результативного признака Y, отображающую 
влияние только основных факторов: 
; 
 
i å= 
y - 
y 
( ) 
n 
2 1 
2 
n 
s 
Ô 
i 
= 
- остаточную дисперсию результативного признака Y, отображающую 
влияние только остаточных факторов: 
. 
 
y - 
y 
( ) 
( 1) 
2 1 
2 
- + 
= 
å= 
n m 
O 
n 
i 
i i 
s
Сложение дисперсий 
При наличии корреляционной связи результативного 
признака и факторов должно выполняться соотношение 
2 2 , sÔ <sy 
при этом 
2 2 2 . s s s y = Ô + O
Коэффициент детерминации (мера 
определенности) – R2 
Для оценки общего качества модели (уравнения 
линейной многофакторной регрессии) используют 
множественный коэффициент детерминации R2, 
называемый 
квадратом коэффициента множественной 
корреляции R.
Коэффициент детерминации (мера 
определенности) R2 
Множественный коэффициент детерминации 
рассчитывается по формуле 
s2 
2 
R = Ô 
s 
2 
y 
и определяет долю вариации результативного признака, 
обусловленную изменением факторных признаков, 
входящих в многофакторную регрессионную модель.
R2 (мера определенности) 
Характеризует качество регрессионной 
модели - степень соответствия между 
исходными данными и регрессионной 
моделью (расчетными данными). 
Значение R2 находится в пределах 
интервала [0;1].
R2 (мера определенности) 
Если значение R2 близко к 1, то качество 
модели хорошее - модель объясняет почти 
всю изменчивость соответствующих 
переменных. 
Значение R2, близкое к 0, означает 
плохое качество построенной модели.
Множественный R 
(коэффициент множественной корреляции) 
Выражает степень зависимости 
переменной Y от независимых переменных X. 
Множественный R равен квадратному 
корню из коэффициента детерминации R2 и 
принимает значения в интервале [0,1]. 
В простом линейном регрессионном 
анализе множественный R равен 
коэффициенту корреляции Пирсона.
Проверка адекватности уравнения 
регрессии 
1. проверка значимости коэффициента 
детерминации 
R2 
2. проверка значимости каждого 
коэффициента регрессии.
F критерий 
Для решения вопроса об адекватности уравнения, 
построенного на основе ограниченной выборки данных, всей 
генеральной совокупности, проводится проверка статистической 
значимости коэффициента детерминации R2 на основе F-критерия 
Фишера: 
= R - - 
- 
F n m 
. 1, 
2 
R 
1 2 
m 
где n – число наблюдений; 
m – число факторов в уравнении регрессии. 
b = 0 
Если в уравнении регрессии свободный член 0, то числитель n-m- 
1 следует увеличить на 1, т.е. он будет равен n-m.
F критерий 
В математической статистике доказывается, что если гипотеза 
выполняется, то величина F имеет F-распределение с 
: 2 0 
0 H R = 
k=m и l=n-m-1 числом степеней свободы, т.е. 
R 
n m 
R 
- - = = = - - 
. 1 ( , 1). 
2 
- 
1 2 
F k m l n m 
m 
: 2 0 
0 H R = 
Гипотеза о незначимости коэффициента детерминации 
p ïð F F a > 
отвергается, если 
êð 
. , 
При значениях R2 > 0,7 считается, что вариация результативного 
признака Y обусловлена в основном влиянием включенных в 
регрессионную модель факторов Х. 
R2
Ошибка аппроксимации 
Для оценки адекватности уравнения 
регрессии можно использовать показатель 
средней ошибки аппроксимации: 
100%. 
1 n 
ˆ 
1 
× 
y - 
y 
= å= 
i 
y 
i i 
n 
e
Значимость фактора Хi 
Если вычисленное значение 
коэффициента регрессии меньше его 
стандартной ошибки, то такой коэффициент 
не обладает необходимой степенью 
значимости. 
Такие коэффициенты и 
соответствующие переменные Хi должны 
быть исключены из уравнения регрессии.
t-критерий 
Для оценки адекватности уравнения 
регрессии можно использовать показатель 
средней ошибки аппроксимации 
=b 
, 
b s 
i 
t i 
где s 
- стандартное значение ошибки для 
коэффициента регрессии . 
i b 
i b
t-критерий 
В математической статистике доказывается, что если гипотеза 
выполняется, то величина t имеет распределение 
: 0 0 = i H a 
Стьюдента с числом степеней свободы k=n-m-1, т.е. 
: 0 0 = i H a 
Гипотеза о незначимости коэффициента регрессии 
отвергается, если 
a = t(k = n -m-1). 
ai 
i 
s 
. p êp t > t
Границы доверительных интервалов 
, êp t 
Зная значение можно найти границы 
доверительных интервалов для коэффициентов 
регрессии 
; 
. 
min 
t 
b = b - 
s 
i i кр 
max 
b 
i 
i 
t 
b b s 
i i кр 
b 
= +
Коэффициент эластичности 
Частные коэффициенты эластичности показывают , на сколько 
процентов в среднем изменится значение результативного признака 
при изменении значения соответствующего факторного признака на 
1%, и определяются по формуле 
Э xi 
Хi i = b 
где - среднее значение соответствующего факторного признака; 
- среднее значение результативного признака; 
- коэффициент регрессии при соответствующем факторном 
признаке. 
, 
y 
i x 
y 
i b
Регрессионный анализ в MS Excel 
На вкладке 
«Данные» выбираем 
«Анализ данных» и в 
открывшемся окне 
инструментов выбираем 
инструмент анализа 
«Регрессия»;
Регрессионный анализ в MS Excel 
2007
Регрессионный анализ в MS Excel 
Задаем входные интервалы X и Y. 
Входной интервал Y - это ряд значений зависимой 
переменной, он должен включать один столбец. 
Входной интервал X - это ряды значений факторов 
-независимых между собой переменных, влияние 
которых на Y необходимо проанализировать. 
Входной интервал должен включать не более 16-ти 
столбцов. 
В выходном диапазоне получаем отчет, состоящий 
из ряда таблиц.
Входные интервалы Y и X 
Входной интервал - только данные, идущие подряд, без 
пропусков - пустых ячеек и столбцов. 
Каждый показатель (переменная) должен быть 
представлен столбцом значений. 
Количество значений во всех столбцах должно быть 
одинаковым. 
Если необходимо исследовать влияние на значение Y 
текущего периода одновременно значений переменной Xi 
текущего и предыдущих периодов, то лаговые значения 
следует расположить в отдельных дополнительных столбцах 
на одной строке.
Регрессионный анализ в MS Excel 
Флажок Метки 
Флажок Метки устанавливается, если 
первая строка во входном диапазоне 
содержит заголовки. 
Если заголовки отсутствуют, будут 
автоматически созданы стандартные 
названия для столбцов данных диапазона.
Регрессионный анализ в MS Excel 
Уровень надёжности 
Флажок «Уровень надёжности» и значение 
в поле используются для указания 
нестандартного значения уровня 
значимости коэффициента детерминации 
R2 и коэффициентов регрессии.
Регрессионный анализ в MS Excel 
Уровень надёжности 
Стандартное значение = 0,95. 
Для изменения значения необходимо 
установить флажок «Уровень надёжности» 
и изменить значение в поле справа.
Регрессионный анализ в MS Excel 
Уровень надёжности 
Если флажок «Уровень надёжности» не 
установлен, то в отчёте, 
в таблице параметров уравнения регрессии 
будут созданы две одинаковых пары 
столбцов для границ доверительных 
интервалов.
Регрессионный анализ в MS Excel 
Флажок «Константа ноль» 
Устанавливается, если необходимо, чтобы 
значение свободного члена уравнения 
регрессии было равно 0, и линия диаграммы 
проходила через точку пересечения осей 
координат.
Регрессионный анализ в MS Excel 
Переключатель «Параметры вывода» 
Выходной интервал. Вводится ссылка на 
верхнюю левую ячейку выходного диапазона 
(на текущем листе). Размер выходного 
диапазона определяется автоматически. 
Если выходной интервал частично 
совпадёт со входным, то выдаётся 
соответствующее предупреждение.
Регрессионный анализ в MS Excel 
Переключатель «Параметры вывода» 
Новый рабочий лист. Результаты анализа 
располагаются на новом листе, начиная с 
ячейки А1. Имя листа можно задать в поле 
расположенное напротив переключателя. 
Новая рабочая книга. Создаётся и 
открывается новая книга, на первом листе 
которой, начиная с ячейки А1, располагаются 
результаты регрессионного анализа.
Регрессионный анализ в MS Excel 
Флажки «Остатки» 
Флажки «Остатки» и 
«Стандартизованные остатки» 
устанавливаются, если нужно включить в 
результаты анализа столбцы 
соответствующих остатков.
Регрессионный анализ в MS Excel 
Флажки «Графики» 
Флажок «График остатков» 
устанавливается, если необходимо получить 
в отчёте точечные диаграммы зависимости 
остатков от факторов Х. 
Флажок «График подбора» 
устанавливается, если нужно получить в 
отчёте точечные диаграммы регрессионной 
зависимости Y от факторов Хi.
Регрессионный анализ в MS Excel 
Флажок «Нормальная вероятность» 
Флажок устанавливаются, если необходимо 
получить в отчёте точечный график 
зависимости наблюдаемых значений Y от 
автоматически формируемых интервалов 
персентилей. График строится на основе 
генерируемой таблицы «Вывод 
вероятности».
Пример регрессионного анализа 
Нужно установить зависимость (построить 
уравнение регрессии) 
величины суммы прибыли предприятия Y 
от величины оборотного капитала Х1 и 
стоимости основного капитала Х2 . 
Данные представлены таблицей в MS Excel
Что где? 
Для решения задачи используем 
инструмент «Регрессия» из Пакета анализа 
данных MS Excel.
Настройка
Вывод результатов 
B C 
11 ВЫВОД ИТОГОВ 
12 
13 Регрессионная статистика 
14 Множественный R 0,997 
15 R-квадрат 0,995 
16 Нормированный R-квадрат 0,991 
17 Стандартная ошибка 5,050 
18 Наблюдения 6
Результаты РА
Результаты РА 
1.Множественный R – 
коэффициент корреляции R; 
2.R-квадрат – коэффициент 
детерминации R2; 
3.Нормированный R- 
квадрат – 
скорректированный 
коэффициент детерминации; 
4.Стандартная ошибка – 
остаточное стандартное 
отклонение σ0; 
5.Наблюдения – число 
наблюдений n.
Коэффициент детерминации R2 
Значение множественного коэффициента 
детерминации R2=0,995 показывает, что 99,5% 
общей вариации результативного признака Y 
объясняется вариацией факторных признаков Х1 и Х2. 
Значит, выбранные факторы включены в модель 
правильно. 
Рассчитанный уровень значимости (столбец 
Значимость F) Fр=0,0004 < (1-0,95) подтверждает 
значимость R2.
Результаты РА 
Столбец df (degree of freedom)– число степеней свободы для 
строк: 
Регрессия – количество факторов m в уравнении регрессии 
kф; 
Остаток – число наблюдений n количество переменных в 
уравнении регрессии m+1; ko=n-(m+1). 
Итого – ky=kф+ko
Результаты РА 
Столбец SS(Sum of squares) – сумма квадратов 
отклонений 
для строки Регрессия – сумма квадратов 
отклонений теоретических значений от среднего: 
n 
2 ( )2  
å= 
SS = y - 
y 
ф i i 
1
Результаты РА 
Столбец SS(Sum of squares) – сумма квадратов 
отклонений 
для строки Остаток – сумма квадратов остатков 
-отклонений эмпирических значений от 
теоретических: 
n 
2 ( )2  
å= 
SS = y - 
y 
o i i i 
1
Результаты РА 
Столбец SS(Sum of squares) – сумма квадратов 
отклонений 
для строки Итого – сумма квадратов отклонений 
эмпирических значений от среднего: 
n 
å= 
2 ( )2 
SS = y - 
y 
y i i 
1
Заметьте! 
2 2 2 
y ф o SS = SS + SS
Результаты РА 
Столбец MS (Mean square) – значения дисперсий, 
рассчитываемые по формуле MS=SS/df. 
В строках: 
Регрессия – факторная дисперсия σ2 
ф, 
Остаток – остаточная дисперсия σ2 
о. 
Столбец F –расчётное значение F-критерия Фишера Fp = 
MS(регрессия)/MS(остатки).
Результаты РА 
Столбец F –расчётное значение F-критерия Фишера Fp = 
MS(регрессия)/MS(остатки). 
Столбец Значимость F – значение уровня значимости, 
соответствующее вычисленному значению Fp. 
Определяется с помощью функции MS Excel 
=FРАСП(Fp; df(регрессия); df(остаток)).
Результаты РА 
Коэффициенты регрессии и их оценки
Результаты РА 
Коэффициенты регрессии и их оценки 
Коэффициенты – значения коэффициентов уравнения 
регресии β0, β1, β2. 
Стандартная ошибка – стандартные ошибки 
коэффициентов. 
t-статистика – расчётные значения t-критерия, 
вычисляемого как =Коэффициент/Станд.ошибка. 
Р-значение – уровень значимости отклонения 
гипотезы равенства коэффициентов нулю 
tp=СТЬЮДРАСП(tp; n-m-1).
Результаты РА 
Коэффициенты регрессии и их оценки 
Нижние 95% и Верхние 95% - границы доверительных 
интервалов для коэффициентов регрессии. 
Определяются как 
=Коэффициент ± Стандартная ошибка* tкр 
Значение tкр определяется с помощью функции 
СТЬЮДРАСПОБР(α;n-m-1), 
где α – коэфф. значимости(обычно α = 1-0,95=0,05).
Анализ результатов РА 
Остатки и вероятности 
Во втором столбце таблицы остатков приведены 
расчётные (теоретические) значения зависимой переменной 
Y, и значения остатков, вычисляемые как разность между 
наблюдаемыми (эмпирическими) и расчетными 
(теоретическими) значениями результирующей переменной 
Y.
Уравнение регрессии 
Рассчитанные коэффициенты регрессии 
позволяют построить уравнение зависимости 
прибыли предприятия Y от величины 
оборотного капитала Х1 и стоимости 
основного капитала Х2: 
Y= -1,943+0,695*X1+0,202*X2.
Значимость коэффициента детерминации R2 
подход-2 
Проверяется попадание расчетного значения Fp в 
критическую область (Fкр 
пр,α;+∞). 
Значение Fкр 
пр,α получается с помощью функции 
=FРАСПОБР(α; kф; ko).
Значимость коэффициента детерминации R2 
подход-2 
Для нашей задачи дополнительно вычислим 
Fкр 
пр,α = FРАСПОБР(0,05; 2; 3) =9,55, 
а расчётное значение F-критерия Фишера(столбец F) 
Fp = 273,74, попадает в критическую область (9,55;+∞) 
Следовательно, 
Гипотеза Н0: R2=0 (о незначимости) отвергается, т.е. 
коэффициент детерминации R2 значим.
Значимость коэффициента детерминации R2 
подход-2 
yi-yср 
yi 
Значение средней ошибки аппроксимации ε̅ = 2,699%< 10% 
подтверждает качество построенной модели (уравнения). 
Этот показатель рассчитывается по формуле: 
y y 
* - = å= 
1 n 
100 
i 
y 
i 1 
i 
n 
e 
ε̅ = (сумма модулей ошибок наблюдений) / (количество 
наблюдений)*100
Значимость коэффициентов регрессии 
Сравним попарно модули расчетных значений 
коэффициентов (столбец «Коэффициенты») и значения их 
стандартных ошибок (столбец «Стандартная ошибка») . 
Если значение ошибки больше модуля значения 
коэффициента – соответствующий фактор незначим и его 
нужно удалить из уравнения регрессии. 
В нашей задаче удаляем свободный член β0. 
Y= -1,943+0,695*X1+0,202*X2.
Значимость коэффициентов регрессии 
Стандартные ошибки коэффициентов β1 и β2 меньше 
модулей значений коэффициентов. 
Значение соответствующего Р-Значения, меньше 
заданного уровня значимости (α=1-0,95=0,05) также 
свидетельствует о значимости коэффициентов β1 и β2 и 
незначимости β0 .
Значимость коэффициентов регрессии 
Если значение показателя t-статистика попадает в критическую 
область 
(-¥, t кр 
)È( t кр 
,+¥) лев , a / 2 прав 
, a 
/ 2 
В выдаваемых таблицах значения tкр не показаны, но оно может быть 
получено с помощью функции 
=СТЬЮДРАСПОБР(α;число степеней свободы) 
Число степеней свободы = число наблюдений – число факторов – 
число свободных членов в уравнении регрессии. Для нашей задачи = 6-2- 
1=3 
Для нашей задачи вычислим|tкр| =СТЬЮДРАСПОБР(0,05;3) = 3,1824.
Значимость коэффициентов регрессии 
Значения t-статистики для коэффициентов 
β1 = 3,530 и β2 = 5,749 
попадают в критический интервал 
(-∞;-3,1824)U(3,1824;+∞), значит 
коэффициенты регрессии β1 и β2 значимы.
Что дальше? 
Таким образом, имеет смысл выполнить 
регрессионный анализ, указав, что значение 
свободного члена β0=0 – установить флажок 
«Константа-ноль». 
Если коэффициент при факторном признаке 
окажется незначимым– следует исключить 
соответствующий фактор из модели.
Замечание! 
Следует учитывать, что приведенный 
пример является достаточно простым, и 
далеко не всегда возможно качественное 
построение регрессионной прямой 
линейного вида.
Задача прогнозирования 
Задача прогнозирования сводится к 
нахождению значения величины Y решая 
уравнение регрессии с известными 
(обоснованно предполагаемыми) 
значениями Х1 и Х2.
Выводы 
Используя инструмент «Регрессия» надстройки MS 
Excel «Анализ данных», мы: 
1.построили уравнение регрессии; 
2.установили форму зависимости и направление 
связи между переменными; 
3.установили направление связи между 
переменными; 
4.оценили качество полученной регрессионной 
прямой; 
5.увидели отклонения расчетных данных от 
данных наблюдений; 
6.предсказали будущие значения зависимой 
переменной.
Выводы 
Если функция регрессии определена, интерпретирована 
и обоснована, и оценка точности регрессионного 
анализа соответствует требованиям, можно считать, что 
построенная модель и прогнозные значения обладают 
достаточной надежностью. 
Прогнозные значения, полученные таким способом, 
являются средними значениями, которые можно 
ожидать.

Weitere ähnliche Inhalte

Was ist angesagt?

Geometric Progressions
Geometric ProgressionsGeometric Progressions
Geometric Progressions
itutor
 
Quadratic equations
Quadratic equationsQuadratic equations
Quadratic equations
Lenie Zapata
 

Was ist angesagt? (20)

Definition Vector space
Definition Vector spaceDefinition Vector space
Definition Vector space
 
Exponents and Powers
Exponents and PowersExponents and Powers
Exponents and Powers
 
Landforms of India
Landforms of IndiaLandforms of India
Landforms of India
 
Matrices
Matrices Matrices
Matrices
 
sets and venn diagrams
sets and venn diagramssets and venn diagrams
sets and venn diagrams
 
Biodiversity, Biodiversity of Chhattisgarh, Biodiversity of Gujarat
Biodiversity, Biodiversity of Chhattisgarh, Biodiversity of GujaratBiodiversity, Biodiversity of Chhattisgarh, Biodiversity of Gujarat
Biodiversity, Biodiversity of Chhattisgarh, Biodiversity of Gujarat
 
PAIR OF LINEAR EQUATION IN TWO VARIABLE
PAIR OF LINEAR EQUATION IN TWO VARIABLEPAIR OF LINEAR EQUATION IN TWO VARIABLE
PAIR OF LINEAR EQUATION IN TWO VARIABLE
 
Functions
FunctionsFunctions
Functions
 
TIU CET Review Math Session 4 Coordinate Geometry
TIU CET Review Math Session 4 Coordinate GeometryTIU CET Review Math Session 4 Coordinate Geometry
TIU CET Review Math Session 4 Coordinate Geometry
 
Ch 3 the derivative
Ch 3 the derivativeCh 3 the derivative
Ch 3 the derivative
 
Math presentation on domain and range
Math presentation on domain and rangeMath presentation on domain and range
Math presentation on domain and range
 
Introduction to Function, Domain and Range - Mohd Noor
Introduction to Function, Domain and Range - Mohd Noor Introduction to Function, Domain and Range - Mohd Noor
Introduction to Function, Domain and Range - Mohd Noor
 
3.2 Derivative as a Function
3.2 Derivative as a Function3.2 Derivative as a Function
3.2 Derivative as a Function
 
Linear equations in two variables
Linear equations in two variablesLinear equations in two variables
Linear equations in two variables
 
Pair of linear equations in two variable
Pair of linear equations in two variablePair of linear equations in two variable
Pair of linear equations in two variable
 
Data Handling.
Data Handling. Data Handling.
Data Handling.
 
Geometric Progressions
Geometric ProgressionsGeometric Progressions
Geometric Progressions
 
Arithmetic progression
Arithmetic progressionArithmetic progression
Arithmetic progression
 
Special functions
Special functionsSpecial functions
Special functions
 
Quadratic equations
Quadratic equationsQuadratic equations
Quadratic equations
 

Andere mochten auch

Линейная регрессия
Линейная регрессияЛинейная регрессия
Линейная регрессия
DEVTYPE
 
Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...
Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...
Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...
Karol Wolski
 
Co to jest metoda?
Co to jest metoda?Co to jest metoda?
Co to jest metoda?
Sabina Cisek
 

Andere mochten auch (12)

Yuk piknik
Yuk piknikYuk piknik
Yuk piknik
 
АВС и XYZ анализ
АВС и XYZ анализАВС и XYZ анализ
АВС и XYZ анализ
 
Gia 2013 god_modul_geometriya_zadacha_11
Gia 2013 god_modul_geometriya_zadacha_11Gia 2013 god_modul_geometriya_zadacha_11
Gia 2013 god_modul_geometriya_zadacha_11
 
Bizbrain IBP presentation at SAP Insider 2016
Bizbrain IBP presentation at SAP Insider 2016Bizbrain IBP presentation at SAP Insider 2016
Bizbrain IBP presentation at SAP Insider 2016
 
Internetowe narzędzia do analizy i opisu wyników badań naukowych
Internetowe narzędzia do analizy i opisu wyników badań naukowychInternetowe narzędzia do analizy i opisu wyników badań naukowych
Internetowe narzędzia do analizy i opisu wyników badań naukowych
 
Математика прибыли в рознице вместе с Retail Optimization Cloud. Прогнозирова...
Математика прибыли в рознице вместе с Retail Optimization Cloud. Прогнозирова...Математика прибыли в рознице вместе с Retail Optimization Cloud. Прогнозирова...
Математика прибыли в рознице вместе с Retail Optimization Cloud. Прогнозирова...
 
Линейная регрессия
Линейная регрессияЛинейная регрессия
Линейная регрессия
 
Szkolenie Excel - Analiza Statystyczna w Cognity
Szkolenie Excel - Analiza Statystyczna w Cognity Szkolenie Excel - Analiza Statystyczna w Cognity
Szkolenie Excel - Analiza Statystyczna w Cognity
 
Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...
Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...
Podstawy statystyki dla psychologów - zajęcia 10 - wprowadzenie do wnioskowan...
 
Что надо знать при заказе SEO в 2017
Что надо знать при заказе SEO в 2017 Что надо знать при заказе SEO в 2017
Что надо знать при заказе SEO в 2017
 
Эффективный SMM. Влияние SMM на бизнес-результаты
Эффективный SMM. Влияние SMM на бизнес-результатыЭффективный SMM. Влияние SMM на бизнес-результаты
Эффективный SMM. Влияние SMM на бизнес-результаты
 
Co to jest metoda?
Co to jest metoda?Co to jest metoda?
Co to jest metoda?
 

Ähnlich wie Regression

Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
Vladimir Tcherniak
 
Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6
Vladimir Tcherniak
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
Vladimir Tcherniak
 
отчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиотчет по теме корреляционные зависимости
отчет по теме корреляционные зависимости
aman565656
 
Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5
Andrei V, Zhuravlev
 
Тензорная алгебра и тензорный анализ Горлач.pdf
Тензорная алгебра и тензорный анализ Горлач.pdfТензорная алгебра и тензорный анализ Горлач.pdf
Тензорная алгебра и тензорный анализ Горлач.pdf
fuad163089
 
Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5
Vladimir Tcherniak
 
математик анализ лекц №1
математик анализ лекц №1математик анализ лекц №1
математик анализ лекц №1
narangerelodon
 

Ähnlich wie Regression (20)

6
66
6
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
 
10
1010
10
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
 
Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Множественная регрессия
Множественная регрессияМножественная регрессия
Множественная регрессия
 
Нелин модели
Нелин моделиНелин модели
Нелин модели
 
4
44
4
 
5
55
5
 
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
 
отчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиотчет по теме корреляционные зависимости
отчет по теме корреляционные зависимости
 
2 ererbiin sydalgaa
2 ererbiin sydalgaa2 ererbiin sydalgaa
2 ererbiin sydalgaa
 
Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5Моделирование Гуманитарных процессов. Лекция 5
Моделирование Гуманитарных процессов. Лекция 5
 
Тензорная алгебра и тензорный анализ Горлач.pdf
Тензорная алгебра и тензорный анализ Горлач.pdfТензорная алгебра и тензорный анализ Горлач.pdf
Тензорная алгебра и тензорный анализ Горлач.pdf
 
Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5Прикладная эконометрика. Лекция 5
Прикладная эконометрика. Лекция 5
 
Формирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного тестаФормирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного теста
 
математик анализ лекц №1
математик анализ лекц №1математик анализ лекц №1
математик анализ лекц №1
 
585
585585
585
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 

Regression

  • 1. Регрессионный анализ с MS Excel 2007 Теория и практические советы
  • 2. Про корреляцию & регрессию) Задача корреляционного анализа – определение тесноты и направления связи между изучаемыми величинами.
  • 3. Про корреляцию & регрессию) Задача регрессионного анализа - выяснение действия на зависимую переменную главных факторов, при неизменных прочих условиях, и при условии исключения случайных воздействий на значение зависимой переменной.
  • 4. Про корреляцию & регрессию) Результат регрессионного анализа - аналитическое выражение связи – функция регрессии случайной предполагаемо зависимой величины Y (результативный признак) с независимыми между собой случайными величинами Х1, Х2, …Хm (факторами).
  • 5. Функция регрессии Функция регрессии представляется уравнением регрессии – формой отображения связи значения результативного признака Y со значениями факторов Х1, Х2, …Хm.
  • 6. Уравнение регрессии - В зависимости от типа выбираемого уравнения различают регрессии: - линейную; - нелинейную (квадратичную, экспоненциальную, логарифмическую и т.д.).
  • 7. Формы зависимости 1. положительная или отрицательная линейная регрессия (выражается в равномерном росте или падении функции); 2. положительная равноускоренно или равнозамедленно возрастающая регрессия; 3. отрицательная равноускоренно или равнозамедленно убывающая регрессия.
  • 8. Формы зависимости Обычно, описанные разновидности встречаются не в чистом виде, а в сочетании друг с другом, т.е. имеет место комбинированная форма регрессии.
  • 9. Линейная регрессия Уравнение линейной регрессии: Y=А+b*X A – константа (свободный член); b - угол наклона прямой (угловой коэффициент, коэффициент регрессии, B- коэффициент); X – объясняющая переменная.
  • 10. Основное ограничение метода регрессионный анализ позволяет обнаружить лишь зависимость значений случайных переменных, а не связи, лежащие в основе этих зависимостей.
  • 11. Особенность регрессионного анализа можно получить конкретные сведения о форме и характере зависимости между значениями исследуемых переменных.
  • 12. Парная и множественная В зависимости от числа исследуемых переменных (признаков) различают парную и множественную регрессию. •Парная – исследуется связь между двумя признаками (одним результативным и одним факторным). •Множественная (многофакторная) – между тремя и более признаками (одним результативным и несколькими факторными).
  • 13. Прогнозирование Результат регрессионного анализа – уравнение регрессии – можно использовать для решения задачи прогнозирования. Прогнозные значения Y вычисляются путем подстановки в уравнение регрессии предполагаемых значений объясняющих переменных Х1, Х2, …Хm .
  • 14. Задачи регрессионного анализа • оценка степени связи (зависимости) между переменной Y и факторами Х1, Х2, …Хm. • установление формы зависимости, • определение функции регрессии, • оценка неизвестных значений зависимой переменной (интерполяция и экстраполяция - прогнозирование).
  • 15. Этапы исследования 1. Формулировка задачи. Формируются предварительные гипотезы о зависимости исследуемых явлений. 2. Определение зависимых и независимых (объясняющих) переменных величин. 3. Сбор статистических данных для каждой из переменных, включенных в регрессионную модель. 4. Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная). 5. Определение функции регрессии - расчет численных значений параметров (коэффициентов) уравнения регрессии. 6. Оценка точности результатов регрессионного анализа. 7. Интерпретация полученных результатов. Результаты анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов. 8. Предсказание неизвестных значений зависимой переменной.
  • 16. Этапы регрессионного анализа 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статистической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.
  • 17. Инструментальное средство MS Excel : инструмент пакета анализа "Регрессия" применяется для подбора параметров уравнения регрессии методом наименьших квадратов.
  • 18. Оценка неизвестных значений зависимой переменной Решается задача одного из типов: 1.Задача интерполяции - оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; 2.Задача экстраполяции - оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных. Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.
  • 19. Исходные предположения регрессионного анализа 1. Зависимость между значениями переменных Y и X предполагается линейной. Построенная диаграмма рассеивания может показать явную линейную связь. Если на диаграмме рассеивания мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа. 2. Распределение разницы предсказанных и наблюдаемых значений (остатков) является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммами остатков.
  • 20. Разброс и остатки Обычно имеет место разброс наблюдаемых значений относительно линии регрессионной прямой. Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).
  • 21. Этап 1 Уравнение множественной линейной регрессии y =b+b +b + +b y ... , 0 1 1 2 2 x x xm m где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии; – значения факторных признаков; – параметры уравнения (коэффициенты x , x ,... x1 2 m b , b ,... b 0 1 m регрессии).
  • 22. Метод наименьших квадратов (МНК) находятся параметры модели , при которых минимизируется сумма квадратов отклонений (остатков) эмпирических (наблюдаемых, фактических) значений результативного признака Y от теоретических, полученных по выбранному уравнению регрессии. = å - = å - - - - - ® mi( ) ( ... )2 n 0 1 1 2 2 i i 1 2 = = 1 i m mi n i n i i y y y x x x i S b b b b
  • 23. Метод наименьших квадратов (МНК) Рассматривая S в качестве функции параметров βi и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров βi ). å å å å ì ï ï y n b b x b x b x ... , 0 1 1 2 2 å å å å å í ï ï yx b x b x b x x b x x 2 2 1 1 2 1 0 1 1 1 å å å å å î = + + + + = + + + + = + + + + m m m m m m Здесь n – число наблюдений, m – число факторов в уравнении регрессии. Решение данной системы уравнений позволяет получить значения параметров (коэффициентов) регрессии βi . ... . ... ... , 2 0 1 1 2 2 m m m m yx b x b x x b x x b x
  • 24. Дисперсии Для определения величины степени стохастической (вероятностной) связи значений результативного признака Y и факторов Хi необходимо знать следующие дисперсии: - общую дисперсию результативного признака Y, отображающую влияние как основных (учтенных), так и остаточных (неучтенных) факторов: , i å= y - y ( ) n 2 1 2 n s y = i y где - среднее значение результативного признака Y;
  • 25. Дисперсии - факторную дисперсию результативного признака Y, отображающую влияние только основных факторов: ;  i å= y - y ( ) n 2 1 2 n s Ô i = - остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов: .  y - y ( ) ( 1) 2 1 2 - + = å= n m O n i i i s
  • 26. Сложение дисперсий При наличии корреляционной связи результативного признака и факторов должно выполняться соотношение 2 2 , sÔ <sy при этом 2 2 2 . s s s y = Ô + O
  • 27. Коэффициент детерминации (мера определенности) – R2 Для оценки общего качества модели (уравнения линейной многофакторной регрессии) используют множественный коэффициент детерминации R2, называемый квадратом коэффициента множественной корреляции R.
  • 28. Коэффициент детерминации (мера определенности) R2 Множественный коэффициент детерминации рассчитывается по формуле s2 2 R = Ô s 2 y и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.
  • 29. R2 (мера определенности) Характеризует качество регрессионной модели - степень соответствия между исходными данными и регрессионной моделью (расчетными данными). Значение R2 находится в пределах интервала [0;1].
  • 30. R2 (мера определенности) Если значение R2 близко к 1, то качество модели хорошее - модель объясняет почти всю изменчивость соответствующих переменных. Значение R2, близкое к 0, означает плохое качество построенной модели.
  • 31. Множественный R (коэффициент множественной корреляции) Выражает степень зависимости переменной Y от независимых переменных X. Множественный R равен квадратному корню из коэффициента детерминации R2 и принимает значения в интервале [0,1]. В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона.
  • 32. Проверка адекватности уравнения регрессии 1. проверка значимости коэффициента детерминации R2 2. проверка значимости каждого коэффициента регрессии.
  • 33. F критерий Для решения вопроса об адекватности уравнения, построенного на основе ограниченной выборки данных, всей генеральной совокупности, проводится проверка статистической значимости коэффициента детерминации R2 на основе F-критерия Фишера: = R - - - F n m . 1, 2 R 1 2 m где n – число наблюдений; m – число факторов в уравнении регрессии. b = 0 Если в уравнении регрессии свободный член 0, то числитель n-m- 1 следует увеличить на 1, т.е. он будет равен n-m.
  • 34. F критерий В математической статистике доказывается, что если гипотеза выполняется, то величина F имеет F-распределение с : 2 0 0 H R = k=m и l=n-m-1 числом степеней свободы, т.е. R n m R - - = = = - - . 1 ( , 1). 2 - 1 2 F k m l n m m : 2 0 0 H R = Гипотеза о незначимости коэффициента детерминации p ïð F F a > отвергается, если êð . , При значениях R2 > 0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов Х. R2
  • 35. Ошибка аппроксимации Для оценки адекватности уравнения регрессии можно использовать показатель средней ошибки аппроксимации: 100%. 1 n ˆ 1 × y - y = å= i y i i n e
  • 36. Значимость фактора Хi Если вычисленное значение коэффициента регрессии меньше его стандартной ошибки, то такой коэффициент не обладает необходимой степенью значимости. Такие коэффициенты и соответствующие переменные Хi должны быть исключены из уравнения регрессии.
  • 37. t-критерий Для оценки адекватности уравнения регрессии можно использовать показатель средней ошибки аппроксимации =b , b s i t i где s - стандартное значение ошибки для коэффициента регрессии . i b i b
  • 38. t-критерий В математической статистике доказывается, что если гипотеза выполняется, то величина t имеет распределение : 0 0 = i H a Стьюдента с числом степеней свободы k=n-m-1, т.е. : 0 0 = i H a Гипотеза о незначимости коэффициента регрессии отвергается, если a = t(k = n -m-1). ai i s . p êp t > t
  • 39. Границы доверительных интервалов , êp t Зная значение можно найти границы доверительных интервалов для коэффициентов регрессии ; . min t b = b - s i i кр max b i i t b b s i i кр b = +
  • 40. Коэффициент эластичности Частные коэффициенты эластичности показывают , на сколько процентов в среднем изменится значение результативного признака при изменении значения соответствующего факторного признака на 1%, и определяются по формуле Э xi Хi i = b где - среднее значение соответствующего факторного признака; - среднее значение результативного признака; - коэффициент регрессии при соответствующем факторном признаке. , y i x y i b
  • 41. Регрессионный анализ в MS Excel На вкладке «Данные» выбираем «Анализ данных» и в открывшемся окне инструментов выбираем инструмент анализа «Регрессия»;
  • 43. Регрессионный анализ в MS Excel Задаем входные интервалы X и Y. Входной интервал Y - это ряд значений зависимой переменной, он должен включать один столбец. Входной интервал X - это ряды значений факторов -независимых между собой переменных, влияние которых на Y необходимо проанализировать. Входной интервал должен включать не более 16-ти столбцов. В выходном диапазоне получаем отчет, состоящий из ряда таблиц.
  • 44. Входные интервалы Y и X Входной интервал - только данные, идущие подряд, без пропусков - пустых ячеек и столбцов. Каждый показатель (переменная) должен быть представлен столбцом значений. Количество значений во всех столбцах должно быть одинаковым. Если необходимо исследовать влияние на значение Y текущего периода одновременно значений переменной Xi текущего и предыдущих периодов, то лаговые значения следует расположить в отдельных дополнительных столбцах на одной строке.
  • 45. Регрессионный анализ в MS Excel Флажок Метки Флажок Метки устанавливается, если первая строка во входном диапазоне содержит заголовки. Если заголовки отсутствуют, будут автоматически созданы стандартные названия для столбцов данных диапазона.
  • 46. Регрессионный анализ в MS Excel Уровень надёжности Флажок «Уровень надёжности» и значение в поле используются для указания нестандартного значения уровня значимости коэффициента детерминации R2 и коэффициентов регрессии.
  • 47. Регрессионный анализ в MS Excel Уровень надёжности Стандартное значение = 0,95. Для изменения значения необходимо установить флажок «Уровень надёжности» и изменить значение в поле справа.
  • 48. Регрессионный анализ в MS Excel Уровень надёжности Если флажок «Уровень надёжности» не установлен, то в отчёте, в таблице параметров уравнения регрессии будут созданы две одинаковых пары столбцов для границ доверительных интервалов.
  • 49. Регрессионный анализ в MS Excel Флажок «Константа ноль» Устанавливается, если необходимо, чтобы значение свободного члена уравнения регрессии было равно 0, и линия диаграммы проходила через точку пересечения осей координат.
  • 50. Регрессионный анализ в MS Excel Переключатель «Параметры вывода» Выходной интервал. Вводится ссылка на верхнюю левую ячейку выходного диапазона (на текущем листе). Размер выходного диапазона определяется автоматически. Если выходной интервал частично совпадёт со входным, то выдаётся соответствующее предупреждение.
  • 51. Регрессионный анализ в MS Excel Переключатель «Параметры вывода» Новый рабочий лист. Результаты анализа располагаются на новом листе, начиная с ячейки А1. Имя листа можно задать в поле расположенное напротив переключателя. Новая рабочая книга. Создаётся и открывается новая книга, на первом листе которой, начиная с ячейки А1, располагаются результаты регрессионного анализа.
  • 52. Регрессионный анализ в MS Excel Флажки «Остатки» Флажки «Остатки» и «Стандартизованные остатки» устанавливаются, если нужно включить в результаты анализа столбцы соответствующих остатков.
  • 53. Регрессионный анализ в MS Excel Флажки «Графики» Флажок «График остатков» устанавливается, если необходимо получить в отчёте точечные диаграммы зависимости остатков от факторов Х. Флажок «График подбора» устанавливается, если нужно получить в отчёте точечные диаграммы регрессионной зависимости Y от факторов Хi.
  • 54. Регрессионный анализ в MS Excel Флажок «Нормальная вероятность» Флажок устанавливаются, если необходимо получить в отчёте точечный график зависимости наблюдаемых значений Y от автоматически формируемых интервалов персентилей. График строится на основе генерируемой таблицы «Вывод вероятности».
  • 55. Пример регрессионного анализа Нужно установить зависимость (построить уравнение регрессии) величины суммы прибыли предприятия Y от величины оборотного капитала Х1 и стоимости основного капитала Х2 . Данные представлены таблицей в MS Excel
  • 56.
  • 57. Что где? Для решения задачи используем инструмент «Регрессия» из Пакета анализа данных MS Excel.
  • 59. Вывод результатов B C 11 ВЫВОД ИТОГОВ 12 13 Регрессионная статистика 14 Множественный R 0,997 15 R-квадрат 0,995 16 Нормированный R-квадрат 0,991 17 Стандартная ошибка 5,050 18 Наблюдения 6
  • 61. Результаты РА 1.Множественный R – коэффициент корреляции R; 2.R-квадрат – коэффициент детерминации R2; 3.Нормированный R- квадрат – скорректированный коэффициент детерминации; 4.Стандартная ошибка – остаточное стандартное отклонение σ0; 5.Наблюдения – число наблюдений n.
  • 62. Коэффициент детерминации R2 Значение множественного коэффициента детерминации R2=0,995 показывает, что 99,5% общей вариации результативного признака Y объясняется вариацией факторных признаков Х1 и Х2. Значит, выбранные факторы включены в модель правильно. Рассчитанный уровень значимости (столбец Значимость F) Fр=0,0004 < (1-0,95) подтверждает значимость R2.
  • 63. Результаты РА Столбец df (degree of freedom)– число степеней свободы для строк: Регрессия – количество факторов m в уравнении регрессии kф; Остаток – число наблюдений n количество переменных в уравнении регрессии m+1; ko=n-(m+1). Итого – ky=kф+ko
  • 64. Результаты РА Столбец SS(Sum of squares) – сумма квадратов отклонений для строки Регрессия – сумма квадратов отклонений теоретических значений от среднего: n 2 ( )2  å= SS = y - y ф i i 1
  • 65. Результаты РА Столбец SS(Sum of squares) – сумма квадратов отклонений для строки Остаток – сумма квадратов остатков -отклонений эмпирических значений от теоретических: n 2 ( )2  å= SS = y - y o i i i 1
  • 66. Результаты РА Столбец SS(Sum of squares) – сумма квадратов отклонений для строки Итого – сумма квадратов отклонений эмпирических значений от среднего: n å= 2 ( )2 SS = y - y y i i 1
  • 67. Заметьте! 2 2 2 y ф o SS = SS + SS
  • 68. Результаты РА Столбец MS (Mean square) – значения дисперсий, рассчитываемые по формуле MS=SS/df. В строках: Регрессия – факторная дисперсия σ2 ф, Остаток – остаточная дисперсия σ2 о. Столбец F –расчётное значение F-критерия Фишера Fp = MS(регрессия)/MS(остатки).
  • 69. Результаты РА Столбец F –расчётное значение F-критерия Фишера Fp = MS(регрессия)/MS(остатки). Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению Fp. Определяется с помощью функции MS Excel =FРАСП(Fp; df(регрессия); df(остаток)).
  • 70. Результаты РА Коэффициенты регрессии и их оценки
  • 71. Результаты РА Коэффициенты регрессии и их оценки Коэффициенты – значения коэффициентов уравнения регресии β0, β1, β2. Стандартная ошибка – стандартные ошибки коэффициентов. t-статистика – расчётные значения t-критерия, вычисляемого как =Коэффициент/Станд.ошибка. Р-значение – уровень значимости отклонения гипотезы равенства коэффициентов нулю tp=СТЬЮДРАСП(tp; n-m-1).
  • 72. Результаты РА Коэффициенты регрессии и их оценки Нижние 95% и Верхние 95% - границы доверительных интервалов для коэффициентов регрессии. Определяются как =Коэффициент ± Стандартная ошибка* tкр Значение tкр определяется с помощью функции СТЬЮДРАСПОБР(α;n-m-1), где α – коэфф. значимости(обычно α = 1-0,95=0,05).
  • 73. Анализ результатов РА Остатки и вероятности Во втором столбце таблицы остатков приведены расчётные (теоретические) значения зависимой переменной Y, и значения остатков, вычисляемые как разность между наблюдаемыми (эмпирическими) и расчетными (теоретическими) значениями результирующей переменной Y.
  • 74. Уравнение регрессии Рассчитанные коэффициенты регрессии позволяют построить уравнение зависимости прибыли предприятия Y от величины оборотного капитала Х1 и стоимости основного капитала Х2: Y= -1,943+0,695*X1+0,202*X2.
  • 75. Значимость коэффициента детерминации R2 подход-2 Проверяется попадание расчетного значения Fp в критическую область (Fкр пр,α;+∞). Значение Fкр пр,α получается с помощью функции =FРАСПОБР(α; kф; ko).
  • 76. Значимость коэффициента детерминации R2 подход-2 Для нашей задачи дополнительно вычислим Fкр пр,α = FРАСПОБР(0,05; 2; 3) =9,55, а расчётное значение F-критерия Фишера(столбец F) Fp = 273,74, попадает в критическую область (9,55;+∞) Следовательно, Гипотеза Н0: R2=0 (о незначимости) отвергается, т.е. коэффициент детерминации R2 значим.
  • 77. Значимость коэффициента детерминации R2 подход-2 yi-yср yi Значение средней ошибки аппроксимации ε̅ = 2,699%< 10% подтверждает качество построенной модели (уравнения). Этот показатель рассчитывается по формуле: y y * - = å= 1 n 100 i y i 1 i n e ε̅ = (сумма модулей ошибок наблюдений) / (количество наблюдений)*100
  • 78. Значимость коэффициентов регрессии Сравним попарно модули расчетных значений коэффициентов (столбец «Коэффициенты») и значения их стандартных ошибок (столбец «Стандартная ошибка») . Если значение ошибки больше модуля значения коэффициента – соответствующий фактор незначим и его нужно удалить из уравнения регрессии. В нашей задаче удаляем свободный член β0. Y= -1,943+0,695*X1+0,202*X2.
  • 79. Значимость коэффициентов регрессии Стандартные ошибки коэффициентов β1 и β2 меньше модулей значений коэффициентов. Значение соответствующего Р-Значения, меньше заданного уровня значимости (α=1-0,95=0,05) также свидетельствует о значимости коэффициентов β1 и β2 и незначимости β0 .
  • 80. Значимость коэффициентов регрессии Если значение показателя t-статистика попадает в критическую область (-¥, t кр )È( t кр ,+¥) лев , a / 2 прав , a / 2 В выдаваемых таблицах значения tкр не показаны, но оно может быть получено с помощью функции =СТЬЮДРАСПОБР(α;число степеней свободы) Число степеней свободы = число наблюдений – число факторов – число свободных членов в уравнении регрессии. Для нашей задачи = 6-2- 1=3 Для нашей задачи вычислим|tкр| =СТЬЮДРАСПОБР(0,05;3) = 3,1824.
  • 81. Значимость коэффициентов регрессии Значения t-статистики для коэффициентов β1 = 3,530 и β2 = 5,749 попадают в критический интервал (-∞;-3,1824)U(3,1824;+∞), значит коэффициенты регрессии β1 и β2 значимы.
  • 82. Что дальше? Таким образом, имеет смысл выполнить регрессионный анализ, указав, что значение свободного члена β0=0 – установить флажок «Константа-ноль». Если коэффициент при факторном признаке окажется незначимым– следует исключить соответствующий фактор из модели.
  • 83. Замечание! Следует учитывать, что приведенный пример является достаточно простым, и далеко не всегда возможно качественное построение регрессионной прямой линейного вида.
  • 84. Задача прогнозирования Задача прогнозирования сводится к нахождению значения величины Y решая уравнение регрессии с известными (обоснованно предполагаемыми) значениями Х1 и Х2.
  • 85. Выводы Используя инструмент «Регрессия» надстройки MS Excel «Анализ данных», мы: 1.построили уравнение регрессии; 2.установили форму зависимости и направление связи между переменными; 3.установили направление связи между переменными; 4.оценили качество полученной регрессионной прямой; 5.увидели отклонения расчетных данных от данных наблюдений; 6.предсказали будущие значения зависимой переменной.
  • 86. Выводы Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью. Прогнозные значения, полученные таким способом, являются средними значениями, которые можно ожидать.