Прогнозирование - Лекция 3. Множественная регрессия

Курс «КомпьютернаяКурс «Компьютерная
поддержкаподдержка
прогнозирования»прогнозирования»
Заходякин Глеб Викторович,
кафедра Информационных систем
и технологий в логистике
e-mail: postlogist@gmail.com
Эту презентацию следует смотреть в полноэкранном режиме, чтобы работала
анимация. В Adobe Reader переключение в полноэкранный режим
производится сочетанием клавиш Ctrl-L

2
Построение и анализ многомерныхПостроение и анализ многомерных
регрессионных моделейрегрессионных моделей
1. Оценка степени линейной связи между переменными
2. Статистическая модель многомерной линейной регрессии,
условия ее применения
3. Оценка качества многомерной регрессионной модели
4. Анализ взаимозависимости факторов
5. Отбор факторов для включения в модель
6. Регрессионная диагностика и анализ остатков

3
Корреляционная матрицаКорреляционная матрица
o Корреляционная матрица используется для оценки линейных связей
между парами переменных (Analyze>Correlate>Bivariate)
o Визуально оценить тесноту связей можно с помощью матрицы
диаграмм рассеяния (Scatterplot Matrix, SPLOM)
(Graphs>…>Matrix Scatter)

4
Статистическая модельСтатистическая модель
многомерной линейной регрессиимногомерной линейной регрессии
o Статистическая модель многомерной линейной регрессии позволяет определить
математическое ожидание Y для каждого набора значений Xj, j=1..k, по уравнению:
o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε,
которая отражает вклад ненаблюдаемых факторов
o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ
для любого набора значений Xj
0 1 1 2 2Y k kX X Xµ β β β β= + + + +K
Допущения модели:
• ошибки независимы
• ошибки случайны
• mε=0
• σε = const
0 1 1 2 2 k kY X X Xβ β β β ε= + + + + +K

5
Статистический анализ моделиСтатистический анализ модели
многомерной регрессиимногомерной регрессии
o Из статистической модели многомерной регрессии следует:
o Это равенство можно преобразовать:
o И далее:
o Стандартная ошибка оценки:
0 1 1
ˆ ˆ( )k kY b b X b X e Y Y Y= + + + + = + −K
Прогноз + Остаток
( ) ( )ˆ ˆ ˆ ˆ( )Y Y Y Y Y Y Y Y Y Y Y Y− = + − − ⇒ − = − + −
( ) ( ) ( )
2 22
ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑
SST SSE SSR
df = n – 1 n – (k +1) =
= n – k – 1
k
( )
2
ˆ
1 1
y x
Y Y SSE
s MSE
n k n k
×
−
= = =
− − − −
∑

6
Коэффициент детерминацииКоэффициент детерминации
o Коэффициент детерминации обозначает долю объясненной дисперсии в
общей дисперсии:
o Поскольку остаточная сумма квадратов обычно все равно вычисляется,
удобнее пользоваться формулой:
o Корень из R2
называется многомерным коэффициентом корреляции и
характеризует корреляцию между зависимой переменной и оценкой,
полученной по модели:
( )
( )
2
2
2
ˆY YSSR
R
SST Y Y
−
= =
−
∑
∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
2
r R=

7
Исправленный коэффициент детерминацииИсправленный коэффициент детерминации
o Коэффициент детерминации R2
, рассчитанный по формуле:
возрастает с увеличением числа факторов в модели, при этом не обязательно
модель с большим числом факторов будет лучше работать на новых данных
o Чтобы исключить влияние числа факторов на величину R2
, используют
исправленный коэффициент детерминации (R-squared adjusted), в котором
вводится штраф за увеличение числа переменных:
o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот
показатель, поэтому он наиболее полезен на стадии отбора факторов для
построения модели
o Если модель строится по генеральной совокупности, то обычный R2
– более
предпочтительный показатель
2
1
SSE
R
SST
= −
( )
2
2
1
1 1
1
1
1 1
1
SST
SSE
SSE df SSE n
R
SST df SST n k
n
R
n k
−
= − × = − × =
− −
−
= − − ×
− −

8
Пример расчета характеристикПример расчета характеристик

9
Проверка значимости регрессииПроверка значимости регрессии
при помощи таблицыпри помощи таблицы ANOVAANOVA
o Гипотезы:
o Выборочная статистика:
o При справедливости H0 имеет F-распределение с числом степеней свободы dfMSR, dfMSE,
т.е. k и n-k-1 соответственно
o При отсутствии связи MSR и MSE оценивают дисперсию ошибки ε, если существует
βj<>0, то MSR>MSE
o При уровне значимости α гипотеза отклоняется при F > Fαи dfMSR, dfMSE
o Удобнее всего пользоваться p-значением, при малом p (столбец Significance в
таблице дисперсионного анализа) гипотеза отвергается
o F-критерий проверяет значимость регрессии в целом, с учетом всех переменных
0 : 0, 1jH j kβ∀ = = K
MSR
F
MSE
=
1 : 0, 1jH j kβ∃ ≠ = K

10
Проверка гипотез о значимостиПроверка гипотез о значимости
коэффициентов регрессиикоэффициентов регрессии
o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу
о равенстве нулю коэффициента регрессионной функции совокупности:
o Гипотезы:
o Выборочная статистика:
o Найти критическое значение для α/2, df = n – k – 1
o Если |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим
o Проверка с использованием p-значения (Sig.)
o Проверка с использованием доверительного интервала для bj: если не включает
0, то гипотеза H0 отвергается
0 1 1 k kY X Xβ β β ε= + + + +K
0 : 0jH β = 1 : 0jH β ≠
j
j
b j
b
t
s
=

11
Интервальный прогнозИнтервальный прогноз
o Прогнозируемое значение для зависимой переменной можно получить
с помощью найденной оценки функции регрессии:
o Ширину доверительного интервала для уровня значимости α можно
приближенно оценить с использованием стандартной ошибки оценки и
t-распределения:
o Эта оценка для ширины доверительного интервала построена для
большого числа наблюдений n и независимых X
0 1 1 k kY b b X b X= + + +K
( )( )
/2, 1
ˆ ˆ, 1
n k y xY t s
P Y Y Y Y Y
α
α
− − ×∆ = ×
∈ − ∆ + ∆ ≈ −

12
Мультиколлинеарность факторовМультиколлинеарность факторов
o Наличие линейных зависимостей между факторами в модели
называется мультиколлинеарностью
– Пример - зависимость объема продаж от характеристик автомобиля:
• Мощность двигателя
(Horsepower)
• Колесная база (Wheelbase)
• Длина (Length)
• Ширина (Width)
• Собственный вес (Curb
Weight)
К появлению
мультиколлинеарности
приводит включение в модель
факторов, которые
«обозначают одно и то же»

13
Проблема мультиколлинеарностиПроблема мультиколлинеарности
o Оценки коэффициентов, полученные по МНК, оказываются
неустойчивыми (сильно изменяются при небольших изменениях
данных)
o Метод вычисления коэффициентов (МНК) оказывается
чувствительным к ошибкам округления (точность компьютерного
представления данных и вычислений)
o Коэффициенты могут иметь неправильный знак (например, объем
продаж в физических единицах по уравнению увеличивается, если
цена увеличивается)
o Коэффициенты могут оказаться не значимыми по t-критерию, а
уравнение регрессии в целом – значимым (по F-критерию)
o Коэффициенты уравнения взаимозависимы
o Удаление одной переменной сильно меняет остальные коэффициенты
и их значимость
o Трудно анализировать вклад отдельного фактора в прогнозируемую
величину

14
Фактор роста дисперсии (Фактор роста дисперсии (VIF)VIF)
o Степень мультиколлинеарности измеряется фактором роста
дисперсии (Variance Inflation Factor, VIF):
o R2
j – коэффициент детерминации из регрессии j-й переменной по
оставшимся (j-1) независимым переменным. Для k = 2 это значение
равно квадрату их выборочного коэффициента корреляции (rj)2
o Если переменная Xj не связана с остальными факторами, то R2
j = 0 и
VIFj = 1
o Если Xj сильно связана с другими факторами, то VIFj >> 1, для R2
j = 0.9
VIFj = 1/(1-0.9) = 10
o Значение VIFj близкое к 1, означает:
– нет проблемы мультиколлинеарности для Xj
– добавление или удаление других независимых переменных в модель не
изменит коэффициента bj и статистики tj
2
1
, 1..
1
j
j
VIF j k
R
= =
−

15
Пример эффекта мультиколлинеарностиПример эффекта мультиколлинеарности
o Исходные данные – файл car_sales.sav
o Цель – построить модель для прогнозирования объема продаж в
зависимости от параметров автомобиля

16
Результат включения всех факторов,Результат включения всех факторов,
коррелирующих с продажамикоррелирующих с продажами

17
Результат исключенияРезультат исключения horsepowerhorsepower
o Из модели исключена переменная с наименьшим значением t-статистики
(и наибольшим p-значением) – мощность двигателя (horsepower)

18
Результат исключенияРезультат исключения priceprice
(и наибольшим p-значением) – цена продажи (price)

19
Результат исключенияРезультат исключения lengthlength
(и наибольшим p-значением) – длина (length)

20
Анализ частных корреляцийАнализ частных корреляций
o При построении модели многомерной линейной регрессии
в SPSS можно вывести в отчет таблицу корреляций между
переменными (Statistics… > [x] Part and Partial Correlations
o Данные о корреляции между переменными выводятся
в таблице Coefficients:
– Zero-order – коэффициент корреляции r для фактора
и зависимой переменной
– Partial (частная корреляция) – r между фактором
и зависимой переменной после удаления из обеих
переменных линейных эффектов других независимых
переменных модели
– Part (частичная, или получастная корреляция) – r между
фактором и зависимой переменной после удаления
линейных связей фактора с другими независимыми переменными модели, эта корреляция
связана с изменением R2
при добавлении данного фактора в модель
o Резкое уменьшения частных коэффициентов корреляции по сравнению с r свидетельствует о сильной
взаимозависимости фактора с другими факторами

21
Выбор факторов для уравнения регрессииВыбор факторов для уравнения регрессии
1. Определить набор всех возможных независимых переменных, способных улучшить
точность прогноза
o Необходимо использовать как можно больше факторов, содержащих новую информацию
для прогноза
o Необходимо использовать как можно меньше факторов, т.к. для построения модели
придется собирать информацию обо всех этих факторах
2. Отбросить переменные, неадекватные данному случаю:
o Должна быть реальная, объяснимая логически взаимосвязь между фактором и зависимой
переменной
o Фактор не должен быть связан с другими факторами (мультиколлинеарность)
o Измерение фактора не должно производиться с большой ошибкой или требовать
значительных затрат ресурсов
3. Определить путем сокращения числа независимых переменных «наилучший»
набор факторов
o для этого нет однозначного критерия
o даже при использовании для сравнения одного критерия (например, R2
или исправленный
R2
для модели), разная последовательность отбора факторов будет давать разные
уравнения регрессии
o число комбинаций очень велико: 2k
, т.е. для 5 факторов можно построить
25
= 32 уравнения
o отбор факторов в значительной степени субъективен

22
Пошаговая регрессияПошаговая регрессия
o Метод пошаговой регрессии (stepwise) предполагает поэтапное добавление
(или удаление) в уравнение отдельных факторов, по одному на каждом этапе:
1. Рассматриваются все простые регрессии. Выбирается фактор с наибольшим
коэффициентом корреляции с Y.
2. Из числа еще не включенных факторов выбирается дающий наибольшее значимое
увеличение SSR. Значимость проверяется по F-критерию, минимальное значение F-
статистики (или соответствующее ему p-значение) задает пользователь - параметр F
для включения (Entry)
3. Проверяется значимость коэффициентов при всех переменных в полученном уравнении.
Если p-значение меньше заданного пользователем, переменная исключается
4. Повторяются этапы 2 и 3, пока все возможные добавления не окажутся незначимыми, а
все возможные удаления – значимыми
o Модификации метода:
– метод последовательного включения (forward):
переменные только добавляются, но не удаляются
– метод последовательного исключения (backward):
вначале включены все переменные, затем
последовательно удаляются незначимые
o Методы не гарантируют нахождения наилучшего
сочетания факторов

23
Результат пошаговой регрессииРезультат пошаговой регрессии

24
Результат последовательного включенияРезультат последовательного включения

25
Результат последовательного исключенияРезультат последовательного исключения

26
Допущения модели многомерной регрессииДопущения модели многомерной регрессии
o Статистическая модель многомерной регрессии основана на
следующих допущениях:
– Для заданного набора факторов Xj генеральная совокупность
значений Y нормально распределена относительно регрессионной
функции совокупности, параметры распределения (µY,σ)
– СКО генеральной совокупности относительно регрессионной
функции совокупности всюду постоянно (σ=const), нарушение этого
предположения - гетероскедастичность
– Слагаемые ошибок ε независимы между собой. Это предположение
часто нарушается, если точки данных записывались в течение
нескольких периодов времени (серийная корреляция)
– В генеральной совокупности существует линейная зависимость
между факторами Xj и Y

27
Схема анализа остатков моделиСхема анализа остатков модели
o Для проверки справедливости допущений статистической модели
многомерной регрессии выполняется анализ остатков:
1. Проверить нормальность (гистограмма, график P-P или Q-Q)
2. Проверить независимость остатков от Xj (графики остатки – Xj)
3. Проверить независимость остатков от прогнозируемой величины
– Для данных временного ряда требуются дополнительные проверки:
– независимость остатков от времени (график остатки – t)
– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на
серийную корреляцию)
ˆY
Дисперсия остатков увеличивается с ростом ˆY

28
Анализ выбросовАнализ выбросов
o Выбросы – это:
– значительные отклонения фактического значения зависимой переменной от прогноза
– крайние значения в наборе данных, заметно отличающиеся от остальных по величине
o Выбросы могут существенно влиять на качество модели, поэтому необходимо изучать
их и рассматривать вопрос об исключении их из набора при построении модели, или
об использовании весов для наблюдений, с целью уменьшить влияние выбросов на
модель
o SPSS может выводить в отчет информацию о значительных (более 2-3 СКО)
отклонениях прогноза от факта. Эти наблюдения также можно увидеть на графике
стандартизованных остатков

29
Оценка влияния выбросовОценка влияния выбросов
o Для проверки влияния выбросов на уравнение регрессии используются две метрики:
– Значение разбалансировки (Leverage value) - измеряет влияние точки данных
на согласие регрессии, 0 < hi < 1. Если hi близко к 1, то прогноз для точки данных i
почти полностью определяется значением Xij при отсутствии влияния соседних
наблюдений. Это может происходить в том случае, когда набор значений
факторов Xij находится на значительном удалении от среднего. Для парной
линейной регрессии:
Для k независимых переменных можно показать, что 0 < hi < 1 и среднее значение
разбалансировки hср = (k + 1) / n, по эмпирическому правилу hi > 3hср считается
большим
– Расстояние Кука (Cook’s distance) – измеряет, насколько изменятся остатки для
всех точек данных, если текущее наблюдение будет исключено при оценке
коэффициентов уравнения. Большая величина расстояния Кука (D>4/n)
свидетельствует о значительном изменении коэффициентов при удалении
данного наблюдения
( )
( )
2
2
1 i
i
X X
h
n X X
−
= +
−∑
( )( )
( )
2
ˆ ˆ
1
j j i
i
Y Y
D
k MSE
−
=
+ ×
∑ - прогноз при удалении i-го наблюдения

30
Оценка влияния выбросов вОценка влияния выбросов в SPSSSPSS
o SPSS позволяет вычислить
и сохранить в набор данных
расстояние Кука, значение
разбалансировки и
стандартизованные остатки
o В дальнейшем их можно
анализировать при помощи
диаграмм рассеяния
o Точки с большими значениями
обоих параметров могут сильно
влиять на качество модели
o Это влияние можно сократить
путем преобразования переменных
0.0167 0.05
0.025

31
Анализ причин выбросовАнализ причин выбросов
o Диаграммы рассеяния: стандартизованные остатки – факторы
демонстрируют асимметрию распределения, которую можно устранить
логарифмированием

32
Прогнозирование вне допустимого множестваПрогнозирование вне допустимого множества
o Регрессионная модель строится по ограниченной выборке, которая может
неравномерно представлять всю генеральную совокупность
o Если применить полученную модель к другому набору данных из той же
совокупности, ошибка может многократно увеличиться
o Прогнозирование вне допустимого множества имеет место при малом
объеме выборки и большом числе факторов
o Эмпирическое правило рекомендует ограничивать число факторов так,
чтобы на один фактор приходилось как минимум 10 наблюдений, т.е. 40
точек данных на 4-факторную модель
o Для проверки модели может использоваться подгонка на одном
подмножестве точек данных и тестирование на другом подмножестве из
того же набора, при этом анализируется рост MSE

Прогнозирование - Лекция 3. Множественная регрессия

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Прогнозирование - Лекция 3. Множественная регрессия

Ähnlich wie Прогнозирование - Лекция 3. Множественная регрессия (20)

Прогнозирование - Лекция 3. Множественная регрессия

Hinweis der Redaktion