2. 2
Построение и анализ многомерныхПостроение и анализ многомерных
регрессионных моделейрегрессионных моделей
1. Оценка степени линейной связи между переменными
2. Статистическая модель многомерной линейной регрессии,
условия ее применения
3. Оценка качества многомерной регрессионной модели
4. Анализ взаимозависимости факторов
5. Отбор факторов для включения в модель
6. Регрессионная диагностика и анализ остатков
3. 3
Корреляционная матрицаКорреляционная матрица
o Корреляционная матрица используется для оценки линейных связей
между парами переменных (Analyze>Correlate>Bivariate)
o Визуально оценить тесноту связей можно с помощью матрицы
диаграмм рассеяния (Scatterplot Matrix, SPLOM)
(Graphs>…>Matrix Scatter)
4. 4
Статистическая модельСтатистическая модель
многомерной линейной регрессиимногомерной линейной регрессии
o Статистическая модель многомерной линейной регрессии позволяет определить
математическое ожидание Y для каждого набора значений Xj, j=1..k, по уравнению:
o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε,
которая отражает вклад ненаблюдаемых факторов
o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ
для любого набора значений Xj
0 1 1 2 2Y k kX X Xµ β β β β= + + + +K
Допущения модели:
• ошибки независимы
• ошибки случайны
• mε=0
• σε = const
0 1 1 2 2 k kY X X Xβ β β β ε= + + + + +K
5. 5
Статистический анализ моделиСтатистический анализ модели
многомерной регрессиимногомерной регрессии
o Из статистической модели многомерной регрессии следует:
o Это равенство можно преобразовать:
o И далее:
o Стандартная ошибка оценки:
0 1 1
ˆ ˆ( )k kY b b X b X e Y Y Y= + + + + = + −K
Прогноз + Остаток
( ) ( )ˆ ˆ ˆ ˆ( )Y Y Y Y Y Y Y Y Y Y Y Y− = + − − ⇒ − = − + −
( ) ( ) ( )
2 22
ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑
SST SSE SSR
df = n – 1 n – (k +1) =
= n – k – 1
k
( )
2
ˆ
1 1
y x
Y Y SSE
s MSE
n k n k
×
−
= = =
− − − −
∑
6. 6
Коэффициент детерминацииКоэффициент детерминации
o Коэффициент детерминации обозначает долю объясненной дисперсии в
общей дисперсии:
o Поскольку остаточная сумма квадратов обычно все равно вычисляется,
удобнее пользоваться формулой:
o Корень из R2
называется многомерным коэффициентом корреляции и
характеризует корреляцию между зависимой переменной и оценкой,
полученной по модели:
( )
( )
2
2
2
ˆY YSSR
R
SST Y Y
−
= =
−
∑
∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
2
r R=
7. 7
Исправленный коэффициент детерминацииИсправленный коэффициент детерминации
o Коэффициент детерминации R2
, рассчитанный по формуле:
возрастает с увеличением числа факторов в модели, при этом не обязательно
модель с большим числом факторов будет лучше работать на новых данных
o Чтобы исключить влияние числа факторов на величину R2
, используют
исправленный коэффициент детерминации (R-squared adjusted), в котором
вводится штраф за увеличение числа переменных:
o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот
показатель, поэтому он наиболее полезен на стадии отбора факторов для
построения модели
o Если модель строится по генеральной совокупности, то обычный R2
– более
предпочтительный показатель
2
1
SSE
R
SST
= −
( )
2
2
1
1 1
1
1
1 1
1
SST
SSE
SSE df SSE n
R
SST df SST n k
n
R
n k
−
= − × = − × =
− −
−
= − − ×
− −
9. 9
Проверка значимости регрессииПроверка значимости регрессии
при помощи таблицыпри помощи таблицы ANOVAANOVA
o Гипотезы:
o Выборочная статистика:
o При справедливости H0 имеет F-распределение с числом степеней свободы dfMSR, dfMSE,
т.е. k и n-k-1 соответственно
o При отсутствии связи MSR и MSE оценивают дисперсию ошибки ε, если существует
βj<>0, то MSR>MSE
o При уровне значимости α гипотеза отклоняется при F > Fαи dfMSR, dfMSE
o Удобнее всего пользоваться p-значением, при малом p (столбец Significance в
таблице дисперсионного анализа) гипотеза отвергается
o F-критерий проверяет значимость регрессии в целом, с учетом всех переменных
0 : 0, 1jH j kβ∀ = = K
MSR
F
MSE
=
1 : 0, 1jH j kβ∃ ≠ = K
10. 10
Проверка гипотез о значимостиПроверка гипотез о значимости
коэффициентов регрессиикоэффициентов регрессии
o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу
о равенстве нулю коэффициента регрессионной функции совокупности:
o Гипотезы:
o Выборочная статистика:
o Найти критическое значение для α/2, df = n – k – 1
o Если |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим
o Проверка с использованием p-значения (Sig.)
o Проверка с использованием доверительного интервала для bj: если не включает
0, то гипотеза H0 отвергается
0 1 1 k kY X Xβ β β ε= + + + +K
0 : 0jH β = 1 : 0jH β ≠
j
j
b j
b
t
s
=
11. 11
Интервальный прогнозИнтервальный прогноз
o Прогнозируемое значение для зависимой переменной можно получить
с помощью найденной оценки функции регрессии:
o Ширину доверительного интервала для уровня значимости α можно
приближенно оценить с использованием стандартной ошибки оценки и
t-распределения:
o Эта оценка для ширины доверительного интервала построена для
большого числа наблюдений n и независимых X
0 1 1 k kY b b X b X= + + +K
( )( )
/2, 1
ˆ ˆ, 1
n k y xY t s
P Y Y Y Y Y
α
α
− − ×∆ = ×
∈ − ∆ + ∆ ≈ −
12. 12
Мультиколлинеарность факторовМультиколлинеарность факторов
o Наличие линейных зависимостей между факторами в модели
называется мультиколлинеарностью
– Пример - зависимость объема продаж от характеристик автомобиля:
• Мощность двигателя
(Horsepower)
• Колесная база (Wheelbase)
• Длина (Length)
• Ширина (Width)
• Собственный вес (Curb
Weight)
К появлению
мультиколлинеарности
приводит включение в модель
факторов, которые
«обозначают одно и то же»
13. 13
Проблема мультиколлинеарностиПроблема мультиколлинеарности
o Оценки коэффициентов, полученные по МНК, оказываются
неустойчивыми (сильно изменяются при небольших изменениях
данных)
o Метод вычисления коэффициентов (МНК) оказывается
чувствительным к ошибкам округления (точность компьютерного
представления данных и вычислений)
o Коэффициенты могут иметь неправильный знак (например, объем
продаж в физических единицах по уравнению увеличивается, если
цена увеличивается)
o Коэффициенты могут оказаться не значимыми по t-критерию, а
уравнение регрессии в целом – значимым (по F-критерию)
o Коэффициенты уравнения взаимозависимы
o Удаление одной переменной сильно меняет остальные коэффициенты
и их значимость
o Трудно анализировать вклад отдельного фактора в прогнозируемую
величину
14. 14
Фактор роста дисперсии (Фактор роста дисперсии (VIF)VIF)
o Степень мультиколлинеарности измеряется фактором роста
дисперсии (Variance Inflation Factor, VIF):
o R2
j – коэффициент детерминации из регрессии j-й переменной по
оставшимся (j-1) независимым переменным. Для k = 2 это значение
равно квадрату их выборочного коэффициента корреляции (rj)2
o Если переменная Xj не связана с остальными факторами, то R2
j = 0 и
VIFj = 1
o Если Xj сильно связана с другими факторами, то VIFj >> 1, для R2
j = 0.9
VIFj = 1/(1-0.9) = 10
o Значение VIFj близкое к 1, означает:
– нет проблемы мультиколлинеарности для Xj
– добавление или удаление других независимых переменных в модель не
изменит коэффициента bj и статистики tj
2
1
, 1..
1
j
j
VIF j k
R
= =
−
15. 15
Пример эффекта мультиколлинеарностиПример эффекта мультиколлинеарности
o Исходные данные – файл car_sales.sav
o Цель – построить модель для прогнозирования объема продаж в
зависимости от параметров автомобиля
16. 16
Результат включения всех факторов,Результат включения всех факторов,
коррелирующих с продажамикоррелирующих с продажами
17. 17
Результат исключенияРезультат исключения horsepowerhorsepower
o Из модели исключена переменная с наименьшим значением t-статистики
(и наибольшим p-значением) – мощность двигателя (horsepower)
18. 18
Результат исключенияРезультат исключения priceprice
o Из модели исключена переменная с наименьшим значением t-статистики
(и наибольшим p-значением) – цена продажи (price)
20. 20
Анализ частных корреляцийАнализ частных корреляций
o При построении модели многомерной линейной регрессии
в SPSS можно вывести в отчет таблицу корреляций между
переменными (Statistics… > [x] Part and Partial Correlations
o Данные о корреляции между переменными выводятся
в таблице Coefficients:
– Zero-order – коэффициент корреляции r для фактора
и зависимой переменной
– Partial (частная корреляция) – r между фактором
и зависимой переменной после удаления из обеих
переменных линейных эффектов других независимых
переменных модели
– Part (частичная, или получастная корреляция) – r между
фактором и зависимой переменной после удаления
линейных связей фактора с другими независимыми переменными модели, эта корреляция
связана с изменением R2
при добавлении данного фактора в модель
o Резкое уменьшения частных коэффициентов корреляции по сравнению с r свидетельствует о сильной
взаимозависимости фактора с другими факторами
21. 21
Выбор факторов для уравнения регрессииВыбор факторов для уравнения регрессии
1. Определить набор всех возможных независимых переменных, способных улучшить
точность прогноза
o Необходимо использовать как можно больше факторов, содержащих новую информацию
для прогноза
o Необходимо использовать как можно меньше факторов, т.к. для построения модели
придется собирать информацию обо всех этих факторах
2. Отбросить переменные, неадекватные данному случаю:
o Должна быть реальная, объяснимая логически взаимосвязь между фактором и зависимой
переменной
o Фактор не должен быть связан с другими факторами (мультиколлинеарность)
o Измерение фактора не должно производиться с большой ошибкой или требовать
значительных затрат ресурсов
3. Определить путем сокращения числа независимых переменных «наилучший»
набор факторов
o для этого нет однозначного критерия
o даже при использовании для сравнения одного критерия (например, R2
или исправленный
R2
для модели), разная последовательность отбора факторов будет давать разные
уравнения регрессии
o число комбинаций очень велико: 2k
, т.е. для 5 факторов можно построить
25
= 32 уравнения
o отбор факторов в значительной степени субъективен
22. 22
Пошаговая регрессияПошаговая регрессия
o Метод пошаговой регрессии (stepwise) предполагает поэтапное добавление
(или удаление) в уравнение отдельных факторов, по одному на каждом этапе:
1. Рассматриваются все простые регрессии. Выбирается фактор с наибольшим
коэффициентом корреляции с Y.
2. Из числа еще не включенных факторов выбирается дающий наибольшее значимое
увеличение SSR. Значимость проверяется по F-критерию, минимальное значение F-
статистики (или соответствующее ему p-значение) задает пользователь - параметр F
для включения (Entry)
3. Проверяется значимость коэффициентов при всех переменных в полученном уравнении.
Если p-значение меньше заданного пользователем, переменная исключается
4. Повторяются этапы 2 и 3, пока все возможные добавления не окажутся незначимыми, а
все возможные удаления – значимыми
o Модификации метода:
– метод последовательного включения (forward):
переменные только добавляются, но не удаляются
– метод последовательного исключения (backward):
вначале включены все переменные, затем
последовательно удаляются незначимые
o Методы не гарантируют нахождения наилучшего
сочетания факторов
26. 26
Допущения модели многомерной регрессииДопущения модели многомерной регрессии
o Статистическая модель многомерной регрессии основана на
следующих допущениях:
– Для заданного набора факторов Xj генеральная совокупность
значений Y нормально распределена относительно регрессионной
функции совокупности, параметры распределения (µY,σ)
– СКО генеральной совокупности относительно регрессионной
функции совокупности всюду постоянно (σ=const), нарушение этого
предположения - гетероскедастичность
– Слагаемые ошибок ε независимы между собой. Это предположение
часто нарушается, если точки данных записывались в течение
нескольких периодов времени (серийная корреляция)
– В генеральной совокупности существует линейная зависимость
между факторами Xj и Y
27. 27
Схема анализа остатков моделиСхема анализа остатков модели
o Для проверки справедливости допущений статистической модели
многомерной регрессии выполняется анализ остатков:
1. Проверить нормальность (гистограмма, график P-P или Q-Q)
2. Проверить независимость остатков от Xj (графики остатки – Xj)
3. Проверить независимость остатков от прогнозируемой величины
– Для данных временного ряда требуются дополнительные проверки:
– независимость остатков от времени (график остатки – t)
– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на
серийную корреляцию)
ˆY
Дисперсия остатков увеличивается с ростом ˆY
28. 28
Анализ выбросовАнализ выбросов
o Выбросы – это:
– значительные отклонения фактического значения зависимой переменной от прогноза
– крайние значения в наборе данных, заметно отличающиеся от остальных по величине
o Выбросы могут существенно влиять на качество модели, поэтому необходимо изучать
их и рассматривать вопрос об исключении их из набора при построении модели, или
об использовании весов для наблюдений, с целью уменьшить влияние выбросов на
модель
o SPSS может выводить в отчет информацию о значительных (более 2-3 СКО)
отклонениях прогноза от факта. Эти наблюдения также можно увидеть на графике
стандартизованных остатков
29. 29
Оценка влияния выбросовОценка влияния выбросов
o Для проверки влияния выбросов на уравнение регрессии используются две метрики:
– Значение разбалансировки (Leverage value) - измеряет влияние точки данных
на согласие регрессии, 0 < hi < 1. Если hi близко к 1, то прогноз для точки данных i
почти полностью определяется значением Xij при отсутствии влияния соседних
наблюдений. Это может происходить в том случае, когда набор значений
факторов Xij находится на значительном удалении от среднего. Для парной
линейной регрессии:
Для k независимых переменных можно показать, что 0 < hi < 1 и среднее значение
разбалансировки hср = (k + 1) / n, по эмпирическому правилу hi > 3hср считается
большим
– Расстояние Кука (Cook’s distance) – измеряет, насколько изменятся остатки для
всех точек данных, если текущее наблюдение будет исключено при оценке
коэффициентов уравнения. Большая величина расстояния Кука (D>4/n)
свидетельствует о значительном изменении коэффициентов при удалении
данного наблюдения
( )
( )
2
2
1 i
i
X X
h
n X X
−
= +
−∑
( )( )
( )
2
ˆ ˆ
1
j j i
i
Y Y
D
k MSE
−
=
+ ×
∑ - прогноз при удалении i-го наблюдения
30. 30
Оценка влияния выбросов вОценка влияния выбросов в SPSSSPSS
o SPSS позволяет вычислить
и сохранить в набор данных
расстояние Кука, значение
разбалансировки и
стандартизованные остатки
o В дальнейшем их можно
анализировать при помощи
диаграмм рассеяния
o Точки с большими значениями
обоих параметров могут сильно
влиять на качество модели
o Это влияние можно сократить
путем преобразования переменных
0.0167 0.05
0.025
31. 31
Анализ причин выбросовАнализ причин выбросов
o Диаграммы рассеяния: стандартизованные остатки – факторы
демонстрируют асимметрию распределения, которую можно устранить
логарифмированием
32. 32
Прогнозирование вне допустимого множестваПрогнозирование вне допустимого множества
o Регрессионная модель строится по ограниченной выборке, которая может
неравномерно представлять всю генеральную совокупность
o Если применить полученную модель к другому набору данных из той же
совокупности, ошибка может многократно увеличиться
o Прогнозирование вне допустимого множества имеет место при малом
объеме выборки и большом числе факторов
o Эмпирическое правило рекомендует ограничивать число факторов так,
чтобы на один фактор приходилось как минимум 10 наблюдений, т.е. 40
точек данных на 4-факторную модель
o Для проверки модели может использоваться подгонка на одном
подмножестве точек данных и тестирование на другом подмножестве из
того же набора, при этом анализируется рост MSE
Hinweis der Redaktion
Используя информацию, содержащуюся в дополнительных переменных, можно построить модель, лучше объясняющую поведение зависимой переменной (это выражается через рост R2). Модель будет включать несколько независимых переменных, т.е. будет моделью многомерной (многофакторной) регрессии.
Факторы нельзя добавлять без разбора, поскольку они могут быть взаимосвязаны. Добавление тесно связанных факторов в модель не приведет к улучшению ее точности и затруднит оценку коэффициентов. Наличие взаимозависимостей между факторами называется мультиколлинеарностью.
Хороший фактор:
связан с независимой переменной
не связан с любыми другими независимыми переменными
\mu_Y – многомерная регрессионная функция генеральной совокупности. Функция описывает математическое ожидание наблюдаемых значений Y для каждого сочетания независимых переменных X, фактические значения будут отличаться, т.е. в уравнении для Y будет присутствовать слагаемое ошибки \eps. Это ненаблюдаемая случайная величина, в которой проявляется влияние на зависимую переменную других, неучтенных факторов.
Коэффициент \beta в уравнении – частная производная Y по соответствующей переменной, т.е. приращение Y на единичное приращение Xj и постоянстве других X
Как и для линейной регрессии, коэффициенты уравнения b оцениваются по выборке, а остаток модели e – оценка ошибки \eps
syx – оценка стандартного отклонения распределения ошибок, т.е. отклонения их от плоскости регрессии, 67% фактических значений будут попадать в интервал +/- syx, 95% - в интервал +/- 2syx
Примечание. Коэффициент детерминации измеряет долю дисперсии Y, которую можно объяснить с помощью информации о значении X
Цель проверки – оценка значимости влияния каждой отдельной переменной на значение прогноза
Примечание: рассматривается вероятность отклонения коэффициента bj от нуля, т.е. нужен двухсторонний критерий и необходимо искать критическое значение по условию: |t|&gt;talpha/2 для числа степеней свободы n – k – 1
Примечание. Отчасти, проблемы из-за ошибок округления можно устранить, если стандартизовать все переменные: Xij = (Xij – Xсрj) / sqrt(sum((Xij-Xcpj)2)). В этом случае все новые переменные будут иметь одинаковое среднее (0) и одно и то же выборочное СКО.
Примечание. Фактор роста дисперсии получил свое название из-за того, что стандартная ошибка Sb_j для коэффициента bj возрастает при увеличении VIFj
Примечание 1. Показатель Tolerance обозначает долю дисперсии фактора, которая не может быть объяснена другими факторами, т.е. это (1-R2) для регрессии этого фактора на остальные факторы
Примечание 2. SPSS дополнительно выводит таблицу диагностики мультиколлинеарности, в которой содержатся собственные значения (eigenvalues) и индексы обусловленности (condition index). Малая величина (близкая к 0) собственного значения говорит о тесной зависимости этого фактора с другими и возможной неустойчивости коэффициентов регрессии при небольшом изменении данных. Индекс обусловленности – квадратный корень из отношения самого большого собственного значения в таблице, и собственного значения для текущего фактора. Величина индекса обусловленности &gt; 15 говорит о возможном наличии проблемы мультиколлинеарности, &gt;30 – о наличии этой проблемы.
Примечание. Исключить из модели можно любую из переменных, вклад которых оказался незначим, не обязательно выбирать переменную с наибольшим p-значением
Примечание 1. При добавлении в уравнение многомерной регрессии новой переменной, значение R2 либо не изменяется, либо увеличивается. Поэтому для сравнения моделей используется исправленный R2
Примечание 2. Каждая независимая переменная может либо присутствовать, либо не присутствовать в уравнении регрессии, поэтому общее число вариантов уравнений для k факторов равно 2k
Примечание 3. При анализе всех возможных регрессий лучше всего разбить уравнения на группы по числу факторов и определить лучшую модель в каждой группе по величине R2, затем выбрать уже из них
Примечание 1. Выполняемая в п. 3 проверка значимости коэффициента bj называется частным F-критерием, поэтому в приложениях используется обозначение F для исключения или соответствующее ему p-значение. Можно показать, что t2 = F
Примечание 2. Чем большее p-значение для включения задается, тем больше переменных могут попасть в уравнение. Чем большее p-значение для исключения задается, тем меньше вероятность удаления какого-либо из уже включенных в модель факторов
Примечание 3. Метод не может указать на необходимость преобразования переменных с целью линеаризации нелинейных зависимостей, также рассматриваются только переменные из множества заранее отобранных аналитиком. При этом можно пропустить важную переменную.
Примечание 4. Из-за выполнения большого количества статистических тестов на некотором уровне значимости, существует ненулевая вероятность получить в итоге уравнение, в котором будет присутствовать фактор не связанный с Y, а попавший в модель случайно.