SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Курс «КомпьютернаяКурс «Компьютерная
поддержкаподдержка
прогнозирования»прогнозирования»
Заходякин Глеб Викторович,
кафедра Информационных систем
и технологий в логистике
e-mail: postlogist@gmail.com
Эту презентацию следует смотреть в полноэкранном режиме, чтобы работала
анимация. В Adobe Reader переключение в полноэкранный режим
производится сочетанием клавиш Ctrl-L
2
Построение и анализ многомерныхПостроение и анализ многомерных
регрессионных моделейрегрессионных моделей
1. Оценка степени линейной связи между переменными
2. Статистическая модель многомерной линейной регрессии,
условия ее применения
3. Оценка качества многомерной регрессионной модели
4. Анализ взаимозависимости факторов
5. Отбор факторов для включения в модель
6. Регрессионная диагностика и анализ остатков
3
Корреляционная матрицаКорреляционная матрица
o Корреляционная матрица используется для оценки линейных связей
между парами переменных (Analyze>Correlate>Bivariate)
o Визуально оценить тесноту связей можно с помощью матрицы
диаграмм рассеяния (Scatterplot Matrix, SPLOM)
(Graphs>…>Matrix Scatter)
4
Статистическая модельСтатистическая модель
многомерной линейной регрессиимногомерной линейной регрессии
o Статистическая модель многомерной линейной регрессии позволяет определить
математическое ожидание Y для каждого набора значений Xj, j=1..k, по уравнению:
o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε,
которая отражает вклад ненаблюдаемых факторов
o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ
для любого набора значений Xj
0 1 1 2 2Y k kX X Xµ β β β β= + + + +K
Допущения модели:
• ошибки независимы
• ошибки случайны
• mε=0
• σε = const
0 1 1 2 2 k kY X X Xβ β β β ε= + + + + +K
5
Статистический анализ моделиСтатистический анализ модели
многомерной регрессиимногомерной регрессии
o Из статистической модели многомерной регрессии следует:
o Это равенство можно преобразовать:
o И далее:
o Стандартная ошибка оценки:
0 1 1
ˆ ˆ( )k kY b b X b X e Y Y Y= + + + + = + −K
Прогноз + Остаток
( ) ( )ˆ ˆ ˆ ˆ( )Y Y Y Y Y Y Y Y Y Y Y Y− = + − − ⇒ − = − + −
( ) ( ) ( )
2 22
ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑
SST SSE SSR
df = n – 1 n – (k +1) =
= n – k – 1
k
( )
2
ˆ
1 1
y x
Y Y SSE
s MSE
n k n k
×
−
= = =
− − − −
∑
6
Коэффициент детерминацииКоэффициент детерминации
o Коэффициент детерминации обозначает долю объясненной дисперсии в
общей дисперсии:
o Поскольку остаточная сумма квадратов обычно все равно вычисляется,
удобнее пользоваться формулой:
o Корень из R2
называется многомерным коэффициентом корреляции и
характеризует корреляцию между зависимой переменной и оценкой,
полученной по модели:
( )
( )
2
2
2
ˆY YSSR
R
SST Y Y
−
= =
−
∑
∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
2
r R=
7
Исправленный коэффициент детерминацииИсправленный коэффициент детерминации
o Коэффициент детерминации R2
, рассчитанный по формуле:
возрастает с увеличением числа факторов в модели, при этом не обязательно
модель с большим числом факторов будет лучше работать на новых данных
o Чтобы исключить влияние числа факторов на величину R2
, используют
исправленный коэффициент детерминации (R-squared adjusted), в котором
вводится штраф за увеличение числа переменных:
o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот
показатель, поэтому он наиболее полезен на стадии отбора факторов для
построения модели
o Если модель строится по генеральной совокупности, то обычный R2
– более
предпочтительный показатель
2
1
SSE
R
SST
= −
( )
2
2
1
1 1
1
1
1 1
1
SST
SSE
SSE df SSE n
R
SST df SST n k
n
R
n k
−
= − × = − × =
− −
−
= − − ×
− −
8
Пример расчета характеристикПример расчета характеристик
9
Проверка значимости регрессииПроверка значимости регрессии
при помощи таблицыпри помощи таблицы ANOVAANOVA
o Гипотезы:
o Выборочная статистика:
o При справедливости H0 имеет F-распределение с числом степеней свободы dfMSR, dfMSE,
т.е. k и n-k-1 соответственно
o При отсутствии связи MSR и MSE оценивают дисперсию ошибки ε, если существует
βj<>0, то MSR>MSE
o При уровне значимости α гипотеза отклоняется при F > Fαи dfMSR, dfMSE
o Удобнее всего пользоваться p-значением, при малом p (столбец Significance в
таблице дисперсионного анализа) гипотеза отвергается
o F-критерий проверяет значимость регрессии в целом, с учетом всех переменных
0 : 0, 1jH j kβ∀ = = K
MSR
F
MSE
=
1 : 0, 1jH j kβ∃ ≠ = K
10
Проверка гипотез о значимостиПроверка гипотез о значимости
коэффициентов регрессиикоэффициентов регрессии
o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу
о равенстве нулю коэффициента регрессионной функции совокупности:
o Гипотезы:
o Выборочная статистика:
o Найти критическое значение для α/2, df = n – k – 1
o Если |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим
o Проверка с использованием p-значения (Sig.)
o Проверка с использованием доверительного интервала для bj: если не включает
0, то гипотеза H0 отвергается
0 1 1 k kY X Xβ β β ε= + + + +K
0 : 0jH β = 1 : 0jH β ≠
j
j
b j
b
t
s
=
11
Интервальный прогнозИнтервальный прогноз
o Прогнозируемое значение для зависимой переменной можно получить
с помощью найденной оценки функции регрессии:
o Ширину доверительного интервала для уровня значимости α можно
приближенно оценить с использованием стандартной ошибки оценки и
t-распределения:
o Эта оценка для ширины доверительного интервала построена для
большого числа наблюдений n и независимых X
0 1 1 k kY b b X b X= + + +K
( )( )
/2, 1
ˆ ˆ, 1
n k y xY t s
P Y Y Y Y Y
α
α
− − ×∆ = ×
∈ − ∆ + ∆ ≈ −
12
Мультиколлинеарность факторовМультиколлинеарность факторов
o Наличие линейных зависимостей между факторами в модели
называется мультиколлинеарностью
– Пример - зависимость объема продаж от характеристик автомобиля:
• Мощность двигателя
(Horsepower)
• Колесная база (Wheelbase)
• Длина (Length)
• Ширина (Width)
• Собственный вес (Curb
Weight)
К появлению
мультиколлинеарности
приводит включение в модель
факторов, которые
«обозначают одно и то же»
13
Проблема мультиколлинеарностиПроблема мультиколлинеарности
o Оценки коэффициентов, полученные по МНК, оказываются
неустойчивыми (сильно изменяются при небольших изменениях
данных)
o Метод вычисления коэффициентов (МНК) оказывается
чувствительным к ошибкам округления (точность компьютерного
представления данных и вычислений)
o Коэффициенты могут иметь неправильный знак (например, объем
продаж в физических единицах по уравнению увеличивается, если
цена увеличивается)
o Коэффициенты могут оказаться не значимыми по t-критерию, а
уравнение регрессии в целом – значимым (по F-критерию)
o Коэффициенты уравнения взаимозависимы
o Удаление одной переменной сильно меняет остальные коэффициенты
и их значимость
o Трудно анализировать вклад отдельного фактора в прогнозируемую
величину
14
Фактор роста дисперсии (Фактор роста дисперсии (VIF)VIF)
o Степень мультиколлинеарности измеряется фактором роста
дисперсии (Variance Inflation Factor, VIF):
o R2
j – коэффициент детерминации из регрессии j-й переменной по
оставшимся (j-1) независимым переменным. Для k = 2 это значение
равно квадрату их выборочного коэффициента корреляции (rj)2
o Если переменная Xj не связана с остальными факторами, то R2
j = 0 и
VIFj = 1
o Если Xj сильно связана с другими факторами, то VIFj >> 1, для R2
j = 0.9
VIFj = 1/(1-0.9) = 10
o Значение VIFj близкое к 1, означает:
– нет проблемы мультиколлинеарности для Xj
– добавление или удаление других независимых переменных в модель не
изменит коэффициента bj и статистики tj
2
1
, 1..
1
j
j
VIF j k
R
= =
−
15
Пример эффекта мультиколлинеарностиПример эффекта мультиколлинеарности
o Исходные данные – файл car_sales.sav
o Цель – построить модель для прогнозирования объема продаж в
зависимости от параметров автомобиля
16
Результат включения всех факторов,Результат включения всех факторов,
коррелирующих с продажамикоррелирующих с продажами
17
Результат исключенияРезультат исключения horsepowerhorsepower
o Из модели исключена переменная с наименьшим значением t-статистики
(и наибольшим p-значением) – мощность двигателя (horsepower)
18
Результат исключенияРезультат исключения priceprice
o Из модели исключена переменная с наименьшим значением t-статистики
(и наибольшим p-значением) – цена продажи (price)
19
Результат исключенияРезультат исключения lengthlength
o Из модели исключена переменная с наименьшим значением t-статистики
(и наибольшим p-значением) – длина (length)
20
Анализ частных корреляцийАнализ частных корреляций
o При построении модели многомерной линейной регрессии
в SPSS можно вывести в отчет таблицу корреляций между
переменными (Statistics… > [x] Part and Partial Correlations
o Данные о корреляции между переменными выводятся
в таблице Coefficients:
– Zero-order – коэффициент корреляции r для фактора
и зависимой переменной
– Partial (частная корреляция) – r между фактором
и зависимой переменной после удаления из обеих
переменных линейных эффектов других независимых
переменных модели
– Part (частичная, или получастная корреляция) – r между
фактором и зависимой переменной после удаления
линейных связей фактора с другими независимыми переменными модели, эта корреляция
связана с изменением R2
при добавлении данного фактора в модель
o Резкое уменьшения частных коэффициентов корреляции по сравнению с r свидетельствует о сильной
взаимозависимости фактора с другими факторами
21
Выбор факторов для уравнения регрессииВыбор факторов для уравнения регрессии
1. Определить набор всех возможных независимых переменных, способных улучшить
точность прогноза
o Необходимо использовать как можно больше факторов, содержащих новую информацию
для прогноза
o Необходимо использовать как можно меньше факторов, т.к. для построения модели
придется собирать информацию обо всех этих факторах
2. Отбросить переменные, неадекватные данному случаю:
o Должна быть реальная, объяснимая логически взаимосвязь между фактором и зависимой
переменной
o Фактор не должен быть связан с другими факторами (мультиколлинеарность)
o Измерение фактора не должно производиться с большой ошибкой или требовать
значительных затрат ресурсов
3. Определить путем сокращения числа независимых переменных «наилучший»
набор факторов
o для этого нет однозначного критерия
o даже при использовании для сравнения одного критерия (например, R2
или исправленный
R2
для модели), разная последовательность отбора факторов будет давать разные
уравнения регрессии
o число комбинаций очень велико: 2k
, т.е. для 5 факторов можно построить
25
= 32 уравнения
o отбор факторов в значительной степени субъективен
22
Пошаговая регрессияПошаговая регрессия
o Метод пошаговой регрессии (stepwise) предполагает поэтапное добавление
(или удаление) в уравнение отдельных факторов, по одному на каждом этапе:
1. Рассматриваются все простые регрессии. Выбирается фактор с наибольшим
коэффициентом корреляции с Y.
2. Из числа еще не включенных факторов выбирается дающий наибольшее значимое
увеличение SSR. Значимость проверяется по F-критерию, минимальное значение F-
статистики (или соответствующее ему p-значение) задает пользователь - параметр F
для включения (Entry)
3. Проверяется значимость коэффициентов при всех переменных в полученном уравнении.
Если p-значение меньше заданного пользователем, переменная исключается
4. Повторяются этапы 2 и 3, пока все возможные добавления не окажутся незначимыми, а
все возможные удаления – значимыми
o Модификации метода:
– метод последовательного включения (forward):
переменные только добавляются, но не удаляются
– метод последовательного исключения (backward):
вначале включены все переменные, затем
последовательно удаляются незначимые
o Методы не гарантируют нахождения наилучшего
сочетания факторов
23
Результат пошаговой регрессииРезультат пошаговой регрессии
24
Результат последовательного включенияРезультат последовательного включения
25
Результат последовательного исключенияРезультат последовательного исключения
26
Допущения модели многомерной регрессииДопущения модели многомерной регрессии
o Статистическая модель многомерной регрессии основана на
следующих допущениях:
– Для заданного набора факторов Xj генеральная совокупность
значений Y нормально распределена относительно регрессионной
функции совокупности, параметры распределения (µY,σ)
– СКО генеральной совокупности относительно регрессионной
функции совокупности всюду постоянно (σ=const), нарушение этого
предположения - гетероскедастичность
– Слагаемые ошибок ε независимы между собой. Это предположение
часто нарушается, если точки данных записывались в течение
нескольких периодов времени (серийная корреляция)
– В генеральной совокупности существует линейная зависимость
между факторами Xj и Y
27
Схема анализа остатков моделиСхема анализа остатков модели
o Для проверки справедливости допущений статистической модели
многомерной регрессии выполняется анализ остатков:
1. Проверить нормальность (гистограмма, график P-P или Q-Q)
2. Проверить независимость остатков от Xj (графики остатки – Xj)
3. Проверить независимость остатков от прогнозируемой величины
– Для данных временного ряда требуются дополнительные проверки:
– независимость остатков от времени (график остатки – t)
– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на
серийную корреляцию)
ˆY
Дисперсия остатков увеличивается с ростом ˆY
28
Анализ выбросовАнализ выбросов
o Выбросы – это:
– значительные отклонения фактического значения зависимой переменной от прогноза
– крайние значения в наборе данных, заметно отличающиеся от остальных по величине
o Выбросы могут существенно влиять на качество модели, поэтому необходимо изучать
их и рассматривать вопрос об исключении их из набора при построении модели, или
об использовании весов для наблюдений, с целью уменьшить влияние выбросов на
модель
o SPSS может выводить в отчет информацию о значительных (более 2-3 СКО)
отклонениях прогноза от факта. Эти наблюдения также можно увидеть на графике
стандартизованных остатков
29
Оценка влияния выбросовОценка влияния выбросов
o Для проверки влияния выбросов на уравнение регрессии используются две метрики:
– Значение разбалансировки (Leverage value) - измеряет влияние точки данных
на согласие регрессии, 0 < hi < 1. Если hi близко к 1, то прогноз для точки данных i
почти полностью определяется значением Xij при отсутствии влияния соседних
наблюдений. Это может происходить в том случае, когда набор значений
факторов Xij находится на значительном удалении от среднего. Для парной
линейной регрессии:
Для k независимых переменных можно показать, что 0 < hi < 1 и среднее значение
разбалансировки hср = (k + 1) / n, по эмпирическому правилу hi > 3hср считается
большим
– Расстояние Кука (Cook’s distance) – измеряет, насколько изменятся остатки для
всех точек данных, если текущее наблюдение будет исключено при оценке
коэффициентов уравнения. Большая величина расстояния Кука (D>4/n)
свидетельствует о значительном изменении коэффициентов при удалении
данного наблюдения
( )
( )
2
2
1 i
i
X X
h
n X X
−
= +
−∑
( )( )
( )
2
ˆ ˆ
1
j j i
i
Y Y
D
k MSE
−
=
+ ×
∑ - прогноз при удалении i-го наблюдения
30
Оценка влияния выбросов вОценка влияния выбросов в SPSSSPSS
o SPSS позволяет вычислить
и сохранить в набор данных
расстояние Кука, значение
разбалансировки и
стандартизованные остатки
o В дальнейшем их можно
анализировать при помощи
диаграмм рассеяния
o Точки с большими значениями
обоих параметров могут сильно
влиять на качество модели
o Это влияние можно сократить
путем преобразования переменных
0.0167 0.05
0.025
31
Анализ причин выбросовАнализ причин выбросов
o Диаграммы рассеяния: стандартизованные остатки – факторы
демонстрируют асимметрию распределения, которую можно устранить
логарифмированием
32
Прогнозирование вне допустимого множестваПрогнозирование вне допустимого множества
o Регрессионная модель строится по ограниченной выборке, которая может
неравномерно представлять всю генеральную совокупность
o Если применить полученную модель к другому набору данных из той же
совокупности, ошибка может многократно увеличиться
o Прогнозирование вне допустимого множества имеет место при малом
объеме выборки и большом числе факторов
o Эмпирическое правило рекомендует ограничивать число факторов так,
чтобы на один фактор приходилось как минимум 10 наблюдений, т.е. 40
точек данных на 4-факторную модель
o Для проверки модели может использоваться подгонка на одном
подмножестве точек данных и тестирование на другом подмножестве из
того же набора, при этом анализируется рост MSE

Weitere ähnliche Inhalte

Was ist angesagt?

Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011Kh Ider
 
понятие функции
понятие функциипонятие функции
понятие функцииttku
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Andrii Gakhov
 
Задача с параметром. Задание 18.
Задача с параметром. Задание 18.Задача с параметром. Задание 18.
Задача с параметром. Задание 18.Инна Фельдман
 
Задача с параметрами из Досрочного ЕГЭ 28.03.16
Задача с параметрами из Досрочного  ЕГЭ 28.03.16Задача с параметрами из Досрочного  ЕГЭ 28.03.16
Задача с параметрами из Досрочного ЕГЭ 28.03.16Инна Фельдман
 
Issledovanie funkcii s_pomoshhyu_proizvodnoj
Issledovanie funkcii s_pomoshhyu_proizvodnojIssledovanie funkcii s_pomoshhyu_proizvodnoj
Issledovanie funkcii s_pomoshhyu_proizvodnojIvanchik5
 
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОДСИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОДIT_1315
 
ГП1_521_Вариант6
ГП1_521_Вариант6ГП1_521_Вариант6
ГП1_521_Вариант6ivnastassia
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Урок на тему "Показательная функция"
Урок на тему "Показательная функция"Урок на тему "Показательная функция"
Урок на тему "Показательная функция"Инна Фельдман
 
Дизайн как управление интепретацией
Дизайн как управление интепретациейДизайн как управление интепретацией
Дизайн как управление интепретациейStreetArt_su
 
Задача с параметрами из Досрочного ЕГЭ
Задача с параметрами из Досрочного ЕГЭЗадача с параметрами из Досрочного ЕГЭ
Задача с параметрами из Досрочного ЕГЭИнна Фельдман
 
Логические основы построения эвм
Логические основы построения эвмЛогические основы построения эвм
Логические основы построения эвмaleksashka3
 

Was ist angesagt? (20)

Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
 
11
1111
11
 
12
1212
12
 
понятие функции
понятие функциипонятие функции
понятие функции
 
Нотация IDEF0 / IDEF0 Notation
Нотация IDEF0 / IDEF0 NotationНотация IDEF0 / IDEF0 Notation
Нотация IDEF0 / IDEF0 Notation
 
Na osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoy
Na osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoyNa osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoy
Na osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoy
 
Gruppovoy proekt 1
Gruppovoy proekt 1Gruppovoy proekt 1
Gruppovoy proekt 1
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
 
Задача с параметром. Задание 18.
Задача с параметром. Задание 18.Задача с параметром. Задание 18.
Задача с параметром. Задание 18.
 
Задача с параметрами из Досрочного ЕГЭ 28.03.16
Задача с параметрами из Досрочного  ЕГЭ 28.03.16Задача с параметрами из Досрочного  ЕГЭ 28.03.16
Задача с параметрами из Досрочного ЕГЭ 28.03.16
 
2
22
2
 
Введение в алгоритмы и структуры данных
Введение в алгоритмы и структуры данныхВведение в алгоритмы и структуры данных
Введение в алгоритмы и структуры данных
 
Issledovanie funkcii s_pomoshhyu_proizvodnoj
Issledovanie funkcii s_pomoshhyu_proizvodnojIssledovanie funkcii s_pomoshhyu_proizvodnoj
Issledovanie funkcii s_pomoshhyu_proizvodnoj
 
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОДСИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОД
 
ГП1_521_Вариант6
ГП1_521_Вариант6ГП1_521_Вариант6
ГП1_521_Вариант6
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Урок на тему "Показательная функция"
Урок на тему "Показательная функция"Урок на тему "Показательная функция"
Урок на тему "Показательная функция"
 
Дизайн как управление интепретацией
Дизайн как управление интепретациейДизайн как управление интепретацией
Дизайн как управление интепретацией
 
Задача с параметрами из Досрочного ЕГЭ
Задача с параметрами из Досрочного ЕГЭЗадача с параметрами из Досрочного ЕГЭ
Задача с параметрами из Досрочного ЕГЭ
 
Логические основы построения эвм
Логические основы построения эвмЛогические основы построения эвм
Логические основы построения эвм
 

Andere mochten auch

Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Gleb Zakhodiakin
 
Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Gleb Zakhodiakin
 
Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Gleb Zakhodiakin
 
Прогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementПрогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementGleb Zakhodiakin
 
Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor StudioGleb Zakhodiakin
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Gleb Zakhodiakin
 
Прикладная эконометрика. Лекция 1
Прикладная эконометрика. Лекция 1Прикладная эконометрика. Лекция 1
Прикладная эконометрика. Лекция 1Vladimir Tcherniak
 
Тренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваТренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваGleb Zakhodiakin
 
Взаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKВзаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKGleb Zakhodiakin
 
Тренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиТренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиGleb Zakhodiakin
 
Тренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаТренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаGleb Zakhodiakin
 
Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Andriy V. Zaporozhetz
 
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...IBS
 
среднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в Rсреднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в RAnton Belov
 
Повышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планированияПовышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планированияSmart Person
 
Дмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPGДмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPGIBS
 
Deductor and forecasting
Deductor and forecastingDeductor and forecasting
Deductor and forecastingKadimov Mansur
 
Создание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeoСоздание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeoNewreporter.org Sukhacheva
 
Metro4All - Метро для всех
Metro4All - Метро для всехMetro4All - Метро для всех
Metro4All - Метро для всехMaxim Dubinin
 

Andere mochten auch (20)

Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016
 
Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)
 
Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.
 
Прогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementПрогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand Management
 
Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor Studio
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Прикладная эконометрика. Лекция 1
Прикладная эконометрика. Лекция 1Прикладная эконометрика. Лекция 1
Прикладная эконометрика. Лекция 1
 
Тренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваТренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производства
 
Взаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKВзаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPK
 
Тренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиТренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачи
 
Тренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаТренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задача
 
Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models.
 
Sales forecasting 101
Sales forecasting 101Sales forecasting 101
Sales forecasting 101
 
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
 
среднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в Rсреднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в R
 
Повышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планированияПовышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планирования
 
Дмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPGДмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPG
 
Deductor and forecasting
Deductor and forecastingDeductor and forecasting
Deductor and forecasting
 
Создание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeoСоздание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeo
 
Metro4All - Метро для всех
Metro4All - Метро для всехMetro4All - Метро для всех
Metro4All - Метро для всех
 

Ähnlich wie Прогнозирование - Лекция 3. Множественная регрессия

Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Vladimir Tcherniak
 
Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Vladimir Tcherniak
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Kurbatskiy Alexey
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Vladimir Tcherniak
 
П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...
П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...
П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...Moscow School of Economics (MSE MSU)
 
Формирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного тестаФормирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного тестаITMO University
 
Корреляционный анализ
Корреляционный анализКорреляционный анализ
Корреляционный анализSixSigmaOnline
 
Линейная регрессия
Линейная регрессияЛинейная регрессия
Линейная регрессияDEVTYPE
 
AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...
AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...
AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...GeeksLab Odessa
 
Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2LiloSEA
 
отчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиотчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиaman565656
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеLidia Pivovarova
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизацииJakobow
 
Математические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийМатематические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийOlga Maksimenkova
 

Ähnlich wie Прогнозирование - Лекция 3. Множественная регрессия (20)

Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6Прикладная эконометрика. Лекция 6
Прикладная эконометрика. Лекция 6
 
Regression
RegressionRegression
Regression
 
2 ererbiin sydalgaa
2 ererbiin sydalgaa2 ererbiin sydalgaa
2 ererbiin sydalgaa
 
6
66
6
 
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
 
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
 
лекция 36
лекция 36лекция 36
лекция 36
 
10
1010
10
 
П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...
П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...
П.К. Катышев - Мировые цены на нефть и макропоказатели России. Анализ коинтег...
 
Формирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного тестаФормирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного теста
 
Корреляционный анализ
Корреляционный анализКорреляционный анализ
Корреляционный анализ
 
Линейная регрессия
Линейная регрессияЛинейная регрессия
Линейная регрессия
 
AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...
AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...
AI&BigData Lab. Дмитрий Майданюк."Аспекты реализации continuous optimization ...
 
Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2
 
отчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиотчет по теме корреляционные зависимости
отчет по теме корреляционные зависимости
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделирование
 
лекция 37
лекция 37лекция 37
лекция 37
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизации
 
Математические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравненийМатематические основы методов решений систем логических уравнений
Математические основы методов решений систем логических уравнений
 

Прогнозирование - Лекция 3. Множественная регрессия

  • 1. Курс «КомпьютернаяКурс «Компьютерная поддержкаподдержка прогнозирования»прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: postlogist@gmail.com Эту презентацию следует смотреть в полноэкранном режиме, чтобы работала анимация. В Adobe Reader переключение в полноэкранный режим производится сочетанием клавиш Ctrl-L
  • 2. 2 Построение и анализ многомерныхПостроение и анализ многомерных регрессионных моделейрегрессионных моделей 1. Оценка степени линейной связи между переменными 2. Статистическая модель многомерной линейной регрессии, условия ее применения 3. Оценка качества многомерной регрессионной модели 4. Анализ взаимозависимости факторов 5. Отбор факторов для включения в модель 6. Регрессионная диагностика и анализ остатков
  • 3. 3 Корреляционная матрицаКорреляционная матрица o Корреляционная матрица используется для оценки линейных связей между парами переменных (Analyze>Correlate>Bivariate) o Визуально оценить тесноту связей можно с помощью матрицы диаграмм рассеяния (Scatterplot Matrix, SPLOM) (Graphs>…>Matrix Scatter)
  • 4. 4 Статистическая модельСтатистическая модель многомерной линейной регрессиимногомерной линейной регрессии o Статистическая модель многомерной линейной регрессии позволяет определить математическое ожидание Y для каждого набора значений Xj, j=1..k, по уравнению: o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε, которая отражает вклад ненаблюдаемых факторов o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ для любого набора значений Xj 0 1 1 2 2Y k kX X Xµ β β β β= + + + +K Допущения модели: • ошибки независимы • ошибки случайны • mε=0 • σε = const 0 1 1 2 2 k kY X X Xβ β β β ε= + + + + +K
  • 5. 5 Статистический анализ моделиСтатистический анализ модели многомерной регрессиимногомерной регрессии o Из статистической модели многомерной регрессии следует: o Это равенство можно преобразовать: o И далее: o Стандартная ошибка оценки: 0 1 1 ˆ ˆ( )k kY b b X b X e Y Y Y= + + + + = + −K Прогноз + Остаток ( ) ( )ˆ ˆ ˆ ˆ( )Y Y Y Y Y Y Y Y Y Y Y Y− = + − − ⇒ − = − + − ( ) ( ) ( ) 2 22 ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑ SST SSE SSR df = n – 1 n – (k +1) = = n – k – 1 k ( ) 2 ˆ 1 1 y x Y Y SSE s MSE n k n k × − = = = − − − − ∑
  • 6. 6 Коэффициент детерминацииКоэффициент детерминации o Коэффициент детерминации обозначает долю объясненной дисперсии в общей дисперсии: o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее пользоваться формулой: o Корень из R2 называется многомерным коэффициентом корреляции и характеризует корреляцию между зависимой переменной и оценкой, полученной по модели: ( ) ( ) 2 2 2 ˆY YSSR R SST Y Y − = = − ∑ ∑ ( ) ( ) 2 2 2 ˆ 1 1 Y YSSE R SST Y Y − = − = − − ∑ ∑ 2 r R=
  • 7. 7 Исправленный коэффициент детерминацииИсправленный коэффициент детерминации o Коэффициент детерминации R2 , рассчитанный по формуле: возрастает с увеличением числа факторов в модели, при этом не обязательно модель с большим числом факторов будет лучше работать на новых данных o Чтобы исключить влияние числа факторов на величину R2 , используют исправленный коэффициент детерминации (R-squared adjusted), в котором вводится штраф за увеличение числа переменных: o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот показатель, поэтому он наиболее полезен на стадии отбора факторов для построения модели o Если модель строится по генеральной совокупности, то обычный R2 – более предпочтительный показатель 2 1 SSE R SST = − ( ) 2 2 1 1 1 1 1 1 1 1 SST SSE SSE df SSE n R SST df SST n k n R n k − = − × = − × = − − − = − − × − −
  • 9. 9 Проверка значимости регрессииПроверка значимости регрессии при помощи таблицыпри помощи таблицы ANOVAANOVA o Гипотезы: o Выборочная статистика: o При справедливости H0 имеет F-распределение с числом степеней свободы dfMSR, dfMSE, т.е. k и n-k-1 соответственно o При отсутствии связи MSR и MSE оценивают дисперсию ошибки ε, если существует βj<>0, то MSR>MSE o При уровне значимости α гипотеза отклоняется при F > Fαи dfMSR, dfMSE o Удобнее всего пользоваться p-значением, при малом p (столбец Significance в таблице дисперсионного анализа) гипотеза отвергается o F-критерий проверяет значимость регрессии в целом, с учетом всех переменных 0 : 0, 1jH j kβ∀ = = K MSR F MSE = 1 : 0, 1jH j kβ∃ ≠ = K
  • 10. 10 Проверка гипотез о значимостиПроверка гипотез о значимости коэффициентов регрессиикоэффициентов регрессии o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу о равенстве нулю коэффициента регрессионной функции совокупности: o Гипотезы: o Выборочная статистика: o Найти критическое значение для α/2, df = n – k – 1 o Если |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим o Проверка с использованием p-значения (Sig.) o Проверка с использованием доверительного интервала для bj: если не включает 0, то гипотеза H0 отвергается 0 1 1 k kY X Xβ β β ε= + + + +K 0 : 0jH β = 1 : 0jH β ≠ j j b j b t s =
  • 11. 11 Интервальный прогнозИнтервальный прогноз o Прогнозируемое значение для зависимой переменной можно получить с помощью найденной оценки функции регрессии: o Ширину доверительного интервала для уровня значимости α можно приближенно оценить с использованием стандартной ошибки оценки и t-распределения: o Эта оценка для ширины доверительного интервала построена для большого числа наблюдений n и независимых X 0 1 1 k kY b b X b X= + + +K ( )( ) /2, 1 ˆ ˆ, 1 n k y xY t s P Y Y Y Y Y α α − − ×∆ = × ∈ − ∆ + ∆ ≈ −
  • 12. 12 Мультиколлинеарность факторовМультиколлинеарность факторов o Наличие линейных зависимостей между факторами в модели называется мультиколлинеарностью – Пример - зависимость объема продаж от характеристик автомобиля: • Мощность двигателя (Horsepower) • Колесная база (Wheelbase) • Длина (Length) • Ширина (Width) • Собственный вес (Curb Weight) К появлению мультиколлинеарности приводит включение в модель факторов, которые «обозначают одно и то же»
  • 13. 13 Проблема мультиколлинеарностиПроблема мультиколлинеарности o Оценки коэффициентов, полученные по МНК, оказываются неустойчивыми (сильно изменяются при небольших изменениях данных) o Метод вычисления коэффициентов (МНК) оказывается чувствительным к ошибкам округления (точность компьютерного представления данных и вычислений) o Коэффициенты могут иметь неправильный знак (например, объем продаж в физических единицах по уравнению увеличивается, если цена увеличивается) o Коэффициенты могут оказаться не значимыми по t-критерию, а уравнение регрессии в целом – значимым (по F-критерию) o Коэффициенты уравнения взаимозависимы o Удаление одной переменной сильно меняет остальные коэффициенты и их значимость o Трудно анализировать вклад отдельного фактора в прогнозируемую величину
  • 14. 14 Фактор роста дисперсии (Фактор роста дисперсии (VIF)VIF) o Степень мультиколлинеарности измеряется фактором роста дисперсии (Variance Inflation Factor, VIF): o R2 j – коэффициент детерминации из регрессии j-й переменной по оставшимся (j-1) независимым переменным. Для k = 2 это значение равно квадрату их выборочного коэффициента корреляции (rj)2 o Если переменная Xj не связана с остальными факторами, то R2 j = 0 и VIFj = 1 o Если Xj сильно связана с другими факторами, то VIFj >> 1, для R2 j = 0.9 VIFj = 1/(1-0.9) = 10 o Значение VIFj близкое к 1, означает: – нет проблемы мультиколлинеарности для Xj – добавление или удаление других независимых переменных в модель не изменит коэффициента bj и статистики tj 2 1 , 1.. 1 j j VIF j k R = = −
  • 15. 15 Пример эффекта мультиколлинеарностиПример эффекта мультиколлинеарности o Исходные данные – файл car_sales.sav o Цель – построить модель для прогнозирования объема продаж в зависимости от параметров автомобиля
  • 16. 16 Результат включения всех факторов,Результат включения всех факторов, коррелирующих с продажамикоррелирующих с продажами
  • 17. 17 Результат исключенияРезультат исключения horsepowerhorsepower o Из модели исключена переменная с наименьшим значением t-статистики (и наибольшим p-значением) – мощность двигателя (horsepower)
  • 18. 18 Результат исключенияРезультат исключения priceprice o Из модели исключена переменная с наименьшим значением t-статистики (и наибольшим p-значением) – цена продажи (price)
  • 19. 19 Результат исключенияРезультат исключения lengthlength o Из модели исключена переменная с наименьшим значением t-статистики (и наибольшим p-значением) – длина (length)
  • 20. 20 Анализ частных корреляцийАнализ частных корреляций o При построении модели многомерной линейной регрессии в SPSS можно вывести в отчет таблицу корреляций между переменными (Statistics… > [x] Part and Partial Correlations o Данные о корреляции между переменными выводятся в таблице Coefficients: – Zero-order – коэффициент корреляции r для фактора и зависимой переменной – Partial (частная корреляция) – r между фактором и зависимой переменной после удаления из обеих переменных линейных эффектов других независимых переменных модели – Part (частичная, или получастная корреляция) – r между фактором и зависимой переменной после удаления линейных связей фактора с другими независимыми переменными модели, эта корреляция связана с изменением R2 при добавлении данного фактора в модель o Резкое уменьшения частных коэффициентов корреляции по сравнению с r свидетельствует о сильной взаимозависимости фактора с другими факторами
  • 21. 21 Выбор факторов для уравнения регрессииВыбор факторов для уравнения регрессии 1. Определить набор всех возможных независимых переменных, способных улучшить точность прогноза o Необходимо использовать как можно больше факторов, содержащих новую информацию для прогноза o Необходимо использовать как можно меньше факторов, т.к. для построения модели придется собирать информацию обо всех этих факторах 2. Отбросить переменные, неадекватные данному случаю: o Должна быть реальная, объяснимая логически взаимосвязь между фактором и зависимой переменной o Фактор не должен быть связан с другими факторами (мультиколлинеарность) o Измерение фактора не должно производиться с большой ошибкой или требовать значительных затрат ресурсов 3. Определить путем сокращения числа независимых переменных «наилучший» набор факторов o для этого нет однозначного критерия o даже при использовании для сравнения одного критерия (например, R2 или исправленный R2 для модели), разная последовательность отбора факторов будет давать разные уравнения регрессии o число комбинаций очень велико: 2k , т.е. для 5 факторов можно построить 25 = 32 уравнения o отбор факторов в значительной степени субъективен
  • 22. 22 Пошаговая регрессияПошаговая регрессия o Метод пошаговой регрессии (stepwise) предполагает поэтапное добавление (или удаление) в уравнение отдельных факторов, по одному на каждом этапе: 1. Рассматриваются все простые регрессии. Выбирается фактор с наибольшим коэффициентом корреляции с Y. 2. Из числа еще не включенных факторов выбирается дающий наибольшее значимое увеличение SSR. Значимость проверяется по F-критерию, минимальное значение F- статистики (или соответствующее ему p-значение) задает пользователь - параметр F для включения (Entry) 3. Проверяется значимость коэффициентов при всех переменных в полученном уравнении. Если p-значение меньше заданного пользователем, переменная исключается 4. Повторяются этапы 2 и 3, пока все возможные добавления не окажутся незначимыми, а все возможные удаления – значимыми o Модификации метода: – метод последовательного включения (forward): переменные только добавляются, но не удаляются – метод последовательного исключения (backward): вначале включены все переменные, затем последовательно удаляются незначимые o Методы не гарантируют нахождения наилучшего сочетания факторов
  • 26. 26 Допущения модели многомерной регрессииДопущения модели многомерной регрессии o Статистическая модель многомерной регрессии основана на следующих допущениях: – Для заданного набора факторов Xj генеральная совокупность значений Y нормально распределена относительно регрессионной функции совокупности, параметры распределения (µY,σ) – СКО генеральной совокупности относительно регрессионной функции совокупности всюду постоянно (σ=const), нарушение этого предположения - гетероскедастичность – Слагаемые ошибок ε независимы между собой. Это предположение часто нарушается, если точки данных записывались в течение нескольких периодов времени (серийная корреляция) – В генеральной совокупности существует линейная зависимость между факторами Xj и Y
  • 27. 27 Схема анализа остатков моделиСхема анализа остатков модели o Для проверки справедливости допущений статистической модели многомерной регрессии выполняется анализ остатков: 1. Проверить нормальность (гистограмма, график P-P или Q-Q) 2. Проверить независимость остатков от Xj (графики остатки – Xj) 3. Проверить независимость остатков от прогнозируемой величины – Для данных временного ряда требуются дополнительные проверки: – независимость остатков от времени (график остатки – t) – независимость остатков между собой (АКФ, тест Дарбина-Уотсона на серийную корреляцию) ˆY Дисперсия остатков увеличивается с ростом ˆY
  • 28. 28 Анализ выбросовАнализ выбросов o Выбросы – это: – значительные отклонения фактического значения зависимой переменной от прогноза – крайние значения в наборе данных, заметно отличающиеся от остальных по величине o Выбросы могут существенно влиять на качество модели, поэтому необходимо изучать их и рассматривать вопрос об исключении их из набора при построении модели, или об использовании весов для наблюдений, с целью уменьшить влияние выбросов на модель o SPSS может выводить в отчет информацию о значительных (более 2-3 СКО) отклонениях прогноза от факта. Эти наблюдения также можно увидеть на графике стандартизованных остатков
  • 29. 29 Оценка влияния выбросовОценка влияния выбросов o Для проверки влияния выбросов на уравнение регрессии используются две метрики: – Значение разбалансировки (Leverage value) - измеряет влияние точки данных на согласие регрессии, 0 < hi < 1. Если hi близко к 1, то прогноз для точки данных i почти полностью определяется значением Xij при отсутствии влияния соседних наблюдений. Это может происходить в том случае, когда набор значений факторов Xij находится на значительном удалении от среднего. Для парной линейной регрессии: Для k независимых переменных можно показать, что 0 < hi < 1 и среднее значение разбалансировки hср = (k + 1) / n, по эмпирическому правилу hi > 3hср считается большим – Расстояние Кука (Cook’s distance) – измеряет, насколько изменятся остатки для всех точек данных, если текущее наблюдение будет исключено при оценке коэффициентов уравнения. Большая величина расстояния Кука (D>4/n) свидетельствует о значительном изменении коэффициентов при удалении данного наблюдения ( ) ( ) 2 2 1 i i X X h n X X − = + −∑ ( )( ) ( ) 2 ˆ ˆ 1 j j i i Y Y D k MSE − = + × ∑ - прогноз при удалении i-го наблюдения
  • 30. 30 Оценка влияния выбросов вОценка влияния выбросов в SPSSSPSS o SPSS позволяет вычислить и сохранить в набор данных расстояние Кука, значение разбалансировки и стандартизованные остатки o В дальнейшем их можно анализировать при помощи диаграмм рассеяния o Точки с большими значениями обоих параметров могут сильно влиять на качество модели o Это влияние можно сократить путем преобразования переменных 0.0167 0.05 0.025
  • 31. 31 Анализ причин выбросовАнализ причин выбросов o Диаграммы рассеяния: стандартизованные остатки – факторы демонстрируют асимметрию распределения, которую можно устранить логарифмированием
  • 32. 32 Прогнозирование вне допустимого множестваПрогнозирование вне допустимого множества o Регрессионная модель строится по ограниченной выборке, которая может неравномерно представлять всю генеральную совокупность o Если применить полученную модель к другому набору данных из той же совокупности, ошибка может многократно увеличиться o Прогнозирование вне допустимого множества имеет место при малом объеме выборки и большом числе факторов o Эмпирическое правило рекомендует ограничивать число факторов так, чтобы на один фактор приходилось как минимум 10 наблюдений, т.е. 40 точек данных на 4-факторную модель o Для проверки модели может использоваться подгонка на одном подмножестве точек данных и тестирование на другом подмножестве из того же набора, при этом анализируется рост MSE

Hinweis der Redaktion

  1. Используя информацию, содержащуюся в дополнительных переменных, можно построить модель, лучше объясняющую поведение зависимой переменной (это выражается через рост R2). Модель будет включать несколько независимых переменных, т.е. будет моделью многомерной (многофакторной) регрессии. Факторы нельзя добавлять без разбора, поскольку они могут быть взаимосвязаны. Добавление тесно связанных факторов в модель не приведет к улучшению ее точности и затруднит оценку коэффициентов. Наличие взаимозависимостей между факторами называется мультиколлинеарностью. Хороший фактор: связан с независимой переменной не связан с любыми другими независимыми переменными
  2. \mu_Y – многомерная регрессионная функция генеральной совокупности. Функция описывает математическое ожидание наблюдаемых значений Y для каждого сочетания независимых переменных X, фактические значения будут отличаться, т.е. в уравнении для Y будет присутствовать слагаемое ошибки \eps. Это ненаблюдаемая случайная величина, в которой проявляется влияние на зависимую переменную других, неучтенных факторов. Коэффициент \beta в уравнении – частная производная Y по соответствующей переменной, т.е. приращение Y на единичное приращение Xj и постоянстве других X Как и для линейной регрессии, коэффициенты уравнения b оцениваются по выборке, а остаток модели e – оценка ошибки \eps
  3. syx – оценка стандартного отклонения распределения ошибок, т.е. отклонения их от плоскости регрессии, 67% фактических значений будут попадать в интервал +/- syx, 95% - в интервал +/- 2syx
  4. Примечание. Коэффициент детерминации измеряет долю дисперсии Y, которую можно объяснить с помощью информации о значении X
  5. Цель проверки – оценка значимости влияния каждой отдельной переменной на значение прогноза Примечание: рассматривается вероятность отклонения коэффициента bj от нуля, т.е. нужен двухсторонний критерий и необходимо искать критическое значение по условию: |t|&amp;gt;talpha/2 для числа степеней свободы n – k – 1
  6. Примечание. Отчасти, проблемы из-за ошибок округления можно устранить, если стандартизовать все переменные: Xij = (Xij – Xсрj) / sqrt(sum((Xij-Xcpj)2)). В этом случае все новые переменные будут иметь одинаковое среднее (0) и одно и то же выборочное СКО.
  7. Примечание. Фактор роста дисперсии получил свое название из-за того, что стандартная ошибка Sb_j для коэффициента bj возрастает при увеличении VIFj
  8. Примечание 1. Показатель Tolerance обозначает долю дисперсии фактора, которая не может быть объяснена другими факторами, т.е. это (1-R2) для регрессии этого фактора на остальные факторы Примечание 2. SPSS дополнительно выводит таблицу диагностики мультиколлинеарности, в которой содержатся собственные значения (eigenvalues) и индексы обусловленности (condition index). Малая величина (близкая к 0) собственного значения говорит о тесной зависимости этого фактора с другими и возможной неустойчивости коэффициентов регрессии при небольшом изменении данных. Индекс обусловленности – квадратный корень из отношения самого большого собственного значения в таблице, и собственного значения для текущего фактора. Величина индекса обусловленности &amp;gt; 15 говорит о возможном наличии проблемы мультиколлинеарности, &amp;gt;30 – о наличии этой проблемы.
  9. Примечание. Исключить из модели можно любую из переменных, вклад которых оказался незначим, не обязательно выбирать переменную с наибольшим p-значением
  10. Примечание 1. При добавлении в уравнение многомерной регрессии новой переменной, значение R2 либо не изменяется, либо увеличивается. Поэтому для сравнения моделей используется исправленный R2 Примечание 2. Каждая независимая переменная может либо присутствовать, либо не присутствовать в уравнении регрессии, поэтому общее число вариантов уравнений для k факторов равно 2k Примечание 3. При анализе всех возможных регрессий лучше всего разбить уравнения на группы по числу факторов и определить лучшую модель в каждой группе по величине R2, затем выбрать уже из них
  11. Примечание 1. Выполняемая в п. 3 проверка значимости коэффициента bj называется частным F-критерием, поэтому в приложениях используется обозначение F для исключения или соответствующее ему p-значение. Можно показать, что t2 = F Примечание 2. Чем большее p-значение для включения задается, тем больше переменных могут попасть в уравнение. Чем большее p-значение для исключения задается, тем меньше вероятность удаления какого-либо из уже включенных в модель факторов Примечание 3. Метод не может указать на необходимость преобразования переменных с целью линеаризации нелинейных зависимостей, также рассматриваются только переменные из множества заранее отобранных аналитиком. При этом можно пропустить важную переменную. Примечание 4. Из-за выполнения большого количества статистических тестов на некотором уровне значимости, существует ненулевая вероятность получить в итоге уравнение, в котором будет присутствовать фактор не связанный с Y, а попавший в модель случайно.