2. 2
Построение и анализ моделейПостроение и анализ моделей
линейной регрессиилинейной регрессии
1. Оценка степени линейной связи между
переменными
2. Средства построения регрессионных
моделей в SPSS
3. Статистическая модель линейной
регрессии, условия ее применения
4. Оценка качества регрессионной модели
3. 3
Диаграммы рассеянияДиаграммы рассеяния
o Диаграммы рассеяния (Scatter Plot) позволяют визуально
оценить наличие связи между двумя переменными
o Связь между переменными предполагает, что увеличение
одной из них приводит к увеличению/уменьшению второй
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
Совершенная
Несовершенная
(стохастическая)
ОтрицательнаяПоложительная
4. 4
Диаграммы рассеянияДиаграммы рассеяния
o Связь между переменными может быть нелинейной
o Связь может отсутствовать
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
Нелинейная связь Отсутствие связи X-Y
5. 5
Теснота связи и коэффициентТеснота связи и коэффициент
корреляциикорреляции rr
o Теснота связи – близость ее к «совершенной»
(точки, лежащие на прямой Y= f (X))
o Теснота линейной связи характеризуется коэффициентом корреляции
Пирсона:
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
r1 0.788= r2 0.974=
( )( )
( ) ( )
2 2
cov( , )
x y
X X Y YX Y
r
X X Y Yσ σ
− −
= =
− −
∑
∑ ∑
6. 6
СвойстваСвойства rr
o Пределы изменения: -1 ≤ r ≤ 1
o Характеризует наличие корреляции, а не причинной зависимости
o Характеризует линейную зависимость, для сильной нелинейной
зависимости r может быть небольшим
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
r1 0.788= r2 0.8−= r3 0.027−=
10. 10
Исследование корреляций вИсследование корреляций в SPSSSPSS
o Для исследования корреляций между переменными в SPSS используются
два метода:
– Построение корреляционной матрицы (Analyze>Correlate>Bivariate)
– Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter)
Sales of
Men's
Clothing
Sales of
Women's
Clothing
Sales of
Jewelry
Number of
Catalogs
Mailed
Number of
Pages in
Catalog
Sales of Men's Clothing Pearson Correlation 1 ,802**
,701**
,803**
,259**
Sig. (2-tailed) .000 .000 .000 .004
N 120 120 120 120 120
Sales of Women's
Clothing
Pearson Correlation ,802**
1 ,705**
,681**
,301**
Sig. (2-tailed) .000 .000 .000 .001
N 120 120 120 120 120
Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110
Sig. (2-tailed) .000 .000 .000 .231
N 120 120 120 120 120
Number of Catalogs
Mailed
Pearson Correlation ,803**
,681**
,453**
1 .140
Sig. (2-tailed) .000 .000 .000 .127
N 120 120 120 120 120
Number of Pages in
Catalog
Pearson Correlation ,259**
,301**
.110 .140 1
Sig. (2-tailed) .004 .001 .231 .127
N 120 120 120 120 120
11. 11
Прямая регрессииПрямая регрессии
o Для определения наилучшего приближения зависимости
используется метод наименьших квадратов
o Коэффициенты r и b1
взаимосвязаны:
r = - 0.863
0 1
ˆY b b X= +( ) ( )
2 2
0 1
ˆSSE Y Y Y b b X= − = − +∑ ∑
( )
( )
2
1 2
Y Y
b r
X X
−
=
−
Y = 32.1 – 9.68X
12. 12
Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессии
o Данные для построения уравнения регрессии представляют собой выборку из
генеральной совокупности связей X-Y
o Статистическая модель линейной регрессии позволяет определить математическое
ожидание Y для каждого значения X, по уравнению прямой:
o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε,
которая отражает вклад ненаблюдаемых факторов
o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ
для любого значения X
0 1Y Xβ β ε= + +
0 1Y Xµ β β= +
Допущения модели:
• ошибки независимы
• ошибки случайны
• mε=0
• σε = const
13. 13
Стандартная ошибка оценкиСтандартная ошибка оценки
o Построенное по выборке уравнение прямой регрессии можно
рассматривать как оценку регрессионной прямой совокупности, а
остатки модели – как оценки погрешности ε:
– Совокупность
– Выборка
o Стандартная ошибка оценки показывает среднее отклонение точек
данных от прямой регрессии:
o Для больших выборок (N>30) можно ожидать 67% остатков в пределах
+/- syx и 95% остатков в пределах +/- 2syx
0 1Y Xβ β ε= + +
0 1Y b b X e= + + ˆe Y Y= − - остаток модели
( )
2
ˆ
2
y x
Y Y
s
n
×
−
=
−
∑
YYε µ= − - ошибка
14. 14
Выборочные распределенияВыборочные распределения
o Выборочное распределение – множество всех возможных значений выборочной
статистики, полученной для выборки данного объема (N) из генеральной
совокупности. Например, можно говорить о распределении выборочного среднего.
o Свойства выборочного распределения описываются центральной предельной
теоремой. При N -> +inf справедливо:
– распределение выборочного среднего – нормальное
– выборочное среднее -> генеральное:
– СКО выборочного среднего:
– Эти свойства проявляются независимо от распределения генеральной
совокупности, из которой получена выборка
/X
Nσ σ= - стандартная ошибка выборочного среднего
/X
Nσ σ=X
m µ=
( ) XE X µ=
15. 15
Доверительные интервалыДоверительные интервалы
для выборочного среднего (для выборочного среднего (σσ известна)известна)
o При известном σ (генеральном СКО) можно построить доверительный
интервал для выборочного среднего, пользуясь свойствами
выборочного распределения
o Ширина интервала ∆ выбирается из условия:
o Соответствующие площади можно вычислить при помощи таблиц или
функций, в т.ч. Excel
/X
Nσ σ=X
m µ=
( ) 1P X X Pµ α− ∆ ≤ ≤ + ∆ = = − Z
N
α
σ
∆ =
16. 16
Определение вероятности попаданияОпределение вероятности попадания
случайной величины в интервалслучайной величины в интервал
o Вероятность попадания в заданный интервал для непрерывной
случайной величины может быть определена при помощи
плотности или функции распределения
( ) ( ) ( ) ( )
b
a
P a X b f x dx F b F a≤ ≤ = = −∫
4− 2− 0 2 4
0
0.1
0.2
0.3
fd x 2−, 2,( )
f x( )
0
x
4− 2− 0 2 4
0
0.5
1
F x( )
0
x
2−
2
xf x( )
⌠
⌡
d 0.954=
F 2( ) F 2−( )− 0.954=
( ) ( ) ( ) ( )( ) ( )
( ) ( )
1 1 2 1
2 2 1 / 2
F b F a F b F b F b
F b F b
α
α α
− = − = − − = −
= − ⇒ = −
Для нормального распределения справедливо:
( ) ( )1F x F x− = −
17. 17
Интервальная оценка среднего при неизвестномИнтервальная оценка среднего при неизвестном σσ
o Если неизвестно σ, то в качестве его оценки принимается s
o В случае небольшой (N<30) выборки из нормальной совокупности
используется распределение Стьюдента (t-распределение):
o При N > 30 можно использовать нормальное выборочное распределение:
,df
s
t
N
α∆ =
s
Z
N
α∆ =
10− 5− 0 5 10
0.1
0.2
0.3
0.4
dnorm X 0, 1,( )
dt X 1,( )
dt X 5,( )
dt X 30,( )
X
N=1 N=5
N=30
Нормальная
кривая
Сходимость t-распределения к нормальному при N->inf
Квантили t- и Z-распределения для α = 5%
(двухсторонний интервал)
Число степеней свободы (t-распределения)
Z или t
18. 18
Источники неопределенности приИсточники неопределенности при
прогнозировании по уравнению регрессиипрогнозировании по уравнению регрессии
o Прогноз, полученный по уравнению регрессии, подвержен двум видам
неопределенности:
– В статистической модели содержится слагаемое ошибки ε:
– Уравнение регрессии построено по случайной выборке, поэтому
расположение регрессионной прямой также случайно и не совпадает
с регрессионной прямой генеральной совокупности
0 1Y Xβ β ε= + +
19. 19
Интервальный прогнозИнтервальный прогноз
o Стандартная ошибка прогноза позволяет оценить меру вариативности
предсказанного значения Y, учитывающую оба вида неопределенности
o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно
увеличивается при увеличении отклонения от среднего
o Для построения интервального прогноза используется t-распределение
Стьюдента с df = N – 2 степенями свободы
o При N >= 30 можно использовать стандартное нормальное распределение
( )
( )
( )
( )
2 2
2 2
2 2
1 1
1f y x y x y x
X X X X
s s s s
n nX X X X
× × ×
− −
÷= + × + = × + +
÷− − ∑ ∑
вклад ошибки ε вклад отклонения от прямой генеральной совокупности
1 /2 fZ sα−∆ = ×
1 /2, 2N ft sα− −∆ = ×
1 5%/2 1.96 2Z − = ≈
20. 20
Разложение дисперсииРазложение дисперсии
o Из статистической модели регрессии следует:
o Это равенство
можно преобразовать:
o И далее:
0 1
ˆ ˆ( )Y b b X e Y Y Y= + + = + −
Наблюдаемое значение Y
Объясненное
линейной
зависимостью
Остаток
( ) ( )
ˆ ˆ( )
ˆ ˆ
Y Y Y Y Y Y
Y Y Y Y Y Y
− = + − − ⇒
− = − + −
ˆY Y−
Y Y−
ˆY Y−
( )
( ) ( )
2
2 2
ˆ ˆ
Y Y
Y Y Y Y
− =
− + −
∑
∑ ∑
21. 21
Формула разложения дисперсииФормула разложения дисперсии
o В статистических пакетах приняты обозначения:
SS = Sum of Squares, T - Total, R – Regression, E – Error (полная,
объясненная, остаточная суммы квадратов соответственно)
o С учетом этих обозначений формула разложения дисперсии:
o Равенство справедливо и для числа степеней свободы:
( ) ( ) ( )
2 22
ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑
( )
2
SST Y Y= −∑ ( )
2
ˆSSE Y Y= −∑ ( )
2
ˆSSR Y Y= −∑
SST SSR SSE= +
( ) ( ) ( )
( ) ( )1 1 2
df SST df SSR df SSE
n n
= +
− = + −
22. 22
Таблица дисперсионного анализаТаблица дисперсионного анализа
o При выполнении процедуры линейной регрессии можно вывести таблицу
дисперсионного анализа (Analysis of Variance, ANOVA)
o В таблице дисперсионного анализа содержатся суммы квадратов, степени
свободы и средние квадраты (Mean Squares), получаемые делением сумм
на число степеней свободы
o При этом средний квадрат ошибки связан со стандартной ошибкой оценки:
( )
2
2
ˆ
2
y x
Y Y
MSE s
n
×
−
= =
−
∑
23. 23
Коэффициент детерминацииКоэффициент детерминации
o Коэффициент детерминации обозначает долю объясненной дисперсии в общей
дисперсии:
o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее
пользоваться формулой:
o Для простой линейной регрессии коэффициент детерминации связан с
коэффициентом корреляции:
o Тем не менее, R2
и r необходимо рассматривать отдельно, т.к. они несут разную
информацию: r – о направлении и тесноте связи X-Y, а R2
– о том, насколько хорошо
модель объясняет изменчивость Y
o Коэффициент детерминации применяется и для многофакторной регрессии, для
которой r не определен
( )
( )
2
2
2
ˆY YSSR
R
SST Y Y
−
= =
−
∑
∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
2 2
R r=
2
1
S
ST
R
SE
S
= −
24. 24
Диапазон значенийДиапазон значений RR22
o Если модель полностью объясняет Y, то SSE = 0 => R2
= 1
o Если связи между переменными нет, то SSE = SST => R2
= 0
o Возможна ситуация, когда SSE > SST, поэтому нижней границы у
области значений R2
не существует
Нет корреляции Совершенная связь X-Y
25. 25
Проверка значимости коэффициентов регрессииПроверка значимости коэффициентов регрессии
o Коэффициенты уравнения регрессионной прямой:
оцениваются по ограниченной выборке, поэтому они являются
случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто
случайными причинами
o Значимость коэффициентов регрессии проверяется через проверку
гипотезы о равенстве коэффициента 0:
0 1Y Xβ β ε= + +
0 1: 0H β =
26. 26
Проверка статистических гипотезПроверка статистических гипотез
o Проверка утверждения о выборке или генеральной совокупности
(статистической гипотезы) включает этапы:
1. Формулируется проверяемая гипотеза H0 и альтернативная
гипотеза H1, которая принимается если отвергается H0
2. Выполняется случайная выборка из генеральной совокупности,
для выборки вычисляются требуемая выборочная статистика
3. Рассматривается распределение выборочной статистики в
предположении что H0 верна
4. Вычисляется вероятность того, что подобная выборочная
статистика может быть получена из этого выборочного
распределения
5. Если эта вероятность высока, то H0 принимается, в противном
случае – отвергается и принимается H1 При этом предполагается
заданная малая вероятность ошибки, называемая уровнем
значимости
27. 27
Ошибки при проверке гипотезОшибки при проверке гипотез
Выбор аналитика
Действительное
состояние
H0 принимается H0 отвергается
H0 справедлива Ошибка I рода,
вероятность α
(уровень
значимости)
H0
несправедлива
Ошибка II рода,
вероятность β
(мощность
критерия)
28. 28
Пример проверки гипотезыПример проверки гипотезы
(2-сторонний критерий)(2-сторонний критерий)
o Задача:
Проверить, верно ли, что средний вес деталей, производимых на оборудовании по-
прежнему равен 50 г. СКО веса деталей известно и равно 5 г
o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г
o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г
o Схема проверки:
– строим выборочное распределение в предположении истинности H0
– определяем критические значения X из условия P(| µ - Xcp| > dx) = a
– если | µ – Xcp | > dx,
то H0 отвергается
на уровне
значимости α,
иначе - нет
оснований ее
отвергнуть
– В данном случае:
Xcp- µ = 1.3 г > dx,
H0 – отвергаем,
принимаем H1
µ 50:= N 100:= σ 5:=
σXcp
σ
N
0.5=:= α 5%:= dx qnorm 1
α
2
− 0, σXcp,
:= dx 0.98=
48 49 50 51 52
0
0.2
0.4
0.6
dcrit x µ, σXcp, α,( )
dnorm x µ, σXcp,( )
µ dx+µ dx−
x
µ dx− 49.02= µ dx+ 50.98=
α
2
2.5%
α
2
2.5%
dxdx
29. 29
p-p-значениязначения
o p-значение – это вероятность того, что выборочная статистика, полученная из
распределения, окажется не меньше найденной по выборке
o В предыдущем примере – вероятность того, что отклонение от среднего dx
превысит найденное по выборке значение | 51.3 – 50 | = 1.3
o Малое значение p свидетельствует о низком правдоподобии H0, в примере p =
0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0.
o Равносильное утверждение: p – минимальный уровень значимости, с которым
может быть отвергнута гипотеза H0.
o p-значения очень удобны, поскольку не требуют использования таблиц
критических значений для проверочных статистик
0 1 2 3
0
0.2
0.4
0.6
0.8
p dx σXcp,( )
dx
2− 1− 0 1 2
0.2
0.4
0.6
dcrit x 0, σXcp, α,( )
dnorm x 0, σXcp,( )
dx− dx
x
p dx σ,( ) 2 1 pnorm dx 0, σ,( )−( )⋅:=
p 1.3 σXcp,( ) 0.0093=
P 1 F dx( )−( ) 2⋅
30. 30
Пример проверки гипотезыПример проверки гипотезы
(1-сторонний критерий)(1-сторонний критерий)
o Задача:
Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по-
прежнему равно 500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке
o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500
o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35.
o Предполагая распределение совокупности нормальным, для описания выборочного
распределения используется t-распределение. Статистика критерия:
o Критическое значение
t-критерия определяется для
α = 5% и df = N-1 = 14,
tкрит= -1.761
o p-значение – вероятность
получить из t-распределения
отклонение от 0 больше
полученной по выборке
t-статистики
p = 0.008, H0 - отвергаем
475 500
2.766
/ / 35 / 15
X X
t
N S N
µ µ
σ
− − −
= = = = −
4− 2− 0 2 4
0.2
0.4
tcrit t N 1−, α,( )
dt t N 1−,( )
dnorm t 0, 1,( )
t tcrit
t
t 2.766−= tcrit 1.761−=
p t N,( ) pt t N,( ):=
p t N 1−,( ) 0.008=
t-статистика –
нормализованное
отклонение от
среднего
31. 31
Проверка гипотез о значимостиПроверка гипотез о значимости
коэффициентов регрессиикоэффициентов регрессии
o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу
о равенстве нулю углового коэффициента регрессионной прямой совокупности:
o Гипотезы:
o Выборочная статистика:
o В примере:
o Критическое значение для α = 1%, df = 10-2 = 8: t0.005=3.355
o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим
o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0
отвергается на уровне значимости 0.1%
0 1Y Xβ β ε= + +
0 1: 0H β = 1 1: 0H β ≠
1
b
b
t
s
=
( )
2
y x
b
s
s
X X
×
=
−
1 0.969
4.842
0.2b
b
t
s
−
= = = −
32. 32
Проверка значимости регрессииПроверка значимости регрессии
при помощи таблицыпри помощи таблицы ANOVAANOVA
o Гипотезы:
o Выборочная статистика:
o При справедливости H0 имеет F-распределение с числом степеней свободы:
o при β1=0 MSR и MSE оценивают дисперсию ошибки ε, если β1<>0, то MSR>MSE
o При уровне значимости a гипотеза отклоняется при F > Fαи dfMSR, dfMSE
0 1: 0H β = 1 1: 0H β ≠
1 0
MSR
F
MSE
β = ⇒ =
( ) ( ),df MSR df MSE
F.95=5.3
F.99=11.3
33. 33
Допущения модели линейной регрессииДопущения модели линейной регрессии
o Статистическая модель линейной регрессии основана на следующих
допущениях:
– Для заданного X генеральная совокупность значений Y нормально
распределена относительно регрессионной прямой совокупности,
параметры распределения (µY,σ)
– СКО генеральной совокупности относительно регрессионной
прямой совокупности всюду постоянно (σ=const), нарушение этого
предположения - гетероскедастичность
– Слагаемые ошибок ε независимы между собой. Это предположение
часто нарушается, если точки данных записывались в течение
нескольких периодов времени (серийная корреляция)
– В генеральной совокупности существует линейная зависимость
между X и Y
34. 34
Схема анализа остатков моделиСхема анализа остатков модели
o Для проверки справедливости допущений статистической модели
регрессии выполняется анализ остатков:
1. Проверить нормальность (гистограмма, график P-P или Q-Q)
2. Проверить независимость остатков от X (график остатки – X)
3. Проверить независимость остатков от прогнозируемой величины
– Для данных временного ряда требуются дополнительные проверки:
– независимость остатков от времени (график остатки – t)
– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на
серийную корреляцию)
ˆY
Дисперсия остатков увеличивается с ростом ˆY
35. 35
Построение модели простой линейнойПостроение модели простой линейной
регрессии врегрессии в SPSSSPSS
o Подготовка набора данных, проверка типов и шкал измерения
переменных
• Для построения модели данные должны
иметь количественный тип (Numeric) и
интервальную шкалу (Scale).
• Двоичные (1-0) переменные в
номинальной шкале также могут
использоваться как факторы в
регрессионной модели (фиктивные
переменные)
36. 36
Отбор наблюденийОтбор наблюдений
o Если переменная содержит данные для нескольких объектов, то данные
можно:
– отобрать (Data>Select Cases>[задать условие отбора]
– расщепить (Data>Split File)>[выбрать переменную или набор переменных,
для каждого значения которой будет создана отдельная группа]
37. 37
Исследование корреляцийИсследование корреляций
o Корреляционная матрица (Analysis>Correlate>Bivariate)
o Данные в таблице
– Pearson Correlation – коэффициент корреляции Пирсона r
– Sig – p-значение для проверки гипотезы о r = 0
– N – число наблюдений, по которым производился расчет
– * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%
39. 39
Построение уравнения регрессииПостроение уравнения регрессии
o Analyze>Regression>Linear
– Отобрать зависимую (Dependent) и независимые (Independents) переменные
– Method – метод включения независимых переменных (Enter = принудительное
включение)
– Case Labels – метки
наблюдений: если есть
идентификаторы объектов,
можно пометить ими
наблюдения (в таблицах
и на графиках)
40. 40
Настройка вывода статистикНастройка вывода статистик
o [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет
таблиц со статистическими характеристиками модели
o Regression Coefficients
– [x] Estimates – выводить оценки коэффициентов уравнения
– [x] Confidence intervals / Level – выводить доверительные интервалы для
коэффициентов, доверительная вероятность
o Residuals
– [x] Casewise diagnostics –
обнаружение выбросов
(за пределами n стандартных
отклонений)
41. 41
Анализ моделиАнализ модели
o Model Summary - Сводка о статистических характеристиках модели
o ANOVA – Таблица дисперсионного анализа
• R – коэфициент корреляции
• R Square – коэффициент
детерминации R2
Std. Error of the Estimate – стандартная
ошибка оценки, syx
• Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная
(Residual) и общая (Total) суммы квадратов (разложение дисперсии)
• df - Число степеней свободы
• Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx
2
• F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df
• Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой
коэффициент равен нулю => нет связи между переменными). Регрессия в примере
значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи
42. 42
Коэффициенты уравнения регрессииКоэффициенты уравнения регрессии
o Coefficients – коэффициенты модели и их статистические характеристики
o Model – константа + список переменных, включенных в модель, коэффициенты в строках
таблицы соответствуют этим переменным
o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они
включаются в уравнение)
– B – значение коэффициента
– Std. error – стандартная ошибка
o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами
(Z = (x-xcp)/sx) – используются для сопоставления степени влияния отдельных переменных
o t – статистика для проверки значимости коэффициента, t = b/sb
o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном
примере b0 незначим, коэффициент b1 значим на уровне 0.06%
o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если
интервал включает 0, то коэффициент незначим, в данном случае b0 незначим
43. 43
Уточнение моделиУточнение модели
o Если константа b0 незначима, можно построить модель без ее учета
– [Options…] в диалоге Linear Regression
– [ ] Include constant in equation
o Результаты оценки модели без учета b0
44. 44
Сохранение результатовСохранение результатов
o [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и
остатки в переменные
o Prediction Values - оценки
– Unstandardized – непреобразованные
(полученные из уравнения для независимых
переменных, для каждого наблюдения)
– Standardized – нормализованные
– Adjusted – прогноз для данного наблюдения
по модели, не учитывающей это наблюдение
– S.E. of mean predictions – стандартная
ошибка прогноза для данного значения
зависимой переменной
o Residuals – Остатки
– Unstandardized - непреобразованные
– Standardized – нормализованные с учетом syx
– Studentized – нормализованные с учетом sf
– Deleted – полученные по модели,
не учитывающей данное наблюдение
– Studentized deleted – то же, + нормализация
o Prediction Intervals – доверительные интервалы
– Mean – полученный на основе стандартной sf
– Confidence Interval – уровень значимости
45. 45
Вывод графиков для остатков моделиВывод графиков для остатков модели
o [Plots…] Вывести в отчет графики для анализа остатков модели
o Standartized Residual Plot
– [x] Histogram – гистограмма остатков
– [x] Normal Probability Plot – график P-P для проверки нормальности остатков
o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков
– ось X: ZPRED – нормализованное значение оценки
– ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный
остаток
46. 46
Диаграммы рассеяния для моделиДиаграммы рассеяния для модели
o Качество модели можно визуально оценить по диаграмме рассеяния
Модель с константой >
< Модель без константы
47. 47
Анализ остатковАнализ остатков
o Проверка нормальности с помощью гистограммы
Модель без константы Модель с константойМодель без константы
48. 48
Анализ остатковАнализ остатков
o Проверка нормальности с помощью P-P графика
Модель без константы Модель с константойМодель без константы Модель с константой
49. 49
Анализ остатковАнализ остатков
o Проверка равенства дисперсий (отсутствия
гетероскедастичности) с помощью графика Остаток-Оценка
Модель без константы Модель с константой
50. 50
Анализ остатковАнализ остатков
o Проверка равенства дисперсий (отсутствия
гетероскедастичности) с помощью графика
Остаток-Независимая переменная
52. 52
Преобразование переменныхПреобразование переменных
o Для исключения нелинейной зависимости между переменными можно
строить уравнение регрессии для преобразованных переменных:
– ln Y = b0+b1 X
– X -> 1/X , log(X),
sqrt(X), X2
Особенности модели:
b0 – точка пересечения прямой с осью ординат
прогноз по модели имеет смысл только в интервале, где были наблюдения, экстраполяция за его пределы будет некорректна, поскольку требует допущения о том, что характер зависимости Y(X) вне интервала данных не изменится. Это невозможно определить, поскольку нет данных. В данном случае бесплатная раздача продукта, скорее всего, приведет к неограниченному росту «продаж»
угловой коэффициент b1 показывает изменение зависимой переменной, приходящееся на единичное изменение независимой переменной
Примечание. Стандартная ошибка оценки напоминает выборочное СКО S, в котором для определения несмещенной оценки среднего квадрата отклонения в знаменателе было не количество элементов выборки N, а число степеней свободы N-1. Одна степень свободы уходит из-за того, что для определения S нужно знать выборочное среднее, которое само считается по выборке.
В случае стандартной ошибки оценки рассматривается не отклонение величины от среднего значения этой величины, а отклонение фактического значения Y от его оценки, рассчитанной по уравнению регрессии. Это – оценка стандартного отклонения \sigma для нормально распределенной ошибки \epsilon, показанной на предыдущем слайде. Это отклонение по допущениям модели – одно и то же для всех Y(X).
Примечание 1. Ширина доверительного интервала выбирается так, чтобы вероятность попадания в него составляла P %, P – Доверительная вероятность. Часто пользуются противоположным подходом: вероятность непопадания (1 – P) была равна \alpha. Это значение \alpha называется уровнем значимости и представляет собой вероятность ошибиться, в данном случае при оценке мат. ожидания.
Примечание 2. Вероятность попадания в интервал (a,b) выражается через плотность распределения как площадь под кривой плотности, ограниченная линиями X=a и X=b, или интеграл плотности в пределах (a,b). Также можно вычислить эту величину через функцию распределения F(x) по формуле F(b) – F(a).
Примечание 3. До распространения компьютерных программ ширина интервала подбиралась следующим образом: по таблице стандартного нормального распределения (либо функции Лапласа) для заданной доверительной вероятности определялся Z-стандарт. Затем он преобразовывался в интервал для конкретного распределения домножением на СКО этого распределения, в нашем случае \sigma / sqrt(N).
Сейчас ширину можно вычислить сразу, подставив в функцию компьютерной программы параметры распределения.
P = F(delta) – F(-delta); т.к. F(-delta) = 1 – F(delta) ; P = F(delta) – 1 + F(delta);
2 F(delta) = P + 1
т.к. P = 1 – alpha, то 2 F(delta) = 2 – alpha, или F(delta) = 1 – alpha/2.
Следовательно, чтобы найти ширину delta, требуется найти квантиль распределения уровня 1 – alpha/2.
Например, ширину доверительного интервала для 5% уровня значимости в Excel можно посчитать так:
=НОРМОБР(1-2.5%, 0, sigma/КОРЕНЬ(N))
Формулу разложения дисперсии можно интерпретировать в терминах объяснения общей изменчивости Y:
Общая изменчивость Y = Объясненная линейной зависимостью изменчивость + необъясненная моделью ошибка (изменчивость остатка)
Примечание. Если мы не строим никакую модель, то стандартная ошибка оценки будет определяться дисперсией Y (средний квадрат отклонения Y от среднего). Если модель позволяет объяснить часть этой дисперсии, то остаточная сумма квадратов и стандартная ошибка оценки будут уменьшаться.
Примечание. Коэффициент детерминации измеряет долю дисперсии Y, которую можно объяснить с помощью информации о значении X
Статистическая гипотеза представляет собой некоторое утверждение о генеральной совокупности, которое можно проверить на основе данных выборки и критериев
Примеры:
H0: распределение генеральной совокупности – нормальное, с параметрами a, sigma H1: распределение … - не нормальное
H0: Рассмотренные выборки принадлежат одной генеральной совокупности и их средние совпадают H1: выборки сделаны и разных генеральных совокупностей
Примечание. Гипотезы в совокупности должны предусматривать все возможные исходы, т.е. в данном случае корректно формулировать их так: H0 – средняя сумма баллов на экзамене не меньше 500 баллов, H1 – сумма баллов меньше 500.
Примечание. Для выборки большого объема можно показать значимость регрессии даже при малом r (это уравнение будет мало полезно для прогноза, т.к. R2 будет также малым и объясняющая способность модели небольшой).
Для малой выборки большое значение r не обязательно свидетельствует о значимости линейной связи между переменными. Нужно оценивать и коэффициент корреляции и значимость.
Примечание. F-распределение (Фишера) – распределение отношения двух сумм квадратов нормальных случайных величин:
df1 – количество слагаемых в числителе, и df2 – количество слагаемых в знаменателе. df1, df2 – параметры распределения. Используется для проверки гипотез о соотношении дисперсий.
Adjusted R square – коэффициент детерминации, скорректированный с учетом количества независимых переменных, коэффициентов в уравнении и количества наблюдений. Всегда меньше R2
Примечание. В данном случае почти половина точек оказалась вне границ доверительного интервала. Значит, предположения, на которых основана модель, не выполнялись.
Примечание. На небольшом количестве наблюдений нельзя говорить о существенных отклонениях о нормальности. В обеих моделях получается много небольших по величине отрицательных остатков, распределение положительных остатков более равномерное. Нарушение условия нормальности не так серьезно, как нарушение других предположений модели.
Примечание. По этому графику также можно наблюдать практически недостаток больших по величине отрицательных остатков и превышение частоты небольших отрицательных остатков по сравнению с нормальным распределением. Остаток нулевой величины соответствует P = 0.5, т.к. мат. ожидание остатка – нуль, а слева от него должно находиться 50% значений, плотность симметрична относительно 0.
Примечание. Здесь также видно систематическое получение отрицательного остатка в области больших диаметров.
Нарушение условия равенства дисперсий (гетероскедастичность) говорит о том, что либо зависимость между переменными нелинейная и нужно преобразовывать переменные (например, строить уравнение ln Y = b0 + b1*X , либо о том, что в модели учтены не все условия.
При прогнозировании временных рядов наиболее часто нарушается предположение о независимости остатков. Это происходит, например, из-за наличия сезонности. Для временных рядов нужны еще тесты на серийную корреляцию и построение графиков остатков от времени и АКФ,
Примечание. На этом графике показаны остатки в порядке появления наблюдений в наборе. Случайное расположение точек на графике и отсутствие серий положительных и отрицательных отклонений говорит о том, что остатки независимы.