SlideShare ist ein Scribd-Unternehmen logo
1 von 57
Курс «КомпьютернаяКурс «Компьютерная
поддержкаподдержка
прогнозирования»прогнозирования»
Заходякин Глеб Викторович,
кафедра Информационных систем
и технологий в логистике
e-mail: postlogist@gmail.com
В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме
редактирования.
2
Построение и анализ моделейПостроение и анализ моделей
линейной регрессиилинейной регрессии
1. Оценка степени линейной связи между
переменными
2. Средства построения регрессионных
моделей в SPSS
3. Статистическая модель линейной
регрессии, условия ее применения
4. Оценка качества регрессионной модели
3
Диаграммы рассеянияДиаграммы рассеяния
o Диаграммы рассеяния (Scatter Plot) позволяют визуально
оценить наличие связи между двумя переменными
o Связь между переменными предполагает, что увеличение
одной из них приводит к увеличению/уменьшению второй
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
Совершенная
Несовершенная
(стохастическая)
ОтрицательнаяПоложительная
4
Диаграммы рассеянияДиаграммы рассеяния
o Связь между переменными может быть нелинейной
o Связь может отсутствовать
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
Нелинейная связь Отсутствие связи X-Y
5
Теснота связи и коэффициентТеснота связи и коэффициент
корреляциикорреляции rr
o Теснота связи – близость ее к «совершенной»
(точки, лежащие на прямой Y= f (X))
o Теснота линейной связи характеризуется коэффициентом корреляции
Пирсона:
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
r1 0.788= r2 0.974=
( )( )
( ) ( )
2 2
cov( , )
x y
X X Y YX Y
r
X X Y Yσ σ
− −
= =
− −
∑
∑ ∑
6
СвойстваСвойства rr
o Пределы изменения: -1 ≤ r ≤ 1
o Характеризует наличие корреляции, а не причинной зависимости
o Характеризует линейную зависимость, для сильной нелинейной
зависимости r может быть небольшим
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
0 2 4 6 8 10
0
2
4
6
8
X
Y
r1 0.788= r2 0.8−= r3 0.027−=
7
ПримерыПримеры
o Сильная положительная корреляция
r = 0.8
8
ПримерыПримеры
o Слабая корреляция
r = 0.27
9
ПримерыПримеры
o Отрицательная корреляция
r = -0.553
10
Исследование корреляций вИсследование корреляций в SPSSSPSS
o Для исследования корреляций между переменными в SPSS используются
два метода:
– Построение корреляционной матрицы (Analyze>Correlate>Bivariate)
– Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter)
Sales of
Men's
Clothing
Sales of
Women's
Clothing
Sales of
Jewelry
Number of
Catalogs
Mailed
Number of
Pages in
Catalog
Sales of Men's Clothing Pearson Correlation 1 ,802**
,701**
,803**
,259**
Sig. (2-tailed) .000 .000 .000 .004
N 120 120 120 120 120
Sales of Women's
Clothing
Pearson Correlation ,802**
1 ,705**
,681**
,301**
Sig. (2-tailed) .000 .000 .000 .001
N 120 120 120 120 120
Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110
Sig. (2-tailed) .000 .000 .000 .231
N 120 120 120 120 120
Number of Catalogs
Mailed
Pearson Correlation ,803**
,681**
,453**
1 .140
Sig. (2-tailed) .000 .000 .000 .127
N 120 120 120 120 120
Number of Pages in
Catalog
Pearson Correlation ,259**
,301**
.110 .140 1
Sig. (2-tailed) .004 .001 .231 .127
N 120 120 120 120 120
11
Прямая регрессииПрямая регрессии
o Для определения наилучшего приближения зависимости
используется метод наименьших квадратов
o Коэффициенты r и b1
взаимосвязаны:
r = - 0.863
0 1
ˆY b b X= +( ) ( )
2 2
0 1
ˆSSE Y Y Y b b X= − = − +∑ ∑
( )
( )
2
1 2
Y Y
b r
X X
−
=
−
Y = 32.1 – 9.68X
12
Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессии
o Данные для построения уравнения регрессии представляют собой выборку из
генеральной совокупности связей X-Y
o Статистическая модель линейной регрессии позволяет определить математическое
ожидание Y для каждого значения X, по уравнению прямой:
o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε,
которая отражает вклад ненаблюдаемых факторов
o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ
для любого значения X
0 1Y Xβ β ε= + +
0 1Y Xµ β β= +
Допущения модели:
• ошибки независимы
• ошибки случайны
• mε=0
• σε = const
13
Стандартная ошибка оценкиСтандартная ошибка оценки
o Построенное по выборке уравнение прямой регрессии можно
рассматривать как оценку регрессионной прямой совокупности, а
остатки модели – как оценки погрешности ε:
– Совокупность
– Выборка
o Стандартная ошибка оценки показывает среднее отклонение точек
данных от прямой регрессии:
o Для больших выборок (N>30) можно ожидать 67% остатков в пределах
+/- syx и 95% остатков в пределах +/- 2syx
0 1Y Xβ β ε= + +
0 1Y b b X e= + + ˆe Y Y= − - остаток модели
( )
2
ˆ
2
y x
Y Y
s
n
×
−
=
−
∑
YYε µ= − - ошибка
14
Выборочные распределенияВыборочные распределения
o Выборочное распределение – множество всех возможных значений выборочной
статистики, полученной для выборки данного объема (N) из генеральной
совокупности. Например, можно говорить о распределении выборочного среднего.
o Свойства выборочного распределения описываются центральной предельной
теоремой. При N -> +inf справедливо:
– распределение выборочного среднего – нормальное
– выборочное среднее -> генеральное:
– СКО выборочного среднего:
– Эти свойства проявляются независимо от распределения генеральной
совокупности, из которой получена выборка
/X
Nσ σ= - стандартная ошибка выборочного среднего
/X
Nσ σ=X
m µ=
( ) XE X µ=
15
Доверительные интервалыДоверительные интервалы
для выборочного среднего (для выборочного среднего (σσ известна)известна)
o При известном σ (генеральном СКО) можно построить доверительный
интервал для выборочного среднего, пользуясь свойствами
выборочного распределения
o Ширина интервала ∆ выбирается из условия:
o Соответствующие площади можно вычислить при помощи таблиц или
функций, в т.ч. Excel
/X
Nσ σ=X
m µ=
( ) 1P X X Pµ α− ∆ ≤ ≤ + ∆ = = − Z
N
α
σ
∆ =
16
Определение вероятности попаданияОпределение вероятности попадания
случайной величины в интервалслучайной величины в интервал
o Вероятность попадания в заданный интервал для непрерывной
случайной величины может быть определена при помощи
плотности или функции распределения
( ) ( ) ( ) ( )
b
a
P a X b f x dx F b F a≤ ≤ = = −∫
4− 2− 0 2 4
0
0.1
0.2
0.3
fd x 2−, 2,( )
f x( )
0
x
4− 2− 0 2 4
0
0.5
1
F x( )
0
x
2−
2
xf x( )
⌠

⌡
d 0.954=
F 2( ) F 2−( )− 0.954=
( ) ( ) ( ) ( )( ) ( )
( ) ( )
1 1 2 1
2 2 1 / 2
F b F a F b F b F b
F b F b
α
α α
− = − = − − = −
= − ⇒ = −
Для нормального распределения справедливо:
( ) ( )1F x F x− = −
17
Интервальная оценка среднего при неизвестномИнтервальная оценка среднего при неизвестном σσ
o Если неизвестно σ, то в качестве его оценки принимается s
o В случае небольшой (N<30) выборки из нормальной совокупности
используется распределение Стьюдента (t-распределение):
o При N > 30 можно использовать нормальное выборочное распределение:
,df
s
t
N
α∆ =
s
Z
N
α∆ =
10− 5− 0 5 10
0.1
0.2
0.3
0.4
dnorm X 0, 1,( )
dt X 1,( )
dt X 5,( )
dt X 30,( )
X
N=1 N=5
N=30
Нормальная
кривая
Сходимость t-распределения к нормальному при N->inf
Квантили t- и Z-распределения для α = 5%
(двухсторонний интервал)
Число степеней свободы (t-распределения)
Z или t
18
Источники неопределенности приИсточники неопределенности при
прогнозировании по уравнению регрессиипрогнозировании по уравнению регрессии
o Прогноз, полученный по уравнению регрессии, подвержен двум видам
неопределенности:
– В статистической модели содержится слагаемое ошибки ε:
– Уравнение регрессии построено по случайной выборке, поэтому
расположение регрессионной прямой также случайно и не совпадает
с регрессионной прямой генеральной совокупности
0 1Y Xβ β ε= + +
19
Интервальный прогнозИнтервальный прогноз
o Стандартная ошибка прогноза позволяет оценить меру вариативности
предсказанного значения Y, учитывающую оба вида неопределенности
o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно
увеличивается при увеличении отклонения от среднего
o Для построения интервального прогноза используется t-распределение
Стьюдента с df = N – 2 степенями свободы
o При N >= 30 можно использовать стандартное нормальное распределение
( )
( )
( )
( )
2 2
2 2
2 2
1 1
1f y x y x y x
X X X X
s s s s
n nX X X X
× × ×
 − −
 ÷= + × + = × + +
 ÷− − ∑ ∑
вклад ошибки ε вклад отклонения от прямой генеральной совокупности
1 /2 fZ sα−∆ = ×
1 /2, 2N ft sα− −∆ = ×
1 5%/2 1.96 2Z − = ≈
20
Разложение дисперсииРазложение дисперсии
o Из статистической модели регрессии следует:
o Это равенство
можно преобразовать:
o И далее:
0 1
ˆ ˆ( )Y b b X e Y Y Y= + + = + −
Наблюдаемое значение Y
Объясненное
линейной
зависимостью
Остаток
( ) ( )
ˆ ˆ( )
ˆ ˆ
Y Y Y Y Y Y
Y Y Y Y Y Y
− = + − − ⇒
− = − + −
ˆY Y−
Y Y−
ˆY Y−
( )
( ) ( )
2
2 2
ˆ ˆ
Y Y
Y Y Y Y
− =
− + −
∑
∑ ∑
21
Формула разложения дисперсииФормула разложения дисперсии
o В статистических пакетах приняты обозначения:
SS = Sum of Squares, T - Total, R – Regression, E – Error (полная,
объясненная, остаточная суммы квадратов соответственно)
o С учетом этих обозначений формула разложения дисперсии:
o Равенство справедливо и для числа степеней свободы:
( ) ( ) ( )
2 22
ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑
( )
2
SST Y Y= −∑ ( )
2
ˆSSE Y Y= −∑ ( )
2
ˆSSR Y Y= −∑
SST SSR SSE= +
( ) ( ) ( )
( ) ( )1 1 2
df SST df SSR df SSE
n n
= +
− = + −
22
Таблица дисперсионного анализаТаблица дисперсионного анализа
o При выполнении процедуры линейной регрессии можно вывести таблицу
дисперсионного анализа (Analysis of Variance, ANOVA)
o В таблице дисперсионного анализа содержатся суммы квадратов, степени
свободы и средние квадраты (Mean Squares), получаемые делением сумм
на число степеней свободы
o При этом средний квадрат ошибки связан со стандартной ошибкой оценки:
( )
2
2
ˆ
2
y x
Y Y
MSE s
n
×
−
= =
−
∑
23
Коэффициент детерминацииКоэффициент детерминации
o Коэффициент детерминации обозначает долю объясненной дисперсии в общей
дисперсии:
o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее
пользоваться формулой:
o Для простой линейной регрессии коэффициент детерминации связан с
коэффициентом корреляции:
o Тем не менее, R2
и r необходимо рассматривать отдельно, т.к. они несут разную
информацию: r – о направлении и тесноте связи X-Y, а R2
– о том, насколько хорошо
модель объясняет изменчивость Y
o Коэффициент детерминации применяется и для многофакторной регрессии, для
которой r не определен
( )
( )
2
2
2
ˆY YSSR
R
SST Y Y
−
= =
−
∑
∑
( )
( )
2
2
2
ˆ
1 1
Y YSSE
R
SST Y Y
−
= − = −
−
∑
∑
2 2
R r=
2
1
S
ST
R
SE
S
= −
24
Диапазон значенийДиапазон значений RR22
o Если модель полностью объясняет Y, то SSE = 0 => R2
= 1
o Если связи между переменными нет, то SSE = SST => R2
= 0
o Возможна ситуация, когда SSE > SST, поэтому нижней границы у
области значений R2
не существует
Нет корреляции Совершенная связь X-Y
25
Проверка значимости коэффициентов регрессииПроверка значимости коэффициентов регрессии
o Коэффициенты уравнения регрессионной прямой:
оцениваются по ограниченной выборке, поэтому они являются
случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто
случайными причинами
o Значимость коэффициентов регрессии проверяется через проверку
гипотезы о равенстве коэффициента 0:
0 1Y Xβ β ε= + +
0 1: 0H β =
26
Проверка статистических гипотезПроверка статистических гипотез
o Проверка утверждения о выборке или генеральной совокупности
(статистической гипотезы) включает этапы:
1. Формулируется проверяемая гипотеза H0 и альтернативная
гипотеза H1, которая принимается если отвергается H0
2. Выполняется случайная выборка из генеральной совокупности,
для выборки вычисляются требуемая выборочная статистика
3. Рассматривается распределение выборочной статистики в
предположении что H0 верна
4. Вычисляется вероятность того, что подобная выборочная
статистика может быть получена из этого выборочного
распределения
5. Если эта вероятность высока, то H0 принимается, в противном
случае – отвергается и принимается H1 При этом предполагается
заданная малая вероятность ошибки, называемая уровнем
значимости
27
Ошибки при проверке гипотезОшибки при проверке гипотез
Выбор аналитика
Действительное
состояние
H0 принимается H0 отвергается
H0 справедлива Ошибка I рода,
вероятность α
(уровень
значимости)
H0
несправедлива
Ошибка II рода,
вероятность β
(мощность
критерия)
28
Пример проверки гипотезыПример проверки гипотезы
(2-сторонний критерий)(2-сторонний критерий)
o Задача:
Проверить, верно ли, что средний вес деталей, производимых на оборудовании по-
прежнему равен 50 г. СКО веса деталей известно и равно 5 г
o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г
o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г
o Схема проверки:
– строим выборочное распределение в предположении истинности H0
– определяем критические значения X из условия P(| µ - Xcp| > dx) = a
– если | µ – Xcp | > dx,
то H0 отвергается
на уровне
значимости α,
иначе - нет
оснований ее
отвергнуть
– В данном случае:
Xcp- µ = 1.3 г > dx,
H0 – отвергаем,
принимаем H1
µ 50:= N 100:= σ 5:=
σXcp
σ
N
0.5=:= α 5%:= dx qnorm 1
α
2
− 0, σXcp,





:= dx 0.98=
48 49 50 51 52
0
0.2
0.4
0.6
dcrit x µ, σXcp, α,( )
dnorm x µ, σXcp,( )
µ dx+µ dx−
x
µ dx− 49.02= µ dx+ 50.98=
α
2
2.5%
α
2
2.5%
dxdx
29
p-p-значениязначения
o p-значение – это вероятность того, что выборочная статистика, полученная из
распределения, окажется не меньше найденной по выборке
o В предыдущем примере – вероятность того, что отклонение от среднего dx
превысит найденное по выборке значение | 51.3 – 50 | = 1.3
o Малое значение p свидетельствует о низком правдоподобии H0, в примере p =
0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0.
o Равносильное утверждение: p – минимальный уровень значимости, с которым
может быть отвергнута гипотеза H0.
o p-значения очень удобны, поскольку не требуют использования таблиц
критических значений для проверочных статистик
0 1 2 3
0
0.2
0.4
0.6
0.8
p dx σXcp,( )
dx
2− 1− 0 1 2
0.2
0.4
0.6
dcrit x 0, σXcp, α,( )
dnorm x 0, σXcp,( )
dx− dx
x
p dx σ,( ) 2 1 pnorm dx 0, σ,( )−( )⋅:=
p 1.3 σXcp,( ) 0.0093=
P 1 F dx( )−( ) 2⋅
30
Пример проверки гипотезыПример проверки гипотезы
(1-сторонний критерий)(1-сторонний критерий)
o Задача:
Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по-
прежнему равно 500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке
o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500
o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35.
o Предполагая распределение совокупности нормальным, для описания выборочного
распределения используется t-распределение. Статистика критерия:
o Критическое значение
t-критерия определяется для
α = 5% и df = N-1 = 14,
tкрит= -1.761
o p-значение – вероятность
получить из t-распределения
отклонение от 0 больше
полученной по выборке
t-статистики
p = 0.008, H0 - отвергаем
475 500
2.766
/ / 35 / 15
X X
t
N S N
µ µ
σ
− − −
= = = = −
4− 2− 0 2 4
0.2
0.4
tcrit t N 1−, α,( )
dt t N 1−,( )
dnorm t 0, 1,( )
t tcrit
t
t 2.766−= tcrit 1.761−=
p t N,( ) pt t N,( ):=
p t N 1−,( ) 0.008=
t-статистика –
нормализованное
отклонение от
среднего
31
Проверка гипотез о значимостиПроверка гипотез о значимости
коэффициентов регрессиикоэффициентов регрессии
o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу
о равенстве нулю углового коэффициента регрессионной прямой совокупности:
o Гипотезы:
o Выборочная статистика:
o В примере:
o Критическое значение для α = 1%, df = 10-2 = 8: t0.005=3.355
o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим
o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0
отвергается на уровне значимости 0.1%
0 1Y Xβ β ε= + +
0 1: 0H β = 1 1: 0H β ≠
1
b
b
t
s
=
( )
2
y x
b
s
s
X X
×
=
−
1 0.969
4.842
0.2b
b
t
s
−
= = = −
32
Проверка значимости регрессииПроверка значимости регрессии
при помощи таблицыпри помощи таблицы ANOVAANOVA
o Гипотезы:
o Выборочная статистика:
o При справедливости H0 имеет F-распределение с числом степеней свободы:
o при β1=0 MSR и MSE оценивают дисперсию ошибки ε, если β1<>0, то MSR>MSE
o При уровне значимости a гипотеза отклоняется при F > Fαи dfMSR, dfMSE
0 1: 0H β = 1 1: 0H β ≠
1 0
MSR
F
MSE
β = ⇒ =
( ) ( ),df MSR df MSE
F.95=5.3
F.99=11.3
33
Допущения модели линейной регрессииДопущения модели линейной регрессии
o Статистическая модель линейной регрессии основана на следующих
допущениях:
– Для заданного X генеральная совокупность значений Y нормально
распределена относительно регрессионной прямой совокупности,
параметры распределения (µY,σ)
– СКО генеральной совокупности относительно регрессионной
прямой совокупности всюду постоянно (σ=const), нарушение этого
предположения - гетероскедастичность
– Слагаемые ошибок ε независимы между собой. Это предположение
часто нарушается, если точки данных записывались в течение
нескольких периодов времени (серийная корреляция)
– В генеральной совокупности существует линейная зависимость
между X и Y
34
Схема анализа остатков моделиСхема анализа остатков модели
o Для проверки справедливости допущений статистической модели
регрессии выполняется анализ остатков:
1. Проверить нормальность (гистограмма, график P-P или Q-Q)
2. Проверить независимость остатков от X (график остатки – X)
3. Проверить независимость остатков от прогнозируемой величины
– Для данных временного ряда требуются дополнительные проверки:
– независимость остатков от времени (график остатки – t)
– независимость остатков между собой (АКФ, тест Дарбина-Уотсона на
серийную корреляцию)
ˆY
Дисперсия остатков увеличивается с ростом ˆY
35
Построение модели простой линейнойПостроение модели простой линейной
регрессии врегрессии в SPSSSPSS
o Подготовка набора данных, проверка типов и шкал измерения
переменных
• Для построения модели данные должны
иметь количественный тип (Numeric) и
интервальную шкалу (Scale).
• Двоичные (1-0) переменные в
номинальной шкале также могут
использоваться как факторы в
регрессионной модели (фиктивные
переменные)
36
Отбор наблюденийОтбор наблюдений
o Если переменная содержит данные для нескольких объектов, то данные
можно:
– отобрать (Data>Select Cases>[задать условие отбора]
– расщепить (Data>Split File)>[выбрать переменную или набор переменных,
для каждого значения которой будет создана отдельная группа]
37
Исследование корреляцийИсследование корреляций
o Корреляционная матрица (Analysis>Correlate>Bivariate)
o Данные в таблице
– Pearson Correlation – коэффициент корреляции Пирсона r
– Sig – p-значение для проверки гипотезы о r = 0
– N – число наблюдений, по которым производился расчет
– * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%
38
Исследование корреляцийИсследование корреляций
o Матрица диаграмм рассеяния (Graphs>…>Matrix Scatter)
o Диаграмма рассеяния (Graphs> … > Simple Scatter)
39
Построение уравнения регрессииПостроение уравнения регрессии
o Analyze>Regression>Linear
– Отобрать зависимую (Dependent) и независимые (Independents) переменные
– Method – метод включения независимых переменных (Enter = принудительное
включение)
– Case Labels – метки
наблюдений: если есть
идентификаторы объектов,
можно пометить ими
наблюдения (в таблицах
и на графиках)
40
Настройка вывода статистикНастройка вывода статистик
o [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет
таблиц со статистическими характеристиками модели
o Regression Coefficients
– [x] Estimates – выводить оценки коэффициентов уравнения
– [x] Confidence intervals / Level – выводить доверительные интервалы для
коэффициентов, доверительная вероятность
o Residuals
– [x] Casewise diagnostics –
обнаружение выбросов
(за пределами n стандартных
отклонений)
41
Анализ моделиАнализ модели
o Model Summary - Сводка о статистических характеристиках модели
o ANOVA – Таблица дисперсионного анализа
• R – коэфициент корреляции
• R Square – коэффициент
детерминации R2
Std. Error of the Estimate – стандартная
ошибка оценки, syx
• Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная
(Residual) и общая (Total) суммы квадратов (разложение дисперсии)
• df - Число степеней свободы
• Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx
2
• F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df
• Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой
коэффициент равен нулю => нет связи между переменными). Регрессия в примере
значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи
42
Коэффициенты уравнения регрессииКоэффициенты уравнения регрессии
o Coefficients – коэффициенты модели и их статистические характеристики
o Model – константа + список переменных, включенных в модель, коэффициенты в строках
таблицы соответствуют этим переменным
o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они
включаются в уравнение)
– B – значение коэффициента
– Std. error – стандартная ошибка
o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами
(Z = (x-xcp)/sx) – используются для сопоставления степени влияния отдельных переменных
o t – статистика для проверки значимости коэффициента, t = b/sb
o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном
примере b0 незначим, коэффициент b1 значим на уровне 0.06%
o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если
интервал включает 0, то коэффициент незначим, в данном случае b0 незначим
43
Уточнение моделиУточнение модели
o Если константа b0 незначима, можно построить модель без ее учета
– [Options…] в диалоге Linear Regression
– [ ] Include constant in equation
o Результаты оценки модели без учета b0
44
Сохранение результатовСохранение результатов
o [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и
остатки в переменные
o Prediction Values - оценки
– Unstandardized – непреобразованные
(полученные из уравнения для независимых
переменных, для каждого наблюдения)
– Standardized – нормализованные
– Adjusted – прогноз для данного наблюдения
по модели, не учитывающей это наблюдение
– S.E. of mean predictions – стандартная
ошибка прогноза для данного значения
зависимой переменной
o Residuals – Остатки
– Unstandardized - непреобразованные
– Standardized – нормализованные с учетом syx
– Studentized – нормализованные с учетом sf
– Deleted – полученные по модели,
не учитывающей данное наблюдение
– Studentized deleted – то же, + нормализация
o Prediction Intervals – доверительные интервалы
– Mean – полученный на основе стандартной sf
– Confidence Interval – уровень значимости
45
Вывод графиков для остатков моделиВывод графиков для остатков модели
o [Plots…] Вывести в отчет графики для анализа остатков модели
o Standartized Residual Plot
– [x] Histogram – гистограмма остатков
– [x] Normal Probability Plot – график P-P для проверки нормальности остатков
o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков
– ось X: ZPRED – нормализованное значение оценки
– ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный
остаток
46
Диаграммы рассеяния для моделиДиаграммы рассеяния для модели
o Качество модели можно визуально оценить по диаграмме рассеяния
Модель с константой >
< Модель без константы
47
Анализ остатковАнализ остатков
o Проверка нормальности с помощью гистограммы
Модель без константы Модель с константойМодель без константы
48
Анализ остатковАнализ остатков
o Проверка нормальности с помощью P-P графика
Модель без константы Модель с константойМодель без константы Модель с константой
49
Анализ остатковАнализ остатков
o Проверка равенства дисперсий (отсутствия
гетероскедастичности) с помощью графика Остаток-Оценка
Модель без константы Модель с константой
50
Анализ остатковАнализ остатков
o Проверка равенства дисперсий (отсутствия
гетероскедастичности) с помощью графика
Остаток-Независимая переменная
51
Анализ остатковАнализ остатков
o Проверка независимости остатков с помощью графика
Остаток-Номер наблюдения
52
Преобразование переменныхПреобразование переменных
o Для исключения нелинейной зависимости между переменными можно
строить уравнение регрессии для преобразованных переменных:
– ln Y = b0+b1 X
– X -> 1/X , log(X),
sqrt(X), X2
53
Анализ остатковАнализ остатков
до
преобразования
после
преобразования
54
Пример преобразования переменныхПример преобразования переменных
Исходные данные
55
Пример преобразования переменныхПример преобразования переменных
X -> sqrt(X)
56
Пример преобразования переменныхПример преобразования переменных
X -> lg(X)
57
Пример преобразования переменныхПример преобразования переменных
X -> 1/X
y = 4.3 – 12.7 / X

Weitere ähnliche Inhalte

Was ist angesagt?

Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данныхDEVTYPE
 
возрастание убывание
возрастание убываниевозрастание убывание
возрастание убываниеAnnnn85
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Laboratorhja
LaboratorhjaLaboratorhja
LaboratorhjaAntiikk
 
ГП1_521_Вариант6
ГП1_521_Вариант6ГП1_521_Вариант6
ГП1_521_Вариант6ivnastassia
 
Задача с параметром. Задание 18.
Задача с параметром. Задание 18.Задача с параметром. Задание 18.
Задача с параметром. Задание 18.Инна Фельдман
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборокKurbatskiy Alexey
 
Задача с параметрами из Досрочного ЕГЭ 28.03.16
Задача с параметрами из Досрочного  ЕГЭ 28.03.16Задача с параметрами из Досрочного  ЕГЭ 28.03.16
Задача с параметрами из Досрочного ЕГЭ 28.03.16Инна Фельдман
 
понятие функции
понятие функциипонятие функции
понятие функцииttku
 
20110919 computer graphics_galinsky_lecture02_raster
20110919 computer graphics_galinsky_lecture02_raster20110919 computer graphics_galinsky_lecture02_raster
20110919 computer graphics_galinsky_lecture02_rasterComputer Science Club
 
Системы булевых функций. Применение булевых функций к релейно-контактным схемам
Системы булевых функций. Применение булевых функций к релейно-контактным схемамСистемы булевых функций. Применение булевых функций к релейно-контактным схемам
Системы булевых функций. Применение булевых функций к релейно-контактным схемамИльдус Ситдиков
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотезKurbatskiy Alexey
 
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОДСИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОДIT_1315
 

Was ist angesagt? (20)

Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
Na osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoy
Na osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoyNa osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoy
Na osnovanii diagrammy_mozhno_sdelat_vyvod_o_pozitivnoy
 
возрастание убывание
возрастание убываниевозрастание убывание
возрастание убывание
 
функция
функцияфункция
функция
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Laboratorhja
LaboratorhjaLaboratorhja
Laboratorhja
 
6
66
6
 
12
1212
12
 
2
22
2
 
ГП1_521_Вариант6
ГП1_521_Вариант6ГП1_521_Вариант6
ГП1_521_Вариант6
 
Задача с параметром. Задание 18.
Задача с параметром. Задание 18.Задача с параметром. Задание 18.
Задача с параметром. Задание 18.
 
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
 
Задача с параметрами из Досрочного ЕГЭ 28.03.16
Задача с параметрами из Досрочного  ЕГЭ 28.03.16Задача с параметрами из Досрочного  ЕГЭ 28.03.16
Задача с параметрами из Досрочного ЕГЭ 28.03.16
 
11
1111
11
 
понятие функции
понятие функциипонятие функции
понятие функции
 
20110919 computer graphics_galinsky_lecture02_raster
20110919 computer graphics_galinsky_lecture02_raster20110919 computer graphics_galinsky_lecture02_raster
20110919 computer graphics_galinsky_lecture02_raster
 
Системы булевых функций. Применение булевых функций к релейно-контактным схемам
Системы булевых функций. Применение булевых функций к релейно-контактным схемамСистемы булевых функций. Применение булевых функций к релейно-контактным схемам
Системы булевых функций. Применение булевых функций к релейно-контактным схемам
 
Ekstremumy funkcii
Ekstremumy funkciiEkstremumy funkcii
Ekstremumy funkcii
 
Проверка гипотез
Проверка гипотезПроверка гипотез
Проверка гипотез
 
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОДСИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОД
 

Andere mochten auch

Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor StudioGleb Zakhodiakin
 
Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Gleb Zakhodiakin
 
Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Gleb Zakhodiakin
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Gleb Zakhodiakin
 
Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Gleb Zakhodiakin
 
Прогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementПрогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementGleb Zakhodiakin
 
Тренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваТренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваGleb Zakhodiakin
 
Взаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKВзаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKGleb Zakhodiakin
 
Тренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиТренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиGleb Zakhodiakin
 
Тренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаТренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаGleb Zakhodiakin
 
Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Andriy V. Zaporozhetz
 
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...IBS
 
среднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в Rсреднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в RAnton Belov
 
Повышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планированияПовышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планированияSmart Person
 
Дмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPGДмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPGIBS
 
Deductor and forecasting
Deductor and forecastingDeductor and forecasting
Deductor and forecastingKadimov Mansur
 
Создание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeoСоздание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeoNewreporter.org Sukhacheva
 
Openstreetmap: Инфраструктура неокартографии
Openstreetmap: Инфраструктура неокартографииOpenstreetmap: Инфраструктура неокартографии
Openstreetmap: Инфраструктура неокартографииMaxim Dubinin
 

Andere mochten auch (20)

Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor Studio
 
Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)Визуализация данных на географических картах в Tableau (базовый уровень)
Визуализация данных на географических картах в Tableau (базовый уровень)
 
Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016Визуализация данных на географических картах - 2016
Визуализация данных на географических картах - 2016
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.
 
Прогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand ManagementПрогнозирование - Лекция 7. Oracle Demand Management
Прогнозирование - Лекция 7. Oracle Demand Management
 
Тренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производстваТренинг GLPK, часть 1: Модель планирования производства
Тренинг GLPK, часть 1: Модель планирования производства
 
Взаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPKВзаимодействие с источниками данных в GLPK
Взаимодействие с источниками данных в GLPK
 
Тренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачиТренинг GLPK, часть 2: Двухиндексные задачи
Тренинг GLPK, часть 2: Двухиндексные задачи
 
Тренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задачаТренинг GLPK, часть 3: Транспортная задача
Тренинг GLPK, часть 3: Транспортная задача
 
Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models. Business statisics and forecasting techniques: testing models.
Business statisics and forecasting techniques: testing models.
 
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
Алексей Романенко, SAS. Опыт построения системы оптимального распределения то...
 
Sales forecasting 101
Sales forecasting 101Sales forecasting 101
Sales forecasting 101
 
среднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в Rсреднесрочное прогнозирование нефтяных цен в R
среднесрочное прогнозирование нефтяных цен в R
 
Повышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планированияПовышение маржинальности бизнеса за счет внедрения интегрированного планирования
Повышение маржинальности бизнеса за счет внедрения интегрированного планирования
 
Дмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPGДмитрий Ларин, SAS. Аналитика в Retail/CPG
Дмитрий Ларин, SAS. Аналитика в Retail/CPG
 
Deductor and forecasting
Deductor and forecastingDeductor and forecasting
Deductor and forecasting
 
Создание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeoСоздание интерактивных карт с Google Fusion Tables и BatchGeo
Создание интерактивных карт с Google Fusion Tables и BatchGeo
 
Openstreetmap: Инфраструктура неокартографии
Openstreetmap: Инфраструктура неокартографииOpenstreetmap: Инфраструктура неокартографии
Openstreetmap: Инфраструктура неокартографии
 

Ähnlich wie Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

лабораторная работа 3
лабораторная работа 3лабораторная работа 3
лабораторная работа 3student_kai
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Vladimir Tcherniak
 
Математическое дополнение
Математическое дополнениеМатематическое дополнение
Математическое дополнениеBigVilly
 
Геометрический метод
Геометрический методГеометрический метод
Геометрический методguest848b08
 
Komplanarn vektor
Komplanarn vektorKomplanarn vektor
Komplanarn vektorgrin1964
 
Решение СЛАУ
Решение СЛАУРешение СЛАУ
Решение СЛАУdayzil03
 
Математика .ppt
Математика .pptМатематика .ppt
Математика .pptssuserbf4af22
 
Системи лінійних алгебраїчних рівнянь
Системи лінійних алгебраїчних рівняньСистеми лінійних алгебраїчних рівнянь
Системи лінійних алгебраїчних рівняньOksana Bryk
 
Управление пространственным поворотным маневром космического аппарата
Управление пространственным поворотным маневром космического аппаратаУправление пространственным поворотным маневром космического аппарата
Управление пространственным поворотным маневром космического аппаратаTheoretical mechanics department
 
Gia 2013 god_modul_algebra_zadacha_8
Gia 2013 god_modul_algebra_zadacha_8Gia 2013 god_modul_algebra_zadacha_8
Gia 2013 god_modul_algebra_zadacha_8Иван Иванов
 
ТФРВС - весна 2014 - лекция 8
ТФРВС - весна 2014 - лекция 8ТФРВС - весна 2014 - лекция 8
ТФРВС - весна 2014 - лекция 8Alexey Paznikov
 
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ываRustemBigari1
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Andrii Gakhov
 
TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...
TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...
TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...Iosif Itkin
 

Ähnlich wie Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия (20)

лабораторная работа 3
лабораторная работа 3лабораторная работа 3
лабораторная работа 3
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Математическое дополнение
Математическое дополнениеМатематическое дополнение
Математическое дополнение
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
Ортогональные матрицы
Ортогональные матрицыОртогональные матрицы
Ортогональные матрицы
 
4
44
4
 
Геометрический метод
Геометрический методГеометрический метод
Геометрический метод
 
8
88
8
 
Komplanarn vektor
Komplanarn vektorKomplanarn vektor
Komplanarn vektor
 
Решение СЛАУ
Решение СЛАУРешение СЛАУ
Решение СЛАУ
 
Математика .ppt
Математика .pptМатематика .ppt
Математика .ppt
 
Системи лінійних алгебраїчних рівнянь
Системи лінійних алгебраїчних рівняньСистеми лінійних алгебраїчних рівнянь
Системи лінійних алгебраїчних рівнянь
 
8 a a_2012
8 a a_20128 a a_2012
8 a a_2012
 
Управление пространственным поворотным маневром космического аппарата
Управление пространственным поворотным маневром космического аппаратаУправление пространственным поворотным маневром космического аппарата
Управление пространственным поворотным маневром космического аппарата
 
Gia 2013 god_modul_algebra_zadacha_8
Gia 2013 god_modul_algebra_zadacha_8Gia 2013 god_modul_algebra_zadacha_8
Gia 2013 god_modul_algebra_zadacha_8
 
2
22
2
 
ТФРВС - весна 2014 - лекция 8
ТФРВС - весна 2014 - лекция 8ТФРВС - весна 2014 - лекция 8
ТФРВС - весна 2014 - лекция 8
 
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014
 
TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...
TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...
TMPA-2013 Vert Krikun: Finding Defects in C and C++ Pointers Using Static Ana...
 

Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия

  • 1. Курс «КомпьютернаяКурс «Компьютерная поддержкаподдержка прогнозирования»прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: postlogist@gmail.com В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме редактирования.
  • 2. 2 Построение и анализ моделейПостроение и анализ моделей линейной регрессиилинейной регрессии 1. Оценка степени линейной связи между переменными 2. Средства построения регрессионных моделей в SPSS 3. Статистическая модель линейной регрессии, условия ее применения 4. Оценка качества регрессионной модели
  • 3. 3 Диаграммы рассеянияДиаграммы рассеяния o Диаграммы рассеяния (Scatter Plot) позволяют визуально оценить наличие связи между двумя переменными o Связь между переменными предполагает, что увеличение одной из них приводит к увеличению/уменьшению второй 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y Совершенная Несовершенная (стохастическая) ОтрицательнаяПоложительная
  • 4. 4 Диаграммы рассеянияДиаграммы рассеяния o Связь между переменными может быть нелинейной o Связь может отсутствовать 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y Нелинейная связь Отсутствие связи X-Y
  • 5. 5 Теснота связи и коэффициентТеснота связи и коэффициент корреляциикорреляции rr o Теснота связи – близость ее к «совершенной» (точки, лежащие на прямой Y= f (X)) o Теснота линейной связи характеризуется коэффициентом корреляции Пирсона: 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y r1 0.788= r2 0.974= ( )( ) ( ) ( ) 2 2 cov( , ) x y X X Y YX Y r X X Y Yσ σ − − = = − − ∑ ∑ ∑
  • 6. 6 СвойстваСвойства rr o Пределы изменения: -1 ≤ r ≤ 1 o Характеризует наличие корреляции, а не причинной зависимости o Характеризует линейную зависимость, для сильной нелинейной зависимости r может быть небольшим 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y 0 2 4 6 8 10 0 2 4 6 8 X Y r1 0.788= r2 0.8−= r3 0.027−=
  • 10. 10 Исследование корреляций вИсследование корреляций в SPSSSPSS o Для исследования корреляций между переменными в SPSS используются два метода: – Построение корреляционной матрицы (Analyze>Correlate>Bivariate) – Графический анализ корреляций (специальный вид диаграммы – Matrix Scatter) Sales of Men's Clothing Sales of Women's Clothing Sales of Jewelry Number of Catalogs Mailed Number of Pages in Catalog Sales of Men's Clothing Pearson Correlation 1 ,802** ,701** ,803** ,259** Sig. (2-tailed) .000 .000 .000 .004 N 120 120 120 120 120 Sales of Women's Clothing Pearson Correlation ,802** 1 ,705** ,681** ,301** Sig. (2-tailed) .000 .000 .000 .001 N 120 120 120 120 120 Sales of Jewelry Pearson Correlation ,701** ,705** 1 ,453** .110 Sig. (2-tailed) .000 .000 .000 .231 N 120 120 120 120 120 Number of Catalogs Mailed Pearson Correlation ,803** ,681** ,453** 1 .140 Sig. (2-tailed) .000 .000 .000 .127 N 120 120 120 120 120 Number of Pages in Catalog Pearson Correlation ,259** ,301** .110 .140 1 Sig. (2-tailed) .004 .001 .231 .127 N 120 120 120 120 120
  • 11. 11 Прямая регрессииПрямая регрессии o Для определения наилучшего приближения зависимости используется метод наименьших квадратов o Коэффициенты r и b1 взаимосвязаны: r = - 0.863 0 1 ˆY b b X= +( ) ( ) 2 2 0 1 ˆSSE Y Y Y b b X= − = − +∑ ∑ ( ) ( ) 2 1 2 Y Y b r X X − = − Y = 32.1 – 9.68X
  • 12. 12 Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессии o Данные для построения уравнения регрессии представляют собой выборку из генеральной совокупности связей X-Y o Статистическая модель линейной регрессии позволяет определить математическое ожидание Y для каждого значения X, по уравнению прямой: o Фактическое значение будет отличаться от ожидаемого на величину ошибки ε, которая отражает вклад ненаблюдаемых факторов o Распределение ошибки ε – нормальное, с мат. ожиданием µY и постоянным СКО σ для любого значения X 0 1Y Xβ β ε= + + 0 1Y Xµ β β= + Допущения модели: • ошибки независимы • ошибки случайны • mε=0 • σε = const
  • 13. 13 Стандартная ошибка оценкиСтандартная ошибка оценки o Построенное по выборке уравнение прямой регрессии можно рассматривать как оценку регрессионной прямой совокупности, а остатки модели – как оценки погрешности ε: – Совокупность – Выборка o Стандартная ошибка оценки показывает среднее отклонение точек данных от прямой регрессии: o Для больших выборок (N>30) можно ожидать 67% остатков в пределах +/- syx и 95% остатков в пределах +/- 2syx 0 1Y Xβ β ε= + + 0 1Y b b X e= + + ˆe Y Y= − - остаток модели ( ) 2 ˆ 2 y x Y Y s n × − = − ∑ YYε µ= − - ошибка
  • 14. 14 Выборочные распределенияВыборочные распределения o Выборочное распределение – множество всех возможных значений выборочной статистики, полученной для выборки данного объема (N) из генеральной совокупности. Например, можно говорить о распределении выборочного среднего. o Свойства выборочного распределения описываются центральной предельной теоремой. При N -> +inf справедливо: – распределение выборочного среднего – нормальное – выборочное среднее -> генеральное: – СКО выборочного среднего: – Эти свойства проявляются независимо от распределения генеральной совокупности, из которой получена выборка /X Nσ σ= - стандартная ошибка выборочного среднего /X Nσ σ=X m µ= ( ) XE X µ=
  • 15. 15 Доверительные интервалыДоверительные интервалы для выборочного среднего (для выборочного среднего (σσ известна)известна) o При известном σ (генеральном СКО) можно построить доверительный интервал для выборочного среднего, пользуясь свойствами выборочного распределения o Ширина интервала ∆ выбирается из условия: o Соответствующие площади можно вычислить при помощи таблиц или функций, в т.ч. Excel /X Nσ σ=X m µ= ( ) 1P X X Pµ α− ∆ ≤ ≤ + ∆ = = − Z N α σ ∆ =
  • 16. 16 Определение вероятности попаданияОпределение вероятности попадания случайной величины в интервалслучайной величины в интервал o Вероятность попадания в заданный интервал для непрерывной случайной величины может быть определена при помощи плотности или функции распределения ( ) ( ) ( ) ( ) b a P a X b f x dx F b F a≤ ≤ = = −∫ 4− 2− 0 2 4 0 0.1 0.2 0.3 fd x 2−, 2,( ) f x( ) 0 x 4− 2− 0 2 4 0 0.5 1 F x( ) 0 x 2− 2 xf x( ) ⌠  ⌡ d 0.954= F 2( ) F 2−( )− 0.954= ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) 1 1 2 1 2 2 1 / 2 F b F a F b F b F b F b F b α α α − = − = − − = − = − ⇒ = − Для нормального распределения справедливо: ( ) ( )1F x F x− = −
  • 17. 17 Интервальная оценка среднего при неизвестномИнтервальная оценка среднего при неизвестном σσ o Если неизвестно σ, то в качестве его оценки принимается s o В случае небольшой (N<30) выборки из нормальной совокупности используется распределение Стьюдента (t-распределение): o При N > 30 можно использовать нормальное выборочное распределение: ,df s t N α∆ = s Z N α∆ = 10− 5− 0 5 10 0.1 0.2 0.3 0.4 dnorm X 0, 1,( ) dt X 1,( ) dt X 5,( ) dt X 30,( ) X N=1 N=5 N=30 Нормальная кривая Сходимость t-распределения к нормальному при N->inf Квантили t- и Z-распределения для α = 5% (двухсторонний интервал) Число степеней свободы (t-распределения) Z или t
  • 18. 18 Источники неопределенности приИсточники неопределенности при прогнозировании по уравнению регрессиипрогнозировании по уравнению регрессии o Прогноз, полученный по уравнению регрессии, подвержен двум видам неопределенности: – В статистической модели содержится слагаемое ошибки ε: – Уравнение регрессии построено по случайной выборке, поэтому расположение регрессионной прямой также случайно и не совпадает с регрессионной прямой генеральной совокупности 0 1Y Xβ β ε= + +
  • 19. 19 Интервальный прогнозИнтервальный прогноз o Стандартная ошибка прогноза позволяет оценить меру вариативности предсказанного значения Y, учитывающую оба вида неопределенности o Стандартная ошибка прогноза минимальна при X = Xср и нелинейно увеличивается при увеличении отклонения от среднего o Для построения интервального прогноза используется t-распределение Стьюдента с df = N – 2 степенями свободы o При N >= 30 можно использовать стандартное нормальное распределение ( ) ( ) ( ) ( ) 2 2 2 2 2 2 1 1 1f y x y x y x X X X X s s s s n nX X X X × × ×  − −  ÷= + × + = × + +  ÷− − ∑ ∑ вклад ошибки ε вклад отклонения от прямой генеральной совокупности 1 /2 fZ sα−∆ = × 1 /2, 2N ft sα− −∆ = × 1 5%/2 1.96 2Z − = ≈
  • 20. 20 Разложение дисперсииРазложение дисперсии o Из статистической модели регрессии следует: o Это равенство можно преобразовать: o И далее: 0 1 ˆ ˆ( )Y b b X e Y Y Y= + + = + − Наблюдаемое значение Y Объясненное линейной зависимостью Остаток ( ) ( ) ˆ ˆ( ) ˆ ˆ Y Y Y Y Y Y Y Y Y Y Y Y − = + − − ⇒ − = − + − ˆY Y− Y Y− ˆY Y− ( ) ( ) ( ) 2 2 2 ˆ ˆ Y Y Y Y Y Y − = − + − ∑ ∑ ∑
  • 21. 21 Формула разложения дисперсииФормула разложения дисперсии o В статистических пакетах приняты обозначения: SS = Sum of Squares, T - Total, R – Regression, E – Error (полная, объясненная, остаточная суммы квадратов соответственно) o С учетом этих обозначений формула разложения дисперсии: o Равенство справедливо и для числа степеней свободы: ( ) ( ) ( ) 2 22 ˆ ˆY Y Y Y Y Y− = − + −∑ ∑ ∑ ( ) 2 SST Y Y= −∑ ( ) 2 ˆSSE Y Y= −∑ ( ) 2 ˆSSR Y Y= −∑ SST SSR SSE= + ( ) ( ) ( ) ( ) ( )1 1 2 df SST df SSR df SSE n n = + − = + −
  • 22. 22 Таблица дисперсионного анализаТаблица дисперсионного анализа o При выполнении процедуры линейной регрессии можно вывести таблицу дисперсионного анализа (Analysis of Variance, ANOVA) o В таблице дисперсионного анализа содержатся суммы квадратов, степени свободы и средние квадраты (Mean Squares), получаемые делением сумм на число степеней свободы o При этом средний квадрат ошибки связан со стандартной ошибкой оценки: ( ) 2 2 ˆ 2 y x Y Y MSE s n × − = = − ∑
  • 23. 23 Коэффициент детерминацииКоэффициент детерминации o Коэффициент детерминации обозначает долю объясненной дисперсии в общей дисперсии: o Поскольку остаточная сумма квадратов обычно все равно вычисляется, удобнее пользоваться формулой: o Для простой линейной регрессии коэффициент детерминации связан с коэффициентом корреляции: o Тем не менее, R2 и r необходимо рассматривать отдельно, т.к. они несут разную информацию: r – о направлении и тесноте связи X-Y, а R2 – о том, насколько хорошо модель объясняет изменчивость Y o Коэффициент детерминации применяется и для многофакторной регрессии, для которой r не определен ( ) ( ) 2 2 2 ˆY YSSR R SST Y Y − = = − ∑ ∑ ( ) ( ) 2 2 2 ˆ 1 1 Y YSSE R SST Y Y − = − = − − ∑ ∑ 2 2 R r= 2 1 S ST R SE S = −
  • 24. 24 Диапазон значенийДиапазон значений RR22 o Если модель полностью объясняет Y, то SSE = 0 => R2 = 1 o Если связи между переменными нет, то SSE = SST => R2 = 0 o Возможна ситуация, когда SSE > SST, поэтому нижней границы у области значений R2 не существует Нет корреляции Совершенная связь X-Y
  • 25. 25 Проверка значимости коэффициентов регрессииПроверка значимости коэффициентов регрессии o Коэффициенты уравнения регрессионной прямой: оцениваются по ограниченной выборке, поэтому они являются случайными величинами, в т.ч. b1 <> 0 - может объясняться чисто случайными причинами o Значимость коэффициентов регрессии проверяется через проверку гипотезы о равенстве коэффициента 0: 0 1Y Xβ β ε= + + 0 1: 0H β =
  • 26. 26 Проверка статистических гипотезПроверка статистических гипотез o Проверка утверждения о выборке или генеральной совокупности (статистической гипотезы) включает этапы: 1. Формулируется проверяемая гипотеза H0 и альтернативная гипотеза H1, которая принимается если отвергается H0 2. Выполняется случайная выборка из генеральной совокупности, для выборки вычисляются требуемая выборочная статистика 3. Рассматривается распределение выборочной статистики в предположении что H0 верна 4. Вычисляется вероятность того, что подобная выборочная статистика может быть получена из этого выборочного распределения 5. Если эта вероятность высока, то H0 принимается, в противном случае – отвергается и принимается H1 При этом предполагается заданная малая вероятность ошибки, называемая уровнем значимости
  • 27. 27 Ошибки при проверке гипотезОшибки при проверке гипотез Выбор аналитика Действительное состояние H0 принимается H0 отвергается H0 справедлива Ошибка I рода, вероятность α (уровень значимости) H0 несправедлива Ошибка II рода, вероятность β (мощность критерия)
  • 28. 28 Пример проверки гипотезыПример проверки гипотезы (2-сторонний критерий)(2-сторонний критерий) o Задача: Проверить, верно ли, что средний вес деталей, производимых на оборудовании по- прежнему равен 50 г. СКО веса деталей известно и равно 5 г o Гипотезы: H0: средний вес деталей = 50 г, H1: средний вес деталей <> 50 г o Для проверки H0 сделана выборка из N=100 деталей, Xср = 51.3 г o Схема проверки: – строим выборочное распределение в предположении истинности H0 – определяем критические значения X из условия P(| µ - Xcp| > dx) = a – если | µ – Xcp | > dx, то H0 отвергается на уровне значимости α, иначе - нет оснований ее отвергнуть – В данном случае: Xcp- µ = 1.3 г > dx, H0 – отвергаем, принимаем H1 µ 50:= N 100:= σ 5:= σXcp σ N 0.5=:= α 5%:= dx qnorm 1 α 2 − 0, σXcp,      := dx 0.98= 48 49 50 51 52 0 0.2 0.4 0.6 dcrit x µ, σXcp, α,( ) dnorm x µ, σXcp,( ) µ dx+µ dx− x µ dx− 49.02= µ dx+ 50.98= α 2 2.5% α 2 2.5% dxdx
  • 29. 29 p-p-значениязначения o p-значение – это вероятность того, что выборочная статистика, полученная из распределения, окажется не меньше найденной по выборке o В предыдущем примере – вероятность того, что отклонение от среднего dx превысит найденное по выборке значение | 51.3 – 50 | = 1.3 o Малое значение p свидетельствует о низком правдоподобии H0, в примере p = 0.0093, поэтому с вероятностью 1-p ~ 1 мы не ошибемся, отвергнув H0. o Равносильное утверждение: p – минимальный уровень значимости, с которым может быть отвергнута гипотеза H0. o p-значения очень удобны, поскольку не требуют использования таблиц критических значений для проверочных статистик 0 1 2 3 0 0.2 0.4 0.6 0.8 p dx σXcp,( ) dx 2− 1− 0 1 2 0.2 0.4 0.6 dcrit x 0, σXcp, α,( ) dnorm x 0, σXcp,( ) dx− dx x p dx σ,( ) 2 1 pnorm dx 0, σ,( )−( )⋅:= p 1.3 σXcp,( ) 0.0093= P 1 F dx( )−( ) 2⋅
  • 30. 30 Пример проверки гипотезыПример проверки гипотезы (1-сторонний критерий)(1-сторонний критерий) o Задача: Проверить, верно ли, что среднее суммы баллов студентов на вступительных экзаменах по- прежнему равно 500, или оно меньше. СКО совокупности неизвестно и оценивается по выборке o Гипотезы: H0: средняя сумма баллов >= 500, H1: средняя сумма баллов < 500 o Для проверки H0 сделана выборка из N=15 студентов, Xср = 475, S = 35. o Предполагая распределение совокупности нормальным, для описания выборочного распределения используется t-распределение. Статистика критерия: o Критическое значение t-критерия определяется для α = 5% и df = N-1 = 14, tкрит= -1.761 o p-значение – вероятность получить из t-распределения отклонение от 0 больше полученной по выборке t-статистики p = 0.008, H0 - отвергаем 475 500 2.766 / / 35 / 15 X X t N S N µ µ σ − − − = = = = − 4− 2− 0 2 4 0.2 0.4 tcrit t N 1−, α,( ) dt t N 1−,( ) dnorm t 0, 1,( ) t tcrit t t 2.766−= tcrit 1.761−= p t N,( ) pt t N,( ):= p t N 1−,( ) 0.008= t-статистика – нормализованное отклонение от среднего
  • 31. 31 Проверка гипотез о значимостиПроверка гипотез о значимости коэффициентов регрессиикоэффициентов регрессии o Задача: по выборке, представленной таблицей наблюдений, проверить гипотезу о равенстве нулю углового коэффициента регрессионной прямой совокупности: o Гипотезы: o Выборочная статистика: o В примере: o Критическое значение для α = 1%, df = 10-2 = 8: t0.005=3.355 o |t| > tкрит => гипотеза H0 отвергается, коэффициент регрессии значим o Проверка с использованием p-значения (Sig.) p = 0.001 => гипотеза H0 отвергается на уровне значимости 0.1% 0 1Y Xβ β ε= + + 0 1: 0H β = 1 1: 0H β ≠ 1 b b t s = ( ) 2 y x b s s X X × = − 1 0.969 4.842 0.2b b t s − = = = −
  • 32. 32 Проверка значимости регрессииПроверка значимости регрессии при помощи таблицыпри помощи таблицы ANOVAANOVA o Гипотезы: o Выборочная статистика: o При справедливости H0 имеет F-распределение с числом степеней свободы: o при β1=0 MSR и MSE оценивают дисперсию ошибки ε, если β1<>0, то MSR>MSE o При уровне значимости a гипотеза отклоняется при F > Fαи dfMSR, dfMSE 0 1: 0H β = 1 1: 0H β ≠ 1 0 MSR F MSE β = ⇒ = ( ) ( ),df MSR df MSE F.95=5.3 F.99=11.3
  • 33. 33 Допущения модели линейной регрессииДопущения модели линейной регрессии o Статистическая модель линейной регрессии основана на следующих допущениях: – Для заданного X генеральная совокупность значений Y нормально распределена относительно регрессионной прямой совокупности, параметры распределения (µY,σ) – СКО генеральной совокупности относительно регрессионной прямой совокупности всюду постоянно (σ=const), нарушение этого предположения - гетероскедастичность – Слагаемые ошибок ε независимы между собой. Это предположение часто нарушается, если точки данных записывались в течение нескольких периодов времени (серийная корреляция) – В генеральной совокупности существует линейная зависимость между X и Y
  • 34. 34 Схема анализа остатков моделиСхема анализа остатков модели o Для проверки справедливости допущений статистической модели регрессии выполняется анализ остатков: 1. Проверить нормальность (гистограмма, график P-P или Q-Q) 2. Проверить независимость остатков от X (график остатки – X) 3. Проверить независимость остатков от прогнозируемой величины – Для данных временного ряда требуются дополнительные проверки: – независимость остатков от времени (график остатки – t) – независимость остатков между собой (АКФ, тест Дарбина-Уотсона на серийную корреляцию) ˆY Дисперсия остатков увеличивается с ростом ˆY
  • 35. 35 Построение модели простой линейнойПостроение модели простой линейной регрессии врегрессии в SPSSSPSS o Подготовка набора данных, проверка типов и шкал измерения переменных • Для построения модели данные должны иметь количественный тип (Numeric) и интервальную шкалу (Scale). • Двоичные (1-0) переменные в номинальной шкале также могут использоваться как факторы в регрессионной модели (фиктивные переменные)
  • 36. 36 Отбор наблюденийОтбор наблюдений o Если переменная содержит данные для нескольких объектов, то данные можно: – отобрать (Data>Select Cases>[задать условие отбора] – расщепить (Data>Split File)>[выбрать переменную или набор переменных, для каждого значения которой будет создана отдельная группа]
  • 37. 37 Исследование корреляцийИсследование корреляций o Корреляционная матрица (Analysis>Correlate>Bivariate) o Данные в таблице – Pearson Correlation – коэффициент корреляции Пирсона r – Sig – p-значение для проверки гипотезы о r = 0 – N – число наблюдений, по которым производился расчет – * - корреляции, значимые на уровне 5%, ** - значимые на уровне 1%
  • 38. 38 Исследование корреляцийИсследование корреляций o Матрица диаграмм рассеяния (Graphs>…>Matrix Scatter) o Диаграмма рассеяния (Graphs> … > Simple Scatter)
  • 39. 39 Построение уравнения регрессииПостроение уравнения регрессии o Analyze>Regression>Linear – Отобрать зависимую (Dependent) и независимые (Independents) переменные – Method – метод включения независимых переменных (Enter = принудительное включение) – Case Labels – метки наблюдений: если есть идентификаторы объектов, можно пометить ими наблюдения (в таблицах и на графиках)
  • 40. 40 Настройка вывода статистикНастройка вывода статистик o [Statistics…] Linear Regression>Statistics – настройка выводимых в отчет таблиц со статистическими характеристиками модели o Regression Coefficients – [x] Estimates – выводить оценки коэффициентов уравнения – [x] Confidence intervals / Level – выводить доверительные интервалы для коэффициентов, доверительная вероятность o Residuals – [x] Casewise diagnostics – обнаружение выбросов (за пределами n стандартных отклонений)
  • 41. 41 Анализ моделиАнализ модели o Model Summary - Сводка о статистических характеристиках модели o ANOVA – Таблица дисперсионного анализа • R – коэфициент корреляции • R Square – коэффициент детерминации R2 Std. Error of the Estimate – стандартная ошибка оценки, syx • Sum of Squares - суммы квадратов: объясненная (Regression), необъясненная (Residual) и общая (Total) суммы квадратов (разложение дисперсии) • df - Число степеней свободы • Meand Square - Средний квадрат = SSx/dfx, для остатков M.S.Residual = syx 2 • F – статистика для проверки значимости регрессии = MSR/MSE, степени свободы - df • Sig. – p-значение для проверки гипотезы о незначимости регрессии (угловой коэффициент равен нулю => нет связи между переменными). Регрессия в примере значима на уровне p=0.6%, следует отвергнуть гипотезу об отсутствии связи
  • 42. 42 Коэффициенты уравнения регрессииКоэффициенты уравнения регрессии o Coefficients – коэффициенты модели и их статистические характеристики o Model – константа + список переменных, включенных в модель, коэффициенты в строках таблицы соответствуют этим переменным o Unstandardized Coefficients – непреобразованные коэффициенты (в таком виде они включаются в уравнение) – B – значение коэффициента – Std. error – стандартная ошибка o Standardized Coefficients – коэффициенты для уравнения с нормализованными факторами (Z = (x-xcp)/sx) – используются для сопоставления степени влияния отдельных переменных o t – статистика для проверки значимости коэффициента, t = b/sb o Sig – p-значение для проверки гипотезы о незначимости коэффициента (bi = 0), в данном примере b0 незначим, коэффициент b1 значим на уровне 0.06% o P% Confidence interval for B – границы доверительного интервала для коэффициента bi. Если интервал включает 0, то коэффициент незначим, в данном случае b0 незначим
  • 43. 43 Уточнение моделиУточнение модели o Если константа b0 незначима, можно построить модель без ее учета – [Options…] в диалоге Linear Regression – [ ] Include constant in equation o Результаты оценки модели без учета b0
  • 44. 44 Сохранение результатовСохранение результатов o [Save…] Сохранить оценки, полученные по уравнению, доверительный интервал и остатки в переменные o Prediction Values - оценки – Unstandardized – непреобразованные (полученные из уравнения для независимых переменных, для каждого наблюдения) – Standardized – нормализованные – Adjusted – прогноз для данного наблюдения по модели, не учитывающей это наблюдение – S.E. of mean predictions – стандартная ошибка прогноза для данного значения зависимой переменной o Residuals – Остатки – Unstandardized - непреобразованные – Standardized – нормализованные с учетом syx – Studentized – нормализованные с учетом sf – Deleted – полученные по модели, не учитывающей данное наблюдение – Studentized deleted – то же, + нормализация o Prediction Intervals – доверительные интервалы – Mean – полученный на основе стандартной sf – Confidence Interval – уровень значимости
  • 45. 45 Вывод графиков для остатков моделиВывод графиков для остатков модели o [Plots…] Вывести в отчет графики для анализа остатков модели o Standartized Residual Plot – [x] Histogram – гистограмма остатков – [x] Normal Probability Plot – график P-P для проверки нормальности остатков o Scatter _ of _ - диаграмма рассеяния для оценки дисперсии остатков – ось X: ZPRED – нормализованное значение оценки – ось Y: ZRESID или SRESID – нормализованный или стьюдентизированный остаток
  • 46. 46 Диаграммы рассеяния для моделиДиаграммы рассеяния для модели o Качество модели можно визуально оценить по диаграмме рассеяния Модель с константой > < Модель без константы
  • 47. 47 Анализ остатковАнализ остатков o Проверка нормальности с помощью гистограммы Модель без константы Модель с константойМодель без константы
  • 48. 48 Анализ остатковАнализ остатков o Проверка нормальности с помощью P-P графика Модель без константы Модель с константойМодель без константы Модель с константой
  • 49. 49 Анализ остатковАнализ остатков o Проверка равенства дисперсий (отсутствия гетероскедастичности) с помощью графика Остаток-Оценка Модель без константы Модель с константой
  • 50. 50 Анализ остатковАнализ остатков o Проверка равенства дисперсий (отсутствия гетероскедастичности) с помощью графика Остаток-Независимая переменная
  • 51. 51 Анализ остатковАнализ остатков o Проверка независимости остатков с помощью графика Остаток-Номер наблюдения
  • 52. 52 Преобразование переменныхПреобразование переменных o Для исключения нелинейной зависимости между переменными можно строить уравнение регрессии для преобразованных переменных: – ln Y = b0+b1 X – X -> 1/X , log(X), sqrt(X), X2
  • 54. 54 Пример преобразования переменныхПример преобразования переменных Исходные данные
  • 55. 55 Пример преобразования переменныхПример преобразования переменных X -> sqrt(X)
  • 56. 56 Пример преобразования переменныхПример преобразования переменных X -> lg(X)
  • 57. 57 Пример преобразования переменныхПример преобразования переменных X -> 1/X y = 4.3 – 12.7 / X

Hinweis der Redaktion

  1. Особенности модели: b0 – точка пересечения прямой с осью ординат прогноз по модели имеет смысл только в интервале, где были наблюдения, экстраполяция за его пределы будет некорректна, поскольку требует допущения о том, что характер зависимости Y(X) вне интервала данных не изменится. Это невозможно определить, поскольку нет данных. В данном случае бесплатная раздача продукта, скорее всего, приведет к неограниченному росту «продаж» угловой коэффициент b1 показывает изменение зависимой переменной, приходящееся на единичное изменение независимой переменной
  2. Примечание. Стандартная ошибка оценки напоминает выборочное СКО S, в котором для определения несмещенной оценки среднего квадрата отклонения в знаменателе было не количество элементов выборки N, а число степеней свободы N-1. Одна степень свободы уходит из-за того, что для определения S нужно знать выборочное среднее, которое само считается по выборке. В случае стандартной ошибки оценки рассматривается не отклонение величины от среднего значения этой величины, а отклонение фактического значения Y от его оценки, рассчитанной по уравнению регрессии. Это – оценка стандартного отклонения \sigma для нормально распределенной ошибки \epsilon, показанной на предыдущем слайде. Это отклонение по допущениям модели – одно и то же для всех Y(X).
  3. Примечание 1. Ширина доверительного интервала выбирается так, чтобы вероятность попадания в него составляла P %, P – Доверительная вероятность. Часто пользуются противоположным подходом: вероятность непопадания (1 – P) была равна \alpha. Это значение \alpha называется уровнем значимости и представляет собой вероятность ошибиться, в данном случае при оценке мат. ожидания. Примечание 2. Вероятность попадания в интервал (a,b) выражается через плотность распределения как площадь под кривой плотности, ограниченная линиями X=a и X=b, или интеграл плотности в пределах (a,b). Также можно вычислить эту величину через функцию распределения F(x) по формуле F(b) – F(a). Примечание 3. До распространения компьютерных программ ширина интервала подбиралась следующим образом: по таблице стандартного нормального распределения (либо функции Лапласа) для заданной доверительной вероятности определялся Z-стандарт. Затем он преобразовывался в интервал для конкретного распределения домножением на СКО этого распределения, в нашем случае \sigma / sqrt(N). Сейчас ширину можно вычислить сразу, подставив в функцию компьютерной программы параметры распределения. P = F(delta) – F(-delta); т.к. F(-delta) = 1 – F(delta) ; P = F(delta) – 1 + F(delta); 2 F(delta) = P + 1 т.к. P = 1 – alpha, то 2 F(delta) = 2 – alpha, или F(delta) = 1 – alpha/2. Следовательно, чтобы найти ширину delta, требуется найти квантиль распределения уровня 1 – alpha/2. Например, ширину доверительного интервала для 5% уровня значимости в Excel можно посчитать так: =НОРМОБР(1-2.5%, 0, sigma/КОРЕНЬ(N))
  4. Формулу разложения дисперсии можно интерпретировать в терминах объяснения общей изменчивости Y: Общая изменчивость Y = Объясненная линейной зависимостью изменчивость + необъясненная моделью ошибка (изменчивость остатка)
  5. Примечание. Если мы не строим никакую модель, то стандартная ошибка оценки будет определяться дисперсией Y (средний квадрат отклонения Y от среднего). Если модель позволяет объяснить часть этой дисперсии, то остаточная сумма квадратов и стандартная ошибка оценки будут уменьшаться.
  6. Примечание. Коэффициент детерминации измеряет долю дисперсии Y, которую можно объяснить с помощью информации о значении X
  7. Статистическая гипотеза представляет собой некоторое утверждение о генеральной совокупности, которое можно проверить на основе данных выборки и критериев Примеры: H0: распределение генеральной совокупности – нормальное, с параметрами a, sigma H1: распределение … - не нормальное H0: Рассмотренные выборки принадлежат одной генеральной совокупности и их средние совпадают H1: выборки сделаны и разных генеральных совокупностей
  8. Примечание. Гипотезы в совокупности должны предусматривать все возможные исходы, т.е. в данном случае корректно формулировать их так: H0 – средняя сумма баллов на экзамене не меньше 500 баллов, H1 – сумма баллов меньше 500.
  9. Примечание. Для выборки большого объема можно показать значимость регрессии даже при малом r (это уравнение будет мало полезно для прогноза, т.к. R2 будет также малым и объясняющая способность модели небольшой). Для малой выборки большое значение r не обязательно свидетельствует о значимости линейной связи между переменными. Нужно оценивать и коэффициент корреляции и значимость.
  10. Примечание. F-распределение (Фишера) – распределение отношения двух сумм квадратов нормальных случайных величин: df1 – количество слагаемых в числителе, и df2 – количество слагаемых в знаменателе. df1, df2 – параметры распределения. Используется для проверки гипотез о соотношении дисперсий.
  11. Adjusted R square – коэффициент детерминации, скорректированный с учетом количества независимых переменных, коэффициентов в уравнении и количества наблюдений. Всегда меньше R2
  12. Примечание. В данном случае почти половина точек оказалась вне границ доверительного интервала. Значит, предположения, на которых основана модель, не выполнялись.
  13. Примечание. На небольшом количестве наблюдений нельзя говорить о существенных отклонениях о нормальности. В обеих моделях получается много небольших по величине отрицательных остатков, распределение положительных остатков более равномерное. Нарушение условия нормальности не так серьезно, как нарушение других предположений модели.
  14. Примечание. По этому графику также можно наблюдать практически недостаток больших по величине отрицательных остатков и превышение частоты небольших отрицательных остатков по сравнению с нормальным распределением. Остаток нулевой величины соответствует P = 0.5, т.к. мат. ожидание остатка – нуль, а слева от него должно находиться 50% значений, плотность симметрична относительно 0.
  15. Примечание. Здесь также видно систематическое получение отрицательного остатка в области больших диаметров. Нарушение условия равенства дисперсий (гетероскедастичность) говорит о том, что либо зависимость между переменными нелинейная и нужно преобразовывать переменные (например, строить уравнение ln Y = b0 + b1*X , либо о том, что в модели учтены не все условия. При прогнозировании временных рядов наиболее часто нарушается предположение о независимости остатков. Это происходит, например, из-за наличия сезонности. Для временных рядов нужны еще тесты на серийную корреляцию и построение графиков остатков от времени и АКФ,
  16. Примечание. На этом графике показаны остатки в порядке появления наблюдений в наборе. Случайное расположение точек на графике и отсутствие серий положительных и отрицательных отклонений говорит о том, что остатки независимы.