SlideShare a Scribd company logo
1 of 31
Download to read offline
Введение в Data Science
Занятие 1. Классификация и регрессия
Николай Анохин Михаил Фирулик
3 марта 2014 г.
Постановка задач классификации и регрессии
Теория принятия решений
Обучение модели
Выбор модели
Классификация: интуиция
Задача
Разработать алгоритм, позволяющий определить класс
произвольного объекта из некоторго множества
Дана обучающая выборка, в которой для каждого объекта
известен класс
Регрессия: интуиция
Задача
Разработать алгоритм, позволяющий предсказать числовую
характеристику произвольного объекта из некоторого множества
Дана обучающая выборка, в которой для каждого объекта
известно значение данной числовой характеристики
Формализуем
X – множество объектов
T – множество значений целевой переменной (target variable)
Дана обучающая выборка из объектов
X = (x1, . . . , xN ) , xi ∈ X
и соответствующие им классы
T = (t1, . . . , tN ) , ti ∈ T
Требуется найти функцию
y∗
(x) : X → T,
позволяющую для произвольного x ∈ X наиболее точно предсказать
соответствующее t ∈ T
Целевая переменная
T = {C1, . . . , CK } – задача классификации в K
непересекающихся классов
T = [a, b] ⊂ R – задача регрессии
Как решать?
M Выдвигаем гипотезу насчет модели - семейства
параметрических функций вида
Y = {y(x, θ) : X × Θ → T},
которая могла бы решить нашу задачу (model selection)
L Выбираем наилучшие параметры модели θ∗
, используя
алгоритм обучения
A(X, T) : (X, T)N
→ Y
(learning/inference)
D Используя полученную модель y∗
(x) = y(x, θ∗
),
классифицируем неизвестные объекты (decision making)
Теория принятия решений
M Выдвигаем гипотезу насчет модели - семейства
параметрических функций вида
Y = {y(x, θ) : X × Θ → T},
которая могла бы решить нашу задачу (model selection)
L Выбираем наилучшие параметры модели θ∗
, используя
алгоритм обучения
A(X, T) : (X, T)N
→ Y
(learning/inference)
D Используя полученную модель y∗
(x) = y(x, θ∗
),
классифицируем неизвестные объекты (decision making)
Что моделировать?
Генеративные модели. Смоделировать p(x|Ck ) и p(Ck ), применить
теорему Байеса
p(Ck |x) =
p(x|Ck )p(Ck )
p(x)
и использовать p(Ck |x) для принятия решения
(NB, Bayes Networks, MRF)
Дискриминативные модели. Смоделировать p(Ck |x) и
использовать ее для принятия решения
(Logistic Regression, Decision Trees)
Функции решения. Смоделировать напрямую f (x) : X → T
(Linear Models, Neural Networks)
Минимизируем риск
Пусть
Rk – область, такая что все x ∈ Rk относим к Ck
Дано
Rkj – риск, связанный с отнесением объекта класса Ck к классу Cj
Найти
∀k : Rk , такие, что математическое ожидание риска E[R]
минимально.
E[R] =
k j Rj
Rkj p(Ck |x)p(x)dx
Медицинская диагностика
Матрица риска [Rkj ]
sick normal
sick 0 10
normal 1 0
Условные вероятности p(Ck |x)
p(normal|moving) = 0.9, p(normal|not moving) = 0.3
Вероятности p(x)
p(moving) = 0.7
Требуется определить Rsick, Rnormal
Регрессия
Те же виды моделей: генеративные, дискриминативные,
функция решения
Задана функция риска
R(t, y(x))
Математическое ожидание E[R]
E[R] = R(t, y(x))p(x, t)dxdt
Для квадратичной функции риска R(t, y(x)) = [t − y(x)]2
y(x) = Et[t|x]
Когда удобнее вероятностные модели
Функция риска может меняться
Отказ от классификации (reject option)
Дисбаланс в выборке
Ансамбли моделей
Обучение модели
M Выдвигаем гипотезу насчет модели - семейства
параметрических функций вида
Y = {y(x, θ) : X × Θ → T},
которая могла бы решить нашу задачу (model selection)
L Выбираем наилучшие параметры модели θ∗
, используя
алгоритм обучения
A(X, T) : (X, T)N
→ Y
(learning/inference)
D Используя полученную модель y∗
(x) = y(x, θ∗
),
классифицируем неизвестные объекты (decision making)
Выбор параметров модели
Функция потерь L(x, t, θ) - ошибка, которую для данного x дает
модель y(x, θ) по сравнению с реальным значением t
Эмпирический риск – средняя ошибка на обучающей выборке
Q(X, T, θ) =
1
N
N
k=1
L(xk , tk , θ)
Задача – найти значение θ∗
, минимизирующее эмпирический риск
θ∗
= θ∗
(X, T) = argminθQ(X, T, θ)
Некоторые функции потерь
Индикатор ошибки
L(x, t, θ) = 0 if y(x, θ) = t else 1
Функция Минковского
L(x, t, θ) = |t − y(x, θ)|q
Частные случаи: квадратичная q = 2, абсолютная ошибка q = 1
Hinge
L(x, t, θ) = max(0, 1 − t ∗ y(x, θ))
Информационная
L(x, t, θ) = − log2 p(t|x, θ)
Проблема 1. Переобучение
Задача
Аппроксимировать обучающую выборку полиномом M степени
Проблема 2. Проклятие размерности
Задача
Классифицировать объекты.
Выбор модели
M Выдвигаем гипотезу насчет модели - семейства
параметрических функций вида
Y = {y(x, θ) : X × Θ → T},
которая могла бы решить нашу задачу (model selection)
L Выбираем наилучшие параметры модели θ∗
, используя
алгоритм обучения
A(X, T) : (X, T)N
→ Y
(learning/inference)
D Используя полученную модель y∗
(x) = y(x, θ∗
),
классифицируем неизвестные объекты (decision making)
Как оценить различные модели?
Идея
использовать долю неверно классифицированных объектов
(error rate)
Важное замечание
error rate на обучающей выборке НЕ является хорошим показателем
качества модели
Решение 1: разделение выборки
Делим обучающую выборку на тренировочную, валидационную и
тестовую
Решение 2: скользящий контроль
(n-times) (stratified) cross-validation
частный случай: leave-one-out
Решение 3: bootstrap
выбираем в тренировочную выбоку n объектов с возвращением
упражнение: найти математическое ожидание размера тестовой
выборки.
Доверительный интервал для success rate
При тестировании на N = 100 объектах было получено 25 ошибок.
Таким образом измеренная вероятность успеха (success rate)
составила f = 0.75. Найти доверительный интервал для
действительной вероятности успеха c уровнем доверия α = 0.8.
Решение
Пусть p – действительная вероятность успеха в испытаниях
бернулли, тогда
f ∼ N (p, p(1 − p)/N) .
Воспользовавшись табличным значением P(−z ≤ N(0, 1) ≤ z) = α,
имеем
P −z ≤
f − p
p(1 − p)/N
≤ z = α,
откуда
p ∈ f +
z2
2N
± z
f
N
−
f 2
N
+
z2
4N2
/ 1 +
z2
N
= [0.69, 0.80]
Метрики качества. Вероятностные модели.
Пусть ti - действительный класс для объекта xi
Information loss
−
1
N
i
log2 p(ti |xi )
Quadratic loss
1
N
j
(p(tj |xi ) − aj (xi ))2
,
где
aj (xi ) =
1, если Cj = ti
0, иначе
Метрики качества. Функции решения.
Предсказанный
true false
Действительный
true TP FN
false FP TN
success rate = accuracy =
TP + TN
TP + FP + FN + TN
recall = TPR =
TP
TP + FN
; precision =
TP
TP + FP
FPR =
FP
FP + TN
affinity = lift =
accuracy
p
Receiver Operating Characteristic
TPR =
TP
TP + FN
; FPR =
FP
FP + TN
Упражнение
Простые классификаторы
В генеральной совокупности существуют объекты 3 классов,
вероятность появления которых p1 < p2 < p3. Первый классификатор
относит все объекты к классу с большей вероятностью (то есть к
третьему). Второй классификатор случайно относит объект к одному
из классов в соответствии с базовым распределением. Рассчитать
precision и recall, которые эти классификаторы дают для каждого из
3 классов.
Метрики качества. Регрессия
MSE =
1
N
(y(xi ) − ti )2
, RMSE =
√
MSE
MAE =
1
N
|y(xi ) − ti |, RMAE =
√
MAE
RSE =
(y(xi ) − ti )2
(ti − ¯t)2
correlation =
Sty
StSy
; Sty =
(y(i) − y(i))(ti − ¯t)
N − 1
Sy =
(y(i) − y(i))2
N − 1
; St =
(ti − ¯t)2
N − 1
MDL принцип: интуиция
Спасибо!
Обратная связь

More Related Content

What's hot

L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Technosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Technosphere1
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииTechnosphere1
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
 
Структурное обучение и S-SVM
Структурное обучение и S-SVMСтруктурное обучение и S-SVM
Структурное обучение и S-SVMromovpa
 
Решение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовРешение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовTheoretical mechanics department
 
Многочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийМногочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийTheoretical mechanics department
 
20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikov20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikovComputer Science Club
 
Разложение на множители
Разложение на множителиРазложение на множители
Разложение на множителиSchool 242
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02Computer Science Club
 
Определенные интегралы
Определенные интегралыОпределенные интегралы
Определенные интегралыdaryaartuh
 

What's hot (20)

L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Структурное обучение и S-SVM
Структурное обучение и S-SVMСтруктурное обучение и S-SVM
Структурное обучение и S-SVM
 
Решение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовРешение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементов
 
Многочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийМногочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближений
 
Метод конечных разностей
Метод конечных разностейМетод конечных разностей
Метод конечных разностей
 
Линейные многошаговые методы
Линейные многошаговые методыЛинейные многошаговые методы
Линейные многошаговые методы
 
Integral1
Integral1Integral1
Integral1
 
20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikov20110925 circuit complexity_seminar_lecture01_kulikov
20110925 circuit complexity_seminar_lecture01_kulikov
 
Разложение на множители
Разложение на множителиРазложение на множители
Разложение на множители
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
Определенные интегралы
Определенные интегралыОпределенные интегралы
Определенные интегралы
 

Similar to L2: Задача классификации и регрессии. Метрики ошибок

презентация с авторским шаблоном и заметками дз 28.03.12
презентация с авторским шаблоном и заметками дз 28.03.12презентация с авторским шаблоном и заметками дз 28.03.12
презентация с авторским шаблоном и заметками дз 28.03.12galinalevna
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками LevinagaGalnalevina
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками LevinagaGalnalevina
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками LevinagaGalnalevina
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagalevinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками LevinagaGalnalevina
 
презентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямпрезентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямGalnalevina
 
презентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямпрезентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямlevinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками LevinagaGalnalevina
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками LevinagaGalnalevina
 
презентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямпрезентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямGalnalevina
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойстваDEVTYPE
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценокKurbatskiy Alexey
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2Sergey Khlebnikov
 
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.Mikhail Kurnosov
 
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"Nikolay Grebenshikov
 
20080928 structuralcomplexitytheory lecture01-02
20080928 structuralcomplexitytheory lecture01-0220080928 structuralcomplexitytheory lecture01-02
20080928 structuralcomplexitytheory lecture01-02Computer Science Club
 
1.3 Описательная статистика
1.3 Описательная статистика1.3 Описательная статистика
1.3 Описательная статистикаDEVTYPE
 

Similar to L2: Задача классификации и регрессии. Метрики ошибок (20)

презентация с авторским шаблоном и заметками дз 28.03.12
презентация с авторским шаблоном и заметками дз 28.03.12презентация с авторским шаблоном и заметками дз 28.03.12
презентация с авторским шаблоном и заметками дз 28.03.12
 
4
44
4
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямпрезентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниям
 
презентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямпрезентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниям
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinagaпрезентация с авторским шаблоном и заметками Levinaga
презентация с авторским шаблоном и заметками Levinaga
 
презентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниямпрезентация к лекции по параметрическим колебаниям
презентация к лекции по параметрическим колебаниям
 
1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства1.4 Точечные оценки и их свойства
1.4 Точечные оценки и их свойства
 
Свойства оценок
Свойства оценокСвойства оценок
Свойства оценок
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2
 
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.
 
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
Лекция №16. Поиск подстрок. Предмет "Структуры и алгоритмы обработки данных"
 
20080928 structuralcomplexitytheory lecture01-02
20080928 structuralcomplexitytheory lecture01-0220080928 structuralcomplexitytheory lecture01-02
20080928 structuralcomplexitytheory lecture01-02
 
1.3 Описательная статистика
1.3 Описательная статистика1.3 Описательная статистика
1.3 Описательная статистика
 

More from Technosphere1

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Technosphere1
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Technosphere1
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: ЗаключительнаяTechnosphere1
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийTechnosphere1
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темыTechnosphere1
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебTechnosphere1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Technosphere1
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsTechnosphere1
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмTechnosphere1
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревьяTechnosphere1
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)Technosphere1
 

More from Technosphere1 (13)

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей"
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
 
Webdev7 (2)
Webdev7 (2)Webdev7 (2)
Webdev7 (2)
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 

L2: Задача классификации и регрессии. Метрики ошибок

  • 1. Введение в Data Science Занятие 1. Классификация и регрессия Николай Анохин Михаил Фирулик 3 марта 2014 г.
  • 2. Постановка задач классификации и регрессии Теория принятия решений Обучение модели Выбор модели
  • 3. Классификация: интуиция Задача Разработать алгоритм, позволяющий определить класс произвольного объекта из некоторго множества Дана обучающая выборка, в которой для каждого объекта известен класс
  • 4. Регрессия: интуиция Задача Разработать алгоритм, позволяющий предсказать числовую характеристику произвольного объекта из некоторого множества Дана обучающая выборка, в которой для каждого объекта известно значение данной числовой характеристики
  • 5. Формализуем X – множество объектов T – множество значений целевой переменной (target variable) Дана обучающая выборка из объектов X = (x1, . . . , xN ) , xi ∈ X и соответствующие им классы T = (t1, . . . , tN ) , ti ∈ T Требуется найти функцию y∗ (x) : X → T, позволяющую для произвольного x ∈ X наиболее точно предсказать соответствующее t ∈ T
  • 6. Целевая переменная T = {C1, . . . , CK } – задача классификации в K непересекающихся классов T = [a, b] ⊂ R – задача регрессии
  • 7. Как решать? M Выдвигаем гипотезу насчет модели - семейства параметрических функций вида Y = {y(x, θ) : X × Θ → T}, которая могла бы решить нашу задачу (model selection) L Выбираем наилучшие параметры модели θ∗ , используя алгоритм обучения A(X, T) : (X, T)N → Y (learning/inference) D Используя полученную модель y∗ (x) = y(x, θ∗ ), классифицируем неизвестные объекты (decision making)
  • 8. Теория принятия решений M Выдвигаем гипотезу насчет модели - семейства параметрических функций вида Y = {y(x, θ) : X × Θ → T}, которая могла бы решить нашу задачу (model selection) L Выбираем наилучшие параметры модели θ∗ , используя алгоритм обучения A(X, T) : (X, T)N → Y (learning/inference) D Используя полученную модель y∗ (x) = y(x, θ∗ ), классифицируем неизвестные объекты (decision making)
  • 9. Что моделировать? Генеративные модели. Смоделировать p(x|Ck ) и p(Ck ), применить теорему Байеса p(Ck |x) = p(x|Ck )p(Ck ) p(x) и использовать p(Ck |x) для принятия решения (NB, Bayes Networks, MRF) Дискриминативные модели. Смоделировать p(Ck |x) и использовать ее для принятия решения (Logistic Regression, Decision Trees) Функции решения. Смоделировать напрямую f (x) : X → T (Linear Models, Neural Networks)
  • 10. Минимизируем риск Пусть Rk – область, такая что все x ∈ Rk относим к Ck Дано Rkj – риск, связанный с отнесением объекта класса Ck к классу Cj Найти ∀k : Rk , такие, что математическое ожидание риска E[R] минимально. E[R] = k j Rj Rkj p(Ck |x)p(x)dx
  • 11. Медицинская диагностика Матрица риска [Rkj ] sick normal sick 0 10 normal 1 0 Условные вероятности p(Ck |x) p(normal|moving) = 0.9, p(normal|not moving) = 0.3 Вероятности p(x) p(moving) = 0.7 Требуется определить Rsick, Rnormal
  • 12. Регрессия Те же виды моделей: генеративные, дискриминативные, функция решения Задана функция риска R(t, y(x)) Математическое ожидание E[R] E[R] = R(t, y(x))p(x, t)dxdt Для квадратичной функции риска R(t, y(x)) = [t − y(x)]2 y(x) = Et[t|x]
  • 13. Когда удобнее вероятностные модели Функция риска может меняться Отказ от классификации (reject option) Дисбаланс в выборке Ансамбли моделей
  • 14. Обучение модели M Выдвигаем гипотезу насчет модели - семейства параметрических функций вида Y = {y(x, θ) : X × Θ → T}, которая могла бы решить нашу задачу (model selection) L Выбираем наилучшие параметры модели θ∗ , используя алгоритм обучения A(X, T) : (X, T)N → Y (learning/inference) D Используя полученную модель y∗ (x) = y(x, θ∗ ), классифицируем неизвестные объекты (decision making)
  • 15. Выбор параметров модели Функция потерь L(x, t, θ) - ошибка, которую для данного x дает модель y(x, θ) по сравнению с реальным значением t Эмпирический риск – средняя ошибка на обучающей выборке Q(X, T, θ) = 1 N N k=1 L(xk , tk , θ) Задача – найти значение θ∗ , минимизирующее эмпирический риск θ∗ = θ∗ (X, T) = argminθQ(X, T, θ)
  • 16. Некоторые функции потерь Индикатор ошибки L(x, t, θ) = 0 if y(x, θ) = t else 1 Функция Минковского L(x, t, θ) = |t − y(x, θ)|q Частные случаи: квадратичная q = 2, абсолютная ошибка q = 1 Hinge L(x, t, θ) = max(0, 1 − t ∗ y(x, θ)) Информационная L(x, t, θ) = − log2 p(t|x, θ)
  • 17. Проблема 1. Переобучение Задача Аппроксимировать обучающую выборку полиномом M степени
  • 18. Проблема 2. Проклятие размерности Задача Классифицировать объекты.
  • 19. Выбор модели M Выдвигаем гипотезу насчет модели - семейства параметрических функций вида Y = {y(x, θ) : X × Θ → T}, которая могла бы решить нашу задачу (model selection) L Выбираем наилучшие параметры модели θ∗ , используя алгоритм обучения A(X, T) : (X, T)N → Y (learning/inference) D Используя полученную модель y∗ (x) = y(x, θ∗ ), классифицируем неизвестные объекты (decision making)
  • 20. Как оценить различные модели? Идея использовать долю неверно классифицированных объектов (error rate) Важное замечание error rate на обучающей выборке НЕ является хорошим показателем качества модели
  • 21. Решение 1: разделение выборки Делим обучающую выборку на тренировочную, валидационную и тестовую
  • 22. Решение 2: скользящий контроль (n-times) (stratified) cross-validation частный случай: leave-one-out
  • 23. Решение 3: bootstrap выбираем в тренировочную выбоку n объектов с возвращением упражнение: найти математическое ожидание размера тестовой выборки.
  • 24. Доверительный интервал для success rate При тестировании на N = 100 объектах было получено 25 ошибок. Таким образом измеренная вероятность успеха (success rate) составила f = 0.75. Найти доверительный интервал для действительной вероятности успеха c уровнем доверия α = 0.8. Решение Пусть p – действительная вероятность успеха в испытаниях бернулли, тогда f ∼ N (p, p(1 − p)/N) . Воспользовавшись табличным значением P(−z ≤ N(0, 1) ≤ z) = α, имеем P −z ≤ f − p p(1 − p)/N ≤ z = α, откуда p ∈ f + z2 2N ± z f N − f 2 N + z2 4N2 / 1 + z2 N = [0.69, 0.80]
  • 25. Метрики качества. Вероятностные модели. Пусть ti - действительный класс для объекта xi Information loss − 1 N i log2 p(ti |xi ) Quadratic loss 1 N j (p(tj |xi ) − aj (xi ))2 , где aj (xi ) = 1, если Cj = ti 0, иначе
  • 26. Метрики качества. Функции решения. Предсказанный true false Действительный true TP FN false FP TN success rate = accuracy = TP + TN TP + FP + FN + TN recall = TPR = TP TP + FN ; precision = TP TP + FP FPR = FP FP + TN affinity = lift = accuracy p
  • 27. Receiver Operating Characteristic TPR = TP TP + FN ; FPR = FP FP + TN
  • 28. Упражнение Простые классификаторы В генеральной совокупности существуют объекты 3 классов, вероятность появления которых p1 < p2 < p3. Первый классификатор относит все объекты к классу с большей вероятностью (то есть к третьему). Второй классификатор случайно относит объект к одному из классов в соответствии с базовым распределением. Рассчитать precision и recall, которые эти классификаторы дают для каждого из 3 классов.
  • 29. Метрики качества. Регрессия MSE = 1 N (y(xi ) − ti )2 , RMSE = √ MSE MAE = 1 N |y(xi ) − ti |, RMAE = √ MAE RSE = (y(xi ) − ti )2 (ti − ¯t)2 correlation = Sty StSy ; Sty = (y(i) − y(i))(ti − ¯t) N − 1 Sy = (y(i) − y(i))2 N − 1 ; St = (ti − ¯t)2 N − 1