Weitere ähnliche Inhalte Mehr von Yury Kashnitsky (8) Необычные модели Playboy, или про поиск аномалий в данных2. ©"Билайн",БЕРоссия2014
План
• Пример поиска выбросов в наборе данных по моделям месяца Playboy
• Пример нахождения «выбросов» невооруженным взглядом
• Одноклассовая машина опорных векторов (One-class SVM)
• Статистические методы поиска выбросов
• Сравнение поиска выбросов на основе многомерного нормального распределения
и одноклассовой машина опорных векторов
• Алгоритм плотностной кластеризации DBSCAN
Внимание! Возможна демонстрация фотоматериалов, не нарушающих
постановление 242 УК РФ «Незаконные изготовление и оборот порнографических
материалов или предметов»
3. ©"Билайн",БЕРоссия2014
Сразу пример
Данные Wired по 607 моделям месяца Playboy
c 1953 по 2009 годы.
Первые 5 записей:
Месяц Год Грудь Талия Бедра Рост Вес
0 Декабрь 1953 91 61 91 165 54
1 Март 1954 86 61 89 168 54
2 Июль 1955 91 61 91 166 52
3 Дек 1955 91 61 91 166 52
4 Июль 1956 91 61 86 157 48
4. ©"Билайн",БЕРоссия2015
Знакомство с данными
3
Признаки:
• Год, месяц признания моделью
месяца Playboy
• Охваты груди, талии и бедер
• Рост и вес
Год Грудь Талия Бедра Рост Вес
Число 604 604 604 604 604 604
Среднее 1983 89.3 59.5 87.9 167.9 52.2
Минимум 1953 81 46 61 150 42
Максимум 2009 104 89 99 188 68
Oh, really?
6. ©"Билайн",БЕРоссия2015
Еще два «выброса»
5
Мики Уинтерс (Mickie Winters)
Жони Маттис (Joni Mattis)
Вывод: некоторые аномалии
можно найти «невооруженным
взглядом»
Месяц Год Грудь Талия Бедра Рост Вес
33 Ноябрь 1960 84 46 81 157 45
54 Сентябрь 1962 91 46 86 152 45
14. ©"Билайн",БЕРоссия2015
7 «выбросов» в наборе данных по моделям Playboy
13
Месяц Год Грудь Талия Бедра Рост Вес
Сентябрь 1962 91 46 86 152 45
Октябрь 1963 94 66 94 183 68
Октябрь 1964 104 64 97 168 66
Сентябрь 1972 98 64 99 185 64
Декабрь 1998 86 89 86 173 52
Декабрь 2000 86 66 91 188 61
Апрель 2003 86 61 69 173 54
15. ©"Билайн",БЕРоссия2015
Формулировка задачи поиска аномалий («выбросов») в данных
14
• Четкой постановки задачи нет
• Интуитивно понятно – найти объекты,
сильно отличающиеся от других
(обучение без учителя)
• Попытка вероятностной
формулировки:
Пусть p(x) – функция плотности
вероятности, определенная
признаковом пространстве Φ(Χ)
выборки Χ. Найти объекты, для которых
p(x) < ε (ε – малый параметр, процент
выбросов). (Andrew Ng, ML course)
24. ©"Билайн",БЕРоссия2015
23
Нелинейная граница в исходном пространстве
При обратном проецировании разделяющая граница
получается нелинейной
«Ядерный трюк»
Для классификации новых объектов
надо вычислять скалярные произведения
вида <φ(x), φ(x’)>,
где x – тестовый объект,
x’ – опорный вектор (объект).
Эти вычисления можно свести к
вычислению скалярных
произведений в исходном пространстве
K(<φ(x), φ(x’)>) = f (<x, x’>), что намного
вычислительно проще.
26. ©"Билайн",БЕРоссия2015
25
Подход на основе нормального распределения
• Предполагается, что данные подчиняются нормальному
распределению (а это может быть и не так, но есть статистические
тесты)
• Оценивается плотность распределения (легко обобщается на
случай многомерного распределения)
где μ 𝑗 =
1
𝑚
𝑥𝑗
(𝑖)𝑚
𝑖=1 , σ2
𝑗 =
1
𝑚
(𝑥𝑗
𝑖 − μ 𝑗)2𝑚
𝑖=1
• Объект x считается выбросом, если
p(x) < ε
39. ©"Билайн",БЕРоссия2015
38
Ссылки
• Bernhard Schölkopf, Robert C Williamson, Alex J Smola, John Shawe-Taylor, John C
Platt. «Support Vector Method for Novelty Detection», NIPS vol. 12, 582-58 (1999)
• David MJ Tax, Robert PW Duin. «Support vector data description». Machine learning,
54(1), 45-56 (2004)
• Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei Simoudis, Evangelos;
Han, Jiawei; Fayyad, Usama M., eds. A density-based algorithm for discovering
clusters in large spatial databases with noise. Proceedings of the Second International
Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–
231 (1996)
• Andrew Ng, «Machine Learning», Coursera - https://ru.coursera.org/learn/machine-
learning
• Необычные модели Playboy, или про обнаружение выбросов в данных c помощью
Scikit-learn - http://habrahabr.ru/post/251225/
• Примеры Scikit-learn по поиску аномалий - http://scikit-
learn.org/stable/auto_examples/covariance/plot_outlier_detection.html, http://scikit-
learn.org/stable/auto_examples/applications/plot_outlier_detection_housing.html#