SlideShare ist ein Scribd-Unternehmen logo
1 von 80
10 основных ошибок,
которые нельзя допускать
в анализе данных
Константин Обухов
Data Scientist в компании CleverDATA
Презентация для ИТ-лектория
НИУ ВШЭ
02.03.2015
Немного о CleverDATA
Развитие бизнеса
на международном
рынке с 2012 года
Входит в тройку
лидеров российских ИТ компаний
43 подразделения в России и за
рубежом
Более 5500 сотрудников
100 тыс.проектов для 10 тыс.заказчиков
Инновационная платформа
управления данными
«Биржа» данных
Облачный сервис
Открытые технологии
Создана в 2014 г.
Фокус на работе с «Big Data»
Собственные центры разработки
Партнерство с мировыми лидерами
и научными институтами
Центр экспертизы по
технологиям Big Data и
Digital Marketing
Мы знаем все о больших данных и их обработке
ВЫСОКАЯ СКОРОСТЬ
БОЛЬШОЙ ОБЪЕМ
ЗНАЧИТЕЛЬНАЯ ВАРИАТИВНОСТЬ
Web логи
Финансовые транзакции
Социальные сети
Web контент
Машинные данные
Открытые данные
Hadoop
MPP (Vertica, Exadata, Greenplum,
Teradata)
NoSQL (Key-Value, Document-
oriented, Column-based, Graph-
oriented)
In-memory Data Grids, Calculation
Grids
Data Mining
Machine Learning / Statistics / Natural
Language Processing
Event-Stream Processing
Ценность данных в том, как вы их
анализируете и применяете для развития
своего бизнеса
Понимание клиента и его поведения
Информационная безопасность
Управление рисками
Повышение операционной эффективности
“Потенциал Big Data раскрывается в полной мере при взаимодействии с
другими данными корпорации.” Билл Фрэнкс.
Задача
• В городе проживает миллион человек
• 200 из них заболели неизвестным вирусом
• Изобретен тест на наличие болезни с точностью 97%
Вопрос:
Какая вероятность, что вы заболели, если тест дал положительный результат?
3) 0.64%
0.64%
1) 97%
2) 32.14%
Решение
1 000 000
200
999 800
194
6
29 994
969 806
Больные
Здоровые
Тест положительный
Тест отрицательный
Тест отрицательный
Тест положительный
0.64%
Теорема Байеса
Ошибки I и II рода
Наличие болезни
Результаттеста
Больной Здоровый
Положительный
194
True
Positives
29 994
False
Positives
Отрицательный
6
False
Negatives
969 806
True
Negatives
Ошибка I рода
Ошибка II рода
Априорные и апостериорные
вероятности
Prior PosteriorТест
Снова теорема Байеса
Необходимо делать поправку на априорные вероятности
Результат наблюдений
правдоподобие
Пример с Amazon
Likelihood
Prior
10 основных ошибок, которые нельзя
допускать в анализе данных
1. Опускать поправку на априорные распределения
Богатый район
Где логика?
1. У бедных нет телефона
2. У бедных нет машины
Фактически нет
данных из района для
бедных
Данные по богатым
Данные по бедным
Трумэн
Вот это поворот
1. У бедных нет телефона
2. Бедные голосуют за Трумэна
Фактически нет
данных по бедным
избирателям
Голоса за Дьюи
по обзвону
Голоса за Трумэна
по обзвону
10 основных ошибок, которые нельзя
допускать в анализе данных
2. Использовать для анализа неслучайную выборку
Bias Sample
Выборка
1 Выборка
2
Выборка
3
Все данные
• Данные для анализа нужно выбирать
случайно из генеральной совокупности
• Проверять гипотезу нужно на
контрольных данных – тоже выбранных
случайно из всего множества
Как убедиться в том, что выборка случайная?
Dataset 1: { f1 ; f2 ; f3 ;…; fn } R(M x N)
Dataset 2: { f1 ; f2 ; f3 ;…; fn } R(M x N)
Признаки в обоих выборках должны принадлежать одному распределению
хорошо плохо
Как посчитать функцию распределения
Закон Больших Чисел:
X = rnorm(100,10,1)
Y = rnorm(100,10,2)
X = rnorm(100,10,1)
Y = rnorm(100,9.9,1.1)
Количественная оценка степени различия
Критерий Колмогорова - Смирнова
Чем отличаются эти данные?
x y
1 -1.0 0.0
2 -0.8 0.6
3 -0.6 0.8
4 -0.4 0.9
5 -0.2 1.0
6 0.0 1.0
7 0.2 1.0
8 0.4 0.9
9 0.6 0.8
10 0.8 0.6
11 1.0 0.0
12 -1.0 0.0
13 -0.8 -0.6
14 -0.6 -0.8
15 -0.4 -0.9
16 -0.2 -1.0
17 0.0 -1.0
18 0.2 -1.0
19 0.4 -0.9
20 0.6 -0.8
21 0.8 -0.6
22 1.0 0.0
x y
1 -1.0 -1.0
2 -0.8 -0.8
3 -0.6 -0.6
4 -0.4 -0.4
5 -0.2 -0.2
6 0.0 0.0
7 0.2 0.2
8 0.4 0.4
9 0.6 0.6
10 0.8 0.8
11 1.0 1.0
12 -1.0 1.0
13 -0.8 0.8
14 -0.6 0.6
15 -0.4 0.4
16 -0.2 0.2
17 0.0 0.0
18 0.2 -0.2
19 0.4 -0.4
20 0.6 -0.6
21 0.8 -0.8
22 1.0 -1.0
x y
1 -3.1 0.0
2 -2.8 -0.3
3 -2.5 -0.5
4 -2.1 -0.8
5 -1.8 -1.0
6 -1.5 -1.0
7 -1.2 -0.9
8 -0.9 -0.8
9 -0.6 -0.6
10 -0.3 -0.3
11 0.0 0.0
12 0.3 0.3
13 0.6 0.6
14 0.9 0.8
15 1.2 1.0
16 1.5 1.0
17 1.8 0.9
18 2.1 0.8
19 2.5 0.6
20 2.8 0.3
21 3.1 0.0
22 1.0 -1.0
Вот чем
Графики наилучшим образом представляют данные
10 основных ошибок, которые нельзя
допускать в анализе данных
3. Неверная визуализация
Как не следует строить графики
Как вообще не следует строить
графики
Выборы представителей Великобритании в
Европарламент 2009 г.
Почему круговые диаграммы это зло
Невозможно сравнивать абсолютные значения
Восприимчивость к размеру
Почему круговые диаграммы это зло
Невозможно анализировать комбинированные значения
Почему круговые диаграммы это зло
10 основных ошибок, которые нельзя
допускать в анализе данных
4. Считать корреляцию причинной связью
Вопрос
Где корреляция больше?
1) У красного графика
2) У синего графика
3) В целом поровну
В целом поровну
Что такое корреляция
Примеры странных корреляций
Корреляция как следствие третьего фактора
Корреляция не подразумевает причинной связи
Яйцо
Как узнать, где причина, а где следствие?
Тест Грэнджера на причинностьКоличество куриц в момент t
Количество яиц в момент времени t
Гипотеза 1: x не является причиной y
Гипотеза 2: y не является причиной x
Проверка на данных
Яйцо появилось раньше
Машинное обучение
Машинное обучение изучает
методы построения моделей
и алгоритмов, способных
обучаться на данных
Данные Алгоритм Модель
Supervised Learning
• Необходимо задать обучающую выборку –
набор данных признаки : результат
• Алгоритм применяется для распознавания
неизвестных объектов
Классификация Регрессия
Unsupervised Learning
• Для обучения нужна выборка только
признаков
• Алгоритм применяется для обнаружения
взаимосвязей и закономерностей между
объектами
Кластеризация Поиск ассоциативных
правил
10 основных ошибок, которые нельзя
допускать в анализе данных
5. Неверно выбранная целевая переменная
Прогнозирование оттока клиентов
• Необходимо выявить клиентов, которые с большой вероятностью прекратят
взаимодействие с компанией
• Предиктивная модель обучается на уже ушедших клиентах, ищет признаки оттока
• Каждому клиенту сопоставляется вероятность уйти в отток через какой-то промежуток
времени
«Идеальная» модель оттока
Точность прогнозирования составляет 98.2%
Экономическая эффективность отсутствует
Моделирование отклика на предложение
Подход «от продукта» Подход «от клиента»
Матрица отклика
Клиент ID
Продукт А Продукт B Продукт C Продукт D
SMS Звонок E-mail SMS Звонок E-mail SMS Звонок E-mail
1626 60% 80% 45% 20% 30% 10% 15% 25% 70%
2832 50% 60% 35% 80% 90% 85% 55% 60% 60%
2515 75% 80% 50% 10% 15% 5% 60% 70% 50%
9010 20% 25% 25% 10% 30% 10% 85% 90% 40%
7812 30% 35% 30% 50% 60% 55% 90% 95% 20%
3511 60% 50% 60% 10% 30% 20% 40% 60% 80%
6266 55% 65% 35% 25% 25% 15% 60% 75% 25%
1842 25% 35% 20% 50% 50% 45% 55% 50% 85%
Отклик и прибыль
Клиент ID
Кампании
Кампания 1 Кампания 2 Кампания 3
1626 100р.
60%
120р.
35%
80р.
40%
2832 50р.
60%
30р.
50%
35р.
60%
2515 80р.
60%
130р.
70%
100р.
20%
9010 60р.
35%
25р.
90%
40р.
60%
7812 80р.
55%
110р.
60%
115р.
40%
3511 125р.
65%
50р.
50%
140р.
70%
При построении модели необходимо
учитывать условия, в которых ей
придется работать
Высокая вероятность отклика
не гарантирует высокую эффективность
10 основных ошибок, которые нельзя
допускать в анализе данных
6. Допускать переобучение модели
Регрессионная задача
Аппроксимация полиномом степени М
Минимизация среднеквадратичной ошибки
Точность растет при увеличении М
Переобучение
У переобученной модели очень низкая
точность на тестовой выборке
Задача – минимизация ошибки на тесте
Переобучение
Переобучение уменьшается при
увеличении объема выборки
Чем больше данных, тем сложнее модель
можно построить
Еще раз теорема Байеса
Априорная вероятность
(до наблюдения)
Эффект наблюдаемых данных
Апостериорная вероятность
(после наблюдения)
Функция правдоподобия описывает насколько вероятны наблюдаемые
данные при различных значениях весов w
Регуляризация для предотвращения
переобучения модели
Как подобрать нужные параметры модели
Тюнинг модели заключается в подборе таких параметров
λ и M, при которых ошибка на тестовой выборке
минимальная – кросс-валидация
7. Оставить выбросы и шумы в данных
10 основных ошибок, которые нельзя
допускать в анализе данных
X
16,24
26,72
12,76
34,67
17,82
23,73
23,46
72,15
21,23
93,24
10,12
3,16
26,72
25,51
27,11
24,17
44,24
27,88
51,23
80,22
1,41
17,13
Какая величина наилучшим образом
описывает эти данные?
Среднее 30,95
Медиана 24,84
X
93,24
80,22
72,15
51,23
44,24
34,67
27,88
27,11
26,72
26,72
25,51
24,17
23,73
23,46
21,23
17,82
17,13
16,24
12,76
10,12
3,16
1,41
3QR
MED
1QR
Задача поиска аномалий
Аномалии – это те события или наблюдения, которые не соответствуют
ожидаемому паттерну других событий в данных
• Intrusion detection
• Fraud detection
• Fault detection
• System monitoring
• Event detection
• Data preprocessing
Очистка от шумов позволяет значительно увеличить
точность предиктивной модели
Задача прогнозирования сбоев в работе
различных систем
4 этапа построения модели
1. Необходимо правильно обработать данные
• Модель структурирования потоковых данных позволяет извлечь из
машинных данных важные признаки
• Без обработки данных увеличивается погрешность прогнозирования
Паттерн сбоя
До обработки После обработки
4 этапа построения модели
2. Необходимо найти сбои в исторических данных
• Для того, чтобы прогнозировать сбои в
будущем, необходимо «обучиться» на
прошлых ошибках.
• Вероятностная модель определяет сбои как
значимые отклонения от нормального
состояния работы систем (one class SVM)
Детектирование значимых отклонений от нормы
Подход к решению
3. Выявление значимых признаков сбоев
• Выявив сбои, необходимо автоматически
найти причины их возникновения
• Методы корреляционного анализа позволяют
найти причины прошедших сбоев
Корреляционная матица признаков сбоев
Подход к решению
4. Построение предиктивной модели
Прошлые наблюдения Будущая вероятность сбоя
Триггеры (предикторы)
ошибок
• Модель обучается на исторических данных, сопоставляя прошлым
наблюдениям будущую вероятность сбоя в различных временных интервалах
• В реальном времени модель отслеживает показатели систем и триггеры
ошибок, рассчитывая будущую вероятность сбоя
8. Неверно разделить исследование и оптимизацию
10 основных ошибок, которые нельзя
допускать в анализе данных
Снова ошибки I и II рода
Реальность
Гипотеза
Верная Неверная
Верна
True
Positives
False
Positives
Неверна
False
Negatives
True
Negatives
Exploration
Error
Exploitation
Error
Где же грань?
Exploration
Exploitation
t
Исследование
Оптимизация
9. Делать поспешные выводы
10 основных ошибок, которые нельзя
допускать в анализе данных
Insight не означает конец исследования
Exploration
Exploitation
t
Исследование
Оптимизация
Insight
Почему нельзя делать поспешные выводы
Основные этапы построения
предиктивных моделей
Data
Preprocessing
Feature
Engineering
Feature
Selection
Machine Learning
Back Testing
• Необходимая обработка данных: очистка шумов, выбросов.
Приведение данных к нормальному виду
• Генерация факторов и признаков в модели.
Поиск скрытых паттернов
• Выбор предикторов, выявление
значимых закономерностей
• Построение модели алгоритмами
машинного обучения, тюнинг модели
• Тестирование модели на реальных данных
10. Выбор неправильного инструмента для анализа
10 основных ошибок, которые нельзя
допускать в анализе данных
Какой инструмент лучше?
Сложностьиспользования
Возможности в анализе данных
10 основных ошибок, которые нельзя
допускать в анализе данных
1. Опускать поправку на априорные распределения
2. Использовать для анализа неслучайную выборку
3. Неверная визуализация
4. Считать корреляцию причинной связью
5. Неверно выбранная целевая переменная
6. Допускать переобучение модели
7. Оставить выбросы и шумы в данных
8. Неверно разделить исследование и оптимизацию
9. Делать поспешные выводы
10. Выбор неправильного инструмента для анализа
Вопросы?
Спасибо за внимание!
+7 (495) 967-66-50
info@cleverdata.ru
cleverdata.ru
facebook.com/CleverData

Weitere ähnliche Inhalte

Andere mochten auch

Instituto universitario politécnico
Instituto universitario politécnicoInstituto universitario politécnico
Instituto universitario politécnico24829909
 
Actividad3
Actividad3Actividad3
Actividad3Nutrik
 
I learn csr_academy_profile
I learn csr_academy_profileI learn csr_academy_profile
I learn csr_academy_profileAntoaneta Popova
 
1 rts motivation skills_by. hor hen
1 rts motivation skills_by. hor hen1 rts motivation skills_by. hor hen
1 rts motivation skills_by. hor henHor Hen
 
SISTEMA DE CONTROL DE ACCESO REMOTO RYLAI
SISTEMA DE CONTROL DE ACCESO REMOTO RYLAISISTEMA DE CONTROL DE ACCESO REMOTO RYLAI
SISTEMA DE CONTROL DE ACCESO REMOTO RYLAIVerónica Pozo
 
Interior Design :Got a small space? Here's a big idea
Interior Design :Got a small space? Here's a big ideaInterior Design :Got a small space? Here's a big idea
Interior Design :Got a small space? Here's a big ideaCindy Lin
 
Unidades de-relieve-espaol-1192563167235306-1
Unidades de-relieve-espaol-1192563167235306-1Unidades de-relieve-espaol-1192563167235306-1
Unidades de-relieve-espaol-1192563167235306-1Bàrbara Lacuesta
 
Brittany Alexander. Period 6. Emperor penguin
Brittany Alexander. Period 6. Emperor penguinBrittany Alexander. Period 6. Emperor penguin
Brittany Alexander. Period 6. Emperor penguinbuchmannbio2011
 
Redurbana 1209501021231418-9
Redurbana 1209501021231418-9Redurbana 1209501021231418-9
Redurbana 1209501021231418-9Bàrbara Lacuesta
 
13 aritmetica parte iv_p88-p93
13 aritmetica parte iv_p88-p9313 aritmetica parte iv_p88-p93
13 aritmetica parte iv_p88-p93campos9823
 

Andere mochten auch (17)

Instituto universitario politécnico
Instituto universitario politécnicoInstituto universitario politécnico
Instituto universitario politécnico
 
Actividad3
Actividad3Actividad3
Actividad3
 
I learn csr_academy_profile
I learn csr_academy_profileI learn csr_academy_profile
I learn csr_academy_profile
 
Leonardo Da Vinci
Leonardo Da VinciLeonardo Da Vinci
Leonardo Da Vinci
 
1 rts motivation skills_by. hor hen
1 rts motivation skills_by. hor hen1 rts motivation skills_by. hor hen
1 rts motivation skills_by. hor hen
 
Sector primario
Sector primarioSector primario
Sector primario
 
SISTEMA DE CONTROL DE ACCESO REMOTO RYLAI
SISTEMA DE CONTROL DE ACCESO REMOTO RYLAISISTEMA DE CONTROL DE ACCESO REMOTO RYLAI
SISTEMA DE CONTROL DE ACCESO REMOTO RYLAI
 
Clase taller 18-10-2013 uma
Clase taller 18-10-2013 umaClase taller 18-10-2013 uma
Clase taller 18-10-2013 uma
 
Interior Design :Got a small space? Here's a big idea
Interior Design :Got a small space? Here's a big ideaInterior Design :Got a small space? Here's a big idea
Interior Design :Got a small space? Here's a big idea
 
Unidades de-relieve-espaol-1192563167235306-1
Unidades de-relieve-espaol-1192563167235306-1Unidades de-relieve-espaol-1192563167235306-1
Unidades de-relieve-espaol-1192563167235306-1
 
Actividad 3 crs
Actividad 3 crsActividad 3 crs
Actividad 3 crs
 
Brittany Alexander. Period 6. Emperor penguin
Brittany Alexander. Period 6. Emperor penguinBrittany Alexander. Period 6. Emperor penguin
Brittany Alexander. Period 6. Emperor penguin
 
Redurbana 1209501021231418-9
Redurbana 1209501021231418-9Redurbana 1209501021231418-9
Redurbana 1209501021231418-9
 
Receitas Drinks 4
Receitas Drinks 4Receitas Drinks 4
Receitas Drinks 4
 
13 aritmetica parte iv_p88-p93
13 aritmetica parte iv_p88-p9313 aritmetica parte iv_p88-p93
13 aritmetica parte iv_p88-p93
 
Biografia Pyotr I. Tchaikovsky
Biografia Pyotr I. TchaikovskyBiografia Pyotr I. Tchaikovsky
Biografia Pyotr I. Tchaikovsky
 
Turismo 1208542578379350-9
Turismo 1208542578379350-9Turismo 1208542578379350-9
Turismo 1208542578379350-9
 

Ähnlich wie 10 Critical Mistakes in Data Analysis

Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...WG_ Events
 
Big data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаBig data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаSerge Dobridnjuk
 
Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...AUTODOC
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full versionDmitry Guzenko
 
Большие данные: как могут навредить и ка могут помочь?
Большие данные: как могут навредить и ка могут помочь?Большие данные: как могут навредить и ка могут помочь?
Большие данные: как могут навредить и ка могут помочь?etyumentcev
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverDATA
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analyticsCleverDATA
 
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомDenisenko Sergei
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Evgeniy Pavlovskiy
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымSergey Gorshkov
 
Революция Больших Данных
Революция Больших ДанныхРеволюция Больших Данных
Революция Больших ДанныхLeonid Zhukov
 
Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)Alexey Kuznetsov
 
Н.Хлебинский Big data маркетинг в электронной коммерции
Н.Хлебинский Big data   маркетинг в электронной коммерцииН.Хлебинский Big data   маркетинг в электронной коммерции
Н.Хлебинский Big data маркетинг в электронной коммерцииInSales
 
2013 Разработка программно-математического комплекса поддержки скоринга востр...
2013 Разработка программно-математического комплекса поддержки скоринга востр...2013 Разработка программно-математического комплекса поддержки скоринга востр...
2013 Разработка программно-математического комплекса поддержки скоринга востр...RF-Lab
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
Eco vision
Eco visionEco vision
Eco visionit-park
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentationAlgoMost
 
Case (iidf) team 1 (rus)
Case (iidf)   team 1 (rus)Case (iidf)   team 1 (rus)
Case (iidf) team 1 (rus)EVA
 

Ähnlich wie 10 Critical Mistakes in Data Analysis (20)

Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
 
Big data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаBig data и bi в медицине 5 волна
Big data и bi в медицине 5 волна
 
Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
 
Большие данные: как могут навредить и ка могут помочь?
Большие данные: как могут навредить и ка могут помочь?Большие данные: как могут навредить и ка могут помочь?
Большие данные: как могут навредить и ка могут помочь?
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.Kanevsky
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analytics
 
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим данным
 
Революция Больших Данных
Революция Больших ДанныхРеволюция Больших Данных
Революция Больших Данных
 
Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)
 
Н.Хлебинский Big data маркетинг в электронной коммерции
Н.Хлебинский Big data   маркетинг в электронной коммерцииН.Хлебинский Big data   маркетинг в электронной коммерции
Н.Хлебинский Big data маркетинг в электронной коммерции
 
2013 Разработка программно-математического комплекса поддержки скоринга востр...
2013 Разработка программно-математического комплекса поддержки скоринга востр...2013 Разработка программно-математического комплекса поддержки скоринга востр...
2013 Разработка программно-математического комплекса поддержки скоринга востр...
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Eco vision
Eco visionEco vision
Eco vision
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
 
Case (iidf) team 1 (rus)
Case (iidf)   team 1 (rus)Case (iidf)   team 1 (rus)
Case (iidf) team 1 (rus)
 

Mehr von CleverDATA

CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CleverDATA
 
Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)CleverDATA
 
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)CleverDATA
 
Data exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиData exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиCleverDATA
 
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...CleverDATA
 
CleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA
 
Splunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceSplunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceCleverDATA
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиCleverDATA
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.CleverDATA
 
CleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиCleverDATA
 
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for financeCleverDATA
 
Clever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsClever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsCleverDATA
 
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationClever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationCleverDATA
 
Customers segmentation_responce prediction
Customers segmentation_responce predictionCustomers segmentation_responce prediction
Customers segmentation_responce predictionCleverDATA
 
HR_Scoring_CleverDATA
HR_Scoring_CleverDATAHR_Scoring_CleverDATA
HR_Scoring_CleverDATACleverDATA
 
CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA
 
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_HadoopCleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_HadoopCleverDATA
 

Mehr von CleverDATA (20)

CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы
 
Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)
 
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
 
Data exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиData exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена данными
 
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
 
CleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_Public
 
Splunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceSplunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service Intelligence
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
 
CleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomy
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за данными
 
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for finance
 
Clever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsClever data 1dmp_oracle_fors
Clever data 1dmp_oracle_fors
 
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationClever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
 
Customers segmentation_responce prediction
Customers segmentation_responce predictionCustomers segmentation_responce prediction
Customers segmentation_responce prediction
 
HR_Scoring_CleverDATA
HR_Scoring_CleverDATAHR_Scoring_CleverDATA
HR_Scoring_CleverDATA
 
CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015
 
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_HadoopCleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
 

10 Critical Mistakes in Data Analysis

  • 1. 10 основных ошибок, которые нельзя допускать в анализе данных Константин Обухов Data Scientist в компании CleverDATA Презентация для ИТ-лектория НИУ ВШЭ 02.03.2015
  • 2. Немного о CleverDATA Развитие бизнеса на международном рынке с 2012 года Входит в тройку лидеров российских ИТ компаний 43 подразделения в России и за рубежом Более 5500 сотрудников 100 тыс.проектов для 10 тыс.заказчиков Инновационная платформа управления данными «Биржа» данных Облачный сервис Открытые технологии Создана в 2014 г. Фокус на работе с «Big Data» Собственные центры разработки Партнерство с мировыми лидерами и научными институтами Центр экспертизы по технологиям Big Data и Digital Marketing
  • 3. Мы знаем все о больших данных и их обработке ВЫСОКАЯ СКОРОСТЬ БОЛЬШОЙ ОБЪЕМ ЗНАЧИТЕЛЬНАЯ ВАРИАТИВНОСТЬ Web логи Финансовые транзакции Социальные сети Web контент Машинные данные Открытые данные Hadoop MPP (Vertica, Exadata, Greenplum, Teradata) NoSQL (Key-Value, Document- oriented, Column-based, Graph- oriented) In-memory Data Grids, Calculation Grids Data Mining Machine Learning / Statistics / Natural Language Processing Event-Stream Processing Ценность данных в том, как вы их анализируете и применяете для развития своего бизнеса Понимание клиента и его поведения Информационная безопасность Управление рисками Повышение операционной эффективности “Потенциал Big Data раскрывается в полной мере при взаимодействии с другими данными корпорации.” Билл Фрэнкс.
  • 4. Задача • В городе проживает миллион человек • 200 из них заболели неизвестным вирусом • Изобретен тест на наличие болезни с точностью 97% Вопрос: Какая вероятность, что вы заболели, если тест дал положительный результат? 3) 0.64% 0.64% 1) 97% 2) 32.14%
  • 5. Решение 1 000 000 200 999 800 194 6 29 994 969 806 Больные Здоровые Тест положительный Тест отрицательный Тест отрицательный Тест положительный 0.64%
  • 7. Ошибки I и II рода Наличие болезни Результаттеста Больной Здоровый Положительный 194 True Positives 29 994 False Positives Отрицательный 6 False Negatives 969 806 True Negatives Ошибка I рода Ошибка II рода
  • 8.
  • 10. Снова теорема Байеса Необходимо делать поправку на априорные вероятности Результат наблюдений правдоподобие
  • 12. 10 основных ошибок, которые нельзя допускать в анализе данных 1. Опускать поправку на априорные распределения
  • 14. Где логика? 1. У бедных нет телефона 2. У бедных нет машины Фактически нет данных из района для бедных Данные по богатым Данные по бедным
  • 16. Вот это поворот 1. У бедных нет телефона 2. Бедные голосуют за Трумэна Фактически нет данных по бедным избирателям Голоса за Дьюи по обзвону Голоса за Трумэна по обзвону
  • 17. 10 основных ошибок, которые нельзя допускать в анализе данных 2. Использовать для анализа неслучайную выборку
  • 18. Bias Sample Выборка 1 Выборка 2 Выборка 3 Все данные • Данные для анализа нужно выбирать случайно из генеральной совокупности • Проверять гипотезу нужно на контрольных данных – тоже выбранных случайно из всего множества
  • 19. Как убедиться в том, что выборка случайная? Dataset 1: { f1 ; f2 ; f3 ;…; fn } R(M x N) Dataset 2: { f1 ; f2 ; f3 ;…; fn } R(M x N) Признаки в обоих выборках должны принадлежать одному распределению хорошо плохо
  • 20. Как посчитать функцию распределения Закон Больших Чисел: X = rnorm(100,10,1) Y = rnorm(100,10,2) X = rnorm(100,10,1) Y = rnorm(100,9.9,1.1)
  • 21. Количественная оценка степени различия Критерий Колмогорова - Смирнова
  • 22. Чем отличаются эти данные? x y 1 -1.0 0.0 2 -0.8 0.6 3 -0.6 0.8 4 -0.4 0.9 5 -0.2 1.0 6 0.0 1.0 7 0.2 1.0 8 0.4 0.9 9 0.6 0.8 10 0.8 0.6 11 1.0 0.0 12 -1.0 0.0 13 -0.8 -0.6 14 -0.6 -0.8 15 -0.4 -0.9 16 -0.2 -1.0 17 0.0 -1.0 18 0.2 -1.0 19 0.4 -0.9 20 0.6 -0.8 21 0.8 -0.6 22 1.0 0.0 x y 1 -1.0 -1.0 2 -0.8 -0.8 3 -0.6 -0.6 4 -0.4 -0.4 5 -0.2 -0.2 6 0.0 0.0 7 0.2 0.2 8 0.4 0.4 9 0.6 0.6 10 0.8 0.8 11 1.0 1.0 12 -1.0 1.0 13 -0.8 0.8 14 -0.6 0.6 15 -0.4 0.4 16 -0.2 0.2 17 0.0 0.0 18 0.2 -0.2 19 0.4 -0.4 20 0.6 -0.6 21 0.8 -0.8 22 1.0 -1.0 x y 1 -3.1 0.0 2 -2.8 -0.3 3 -2.5 -0.5 4 -2.1 -0.8 5 -1.8 -1.0 6 -1.5 -1.0 7 -1.2 -0.9 8 -0.9 -0.8 9 -0.6 -0.6 10 -0.3 -0.3 11 0.0 0.0 12 0.3 0.3 13 0.6 0.6 14 0.9 0.8 15 1.2 1.0 16 1.5 1.0 17 1.8 0.9 18 2.1 0.8 19 2.5 0.6 20 2.8 0.3 21 3.1 0.0 22 1.0 -1.0
  • 23. Вот чем Графики наилучшим образом представляют данные
  • 24. 10 основных ошибок, которые нельзя допускать в анализе данных 3. Неверная визуализация
  • 25.
  • 26.
  • 27.
  • 28. Как не следует строить графики
  • 29. Как вообще не следует строить графики
  • 31. Почему круговые диаграммы это зло Невозможно сравнивать абсолютные значения
  • 32. Восприимчивость к размеру Почему круговые диаграммы это зло
  • 33. Невозможно анализировать комбинированные значения Почему круговые диаграммы это зло
  • 34. 10 основных ошибок, которые нельзя допускать в анализе данных 4. Считать корреляцию причинной связью
  • 35. Вопрос Где корреляция больше? 1) У красного графика 2) У синего графика 3) В целом поровну В целом поровну
  • 37.
  • 39. Корреляция как следствие третьего фактора Корреляция не подразумевает причинной связи
  • 41. Как узнать, где причина, а где следствие? Тест Грэнджера на причинностьКоличество куриц в момент t Количество яиц в момент времени t Гипотеза 1: x не является причиной y Гипотеза 2: y не является причиной x
  • 42. Проверка на данных Яйцо появилось раньше
  • 43. Машинное обучение Машинное обучение изучает методы построения моделей и алгоритмов, способных обучаться на данных Данные Алгоритм Модель
  • 44. Supervised Learning • Необходимо задать обучающую выборку – набор данных признаки : результат • Алгоритм применяется для распознавания неизвестных объектов Классификация Регрессия
  • 45. Unsupervised Learning • Для обучения нужна выборка только признаков • Алгоритм применяется для обнаружения взаимосвязей и закономерностей между объектами Кластеризация Поиск ассоциативных правил
  • 46. 10 основных ошибок, которые нельзя допускать в анализе данных 5. Неверно выбранная целевая переменная
  • 47. Прогнозирование оттока клиентов • Необходимо выявить клиентов, которые с большой вероятностью прекратят взаимодействие с компанией • Предиктивная модель обучается на уже ушедших клиентах, ищет признаки оттока • Каждому клиенту сопоставляется вероятность уйти в отток через какой-то промежуток времени
  • 48. «Идеальная» модель оттока Точность прогнозирования составляет 98.2% Экономическая эффективность отсутствует
  • 49. Моделирование отклика на предложение Подход «от продукта» Подход «от клиента»
  • 50. Матрица отклика Клиент ID Продукт А Продукт B Продукт C Продукт D SMS Звонок E-mail SMS Звонок E-mail SMS Звонок E-mail 1626 60% 80% 45% 20% 30% 10% 15% 25% 70% 2832 50% 60% 35% 80% 90% 85% 55% 60% 60% 2515 75% 80% 50% 10% 15% 5% 60% 70% 50% 9010 20% 25% 25% 10% 30% 10% 85% 90% 40% 7812 30% 35% 30% 50% 60% 55% 90% 95% 20% 3511 60% 50% 60% 10% 30% 20% 40% 60% 80% 6266 55% 65% 35% 25% 25% 15% 60% 75% 25% 1842 25% 35% 20% 50% 50% 45% 55% 50% 85%
  • 51. Отклик и прибыль Клиент ID Кампании Кампания 1 Кампания 2 Кампания 3 1626 100р. 60% 120р. 35% 80р. 40% 2832 50р. 60% 30р. 50% 35р. 60% 2515 80р. 60% 130р. 70% 100р. 20% 9010 60р. 35% 25р. 90% 40р. 60% 7812 80р. 55% 110р. 60% 115р. 40% 3511 125р. 65% 50р. 50% 140р. 70% При построении модели необходимо учитывать условия, в которых ей придется работать Высокая вероятность отклика не гарантирует высокую эффективность
  • 52. 10 основных ошибок, которые нельзя допускать в анализе данных 6. Допускать переобучение модели
  • 53. Регрессионная задача Аппроксимация полиномом степени М Минимизация среднеквадратичной ошибки
  • 54. Точность растет при увеличении М Переобучение У переобученной модели очень низкая точность на тестовой выборке
  • 55. Задача – минимизация ошибки на тесте Переобучение
  • 56. Переобучение уменьшается при увеличении объема выборки Чем больше данных, тем сложнее модель можно построить
  • 57. Еще раз теорема Байеса Априорная вероятность (до наблюдения) Эффект наблюдаемых данных Апостериорная вероятность (после наблюдения) Функция правдоподобия описывает насколько вероятны наблюдаемые данные при различных значениях весов w
  • 59. Как подобрать нужные параметры модели Тюнинг модели заключается в подборе таких параметров λ и M, при которых ошибка на тестовой выборке минимальная – кросс-валидация
  • 60. 7. Оставить выбросы и шумы в данных 10 основных ошибок, которые нельзя допускать в анализе данных
  • 61. X 16,24 26,72 12,76 34,67 17,82 23,73 23,46 72,15 21,23 93,24 10,12 3,16 26,72 25,51 27,11 24,17 44,24 27,88 51,23 80,22 1,41 17,13 Какая величина наилучшим образом описывает эти данные? Среднее 30,95 Медиана 24,84 X 93,24 80,22 72,15 51,23 44,24 34,67 27,88 27,11 26,72 26,72 25,51 24,17 23,73 23,46 21,23 17,82 17,13 16,24 12,76 10,12 3,16 1,41 3QR MED 1QR
  • 62. Задача поиска аномалий Аномалии – это те события или наблюдения, которые не соответствуют ожидаемому паттерну других событий в данных • Intrusion detection • Fraud detection • Fault detection • System monitoring • Event detection • Data preprocessing Очистка от шумов позволяет значительно увеличить точность предиктивной модели
  • 63. Задача прогнозирования сбоев в работе различных систем
  • 64. 4 этапа построения модели 1. Необходимо правильно обработать данные • Модель структурирования потоковых данных позволяет извлечь из машинных данных важные признаки • Без обработки данных увеличивается погрешность прогнозирования Паттерн сбоя До обработки После обработки
  • 65. 4 этапа построения модели 2. Необходимо найти сбои в исторических данных • Для того, чтобы прогнозировать сбои в будущем, необходимо «обучиться» на прошлых ошибках. • Вероятностная модель определяет сбои как значимые отклонения от нормального состояния работы систем (one class SVM) Детектирование значимых отклонений от нормы
  • 66. Подход к решению 3. Выявление значимых признаков сбоев • Выявив сбои, необходимо автоматически найти причины их возникновения • Методы корреляционного анализа позволяют найти причины прошедших сбоев Корреляционная матица признаков сбоев
  • 67. Подход к решению 4. Построение предиктивной модели Прошлые наблюдения Будущая вероятность сбоя Триггеры (предикторы) ошибок • Модель обучается на исторических данных, сопоставляя прошлым наблюдениям будущую вероятность сбоя в различных временных интервалах • В реальном времени модель отслеживает показатели систем и триггеры ошибок, рассчитывая будущую вероятность сбоя
  • 68. 8. Неверно разделить исследование и оптимизацию 10 основных ошибок, которые нельзя допускать в анализе данных
  • 69.
  • 70. Снова ошибки I и II рода Реальность Гипотеза Верная Неверная Верна True Positives False Positives Неверна False Negatives True Negatives Exploration Error Exploitation Error
  • 72. 9. Делать поспешные выводы 10 основных ошибок, которые нельзя допускать в анализе данных
  • 73. Insight не означает конец исследования Exploration Exploitation t Исследование Оптимизация Insight
  • 74. Почему нельзя делать поспешные выводы
  • 75. Основные этапы построения предиктивных моделей Data Preprocessing Feature Engineering Feature Selection Machine Learning Back Testing • Необходимая обработка данных: очистка шумов, выбросов. Приведение данных к нормальному виду • Генерация факторов и признаков в модели. Поиск скрытых паттернов • Выбор предикторов, выявление значимых закономерностей • Построение модели алгоритмами машинного обучения, тюнинг модели • Тестирование модели на реальных данных
  • 76. 10. Выбор неправильного инструмента для анализа 10 основных ошибок, которые нельзя допускать в анализе данных
  • 78. 10 основных ошибок, которые нельзя допускать в анализе данных 1. Опускать поправку на априорные распределения 2. Использовать для анализа неслучайную выборку 3. Неверная визуализация 4. Считать корреляцию причинной связью 5. Неверно выбранная целевая переменная 6. Допускать переобучение модели 7. Оставить выбросы и шумы в данных 8. Неверно разделить исследование и оптимизацию 9. Делать поспешные выводы 10. Выбор неправильного инструмента для анализа Вопросы?