SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Практическое применение 
Data Mining-технологий 
Гринчук Александр 
ООО «Нанотех» 
ИБМТ БГУ
Текущее состояние дел 
 Точно знаем надо 
 Примерно знаем почему 
 Плохо знаем как 
2
Национальные особенности 
 Банки – в аутсайдерах 
 Лидеры: телеком и игровая индустрия 
 Торговые сети: сдержанный интерес 
3
Данные 
 Собираются не для анализа 
 Собираются не всегда, когда можно 
 Собираются некачественно 
4
Проблемы 
 Малая выборка 
 Несоблюдение чистоты 
 Недооценка динамики 
 Недоверие к первым результатам 
5
«Малые» данные 
 Много для статистики 
 Мало для автоматизации 
 Пример: прогнозирование 
6
«Ручное» прогнозирование 
 Много для статистики 
 Мало для DataMining 
7
«Ручное» прогнозирование 
 Много для статистики 
 Мало для DataMining 
8
«Ручное» прогнозирование 
 Стратегия: 
 выявить шаблоны «вручную» 
 применить автоматически 
9
Несоблюдение чистоты 
 Сложность выявления 
 Сложность обработки 
 Последствия серьезнее, чем кажутся на 
первый взгляд 
10
Примеры (реальные случаи) 
 ошибки при вводе марки автомобиля: 14 (!) 
вариантов написания марки “Mercedes”. DEU 
указано вместо DAEWOO в 6-ти анкетах, все 
заемщики рассчитались с кредитом. Ошибочный 
вывод: наличие автомобиля марки DEU 
свидетельствует о высокой надежности клиента; 
 указана область проживания как БРЕСЦКАЯ (4 случая 
– все «плохие»). На практике выяснилось, что 
значимость региона не столь высока; 
 количество не столь очевидных примеров велико. 
Доля строк хотя бы с одной ошибкой, опечаткой или 
пропуском может достигать 70%. 
11
Сравним 
 Между прочим: алгоритмы 
разрабатывались для первой ситуации! 
Требования теории Банковская практика 
Образцы для исследования берутся 
в одинаковых условиях 
12 
Клиенты приходят в разное время и 
их качественный состав меняется 
Измерения производятся точно, 
результаты тщательно 
регистрируются 
Работают люди: ошибаются, 
пропускают, путают 
Отбираются образцы в пропорциях, 
отражающих реальное положение 
дел 
Есть сведения только о клиентах, 
получивших одобрение на выдачу 
кредита
Способ решения 
 Предобработка данных 
 Модификация алгоритмов 
13
Пример: квантование 
14
Недооценка динамики 
 Банки: старение кредитов 
 Отток: смешивание групп 
 Причина: из-за недостатка данных 
объединяются наблюдения за 
относительно большой промежуток 
времени 
15
Эффект старения 
 Ложное ощущение опасности, из-за роста 
доли «старых» 
16 
8% 
7% 
6% 
5% 
4% 
3% 
2% 
1% 
0% 
янв.10 
фев.10 
мар.10 
апр.10 
0 2 4 6 8 10 12 14 16
Отток клиентов 
 Три группы, не одна 
 Остались «упрямые», а не улучшилась 
ситуация 
0.7 
0.6 
0.5 
0.4 
0.3 
0.2 
17 
1 2 3 4 5 
0.1 
0 2 4 6 8 10 
0.5 
0.4 
0.3 
0.2 
0.1
Недоверие к результатам 
 Требование «обзорности» 
 Требование «привычности» 
 Результат должен «выражаться в денежных 
единицах» 
18
Ошибки 
 Заранее задаются: 
 вид результата 
 ограничения по набору данных 
 Ошибки бывают в разные стороны 
19
Пример: успеваемость 
 Факторный анализ: 2 фактора 
 Прогноз = Коэффициент0 
+Коэффициент1 × Фактор1 
+ Коэффициент2 × Фактор2 
№ Фамилия МЕНЕДЖ МАТЕМ_1 ОСЕ ЭКОН_1 ИТ МАТЕМ_2 БУХУЧЕТ ЭКОН_2 
77 … 7 2 6 4 7 6 6 7 
78 … 8 4 7 4 5 6 7 7 
79 … 6 6 7 3 5 4 7 7 
80 … 7 9 7 7 8 8 9 9 
81 … 10 5 5 7 8 9 8 8 
82 … 6 4 5 4 6 4 6 6 
83 … 7 8 6 7 8 7 10 8 
84 … 9 4 8 7 8 4 8 8 
85 … 9 10 9 9 9 9 9 9 
86 … 4 2 4 2 4 2 5 5 
20 
Входные поля Корреляция с выходными полями 
№ Поле Фактор 1 Фактор 2 
1 МЕНЕДЖ 0,842 0,083 
2 МАТЕМ_1 0,881 0,249 
3 ОСЕ 0,804 0,396 
4 ЭКОН_1 0,951 -0,172 
5 ИТ 0,784 -0,536 
6 МАТЕМ_2 0,901 -0,185 
7 БУХУЧЕТ 0,846 0,058 
8 ЭКОН_2 0,92 0,101
Отслеживание динамики 
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 
21 
2 
1,5 
1 
0,5 
0 
-0,5 
-1 
-1,5 
-2 
-2,5 
-3
Игнорирование известного 
 Результаты отличаются от соседей и 
аналогичных организаций? 
 Причина ошибка или особенности? 
 Пример: продажи мобильных телефонов, 
особенности для категории «Образование 
среднее специальное» 
22
Доведение до результата 
23
Ограничения по алгоритмам 
 Интерпретируемые 
 Проверяемые 
 Необходимость взаимопроверки 
24
Пример: деревья решений 
25
Пример: карты Кохонена 
26
Взаимная подстраховка 
27
Кластеризация и деревья решений 
28
«Госзаказ» 
 Тестирование 
 Складские задачи 
29
Тестирование 
 Применение ассоциативного анализа 
30
Платформа 
 Требования 
 Гибкость в работе 
 Удобство вместо наворотов 
 Возможность маневра 
31
Алгоритмы 
 Дерево решений 
 Логистическая регрессия 
 Самоорганизующиеся сети 
 Apriory 
 Линейная регрессия 
 Возможности комбинирования 
32
Варианты ПО 
 Deductor Studio 
 RExcel 
33
Deductor 
 Простота в освоении и «промышленная 
мощность» 
34
RExcel 
 Привычный интерфейс и алгоритмы R 
35
Заключение 
 Часто наблюдается: недостаток данных и их 
неготовность к непосредственному анализу 
 В такой ситуации предпочтительнее 
использование комбинации простых и 
прозрачных алгоритмов вместо разработки 
и применения сложных 
 Поэтому удобное ПО хотя бы с 
минимальным «джентельменским 
набором» лучше неудобных «комбайнов» 
36

Weitere ähnliche Inhalte

Ähnlich wie Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
Автоматизация подбора: оценка кандидатов с использованием методов машинного о...Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
Автоматизация подбора: оценка кандидатов с использованием методов машинного о...Denisenko Sergei
 
Не все метрики одинаково полезны
Не все метрики одинаково полезныНе все метрики одинаково полезны
Не все метрики одинаково полезныDLP-Эксперт
 
Антология антифрода: переход к математическим моделям с применением элементов...
Антология антифрода: переход к математическим моделям с применением элементов...Антология антифрода: переход к математическим моделям с применением элементов...
Антология антифрода: переход к математическим моделям с применением элементов...Positive Hack Days
 
Евгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхЕвгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхGlobal Innovation Labs
 
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...K50 Project
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео БрейманаSerge Terekhov
 
Machine Learning for Recruitment
Machine Learning for RecruitmentMachine Learning for Recruitment
Machine Learning for RecruitmentDen Reymer
 
Collaboration - результати опитування та контекст АППАУ
Collaboration - результати опитування та контекст АППАУCollaboration - результати опитування та контекст АППАУ
Collaboration - результати опитування та контекст АППАУAPPAU_Ukraine
 
QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...Irina Vinogradova
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analyticsCleverDATA
 
Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)Alexey Kuznetsov
 
Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...AUTODOC
 
Искусственный интеллект в кредитном скоринге
Искусственный интеллект в кредитном скорингеИскусственный интеллект в кредитном скоринге
Искусственный интеллект в кредитном скорингеrusbase
 
Кейсы машинного обучения в Сбербанке
 Кейсы машинного обучения в Сбербанке Кейсы машинного обучения в Сбербанке
Кейсы машинного обучения в СбербанкеИнфобанк бай
 
12 vzor
12 vzor 12 vzor
12 vzor malvvv
 
Юзабилити ДБО исследования
Юзабилити ДБО исследованияЮзабилити ДБО исследования
Юзабилити ДБО исследованияДмитрий Силаев
 
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...it-network
 
Bacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlBacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlDmitry Guzenko
 

Ähnlich wie Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ (20)

Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
Автоматизация подбора: оценка кандидатов с использованием методов машинного о...Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
 
Не все метрики одинаково полезны
Не все метрики одинаково полезныНе все метрики одинаково полезны
Не все метрики одинаково полезны
 
Антология антифрода: переход к математическим моделям с применением элементов...
Антология антифрода: переход к математическим моделям с применением элементов...Антология антифрода: переход к математическим моделям с применением элементов...
Антология антифрода: переход к математическим моделям с применением элементов...
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
Евгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхЕвгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данных
 
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Machine Learning for Recruitment
Machine Learning for RecruitmentMachine Learning for Recruitment
Machine Learning for Recruitment
 
Collaboration - результати опитування та контекст АППАУ
Collaboration - результати опитування та контекст АППАУCollaboration - результати опитування та контекст АППАУ
Collaboration - результати опитування та контекст АППАУ
 
QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...QUESTions - how to get clear answers to the difficult questions about project...
QUESTions - how to get clear answers to the difficult questions about project...
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analytics
 
Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)Debunking Risk Management in Software (RUS)
Debunking Risk Management in Software (RUS)
 
ForecastNow
ForecastNowForecastNow
ForecastNow
 
Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...Lies, deception, and manipulation. How the same data can tell completely diff...
Lies, deception, and manipulation. How the same data can tell completely diff...
 
Искусственный интеллект в кредитном скоринге
Искусственный интеллект в кредитном скорингеИскусственный интеллект в кредитном скоринге
Искусственный интеллект в кредитном скоринге
 
Кейсы машинного обучения в Сбербанке
 Кейсы машинного обучения в Сбербанке Кейсы машинного обучения в Сбербанке
Кейсы машинного обучения в Сбербанке
 
12 vzor
12 vzor 12 vzor
12 vzor
 
Юзабилити ДБО исследования
Юзабилити ДБО исследованияЮзабилити ДБО исследования
Юзабилити ДБО исследования
 
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
 
Bacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlBacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsml
 

Mehr von WG_ Events

Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...WG_ Events
 
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...WG_ Events
 
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...WG_ Events
 
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...WG_ Events
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...WG_ Events
 
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...WG_ Events
 
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...WG_ Events
 
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...WG_ Events
 
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...WG_ Events
 
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - WargamingКонстантин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - WargamingWG_ Events
 
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - WargamingОлеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - WargamingWG_ Events
 
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...WG_ Events
 
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...WG_ Events
 
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник HappymagentaАртем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник HappymagentaWG_ Events
 
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...WG_ Events
 
Алексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ WargamingАлексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ WargamingWG_ Events
 
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ruМихаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ruWG_ Events
 
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - WargamingОльга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - WargamingWG_ Events
 
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - WargamingИлья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - WargamingWG_ Events
 
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargamingЮркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargamingWG_ Events
 

Mehr von WG_ Events (20)

Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
 
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
 
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
 
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
 
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
 
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
 
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
 
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
 
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - WargamingКонстантин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
 
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - WargamingОлеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
 
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
 
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
 
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник HappymagentaАртем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
 
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
 
Алексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ WargamingАлексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ Wargaming
 
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ruМихаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
 
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - WargamingОльга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
 
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - WargamingИлья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
 
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargamingЮркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
 

Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

  • 1. Практическое применение Data Mining-технологий Гринчук Александр ООО «Нанотех» ИБМТ БГУ
  • 2. Текущее состояние дел  Точно знаем надо  Примерно знаем почему  Плохо знаем как 2
  • 3. Национальные особенности  Банки – в аутсайдерах  Лидеры: телеком и игровая индустрия  Торговые сети: сдержанный интерес 3
  • 4. Данные  Собираются не для анализа  Собираются не всегда, когда можно  Собираются некачественно 4
  • 5. Проблемы  Малая выборка  Несоблюдение чистоты  Недооценка динамики  Недоверие к первым результатам 5
  • 6. «Малые» данные  Много для статистики  Мало для автоматизации  Пример: прогнозирование 6
  • 7. «Ручное» прогнозирование  Много для статистики  Мало для DataMining 7
  • 8. «Ручное» прогнозирование  Много для статистики  Мало для DataMining 8
  • 9. «Ручное» прогнозирование  Стратегия:  выявить шаблоны «вручную»  применить автоматически 9
  • 10. Несоблюдение чистоты  Сложность выявления  Сложность обработки  Последствия серьезнее, чем кажутся на первый взгляд 10
  • 11. Примеры (реальные случаи)  ошибки при вводе марки автомобиля: 14 (!) вариантов написания марки “Mercedes”. DEU указано вместо DAEWOO в 6-ти анкетах, все заемщики рассчитались с кредитом. Ошибочный вывод: наличие автомобиля марки DEU свидетельствует о высокой надежности клиента;  указана область проживания как БРЕСЦКАЯ (4 случая – все «плохие»). На практике выяснилось, что значимость региона не столь высока;  количество не столь очевидных примеров велико. Доля строк хотя бы с одной ошибкой, опечаткой или пропуском может достигать 70%. 11
  • 12. Сравним  Между прочим: алгоритмы разрабатывались для первой ситуации! Требования теории Банковская практика Образцы для исследования берутся в одинаковых условиях 12 Клиенты приходят в разное время и их качественный состав меняется Измерения производятся точно, результаты тщательно регистрируются Работают люди: ошибаются, пропускают, путают Отбираются образцы в пропорциях, отражающих реальное положение дел Есть сведения только о клиентах, получивших одобрение на выдачу кредита
  • 13. Способ решения  Предобработка данных  Модификация алгоритмов 13
  • 15. Недооценка динамики  Банки: старение кредитов  Отток: смешивание групп  Причина: из-за недостатка данных объединяются наблюдения за относительно большой промежуток времени 15
  • 16. Эффект старения  Ложное ощущение опасности, из-за роста доли «старых» 16 8% 7% 6% 5% 4% 3% 2% 1% 0% янв.10 фев.10 мар.10 апр.10 0 2 4 6 8 10 12 14 16
  • 17. Отток клиентов  Три группы, не одна  Остались «упрямые», а не улучшилась ситуация 0.7 0.6 0.5 0.4 0.3 0.2 17 1 2 3 4 5 0.1 0 2 4 6 8 10 0.5 0.4 0.3 0.2 0.1
  • 18. Недоверие к результатам  Требование «обзорности»  Требование «привычности»  Результат должен «выражаться в денежных единицах» 18
  • 19. Ошибки  Заранее задаются:  вид результата  ограничения по набору данных  Ошибки бывают в разные стороны 19
  • 20. Пример: успеваемость  Факторный анализ: 2 фактора  Прогноз = Коэффициент0 +Коэффициент1 × Фактор1 + Коэффициент2 × Фактор2 № Фамилия МЕНЕДЖ МАТЕМ_1 ОСЕ ЭКОН_1 ИТ МАТЕМ_2 БУХУЧЕТ ЭКОН_2 77 … 7 2 6 4 7 6 6 7 78 … 8 4 7 4 5 6 7 7 79 … 6 6 7 3 5 4 7 7 80 … 7 9 7 7 8 8 9 9 81 … 10 5 5 7 8 9 8 8 82 … 6 4 5 4 6 4 6 6 83 … 7 8 6 7 8 7 10 8 84 … 9 4 8 7 8 4 8 8 85 … 9 10 9 9 9 9 9 9 86 … 4 2 4 2 4 2 5 5 20 Входные поля Корреляция с выходными полями № Поле Фактор 1 Фактор 2 1 МЕНЕДЖ 0,842 0,083 2 МАТЕМ_1 0,881 0,249 3 ОСЕ 0,804 0,396 4 ЭКОН_1 0,951 -0,172 5 ИТ 0,784 -0,536 6 МАТЕМ_2 0,901 -0,185 7 БУХУЧЕТ 0,846 0,058 8 ЭКОН_2 0,92 0,101
  • 21. Отслеживание динамики -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 21 2 1,5 1 0,5 0 -0,5 -1 -1,5 -2 -2,5 -3
  • 22. Игнорирование известного  Результаты отличаются от соседей и аналогичных организаций?  Причина ошибка или особенности?  Пример: продажи мобильных телефонов, особенности для категории «Образование среднее специальное» 22
  • 24. Ограничения по алгоритмам  Интерпретируемые  Проверяемые  Необходимость взаимопроверки 24
  • 29. «Госзаказ»  Тестирование  Складские задачи 29
  • 30. Тестирование  Применение ассоциативного анализа 30
  • 31. Платформа  Требования  Гибкость в работе  Удобство вместо наворотов  Возможность маневра 31
  • 32. Алгоритмы  Дерево решений  Логистическая регрессия  Самоорганизующиеся сети  Apriory  Линейная регрессия  Возможности комбинирования 32
  • 33. Варианты ПО  Deductor Studio  RExcel 33
  • 34. Deductor  Простота в освоении и «промышленная мощность» 34
  • 35. RExcel  Привычный интерфейс и алгоритмы R 35
  • 36. Заключение  Часто наблюдается: недостаток данных и их неготовность к непосредственному анализу  В такой ситуации предпочтительнее использование комбинации простых и прозрачных алгоритмов вместо разработки и применения сложных  Поэтому удобное ПО хотя бы с минимальным «джентельменским набором» лучше неудобных «комбайнов» 36