Александр дал общую характеристику рынка бизнес-аналитики в Беларуси. На примере реальных бизнес-задач он рассказал о проблемах, с которыми сталкиваются специалисты при внедрении Data Mining, и о том, как эти проблемы можно решить при помощи программного обеспечения
10. Несоблюдение чистоты
Сложность выявления
Сложность обработки
Последствия серьезнее, чем кажутся на
первый взгляд
10
11. Примеры (реальные случаи)
ошибки при вводе марки автомобиля: 14 (!)
вариантов написания марки “Mercedes”. DEU
указано вместо DAEWOO в 6-ти анкетах, все
заемщики рассчитались с кредитом. Ошибочный
вывод: наличие автомобиля марки DEU
свидетельствует о высокой надежности клиента;
указана область проживания как БРЕСЦКАЯ (4 случая
– все «плохие»). На практике выяснилось, что
значимость региона не столь высока;
количество не столь очевидных примеров велико.
Доля строк хотя бы с одной ошибкой, опечаткой или
пропуском может достигать 70%.
11
12. Сравним
Между прочим: алгоритмы
разрабатывались для первой ситуации!
Требования теории Банковская практика
Образцы для исследования берутся
в одинаковых условиях
12
Клиенты приходят в разное время и
их качественный состав меняется
Измерения производятся точно,
результаты тщательно
регистрируются
Работают люди: ошибаются,
пропускают, путают
Отбираются образцы в пропорциях,
отражающих реальное положение
дел
Есть сведения только о клиентах,
получивших одобрение на выдачу
кредита
13. Способ решения
Предобработка данных
Модификация алгоритмов
13
15. Недооценка динамики
Банки: старение кредитов
Отток: смешивание групп
Причина: из-за недостатка данных
объединяются наблюдения за
относительно большой промежуток
времени
15
17. Отток клиентов
Три группы, не одна
Остались «упрямые», а не улучшилась
ситуация
0.7
0.6
0.5
0.4
0.3
0.2
17
1 2 3 4 5
0.1
0 2 4 6 8 10
0.5
0.4
0.3
0.2
0.1
18. Недоверие к результатам
Требование «обзорности»
Требование «привычности»
Результат должен «выражаться в денежных
единицах»
18
19. Ошибки
Заранее задаются:
вид результата
ограничения по набору данных
Ошибки бывают в разные стороны
19
22. Игнорирование известного
Результаты отличаются от соседей и
аналогичных организаций?
Причина ошибка или особенности?
Пример: продажи мобильных телефонов,
особенности для категории «Образование
среднее специальное»
22
36. Заключение
Часто наблюдается: недостаток данных и их
неготовность к непосредственному анализу
В такой ситуации предпочтительнее
использование комбинации простых и
прозрачных алгоритмов вместо разработки
и применения сложных
Поэтому удобное ПО хотя бы с
минимальным «джентельменским
набором» лучше неудобных «комбайнов»
36