3. Задачи
• Предотвращение оттока (50-70 % оттока у выбранного
оператора);
• Распространение товара через «лидеров мнений» (… в
большинстве сетей телекома почти 90% групп имеют явно
выраженных «лидеров мнений»);
• Определение мошенничества;
• Сегментация пользователей.
6. Топология графов в телекоме
Распределение рёбер лучше
характеризует топологию графов, нежели
распределение узлов;
1 день кабельнох звонков: 53 миллиона
узлов и 170 миллиона рёбер
3,7 миллионов разрозненных
компонентов, большинство из которых
составляют пары номеров, звонящие
только друг-другу.
80% узлов состоят в гигантской
компоненте, диаметр которой равен 20.
Nanavati, Amit A., et al. "On the structural properties of massive telecom call graphs:
findings and implications." Proceedings of the 15th ACM international conference on
Information and knowledge management. ACM, 2006.
7. Ассортативность
• Более 99% узлов имеют Indegree <= 100;
• В телекоме регионы с высокой ассортативностью могут
быть использованы для управления эффективностью
рекламных кампаний и распространения новых
сервисов, т.к. там возможны техники Word-of-Mouth
маркетинга;
• В регионах с низкой ассортативностью больше денег
нужно тратить на традиционную рекламу.
10. Коэффициент кластеризации
Коэффициент кластеризации сетей
телекома похож на коэффициент
кластеризации e-mail сетей
Значение = 1 он принимает в
основном в кликах размером 3.
Модель графа отличается от bow-
tie где все 3 части состоят из
равного числа узлов
12. Предсказание оттока: advanced
• 60 ГБ
• 3.1*10^6 узлов and 12.3*10^6 связей.
• Только реципрокные связи (2.1*10^6 узлов b 9.3*10^6 связей)
• 32.1 *10^6 звонков, длительностью 955*10^3 часов
Dasgupta, Koustuv, et al. "Social ties and their relevance to churn in mobile telecom
networks." Proceedings of the 11th international conference on Extending database technology:
Advances in database technology. ACM, 2008.
17. Определение мошенников и ботов
• 100 000 наиболее активных пользователей телефона.
• паттерны распределения временных промежутков
между исходящими звонками каждого абонента =>
кластеризация.
• Распределение Вейбулла (73%) – нормальные люди
(группа 4);
• Степенное распределение (3%) – боты, продавцы и
мошенники (группа 1, 2, 3)
Авторами было обнаружено два вида распределений:
степенное и распределение Вейбулла.
Боты характеризуются высокой частотой исходящих звонков
на небольшое число, номеров, в то время как мошенники и
абоненты, занимающиеся телефонными продажами, при
столь же высокой частоте исходящих звонков имеют
значительно большее число адресатов, среди которых у них
отсутствуют «любимые номера».
Jiang, Zhi-Qiang, et al. "Calling patterns in human communication
dynamics." Proceedings of the National Academy of Sciences 110.5
(2013): 1600-1605.
19. Резюме
• Использование сетевых фичей повышает качество аналитики в
телекоме;
• Большинство решений построены на реляционных базах данных;
• Вычисление телекомовских графов можно выполнять на R за
минуты;
• Некоторые виды аналитики (кластеризация) работают даже на
Windows XP Pentium 4, 3.0GHz, 2G RAM.