Nesta palestra, vamos trabalhar uma abordagem passo a passo de como construir um modelo de classificação, para identificar os padrões de clientes de uma empresa de telefonia que cancelaram o serviço, de modo que a operadora possa prever o risco de cancelamento e iniciar um trabalho para evitar que isso aconteça.
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em serviços de telefonia
1. Mineração de dados com
Classificação de Dados
Um estudo de caso sobre o Churn Rate em serviços de telefonia
PROF. JOÃO GABRIEL LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIELLIMA
Mineração de dados com RapidMiner - Prof. João Gabriel Lima
2. Prof. João Gabriel Lima
• Pesquisador em Mineração de dados e Inteligência Computacional;
• Engenheiro da Computação, especialista em Software e Hardware;
• Doutorando em Computação Aplicada;
Mineração de dados com RapidMiner - Prof. João Gabriel Lima
5. Serviço de telefonia
Nesta base de dados, temos os dados dos clientes de uma empresa de telefonia.
Vamos focar no Churn Rate
O que é o Churn Rate?
◦ Trata-se de uma métrica que avalia a quantidade de clientes que abandonam/cancelam um
determinado serviço.
◦ Para uma empresa expandir é imprescindível que o seu Growth Rate (índice de crescimento) supere o
seu Churn Rate.
◦ Objetivo é criar estratégias para lidar com os clientes de modo a compreender e diminuir o Churn Rate.
Mineração de dados com RapidMiner - Prof. João Gabriel Lima
6. Serviço de telefonia
Nesta base temos as seguintes informações:
- TECNOLOGIA: 4G, Telefone Móvel, Telefone Fixo, Fibra
- IDADE
- DATA DE ADESÃO
- LIGACOES_SUPORTE_ULTIMO_ANO: quantidade total de ligações feitas para ao
suporte
- MEDIA_FATURA_MENSAL
- TAXA_DE_CHURN: probabilidade de cancelamento
Mineração de dados com RapidMiner - Prof. João Gabriel Lima
7. Qual o objetivo chave?
EM MINERAÇÃO DE DADOS, TRAÇAR O OBJETIVO É O PRIMEIRO
PASSO. É FUNDAMENTAL!
Mineração de dados com RapidMiner - Prof. João Gabriel Lima
12. Passo 1 – Abrindo nossos dados na ferramenta
Abra o arquivo telefonia_churn_rate.csv com o componente Load Data.
13. Passo 2 – ETL e preparação de dados
Precisamos marcar a coluna que será o alvo
das análises ( TAXA_DE_CANCELAMENTO) e
convetê-la de numérica para binária.
Componentes:
- Set Rule
- Numerical to Binomial
14. Passo 3 – Preparando a validação do modelo
Validar seu modelo é a chave do sucesso. O cross-validation separa o conjunto de dados em
consjunto de treinamento e de teste.
Componente:
* X-Validation
15. Passo 3.1– Preparando o grupo de treinamento
A maioria dos clientes querem ficar com um
serviço ao invés de abandoná-lo (rsrsr)
Para isso precisamos equilibrar nosso
conjunto de treinamento para focar sobre o
caso que estamos interessados. Como se
estivéssemos colocando uma lupa sobre a
taxa de cancelamento.
Componentes:
- Sample
17. Passo 3.2– Preparando o grupo de treinamento
Em vez de apenas fazer a configuração manual, vamos otimizá-lo.
Utilizando o modelo Wisdom of the Crowd para uma árvore de decisão nós vamos otimizar a
profundidade máxima no intervalo [20-29]
Componente:
- Optimize Parameters (Grid)
18. Passo 4– Preparando nosso classificador
Abrindo o ”Otimizador de Parâmetros”, o modelo será treinado e avaliado.
Leitura recomendada:
Wisdom of the Crowd
Componentes:
- Decision Tree; Apply Model; Performance
20. Passo 3.2– Preparando o grupo de teste
O modelo treinado será testado com esses dados para verificar e validar a eficiência dos resultados
Componentes:
- Apply Model
- Performance (Binominal Classification)
21. Passo 3.3– Preparando o grupo de teste
O modelo treinado será testado com esses dados para verificar e validar a eficiência dos resultados
Componentes:
- Apply Model
- Performance (Binominal Classification)
22. Passo 3.3– Preparando o grupo de teste
O modelo treinado será testado com esses dados para verificar e validar a eficiência dos resultados
Componentes:
- Apply Model
- Performance (Binominal Classification)
25. Utilizando o modelo
Queremos prever o comportamento de novos clientes. Para isso vamos utilizar o dataset:
telefonia_churn_rate_final.csv
Componentes:
- Read CSV
- Nominal to Date
- Set Role
Apply Model
30. Atividade
A partir de uma base de dados de sua escolha, com, no mínimo 100.000 registros, aplique a
classificação de dados de modo que seja possível prever o comportamento do seu objeto de
estudo, destacando a interpretação dos resultados.
Devem apresentar de acordo com o exporto em sala de aula.
31. Mineração de dados com
Classificação de Dados
Um estudo de caso sobre o Churn Rate em serviços de telefonia
PROF. JOÃO GABRIEL LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIELLIMA
Mineração de dados com RapidMiner - Prof. João Gabriel Lima