Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.
Painel 01 03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
Filiação Partidária e Risco Corrupção
1. Filiação Partidária e Risco de Corrupção
de Servidores Públicos Federais
Ricardo Silva Carvalho – CGU/SE/DIE/CGIE
Brasil 100% Digital: 1º Seminário sobre Análise de Dados na
Administração Pública | 11/09/2015 @ TCU
7. Entendimento do Negócio
DIE
PREVENÇÃO E COMBATE À CORRUPÇÃO
Diretoria de
Pesquisas e
Informações
Estratégicas
Servidores públicos federais
alocados em todos os estados
PRIORIZAÇÃO EFETIVA
EM LARGA ESCALA
SERVIDOR
PÚBLICO
FEDERAL
Equipe
Reduzida
7
9. Entendimento dos Dados
SIAPE TSE
BD PRINCIPAL
SERVIDORES
FILIADOS
TCU
RFB
CGU
CEAFCORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
CORRUPTO
NÃO-CORRUPTO
SERVIDOR PÚBLICO
Cadastro de servidores
Dados de filiação partidária
9
10. Entendimento dos Dados
SIAPE TSE
CORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
2
1 12
k l
ij ij
i j
ij
O E
E
2
1 158
H0: Variáveis são
independentes
H0 não pode
ser aceita
10
11. Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
11
12. Preparação dos Dados
CORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
LIMPEZA DE DADOS
Valores inválidos
Total de dias filiado
Número máximo de dias
filiado a um partido
Maior código de motivo de
cancelamento
SELEÇÃO DE ATRIBUTOS
Correlation-Based
3 atributos selecionados
UNDERSAMPLING
Não-Corruptos filiados
AGREGAÇÃO
6 Atributos
ATRIBUTOS FINAIS
12
13. Preparação dos Dados
DISCRETIZAÇÃO
Multi-interval (MI)
Equal-Freq. (EQ)
Prop. K-int. (PKI)
9
NORMALIZAÇÃO
Média 0
Variância 1
1
10 datasets
Total de dias filiado
Número máximo de dias
filiado a um partido
Maior código de motivo de
cancelamento
ATRIBUTOS FINAIS
13
14. Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
14
15. Modelagem
TREINAMENTO = 90%
TESTE = 10%
Bayesian Networks (BN)
Random Forest (RF)
Support Vector Machines (SVM)
Artificial Neural Networks (ANN)
MetaCost WRAPPER
[0.0 1.0]
[5.0 0.0]
CUSTO de FALSOS POSITIVOS
15
Modelagem 4 algoritmos x 10 datasets = 40 modelos
16. Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
16
21. Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
21
22. Conclusão
1) Dados apoiam hipótese (Filiação Partidária Corrupção)
2) Resultados justificam uso de aprendizagem de máquina
3) Análise piloto de risco de corrupção na DIE / CGU
4) Trabalho gerou artigo aceito em conferência internacional
BRACIS 2014 – Brazilian Conference on Intelligent Systems
Using Political Party Affiliation Data to Measure Civil Servants’ Risk of Corruption
http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6984825
22