O documento descreve um projeto do governo brasileiro para mapear o risco de corrupção na administração pública federal através da análise e mineração de dados sobre servidores públicos e unidades governamentais. O projeto usa técnicas avançadas de aprendizado de máquina e análise estatística de grandes conjuntos de dados para gerar indicadores confiáveis de risco de corrupção. O objetivo final é fornecer uma ferramenta estratégica para prevenir e combater a corrupção de forma proativa.
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
Mapeamento de risco de corrupção na administração pública federal
1. Mapeamento de Risco de Corrupção na
Administração Pública Federal
Brasil 100% Digital: 2º Seminário sobre Análise de Dados na Administração Pública | 25/08/2016 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
2. Mapeamento de Risco de Corrupção
na Administração Pública Federal
Identificação de risco de corrupção
através da análise cadastral, histórica
e comportamental do servidor público
3. Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Introdução
4. Mapeamento de Risco de Corrupção na APF
2014 2017
RISCO
MÉDIO
RISCO
ALTO
DIRIGENTE UNIDADE
Introdução
5. Introdução
Desafio: Transformar dados em indicadores confiáveis
Como?
Mineração
de Dados
Estatística Conhecimento
Especializado dos
Analistas da DIE
Computação em
Larga Escala
7. 2012
Problema: Falta visão de corrupção
Poder decisório, dotação e histórico
Mapa de um ministério construído manualmente
em 6 meses
2013
Problema: Falta de automatização
Indicadores arbitrados e integração de bases
Mapa para dois ministérios automatizado
2014
Problema: Excesso de subjetividade
Abordagem estatística
Modelos estatísticos intermediários sendo
validados
2015
Problema: Falta de método científico
Mineração de dados
Metodologia desenvolvida e Versão Beta
construída
ENVOLVIDOS NO PROJETO
4 doutores, 6 mestres
Artigos relacionados publicados e a publicar
Dissertações defendidas na parte técnica
Introdução
8. Servidor
Cargo Técnico
Demitido em 2010 por valer-se do cargo para
lograr proveito pessoal ou de outrem
INVESTIGAÇÃO MARA
Sem vínculos com empresas
Uma filiação partidária
Proprietário de um carro comum
Risco do Servidor:
MUITO
ALTO
Cenários
10. Suporte Estatístico Inicial
2
1 12
k l
ij ij
i j
ij
O E
E
Embasamento Teórico
Agregação
Pivoteamento
Padronização
Atualização
Tratamento Básico
de Dados
Discretização
Normalização
Sampling
Datasets
Pré-Processamento
de Dados
Seleção de Atributos
Relevantes
Aprendizagem de Máquina
Validação de Modelos
Ajuste de Modelos
Teste de
Modelo Final
Implantação
de Modelo
no Sistema
Modelo
Final
Confiável?
SIM
Mineração de Dados
11. Exemplo: “7) Análise Intermediária” inclui Análise de Correlação
Dados de 242.000 linhas por 12.000 colunas
Código vetorizado 20 cores full = 2 horas
Mineração de Dados
12. 1º Loop (5000 iterações) = 200.000 modelos
12+ cores = Sem memória
10 cores = 7 horas full
2º Loop (1000 iterações) = 11.000 modelos
20 cores = 30 minutos full
Amostra dos dados: 305.569 linhas de 2.287 variáveis = 5 GB
1º Loop = 5000 iter.
2º Loop = 1000 iter.
Mineração de Dados
13. Mais que Minerar
Alguns dados da construção da versão Beta:
18 bases de dados utilizadas (+500 GB)
5.000 horas de trabalho
4.376 atributos elaborados
62.204 atributos de interação
76 atributos selecionados > 1022 possibilidades
Godzilhões de cálculos estatísticos
10 produtos descritos, sendo 3 implementados
296 páginas de Wiki
150 arquivos produzidos
23.000 linhas de código
31.476 dirigentes e 5.186 UGs abordados
14. Transforma DADOS em CONHECIMENTO ESTRATÉGICO
Vasta gama de técnicas e tecnologias de ponta utilizadas
Possibilita atualização constante
Produto sempre em desenvolvimento
Incentiva atuação a priori – e isso é HOJE!
Inúmeros desafios
Infraestrutura x Escalabilidade x Equipe capacitada
Atividades rotineiras x Dedicação ao projeto x Equipe disponível
Conclusão
15. Mapeamento de Risco de Corrupção na
Administração Pública Federal
Brasil 100% Digital: 2º Seminário sobre Análise de Dados na Administração Pública | 25/08/2016 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
data-science-gov-br