Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de conluio ug fornecedor
1. Modelo probabilístico de cálculo de
risco na relação entre UG e fornecedor
Secretaria de Gestão de Informações para o Controle Externo – Seginf
TCU
Setembro/2015
Remis Balaniuk,PhD
Especialista Sênior
2. Analytics no contexto do Controle
– Modelos prescritivos ou descritivos?
• Modelos prescritivos
– Auditor vai no objeto indicado pela mineração
» Requerem precisão
» “Chegar perto” não é um bom resultado
» Falsos positivos quebram a confiança no processo
– Modelos “caixa preta” não explicam resultados obtidos
– Auditor pode não se sentir confortável em ser “pautado”
• Modelos descritivos
– Apresentar um recorte qualitativo dos dados enriquecidos
com indicadores
– Auditor utiliza seu conhecimento de negócio e sua intuição
para selecionar dentro do recorte objetos de forma orientada
pelo modelo
3. Analytics no contexto do Controle
– Poucas bases de exemplos
• Dada a multitude de critérios e variáveis a considerar
• Dada a necessidade de grande número de exemplos
positivos e negativos
– Muitos dados estruturados
• Grandes bases de dados da administração pública (AP)
– Conhecimento de negócio abundante
• Conhecimento tácito dos auditores sobre práticas e
riscos na AP
– Tipologias de práticas ilícitas
– Perfil e comportamento típico dos atores
• Normas, legado de processos e decisões
4. Analytics no contexto do Controle
– Contexto favorável para a aplicação de técnicas
híbridas
• Dados + conhecimento a priori = construção de modelos
preditivos
• Modelos + descoberta de conhecimento = ambiente de
análise e planejamento de auditorias
5. Analytics no contexto do Controle
– Problema típico do auditor:
• Dado um grande conjunto de instâncias dentro de um
tema
– Objetos de controle
» Contratos, fornecedores, pessoas, órgãos, etc
• Escolher o que auditar
• Duas grandes classes:
– A: Objeto vale a pena auditar
– B: Objeto não vale a pena auditar
• Multitude de critérios a considerar:
– Materialidade, oportunidade, viabilidade, indícios
6. Analytics no contexto do Controle
– Problema típico do auditor:
• Classe A muito menor que classe B
– Por limitações de recursos
– Por suposição de que comportamentos irregulares sejam
exceção
• Problema de classificação?
• Problema de ranqueamento?
7. Analytics no contexto do Controle
• Meta-problema:
– Dado um conjunto de objetos de controle, calcular
um indicador principal que permita ranquea-lo
segundo a significância de audita-lo
• Chamaremos esse indicador de Risco
– Por falta de um nome melhor...
8. Analytics no contexto do Controle
• Risco:
– condição que aumenta ou diminui o potencial de perdas
• A análise de riscos estruturada possui dois parâmetros claros
a serem estudados:
– PRIMEIRO: saber qual a chance, a probabilidade, dos problemas virem
a acontecer, frente à condição existente – risco
– SEGUNDO: calcular o impacto seja ele operacional como financeiro
• Perda Esperada:
– Multiplicação direta entre a probabilidade do risco vir a acontecer
versus seu impacto financeiro.
9. Analytics no contexto do Controle
• Avaliação de riscos quantitativa
– Objetiva
– Tenta calcular valores numéricos objetivos para
cada uma das instâncias do conjunto alvo
10. Analytics no contexto do Controle
• Transformando a análise de risco num
problema de mineração de dados:
– Deseja-se um modelo preditivo
– Inferência indutiva ou dedutiva?
• Modelos a partir de dados?
– Bases abundantes
– Não é possível contar com bases de exemplos significativas
• Modelos a partir de premissas?
– Conhecimento de negócio abundante
– Poucas premissas absolutamente certas
11. Raciocínio Bayesiano
• Um framework para explicar a cognição.
– Como aprender a partir de dados limitados e com erros
– Modelos qualitativos robustos a partir de mínimos
pressupostos ad hoc
• Um framework para entender como
conhecimento estruturado interage com
inferência estatística
12. Teorema de Bayes
• Exemplo:
– H=paciente tem meningite
– D=paciente tem rigidez cervical
– Meningite causa rigidez cervical em 50% dos casos
• P(D|H)=0,5
– Probabilidade de alguém ter meningite é 1/50000
• P(H)=1/50000
– Probabilidade de rigidez cervical é 1/20
• P(D)=1/20
– Se um paciente tem rigidez cervical qual a probabilidade de ter meningite:
• P(H|D)=(0,5*1/50000)/(1/20)=0,0002
• Para uma hipótese H e um dado D :
)(
)|()(
)|(
DP
HDPHP
DHP
13. Classificador Bayesiano
• Na prática:
– A hipótese H pode ser interpretada como uma classe (C)
• Variável aleatória cujos valores correspondem às classes possíveis
– O dado D pode ser interpretado como um vetor de
atributos, sendo cada um uma variável aleatória
• (D1, D2,..., Dn)
– O objetivo é poder calcular a probabilidade posterior de
cada classe para cada instância de D
• P(C|D1, D2,..., Dn)
– Mas para isso é preciso antes calcular P(D1, D2,..., Dn|C)
– O que pode ser inviável para um n elevado ou se C e Dn
podem assumir muitos valores diferentes
14. Naïve Bayes
• Simplifica enormemente o problema ao
assumir que os atributos Dn são
INDEPENDENTES
• Nesse caso:
– P(D1, D2,..., Dn|C)= P(D1|C) P(D2|C)... P(Dn|C)
– Basta calcular P(Di|Ck) para todos Di e Ck
15. Voltando ao problema do auditor
• Consideraremos nossas classes como:
– Objetos a serem auditados = CA
– Objetos que não serão auditados = CB
– P(CA)+P(CB)=1
– Permite ordenar objetos de controle por risco (P(CA))
• Os atributos Di podem ser escolhidos pelo auditor
segundo seu conhecimento de negócio e o tipo de
objeto de controle a ser classificado
• Mas cálculo de P(Di|Ck) ainda requer uma base de
exemplos...
16. Voltando ao problema do auditor
• Assumiremos mais uma hipótese
simplificadora:
– Dado que os conjunto de objetos a serem
auditados é muito menor do que os que não o
serão
• | CA |<<| CB |
– Assumiremos que as distribuição de probabilidade
dos atributos é bastante próxima da probabilidade
condicional da classe maior:
• P(Di|CB) ≈ P(Di)
17. Voltando ao problema do auditor
• E como definir P(Di|CA) ?
– Para cada atributo Di a probabilidade condicional
P(Di|CA) será definida por regra de negócio
– Ou seja, será papel do auditor definir qual o
comportamento típico dos objetos de controle
que devem ser auditados
– Essa definição será feita na forma de uma
distribuição de frequência definida de forma ad
hoc para cada atributo valor de cada atributo
considerado
18. Exemplo
• Classificando contratos:
– CA : contrato deve ser auditado
– CB : contrato não precisa ser auditado
– Di: número de renegociações com aumento de valor
– P(Di|CB)=P(Di)
– P(Di|CA):
• Regra de negócio
Probability table
0
0,2
0,4
0,6
0,8
1
0 1 2 3 4 5 6 7
value
P(NREFOR)
Probability table
0
0,05
0,1
0,15
0,2
0 1 2 3 4 5 6 7
value
P(NREFOR)
19. Abordagem
Levantar
variáveis
relevantes
Identificar
comportamento
normal
(população)
Modelar
comportamento
suspeito
(experiência)
• O método pode ser usado para diferentes problemas
• Permite combinar dados e suposições de negócio
• Especialista precisa escolher bem as variáveis
– Precisa ser capaz de calcular seu valor para todas as instâncias a serem classificadas
– Precisa ter suposições de como é a distribuição de frequência da classe alvo
– Cada variável avalia um dos aspectos da análise
• Independentes
• Nem todos as instâncias da classe alvo precisam se encaixar em todas as suposições de
risco
• Funciona melhor em ciclos
– Tentativa e erro leva ao aprimoramento da escolha de variáveis e das suposições de
negócio
20. Aplicando a metodologia
• Relação AP versus Fornecedor
– Quantitativamente a relação entre a administração pública
(AP) e seus fornecedores é caracterizada por um conjunto
de aquisições, que geram despesas
– Perdas diretas podem ocorrer se:
• Houver sobrepreço
• A aquisição não atingir seus objetivos
21. • Calcular um fator de risco associado a cada par UG
+ Fornecedor
– Par comum: segue o comportamento geral médio
– Par de risco: indícios de favorecimento (outlier)
Objetivo da mineração
22. Bases de dados
• SIASG – ComprasNet
– 2010 a 08/2015
Item de
Contrato
Empenho Termo
Aditivo
Item de
Empenho
Liquidação de
Empenho
Contrato
Documento de
Liquidação
Representante Sócio
Compra FornecedorUnidade
Item de
Compra
Item de
Compra x
Unidade
Item de
Compra x
Fornecedor
Item de Compra x
Fornecedor x
Unidade
23. Escopo
– Aquisições entre 2010 e 2015
– Valor envolvido: R$345 bilhões
– Total de fornecedores: 223.915
– Total de Ugs: 3272
– Total de pares a ranquear: 897.303
24. Dados
• E ainda:
– Receita: detalhes dos fornecedores
– Sanções:
– Doações eleitorais
– RAIS
– SIAPE
25. Conluio
• Associação ilícita entre unidade e fornecedor
onde uma unidade privilegia um fornecedor
específico
• Indícios selecionados:
– Três grupos:
• Problemas de governança da UG
• Perfil atípico do fornecedor
• Relacionamento atípico entre UG e fornecedor
26. Indícios de problemas de governança
da UG
• Proporção de compras da UG justificadas
nos incisos 3, 4, 5 e 7
– Ditas “emergenciais”
– Indica falta de planejamento da UG nas
aquisições
– Indicadores:
• Proporção do número de compras da UG: EMERG
• Proporção do valor gasto pela UG: VEMERG
27. Indícios de problemas de governança
da UG
• Discretização de EMERG:
– 0: 0 a 2%
– 1: 2 a 5%
– 2: 5 a 20%
– 3: 20 a 45%
– 4: >45%
P(EMERG|CA)
P(EMERG|CB)
28. • Proporção de compras da UG que não utilizam
pregão eletrônico
– Indica opção da UG por métodos de aquisição
pouco transparentes
– Indicadores:
• Proporção do número de compras da UG
• Proporção do valor gasto pela UG
Indícios de problemas de governança
da UG
29. • Proporção de compras da UG por adesão a
registros de preço de outros órgãos
– Indica baixa capacidade ou interesse da UG em
preparar seus próprios processos licitatórios
– Indicadores:
• Proporção do número de compras da UG
• Proporção do valor gasto pela UG
Indícios de problemas de governança
da UG
30. • Proporção de compras por registro de preço
da UG nas quais ela emitiu só um empenho
– Indica uso suspeito da modalidade registro de
preço
– Abre brechas desnecessárias para permitir que
um fornecedor venda para diversos órgãos
Indícios de problemas de governança
da UG
31. Perfil atípico do fornecedor
• Dispersão
– Número de UGs onde fornecedor participou de
certames (tentou vender)
– Fornecedor com baixa dispersão (próximo de 1)
indica que não é representativo no seu nicho de
mercado ou não esta disposto ou apto a competir
em diversos contextos
32. Perfil atípico do fornecedor
• Doações de campanha
– Valor de doações registradas no TSE
– Fornecedor doador de campanha tem
relacionamento com políticos
33. Perfil atípico do fornecedor
• Inidoneidade
– Número de condenações da empresa ou de seus
sócios
– Fornecedor já condenado por inidoneidade é de
risco
34. Relacionamento atípico entre UG e
fornecedor
• Compras por modalidades de baixa
competitividade
– Compras que não foram feitas por pregão
eletrônico
– Número de ocorrências e totais de compras
ganhas pelo fornecedor naquela UG
– Não usa proporção para privilegiar a
materialidade
– Usa escala logarítmica na discretização
35. Relacionamento atípico entre UG e
fornecedor
• Reforços e aditivos
– Calcula para cada compra a variação entre valor inicial
(do empenho e/ou do contrato) e o valor final pago
– Considera só variações acima de 25%
– Conta número de ocorrências
– Soma total dos reforços
– valor final - inicial
– Novamente não é proporção para privilegiar a
materialidade
– Usa escala logarítmica na discretização
36. Relacionamento atípico entre UG e
fornecedor
• Existência de servidor do órgão ao qual
pertence a UG que é ou já foi sócio,
funcionário ou representante da empresa
– Quantidade de pessoas identificadas
– Ponderado pelo perfil da pessoa:
• Funcionário: peso 1
• Sócio ou representante: peso 10
• Sócio administrador: peso 15
37. Relacionamento atípico entre UG e
fornecedor
• Sucesso
– Proporção entre número de certames onde
fornecedor venceu e número de certames dos
quais participou
– Fornecedor com alto índice de sucesso (próximo
de 1) indica que só vai em certames onde sabe
que vai ganhar ou tem privilégios
38. Relacionamento atípico entre UG e
fornecedor
• Média da competitividade nos certames vencidos
– Índice de competitividade de certames licitatórios
– Pregão eletrônico:
• Competividade proporcional ao número de participantes e
número de lances dados
– Pregão presencial:
• Competividade proporcional ao número de participantes
• Ponderado de forma a indicar menos competividade que no
pregão eletrônico
– Outras modalidades:
• Não pregão baseado em técnica: competividade 0
• Não pregão baseado em preço: competividade positiva porem
baixa
39. Preparação dos dados
• Foram retirados:
– Fornecedores estatais
– Telefonia
– Bancos
– Eletricidade
– Água
40. Modelos específicos
• Alguns atributos mostram grandes variações
entre subconjuntos de aquisições
• Exemplo:
- Aquisições sem pregão
no caso geral:
- Aquisições sem pregão
para serviços
OBS: discretizado como
0: 0 a 10%
1: 10 a 20%
2: 20 a 45%
3: 45 a 80%
4: >80%
41. Modelos específicos
• Por isso foram processados quatro modelos
distintos:
– Obras
– Serviços
– Bens e materiais
– Geral
42. Valores em risco
• O modelo probabilístico calcula um fator de risco
para cada par UG+Fornecedor
• A materialidade do risco foi obtida multiplicando
esse fator pelo total dos valores pagos pela UG ao
fornecedor
• É possível totalizar a materialidade do risco por UG
somente ou por fornecedor somente
• Dessa forma é possível ordenar pares, UGs e/ou
fornecedores por risco e por materialidade
43. Resultados
• Dos 897.303 pares iniciais 5.338 foram
considerados de risco
– Risco acima de 50% em pelo menos um dos
modelos
• Valores em risco
– Totalizando mais de R$66 bilhões
44. • Elaborado painel de visualização (Qlikview)
• Permite que o auditor explore o modelo
Resultados
45. • FOC em andamento usando o modelo
• Coordenação: Selog
• RS, SC, PR, SP, RJ, BA, CE, PA, MT e GO
Aplicação