SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
Lei de BenfordLei de Benford
Vinicius Roggério da RochaVinicius Roggério da Rocha
2
Leis científicas
● Ciência: sistema de adquirir conhecimento baseado no método
científico
● Investimentos em inovação promovem benefícios aos
investidores e à sociedade
● Cientista de dados: enfrentar novos problemas, estudar,
programar (não é montar páginas de internet, nem arrumar
computadores...)
● Leis científicas são descrições generalistas de fenômenos da
natureza
● Teorias científicas explicam esses fenômenos, são fortemente
embasado por diversas pesquisas feitas de forma
independente por cientistas ao longo do tempo, suportada por
imensa quantidade de evidências
3
Lei dos primeiros dígitos /
Newcomb-Benford
● Afirmada por Simon Newcomb em 1881 e
publicada em artigo pelo físico Frank Benford em
1938
● Definida empiricamente (conhecimento vem da
observação)
● Em listas numéricas, existe uma tendência de
números menores aparecerem mais, e a
probabilidade diminui conforme o número
aumenta
4
Distribuição dos primeiros dígitos
5
Como funciona
● Valores reais, como população, capitalização
de mercado ou receita, crescem de maneira
exponencial, e não aditiva
● Ou seja, é mais provável o crescimento ser
porcentual (5%) em vez de uma constante por
período (500 todo mês)
● Exemplo: para um investimento passar de 1
para 2 o valor precisa dobrar, enquanto que de
8 para 9 é 12,5% de crescimento (variável fica
mais tempo entre 1 e 2 do que entre 8 e 9)
6
Onde não se aplica
● Listas completamente geradas aleatoriamente (jogar
cara ou coroa por um tempo longo, decaimento
radioativo de algum material, …) ou
“pseudoaleatoriamente” (computadores, que usam uma
fórmula que gere números aparentemente aleatórios,
partindo de uma semente, para aqueles que não sabem
a lógica da fórmula)
● Listas fortemente restritivas (por exemplo, altura das
pessoas, sequências numéricas, valores influenciados
pelo pensamento humano, contas com valores
específicos fixos
7
8
Aplicações
● Considerando que uma distribuição descrita pela Lei
de Benford prescreve o que esperamos dos dados
gerados naturalmente, então o contrário indica algo
não é gerado naturalmente (isto é, possivelmente
fraudulento)
● Como estimar o quanto a distribuição de valores da
amostra está próxima à Lei de Benford? Qui-quadrado
● Quanto maior o valor de qui-quadrado, maior a
discrepância entre a lei e os dados, e também maior a
chance de ter havido fraude.
9
Programação
● Linguagem R, pacote “benford.analysis”
● Script para carregar biblioteca, série de dados
(CSV), usar a função “benford()”
● Saídas: ranking com 5 maiores desvios, valor de
qui-quadrado, estatísticas da mantissa (parte
decimal do logaritmo) e gráficos
● Análise de suspeitos – função “getSuspects()”
● Saídas: tabela com os dados dos 2 grupos de
dígitos com maior discrepância (pela diferença
absoluta entre observado e esperado pela lei)
10
Análise para estar de acordo com
Lei de Benford
● Qui-quadrado grande
● Mantissa:
média ~ 0.5
variância ~ 1/12 (0.08333…)
curtose ~ 1.2
assimetria ~ 0
● Distribuição de dígitos acompanhando curva
logarítmica
● Quanto mais dados, melhor
11
Valor fixo de
doação de 1500
reais?
12
soma dos valores
das observações
agrupadas por
primeiros dígitos
(identificar grupos
de valores
influentes)
contagem para a
diferença dos dados
ordenados

Weitere ähnliche Inhalte

Mehr von Vinícius Roggério da Rocha

Conhecimentos Gerais de Aeronaves para Comissários
Conhecimentos Gerais de Aeronaves para ComissáriosConhecimentos Gerais de Aeronaves para Comissários
Conhecimentos Gerais de Aeronaves para ComissáriosVinícius Roggério da Rocha
 

Mehr von Vinícius Roggério da Rocha (17)

A Meteorologia nos Acidentes Aéreos
A Meteorologia nos Acidentes AéreosA Meteorologia nos Acidentes Aéreos
A Meteorologia nos Acidentes Aéreos
 
Meteorologia e Aviação
Meteorologia e AviaçãoMeteorologia e Aviação
Meteorologia e Aviação
 
Curso de WordPress
Curso de WordPressCurso de WordPress
Curso de WordPress
 
Fórmulas matemáticas
Fórmulas matemáticasFórmulas matemáticas
Fórmulas matemáticas
 
Mapas em branco para estudo
Mapas em branco para estudoMapas em branco para estudo
Mapas em branco para estudo
 
Polarização do céu
Polarização do céuPolarização do céu
Polarização do céu
 
Resumo vetores
Resumo vetoresResumo vetores
Resumo vetores
 
Elevadores mais curiosos do mundo
Elevadores mais curiosos do mundoElevadores mais curiosos do mundo
Elevadores mais curiosos do mundo
 
Sustentabilidade e tecnologia
Sustentabilidade e tecnologiaSustentabilidade e tecnologia
Sustentabilidade e tecnologia
 
Introdução ao HTML
Introdução ao HTMLIntrodução ao HTML
Introdução ao HTML
 
Conhecimentos Gerais de Aeronaves para Comissários
Conhecimentos Gerais de Aeronaves para ComissáriosConhecimentos Gerais de Aeronaves para Comissários
Conhecimentos Gerais de Aeronaves para Comissários
 
Navegação Aérea para Comissários
Navegação Aérea para ComissáriosNavegação Aérea para Comissários
Navegação Aérea para Comissários
 
Teoria de Voo para Comissários
Teoria de Voo para ComissáriosTeoria de Voo para Comissários
Teoria de Voo para Comissários
 
Meteorologia para Comissários
Meteorologia para ComissáriosMeteorologia para Comissários
Meteorologia para Comissários
 
Geografia para Agente de Aeroporto e de Viagens
Geografia para Agente de Aeroporto e de ViagensGeografia para Agente de Aeroporto e de Viagens
Geografia para Agente de Aeroporto e de Viagens
 
Fatos na Aviação para Agente de Aeroporto
Fatos na Aviação para Agente de AeroportoFatos na Aviação para Agente de Aeroporto
Fatos na Aviação para Agente de Aeroporto
 
Aeroportos extremos
Aeroportos extremosAeroportos extremos
Aeroportos extremos
 

Lei de Benford: análise de fraude em dados

  • 1. Lei de BenfordLei de Benford Vinicius Roggério da RochaVinicius Roggério da Rocha
  • 2. 2 Leis científicas ● Ciência: sistema de adquirir conhecimento baseado no método científico ● Investimentos em inovação promovem benefícios aos investidores e à sociedade ● Cientista de dados: enfrentar novos problemas, estudar, programar (não é montar páginas de internet, nem arrumar computadores...) ● Leis científicas são descrições generalistas de fenômenos da natureza ● Teorias científicas explicam esses fenômenos, são fortemente embasado por diversas pesquisas feitas de forma independente por cientistas ao longo do tempo, suportada por imensa quantidade de evidências
  • 3. 3 Lei dos primeiros dígitos / Newcomb-Benford ● Afirmada por Simon Newcomb em 1881 e publicada em artigo pelo físico Frank Benford em 1938 ● Definida empiricamente (conhecimento vem da observação) ● Em listas numéricas, existe uma tendência de números menores aparecerem mais, e a probabilidade diminui conforme o número aumenta
  • 5. 5 Como funciona ● Valores reais, como população, capitalização de mercado ou receita, crescem de maneira exponencial, e não aditiva ● Ou seja, é mais provável o crescimento ser porcentual (5%) em vez de uma constante por período (500 todo mês) ● Exemplo: para um investimento passar de 1 para 2 o valor precisa dobrar, enquanto que de 8 para 9 é 12,5% de crescimento (variável fica mais tempo entre 1 e 2 do que entre 8 e 9)
  • 6. 6 Onde não se aplica ● Listas completamente geradas aleatoriamente (jogar cara ou coroa por um tempo longo, decaimento radioativo de algum material, …) ou “pseudoaleatoriamente” (computadores, que usam uma fórmula que gere números aparentemente aleatórios, partindo de uma semente, para aqueles que não sabem a lógica da fórmula) ● Listas fortemente restritivas (por exemplo, altura das pessoas, sequências numéricas, valores influenciados pelo pensamento humano, contas com valores específicos fixos
  • 7. 7
  • 8. 8 Aplicações ● Considerando que uma distribuição descrita pela Lei de Benford prescreve o que esperamos dos dados gerados naturalmente, então o contrário indica algo não é gerado naturalmente (isto é, possivelmente fraudulento) ● Como estimar o quanto a distribuição de valores da amostra está próxima à Lei de Benford? Qui-quadrado ● Quanto maior o valor de qui-quadrado, maior a discrepância entre a lei e os dados, e também maior a chance de ter havido fraude.
  • 9. 9 Programação ● Linguagem R, pacote “benford.analysis” ● Script para carregar biblioteca, série de dados (CSV), usar a função “benford()” ● Saídas: ranking com 5 maiores desvios, valor de qui-quadrado, estatísticas da mantissa (parte decimal do logaritmo) e gráficos ● Análise de suspeitos – função “getSuspects()” ● Saídas: tabela com os dados dos 2 grupos de dígitos com maior discrepância (pela diferença absoluta entre observado e esperado pela lei)
  • 10. 10 Análise para estar de acordo com Lei de Benford ● Qui-quadrado grande ● Mantissa: média ~ 0.5 variância ~ 1/12 (0.08333…) curtose ~ 1.2 assimetria ~ 0 ● Distribuição de dígitos acompanhando curva logarítmica ● Quanto mais dados, melhor
  • 11. 11 Valor fixo de doação de 1500 reais?
  • 12. 12 soma dos valores das observações agrupadas por primeiros dígitos (identificar grupos de valores influentes) contagem para a diferença dos dados ordenados