1) O documento discute a Lei de Benford, que estabelece que em listas numéricas naturais há uma tendência de números menores aparecerem com mais frequência.
2) A lei foi estabelecida empiricamente e prevê a distribuição dos primeiros dígitos em dados reais que crescem exponencialmente.
3) Análises estatísticas como qui-quadrado podem indicar se uma distribuição de dados se encaixa ou não na Lei de Benford, sugerindo possível fraude.
1. Lei de BenfordLei de Benford
Vinicius Roggério da RochaVinicius Roggério da Rocha
2. 2
Leis científicas
● Ciência: sistema de adquirir conhecimento baseado no método
científico
● Investimentos em inovação promovem benefícios aos
investidores e à sociedade
● Cientista de dados: enfrentar novos problemas, estudar,
programar (não é montar páginas de internet, nem arrumar
computadores...)
● Leis científicas são descrições generalistas de fenômenos da
natureza
● Teorias científicas explicam esses fenômenos, são fortemente
embasado por diversas pesquisas feitas de forma
independente por cientistas ao longo do tempo, suportada por
imensa quantidade de evidências
3. 3
Lei dos primeiros dígitos /
Newcomb-Benford
● Afirmada por Simon Newcomb em 1881 e
publicada em artigo pelo físico Frank Benford em
1938
● Definida empiricamente (conhecimento vem da
observação)
● Em listas numéricas, existe uma tendência de
números menores aparecerem mais, e a
probabilidade diminui conforme o número
aumenta
5. 5
Como funciona
● Valores reais, como população, capitalização
de mercado ou receita, crescem de maneira
exponencial, e não aditiva
● Ou seja, é mais provável o crescimento ser
porcentual (5%) em vez de uma constante por
período (500 todo mês)
● Exemplo: para um investimento passar de 1
para 2 o valor precisa dobrar, enquanto que de
8 para 9 é 12,5% de crescimento (variável fica
mais tempo entre 1 e 2 do que entre 8 e 9)
6. 6
Onde não se aplica
● Listas completamente geradas aleatoriamente (jogar
cara ou coroa por um tempo longo, decaimento
radioativo de algum material, …) ou
“pseudoaleatoriamente” (computadores, que usam uma
fórmula que gere números aparentemente aleatórios,
partindo de uma semente, para aqueles que não sabem
a lógica da fórmula)
● Listas fortemente restritivas (por exemplo, altura das
pessoas, sequências numéricas, valores influenciados
pelo pensamento humano, contas com valores
específicos fixos
8. 8
Aplicações
● Considerando que uma distribuição descrita pela Lei
de Benford prescreve o que esperamos dos dados
gerados naturalmente, então o contrário indica algo
não é gerado naturalmente (isto é, possivelmente
fraudulento)
● Como estimar o quanto a distribuição de valores da
amostra está próxima à Lei de Benford? Qui-quadrado
● Quanto maior o valor de qui-quadrado, maior a
discrepância entre a lei e os dados, e também maior a
chance de ter havido fraude.
9. 9
Programação
● Linguagem R, pacote “benford.analysis”
● Script para carregar biblioteca, série de dados
(CSV), usar a função “benford()”
● Saídas: ranking com 5 maiores desvios, valor de
qui-quadrado, estatísticas da mantissa (parte
decimal do logaritmo) e gráficos
● Análise de suspeitos – função “getSuspects()”
● Saídas: tabela com os dados dos 2 grupos de
dígitos com maior discrepância (pela diferença
absoluta entre observado e esperado pela lei)
10. 10
Análise para estar de acordo com
Lei de Benford
● Qui-quadrado grande
● Mantissa:
média ~ 0.5
variância ~ 1/12 (0.08333…)
curtose ~ 1.2
assimetria ~ 0
● Distribuição de dígitos acompanhando curva
logarítmica
● Quanto mais dados, melhor
12. 12
soma dos valores
das observações
agrupadas por
primeiros dígitos
(identificar grupos
de valores
influentes)
contagem para a
diferença dos dados
ordenados