O documento discute um algoritmo para classificar empresas em setores econômicos usando dados de produtos. O objetivo é permitir análises comparativas entre empresas similares e identificar padrões e distorções nos dados para fins de fiscalização tributária. O algoritmo agrupa empresas com base em sua cesta de produtos usando métricas de similaridade entre códigos de produtos.
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Classificação de empresas por setores econômicos com algoritmo CNAE
1. Projeto CNAE:
Algoritmo para classificação de
empresas em setores
econômicos
Leonardo Teles de Carvalho – Auditor Fiscal
2. Ministério da Fazenda
➔ Motivação
➔ Conceitos
➔ Objetivos
➔ Métodos
➔ Alguns resultados
Estrutura da apresentação
3. Ministério da Fazenda
Motivação – Setores Econômicos
➔ Permite a análise Comparativa entre
contribuintes semelhantes
➔ Permite aferição de situações específicas,
como benefícios fiscais baseados em
enquadramento de CNAEs
➔ Análise setorial: possibilidade de estratificação
da base, identificação mais clara de padrões e
detecção de distorções...
4. Ministério da Fazenda
Motivação – Análise de Setores Econômicos
Estratificação
da base
• Classificação de Contribuintes em seus
setores econômicos
Modelagem
mais clara de
padrões
• Índices e regras mais
representativas de omissões,
sonegações, etc.
Criação de
valores
esperados para
os dados
declarados
• Crítica de valores declarados
• Possível previsão de valores omissos
Identificação
de
distorções
• Indícios de fraudes,
ilícitos ou sonegação
5. Ministério da Fazenda
Motivação – Setores Econômicos
➔ Todas as situações partem
da premissa de que as
empresas estão
corretamente classificadas
➔ Atualmente, a classificação
em setores econômicos é,
inicialmente, autodeclarada
pela própria empresa...
6. Ministério da Fazenda
Motivação – Setores Econômicos
➔ Internamente, a Receita
Federal identifica e
classifica individualmente
os contribuintes
➔ Além disso, a abordagem
algorítmica pode permitir a
classificação setorial de
toda a base de dados
13. Ministério da Fazenda
Agrupamento de Empresas por Cesta de Produtos
19059010 - pão de forma
19054000 - torrada
40111000 - pneu
40111000 - pneu
19059010 - pão de forma
19054000 - torrada
19059010 - pão de forma
19054000 - torrada
19059090 – pão francês
14. Ministério da Fazenda
Definição e criação da métrica “distância NCM”
➔ Qual é a distância/similaridade entre dois
contribuintes?
Produtos
CNPJ1
Produtos
CNPJ2
Produtos
Comuns
Exemplos:
Indice de Jaccard
15. Ministério da Fazenda
Definição e criação da métrica “distância NCM”
➔ Solução adotada para produtos semelhantes
Produtos
Semelhantes 19059010 - pão de forma
19059090 – pão francês
16. Ministério da Fazenda
Métrica de Dissimilaridade
19054000 - torrada
19059010 - pão de forma
19059090 - pão francês
40111000 - pneu
18. Ministério da Fazenda
Agrupamento – Exemplo: cluster hierárquico
• Empresa 1
• Mais de 200 produtos (NCM) diferentes
• 46.6-COMÉRCIO ATACADISTA DE MÁQUINAS
PARA USO AGROPECUÁRIO
• Empresa 2
• Mais de 200 produtos (NCM) diferentes
• 46.6-COMÉRCIO ATACADISTA DE MÁQUINAS
PARA USO AGROPECUÁRIO
OK
19. Ministério da Fazenda
Agrupamento (clustering) – cluster hierárquico
• Empresa 1
• Mais de 200 produtos (NCM) diferentes
• 46.6-COMÉRCIO ATACADISTA DE MÁQUINAS
PARA USO AGROPECUÁRIO
• Empresa 3
• Mais de 200 produtos (NCM) diferentes
• 47.8-COMÉRCIO VAREJISTA DE OUTROS
PRODUTOS NOVOS NÃO ESPECIFICADOS
ANTERIORMENTE