SlideShare ist ein Scribd-Unternehmen logo
1 von 21
CLASSIFICAÇÃO AUTOMATIZADA DE
PRODUTOS E SERVIÇOS LICITADOS
Thiago Marzagão
CONTEXTO: LABORATÓRIO DE
ANÁLISE DE DADOS DO CADE
(mais sobre isso amanhã)
PROBLEMA:
CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
etc
LICITAÇÃO FEDERAL:
LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:
DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:
(POSSÍVEL) SOLUÇÃO:
PROCESSAMENTO DE LINGUAGEM NATURAL
1. REMOVE STOPWORDS (“DE”, “A”, ETC)
2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)
3. PASSA TUDO P/ SINGULAR (RSLP-S)
4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO
5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS
PALAVRAS MAIS DISCRIMINANTES)
6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE
TAMANHOS MUITO DIFERENTES)
PRÉ-PROCESSAMENTO:
FERRAMENTAS
K-MEANS
(c/ licitações do GDF)
TENTATIVA #1
1. DEFINE CENTRÓIDES ALEATÓRIOS
2. ALOCA CADA DESCRIÇÃO VETORIZADA AO
CENTRÓIDE MAIS PRÓXIMO
3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA
OS CENTRÓIDES
4. REPETE 2 E 3 ATÉ CONVERGÊNCIA
K-MEANS
K-MEANS
RESULTADO: PÉSSIMO
CLUSTERS SEM O MENOR SENTIDO
EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS”
DENTRO DE UM MESMO CLUSTER
SIMILARIDADE DO CO-SENO
(c/ licitações do GDF e NCM)
TENTATIVA #2
SIMILARIDADE DO CO-SENO
RESULTADO: RUIM
# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS
EXEMPLO: “CARREGADOR DE BATERIA”
CLASSIFICADO COMO “BATERIA”
RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS
SVM
(c/ licitações federais e CATMAT/CATSER)
TENTATIVA #3
PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA
É MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES
AS CLASSES NÃO SÃO DIVIDIDAS POR UMA
LINHA MAS POR UM POLÍGONO
DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT-
MARGIN (PENALIZA CLASSIFICAÇÕES NO
POLÍGONO) OU KERNEL TRICK (AUMENTA # DE
DIMENSÕES P/ QUE NADA CAIA NO POLÍGONO)
SVM
AJUSTES QUE TENTEI:
1. FUNÇÃO DE CUSTO (HINGE, SQUARED
HINGE, HUBER)
2. TERMO DE REGULARIZAÇÃO (L1, L2,
ELASTICNET)
3. DIFERENTES NÍVEIS DO CATMAT/CATSER:
GRUPOS (79) E CLASSES (670)
4. # DE PASSES SOBRE OS DADOS
5. TAXA DE APRENDIZADO
6. PESO MAIOR P/ PRIMEIRAS PALAVRAS
7. CONSISTÊNCIA GRUPO-CLASSE
SVM
TOTAL DE ~5 MILHÕES DE DESCRIÇÕES
70% TREINAMENTO
15% TESTE
15% VALIDAÇÃO
SVM
SVM
RANDOM FOREST?
REDES NEURAIS?
TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE
A MAIOR PROBABILIDADE < x, IGNORA
DESCRIÇÃO)
SUGESTÕES??
PRÓXIMOS PASSOS
thiago.marzagao@cade.gov.br
thiagomarzagao.com

Weitere ähnliche Inhalte

Mehr von Tribunal de Contas da União - TCU (Oficial)

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Tribunal de Contas da União - TCU (Oficial)
 
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Tribunal de Contas da União - TCU (Oficial)
 

Mehr von Tribunal de Contas da União - TCU (Oficial) (20)

La visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCULa visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCU
 
Presentación del instituto serzedello corrêa - TCU
Presentación del instituto serzedello corrêa  - TCUPresentación del instituto serzedello corrêa  - TCU
Presentación del instituto serzedello corrêa - TCU
 
Presentación del ccc - TCU
Presentación del ccc   - TCUPresentación del ccc   - TCU
Presentación del ccc - TCU
 
Innovación como solución para problemas complejos -2016- TCU - 2
Innovación como solución para problemas complejos -2016-   TCU - 2Innovación como solución para problemas complejos -2016-   TCU - 2
Innovación como solución para problemas complejos -2016- TCU - 2
 
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
Geotecnologías - 2016 - la visión del ministerio del medio ambiente.
 
Design thinking 2016 - Herramientas
Design thinking 2016 -  HerramientasDesign thinking 2016 -  Herramientas
Design thinking 2016 - Herramientas
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
 
Control social 2016 - la visión de la cámara de diputados.
Control social 2016 -  la visión de la cámara de diputados.Control social 2016 -  la visión de la cámara de diputados.
Control social 2016 - la visión de la cámara de diputados.
 
Análisis de datos 2016 - la visión del tribunal de cuentas de la unión.
Análisis de datos 2016 -  la visión del tribunal de cuentas de la unión.Análisis de datos 2016 -  la visión del tribunal de cuentas de la unión.
Análisis de datos 2016 - la visión del tribunal de cuentas de la unión.
 
Taller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCUTaller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCU
 
Lancamento do Portal de inovação do TCU
Lancamento do Portal de inovação do TCULancamento do Portal de inovação do TCU
Lancamento do Portal de inovação do TCU
 
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05   03 - Gustavo - Markus - Busca de vínculos na Administração PúblicaPainel 05   03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
 
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
 
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Painel 05   01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...
 
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
 
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Painel 04   02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...
 
Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
Painel 04   01 - Rommel Carvalho - uso de mineração de dados e textos para cá...Painel 04   01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...
 
Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
Painel 03   04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...Painel 03   04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...
 
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
 

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas