SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
Identificação Automática de
Tipos de Pedidos mais Frequentes da LAI
Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 10/09/2015 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
Identificação Automática de Tipos de
Pedidos mais Frequentes da LAI
Identificação dos principais assuntos
abordados nos mais de 300 mil
pedidos de informação no e-SIC
2
Descobrir tópicos em uma grande
quantidade de documentos
Descrever uma coleção de
documentos via tópicos
LDA = Latent Dirichlet Allocation
Descrever pequeno resumo
Achar documento por tema
Achar documentos correlatos
Problema da LAI
3
Como você organizaria + de 300 mil pedidos?
Operações Úteis Modelagem de Tópicos
Descrever pequeno resumo:
distribuição de tópicos
Achar documento por tema:
tópicos de peso alto
Achar documentos correlatos:
comparação entre vetores
O que é LDA?
4
Solução LDA: vetor de
pesos por tópico
Usando LDA
http://cseweb.ucsd.edu/~dhu/docs/exam09.pdf
Como funciona?
5http://cseweb.ucsd.edu/~dhu/docs/exam09.pdf
Tópicos - BACEN
69.220 pedidos (~3,06%)
Tópicos - BACEN
79.220 pedidos (~3,06%)
8
Tópicos - BACEN
9.220 pedidos (~3,06%)
9
Tópicos - BACEN
9.220 pedidos (~3,06%)
10
Tópicos - BACEN
9.220 pedidos (~3,06%)
11
Tópicos - BACEN
9.220 pedidos (~3,06%)
12
Tópicos - Negado
44.322 pedidos (~14,71%)
13
Tópicos - Negado
44.322 pedidos (~14,71%)
14
Tópicos - Negado
44.322 pedidos (~14,71%)
15
Tópicos - Negado
44.322 pedidos (~14,71%)
16
Tópicos - Negado
44.322 pedidos (~14,71%)
17
Tópicos - Negado
44.322 pedidos (~14,71%)
18
Tópicos - Negado
Concurso Público
"gostaria de ser informada sobre a minha
classificacao final no concurso ...
relativa ao edital ... ou seja quero a classificacao obtida apos
a eliminacao de 1715 candidatos nas provas de aptidao fisica
psicologica exames medicos e investigacao social
atenciosamente e desde ja agradeco ..."
"gostaria de obter as seguintes informacoes 01 quantidade de
servidores concursados do poder executivo federal e o
gasto mensal com os salarios destes servidores 02
quantidade de servidores nomeados em
cargo de confiaca do poder executivo federal e o gasto
mensal com os salarios destes servidores 03
quantidade de servidores aposentados
vinculados ao poder executivo federal e o gasto mensal com
a aposentadoria destes servidores"
"venho requerer minha classificacao apos
provas objetivas e subjetiva teste de
aptidao fisica e exames medico
considerando as eliminacoes no concurso no
concurso publico para provimento de vagas e formacao de
cadastro de reserva no cargo de ... da terceira classe prova
aplicada pela banca ... a banca examinadora se omite da
prestacao da informacao ou a presta equivocadamente ... "
"solicito informar a quantidade de empregados
do cargo de analista de sistemas que foram promovidos
de estagio do cargo conforme a seguir desde a
implantacao do ... analista de sistemas 1
do estagio jr para o pleno 2 do estagio jr para o
pleno 2 do estagio pl para o..."
Análise de Recurso
19
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
60%20%
6%
14%
Atendido Negado
Recurso - Atendido Recurso - Negado
declaracao
2014
ano
imposto renda
numero recibo
exercicio
irpf
restituicao
...
"solicito resgate do numero de recibo
da declaracao de irpf referente ao
ano de 2014 por ter perdido os
dados no computador ficando assim
impossibilitada de realizar a
declaracao de 2015"
20
Desafios
Quantos Tópicos?Tempo de Execução?
0
100
200
300
400
500
600
700
10.000 20.000 130.000 300.000
Tempodeprocessamento(min)
Número de pedidos
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1 10 20 30 40 50 60 70 80 90 100
PontuaçãodoAgrupamento
Número de tópicos
Big Data?!
10 horas x 100 rodadas = 1.000 horas ou ~ 41 dias se 100 núcleos (paralelo)  10 horas
Identificação automática de tipos de pedidos mais frequentes da LAI

Weitere ähnliche Inhalte

Andere mochten auch

Valicon2007 Ecpr Zenel Batagelj MArketing vs Academic research
Valicon2007 Ecpr Zenel Batagelj MArketing vs Academic researchValicon2007 Ecpr Zenel Batagelj MArketing vs Academic research
Valicon2007 Ecpr Zenel Batagelj MArketing vs Academic researchvalicon
 
NickNatale_DIGC_Proposal
NickNatale_DIGC_ProposalNickNatale_DIGC_Proposal
NickNatale_DIGC_ProposalNicholas Natale
 
What Phil has found
What Phil has foundWhat Phil has found
What Phil has foundPhil Bradley
 
Estudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de AgroecologiaEstudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de Agroecologiapascal aventurier
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos GovernamentaisRommel Carvalho
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Rommel Carvalho
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasRommel Carvalho
 
Tagfocus_BP
Tagfocus_BPTagfocus_BP
Tagfocus_BPwendylx
 
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosProposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosRommel Carvalho
 
Furr World History Unit 2 study guide
Furr World History Unit 2 study guideFurr World History Unit 2 study guide
Furr World History Unit 2 study guideloganmw
 
MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?
MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?
MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?Martin Ebner
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoRommel Carvalho
 
Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalRommel Carvalho
 

Andere mochten auch (16)

Valicon2007 Ecpr Zenel Batagelj MArketing vs Academic research
Valicon2007 Ecpr Zenel Batagelj MArketing vs Academic researchValicon2007 Ecpr Zenel Batagelj MArketing vs Academic research
Valicon2007 Ecpr Zenel Batagelj MArketing vs Academic research
 
NickNatale_DIGC_Proposal
NickNatale_DIGC_ProposalNickNatale_DIGC_Proposal
NickNatale_DIGC_Proposal
 
What Phil has found
What Phil has foundWhat Phil has found
What Phil has found
 
Estudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de AgroecologiaEstudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de Agroecologia
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos Governamentais
 
armonia entre cuerpos
armonia entre cuerposarmonia entre cuerpos
armonia entre cuerpos
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de compras
 
Illiteracy
IlliteracyIlliteracy
Illiteracy
 
Tagfocus_BP
Tagfocus_BPTagfocus_BP
Tagfocus_BP
 
Análise de Vídeos por Matrizes Discursivas
Análise de Vídeos por Matrizes DiscursivasAnálise de Vídeos por Matrizes Discursivas
Análise de Vídeos por Matrizes Discursivas
 
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosProposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
 
Furr World History Unit 2 study guide
Furr World History Unit 2 study guideFurr World History Unit 2 study guide
Furr World History Unit 2 study guide
 
MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?
MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?
MOOCs sind keine Lösung, aber vielleicht die richtige Richtung?
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à Corrupção
 
Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federal
 

Ähnlich wie Identificação automática de tipos de pedidos mais frequentes da LAI

Curso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUCurso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUEstratégia Concursos
 
Lei 13.955, de 23 de marco de 2012
Lei 13.955, de 23 de marco de 2012Lei 13.955, de 23 de marco de 2012
Lei 13.955, de 23 de marco de 2012SEMAPI Sindicato
 
Avaliação dos sistemas biométricos e suas oportunidades de aplicação
Avaliação dos sistemas biométricos e suas oportunidades de aplicaçãoAvaliação dos sistemas biométricos e suas oportunidades de aplicação
Avaliação dos sistemas biométricos e suas oportunidades de aplicaçãoRafael Duarte de Paula Ribas
 
TechParty FACCAT 2015 - TI na Administração Pública
TechParty FACCAT 2015 - TI na Administração PúblicaTechParty FACCAT 2015 - TI na Administração Pública
TechParty FACCAT 2015 - TI na Administração Públicaeverton.berz
 
Utilização de ferramentas CAAT em auditorias de grandes bases de dados
Utilização de ferramentas CAAT em auditorias de grandes bases de dadosUtilização de ferramentas CAAT em auditorias de grandes bases de dados
Utilização de ferramentas CAAT em auditorias de grandes bases de dadosRenatoBraga34
 
Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)
Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)
Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)Bruno Ferrari
 
Engenharia de Requisitos com BPM
Engenharia de Requisitos com BPMEngenharia de Requisitos com BPM
Engenharia de Requisitos com BPMWilliam Santos
 
Rh sistema de recursos humanos pagamentos _ e-social _ pessoas
Rh   sistema de recursos humanos   pagamentos _ e-social _ pessoasRh   sistema de recursos humanos   pagamentos _ e-social _ pessoas
Rh sistema de recursos humanos pagamentos _ e-social _ pessoasReginaldo Camargo
 
Dimensionamento da Força de Produção
Dimensionamento da Força de ProduçãoDimensionamento da Força de Produção
Dimensionamento da Força de ProduçãoR.A Gomes
 
Apresentação 2016 consad - tecnologia aplicada a auditoria
Apresentação 2016  consad - tecnologia aplicada a auditoriaApresentação 2016  consad - tecnologia aplicada a auditoria
Apresentação 2016 consad - tecnologia aplicada a auditoriaRonald Balbe
 
Tabela de priorização de serviços públicos
Tabela de priorização de serviços públicosTabela de priorização de serviços públicos
Tabela de priorização de serviços públicosColaborativismo
 
Tabela de priorização de serviços
Tabela de priorização de serviçosTabela de priorização de serviços
Tabela de priorização de serviçosColaborativismo
 
TCC - CURSO DE SISTEMA DE INFORMAÇÃO
TCC - CURSO DE SISTEMA DE INFORMAÇÃOTCC - CURSO DE SISTEMA DE INFORMAÇÃO
TCC - CURSO DE SISTEMA DE INFORMAÇÃOJeorge Sávio
 

Ähnlich wie Identificação automática de tipos de pedidos mais frequentes da LAI (20)

Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consult...
Painel 01   01 - tiago hillermam - Análise de Cobranças Suspeitas  de Consult...Painel 01   01 - tiago hillermam - Análise de Cobranças Suspeitas  de Consult...
Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consult...
 
Curso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUCurso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCU
 
Lei 13.955, de 23 de marco de 2012
Lei 13.955, de 23 de marco de 2012Lei 13.955, de 23 de marco de 2012
Lei 13.955, de 23 de marco de 2012
 
Capitulo 01 (1)
Capitulo 01 (1)Capitulo 01 (1)
Capitulo 01 (1)
 
Avaliação dos sistemas biométricos e suas oportunidades de aplicação
Avaliação dos sistemas biométricos e suas oportunidades de aplicaçãoAvaliação dos sistemas biométricos e suas oportunidades de aplicação
Avaliação dos sistemas biométricos e suas oportunidades de aplicação
 
TechParty FACCAT 2015 - TI na Administração Pública
TechParty FACCAT 2015 - TI na Administração PúblicaTechParty FACCAT 2015 - TI na Administração Pública
TechParty FACCAT 2015 - TI na Administração Pública
 
Utilização de ferramentas CAAT em auditorias de grandes bases de dados
Utilização de ferramentas CAAT em auditorias de grandes bases de dadosUtilização de ferramentas CAAT em auditorias de grandes bases de dados
Utilização de ferramentas CAAT em auditorias de grandes bases de dados
 
Itil X Cobit
Itil X CobitItil X Cobit
Itil X Cobit
 
Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)
Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)
Trabalho de Graduação Faculdade de Tecnologia de Ourinhos (FATEC Ourinhos)
 
Engenharia de Requisitos com BPM
Engenharia de Requisitos com BPMEngenharia de Requisitos com BPM
Engenharia de Requisitos com BPM
 
Rh sistema de recursos humanos pagamentos _ e-social _ pessoas
Rh   sistema de recursos humanos   pagamentos _ e-social _ pessoasRh   sistema de recursos humanos   pagamentos _ e-social _ pessoas
Rh sistema de recursos humanos pagamentos _ e-social _ pessoas
 
Dimensionamento da Força de Produção
Dimensionamento da Força de ProduçãoDimensionamento da Força de Produção
Dimensionamento da Força de Produção
 
Documento
DocumentoDocumento
Documento
 
2contecsi B
2contecsi B2contecsi B
2contecsi B
 
Modelo de responsabilidade organizacional
Modelo de responsabilidade organizacionalModelo de responsabilidade organizacional
Modelo de responsabilidade organizacional
 
Wellington Vasconcelos - Priorização de requisitos
Wellington Vasconcelos - Priorização de requisitosWellington Vasconcelos - Priorização de requisitos
Wellington Vasconcelos - Priorização de requisitos
 
Apresentação 2016 consad - tecnologia aplicada a auditoria
Apresentação 2016  consad - tecnologia aplicada a auditoriaApresentação 2016  consad - tecnologia aplicada a auditoria
Apresentação 2016 consad - tecnologia aplicada a auditoria
 
Tabela de priorização de serviços públicos
Tabela de priorização de serviços públicosTabela de priorização de serviços públicos
Tabela de priorização de serviços públicos
 
Tabela de priorização de serviços
Tabela de priorização de serviçosTabela de priorização de serviços
Tabela de priorização de serviços
 
TCC - CURSO DE SISTEMA DE INFORMAÇÃO
TCC - CURSO DE SISTEMA DE INFORMAÇÃOTCC - CURSO DE SISTEMA DE INFORMAÇÃO
TCC - CURSO DE SISTEMA DE INFORMAÇÃO
 

Mehr von Rommel Carvalho

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataRommel Carvalho
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Rommel Carvalho
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Rommel Carvalho
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...Rommel Carvalho
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inRommel Carvalho
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessRommel Carvalho
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyRommel Carvalho
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageRommel Carvalho
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsRommel Carvalho
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsRommel Carvalho
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...Rommel Carvalho
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsRommel Carvalho
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsRommel Carvalho
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Rommel Carvalho
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLRommel Carvalho
 
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...Rommel Carvalho
 
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...Rommel Carvalho
 
UnBBayes Plugin Framework
UnBBayes Plugin FrameworkUnBBayes Plugin Framework
UnBBayes Plugin FrameworkRommel Carvalho
 

Mehr von Rommel Carvalho (20)

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
 
A GUI for MLN
A GUI for MLNA GUI for MLN
A GUI for MLN
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-in
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain Awareness
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling Methodology
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial Axioms
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semantics
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational Models
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
 
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
 
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
 
UnBBayes Overview
UnBBayes OverviewUnBBayes Overview
UnBBayes Overview
 
UnBBayes Plugin Framework
UnBBayes Plugin FrameworkUnBBayes Plugin Framework
UnBBayes Plugin Framework
 

Identificação automática de tipos de pedidos mais frequentes da LAI

  • 1. Identificação Automática de Tipos de Pedidos mais Frequentes da LAI Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 10/09/2015 @ TCU Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
  • 2. Identificação Automática de Tipos de Pedidos mais Frequentes da LAI Identificação dos principais assuntos abordados nos mais de 300 mil pedidos de informação no e-SIC 2
  • 3. Descobrir tópicos em uma grande quantidade de documentos Descrever uma coleção de documentos via tópicos LDA = Latent Dirichlet Allocation Descrever pequeno resumo Achar documento por tema Achar documentos correlatos Problema da LAI 3 Como você organizaria + de 300 mil pedidos? Operações Úteis Modelagem de Tópicos
  • 4. Descrever pequeno resumo: distribuição de tópicos Achar documento por tema: tópicos de peso alto Achar documentos correlatos: comparação entre vetores O que é LDA? 4 Solução LDA: vetor de pesos por tópico Usando LDA http://cseweb.ucsd.edu/~dhu/docs/exam09.pdf
  • 6. Tópicos - BACEN 69.220 pedidos (~3,06%)
  • 7. Tópicos - BACEN 79.220 pedidos (~3,06%)
  • 8. 8 Tópicos - BACEN 9.220 pedidos (~3,06%)
  • 9. 9 Tópicos - BACEN 9.220 pedidos (~3,06%)
  • 10. 10 Tópicos - BACEN 9.220 pedidos (~3,06%)
  • 11. 11 Tópicos - BACEN 9.220 pedidos (~3,06%)
  • 12. 12 Tópicos - Negado 44.322 pedidos (~14,71%)
  • 13. 13 Tópicos - Negado 44.322 pedidos (~14,71%)
  • 14. 14 Tópicos - Negado 44.322 pedidos (~14,71%)
  • 15. 15 Tópicos - Negado 44.322 pedidos (~14,71%)
  • 16. 16 Tópicos - Negado 44.322 pedidos (~14,71%)
  • 17. 17 Tópicos - Negado 44.322 pedidos (~14,71%)
  • 18. 18 Tópicos - Negado Concurso Público "gostaria de ser informada sobre a minha classificacao final no concurso ... relativa ao edital ... ou seja quero a classificacao obtida apos a eliminacao de 1715 candidatos nas provas de aptidao fisica psicologica exames medicos e investigacao social atenciosamente e desde ja agradeco ..." "gostaria de obter as seguintes informacoes 01 quantidade de servidores concursados do poder executivo federal e o gasto mensal com os salarios destes servidores 02 quantidade de servidores nomeados em cargo de confiaca do poder executivo federal e o gasto mensal com os salarios destes servidores 03 quantidade de servidores aposentados vinculados ao poder executivo federal e o gasto mensal com a aposentadoria destes servidores" "venho requerer minha classificacao apos provas objetivas e subjetiva teste de aptidao fisica e exames medico considerando as eliminacoes no concurso no concurso publico para provimento de vagas e formacao de cadastro de reserva no cargo de ... da terceira classe prova aplicada pela banca ... a banca examinadora se omite da prestacao da informacao ou a presta equivocadamente ... " "solicito informar a quantidade de empregados do cargo de analista de sistemas que foram promovidos de estagio do cargo conforme a seguir desde a implantacao do ... analista de sistemas 1 do estagio jr para o pleno 2 do estagio jr para o pleno 2 do estagio pl para o..."
  • 19. Análise de Recurso 19 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 60%20% 6% 14% Atendido Negado Recurso - Atendido Recurso - Negado declaracao 2014 ano imposto renda numero recibo exercicio irpf restituicao ... "solicito resgate do numero de recibo da declaracao de irpf referente ao ano de 2014 por ter perdido os dados no computador ficando assim impossibilitada de realizar a declaracao de 2015"
  • 20. 20 Desafios Quantos Tópicos?Tempo de Execução? 0 100 200 300 400 500 600 700 10.000 20.000 130.000 300.000 Tempodeprocessamento(min) Número de pedidos 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 10 20 30 40 50 60 70 80 90 100 PontuaçãodoAgrupamento Número de tópicos Big Data?! 10 horas x 100 rodadas = 1.000 horas ou ~ 41 dias se 100 núcleos (paralelo)  10 horas