O documento discute o potencial mercado para as práticas de mineração de dados escalável para sistemas de governo desenvolvidas pelo projeto SERPRO/UFMG 01/2013. Apresenta o contexto atual de grandes volumes de dados nos sistemas de governo e a necessidade de técnicas escaláveis. Discutem-se também as vantagens do projeto, como o acesso a pesquisadores e tecnologias nacionais, e o potencial para desenvolver soluções customizadas para órgãos governamentais e empresas.
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para Sistemas de Governo”: Potencial Mercadológico
1. Edital SERPRO/UFMG 01/2013 -
“Práticas de Mineração de Dados
Escalável para Sistemas de Governo”:
Potencial Mercadológico
Serviço Federal de Processamento de Dados
Coordenação Estratégica de Tecnologia – CETEC
Belo Horizonte / MG
28/11/2013
2. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Introdução
“Práticas de Mineração de Dados Escalável para Sistemas de
Governo”
Mineração de dados
Escalável
Sistemas de governo
3. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Introdução
“Práticas de Mineração de Dados Escalável para Sistemas de
Governo”
Descoberta de informações não triviais, potencialmente úteis,
significantes e reutilizáveis, implícitas em massas de dados
O conjunto de técnicas computacionais capazes de realizar esta
descoberta compõe o arcabouço ferramental da área de pesquisa e
aplicação conhecida por mineração de dados (MD)
4. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Introdução
“Práticas de Mineração de Dados Escalável para Sistemas de
Governo”
Pesquisas indicavam já em 2011 que a maioria das bases sobre as
quais foram realizadas análises tinham até 10 GB, enquanto em
2012 a maioria tinha até 100 GB1
– A tendência natural não é estabilizar ou diminuir este volume
– Algoritmos frequentemente tem complexidade exponencial
– Algoritmos irregulares
1 - www.kdnuggets.com
5. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Introdução
“Práticas de Mineração de Dados Escalável para Sistemas de
Governo”
Governo é um grande produtor e consumidor de dados
Existe um movimento global de governos e autoridades para
publicar dados
O principal objetivo é aumentar a transparência, democracia e
proporcionar a criação de serviços públicos
6. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Aplicações de MD
Gestão de
Relacionamento
com o Cliente - 26%
http://www.kdnuggets.com/polls
7. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Aplicações de MD
Bancos
Sistema de saúde
Edução
Detecção de fraude
Redes sociais...
http://www.kdnuggets.com/polls
8. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Aplicações de MD (2)
Governo - 7%
http://www.kdnuggets.com/polls
9. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Linguagens de programação para MD– O que é
utilizado?
http://www.kdnuggets.com/polls
10. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Ferramentas para MD – O que é utilizado?
http://www.kdnuggets.com/polls
11. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Ferramentas para MD – Grandes fornecedores
SAS
StatSoft Statistica Data Miner
IBM SPSS
Teradata
Microsoft SQL Server DM
Microstrategy
– Custo pode ser elevado
– Riscos de aprisionamento tecnológico
– Super-dimensionamento da solução escolhida frente aos
problemas de negócio
12. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Ferramentas para MD – Grandes fornecedores
SAS
StatSoft Statistica Data Miner
IBM SPSS
Teradata
Microsoft SQL Server DM
Microstrategy
– Custo pode ser elevado
– Riscos de aprisionamento tecnológico
– Super-dimensionamento da solução escolhida frente aos
problemas de negócio
MD não é apenas ferramenta!
13. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Mas o que é MD!
MD é um processo iterativo:
14. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Escalável: cenário atual
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas são realizadas na Google
– 272.000 dólares são comercializados em transações online
– 48 h de vídeos são baixadas no You Tube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– 7 milhões de notas fiscais eletrônicas (NFe) por dia
– 8,042 bilhões de NFe autorizadas...
1 – Gartner – 2 - http://www.nfe.fazenda.gov.br/
15. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Escalável: cenário atual
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas são realizadas na Google
– 272.000 dólares são comercializados em transações online
– 48 h de vídeos são baixadas no You Tube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– 7 milhões de notas fiscais eletrônicas (NFe) por dia
– 8,042 bilhões de NFe autorizadas...
Big Data X Big User
1 – Gartner – 2 - http://www.nfe.fazenda.gov.br/
16. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Sistemas de Governo
Efeitos dos dados abertos governamentais sobre as políticas
públicas
– Inclusão:
• Permite que qualquer cidadão utilize qualquer ferramenta de
software para adaptá-los às suas necessidades
– Transparência:
• As partes interessadas podem usá-las da maneira mais
adequada ao seu propósito
– Responsabilidade:
• Oferecer vários pontos de vista sobre o desempenho do
governo no cumprimento de suas metas em políticas
públicas
http://www.governoeletronico.gov.br/
17. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Governo – Um exemplo de base: NFe
Nota Fiscal Eletrônica (NFe)
– Modelo nacional de documento fiscal eletrônico que substitui a
sistemática de emissão do documento fiscal em papel
– Mais de 216 milhões de NFe por mês
Potencialidade para:
– Acompanhamento em tempo real do cenário econômico
nacional
– Adoção de medidas estratégicas de impacto imediato
18. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Sistema Nacional de Inovações
O desenvolvimento econômico de uma nação depende de sua
capacidade de geração de inovações tecnológicas
Inovação tecnológica é o verdadeiro motor do desenvolvimento
econômico
“Destruição criadora”
– Velhas estruturas são abandonadas e substituídas pelo novo,
pela inovação
• Ex: Impacto da internet nos grandes varejista
19. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Sistema Nacional de Inovações
A inovação, no entanto, não é algo que surge por geração
espontânea
Inovação é fruto de um conjunto amplo de relação entre empresas,
governos e as universidades
– Convencionou chamar de Sistema Nacional de Inovações
20. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Sistema Nacional de Inovações
A inovação, no entanto, não é algo que surge por geração
espontânea
Inovação é fruto de um conjunto amplo de relação entre empresas,
governos e as universidades
– Convencionou chamar de Sistema Nacional de Inovações
21. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
SERPRO
O SERPRO gerencia bases de dados de muitos sistemas estratégicos
para o Governo Federal. São bases volumosas com muito conhecimento
implícito armazenado e pouco explorado.
Exemplos de clientes:
22. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
DCC/UFMG
O departamento de ciência da computação (DCC) da UFMG é
reconhecidamente um centro de excelência em tecnologias
Algumas linhas de pesquisa relacionadas:
– Análise e modelagem de desempenho em sistemas de computação
• Analise de desempenho de sistemas de computação
• Análise de desempenho de sistemas de distribuição de conteúdo
• Técnicas de modelagem de sistemas distribuídos
– Escalabilidade e eficiência em sistemas de computação
• Gerenciamento de recursos
• Paralelização de algoritmos
• Serviços de internet escaláveis e eficientes
• Tolerância a falhas
23. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
SERPRO/UFMG/Governo
Hoje, cerca de 2% da produção científica mundial são derivados
dos esforços de pesquisadores brasileiros
– Quando se analisa quais publicações dão direito ao
requerimento de patentes tem-se um número muito pequeno
A importância da ciência de base é inegável
– Maior vínculo entre a produção científica e o desenvolvimento
produtivo
– Retroalimentação da produção tecnológica sobre a científica
O presente edital passou por processos de:
– Pesquisa base
– Prototipação
– Sustentabilidade
24. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Vantagens e potencial - 1
Acesso à pesquisadores da UFMG e SERPRO
– Inovação nasce com pesquisa
Tecnologias baseadas em software livre
Alinhamento com o cenário atual
– Denuncias de espionagem
– Busca de soluções tecnológicas nacionais
• Ex: Expresso
25. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Vantagens e potencial - 2
Soluções de MD e consultorias especificas e customizadas para
cada cliente
– Solução de alto desempenho
– Algoritmos paralelizados em grão fino
– Hardware de baixo custo e alto desempenho
– Capacidade de lidar com uma arquitetura heterogênea
Dependente do plano de negócio a ser proposto
– Capacidade para atender pequenos nichos de mercado
• Prefeituras
• “Pequenas” unidades de governo: compras net, polícia militar
de MG, Universidades
• Portal de convênios
– Soluções especificas para grandes empresas
26. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Obrigado.
Sérgio M. Dias
Coordenação Estratégica de Tecnologia – Belo Horizonte
E-mail: sergio.dias@serpro.gov.br
Telefone: (31) 3311-6539
27. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Ficha Técnica
SERPRO
– Carlos Alberto Guedes - carlos-alberto.guedes@serpro.gov.br
– Gustavo Gama Torres - gustavo.gamatorres@serpro.gov.br
– Marcelo Pita - marcelo.pita@serpro.gov.br
– Sérgio M. Dias - sergio.dias@serpro.gov.br
UFMG – Professores
– Adriano Veloso - adrianov@dcc.ufmg.br
– Dorgival Guedes - dorgival@dcc.ufmg.br
– Renato Ferreira - renato@dcc.ufmg.br
– Wagner Meira - meira@dcc.ufmg.br
UFMG – Alunos
– Israel Guerra - israel.guerra@gmail.com
– João Foscarini - jfoscarini@gmail.com
– Michel Boaventura - michel.boaventura@gmail.com
– Rubens Moreira - rubenseam@gmail.com
– Fernando Mussel - fernandomussel91@gmail.com
28. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Referências
The R Project for Statistical Computing. URL http://www.r-project.org/. Último
acesso em Junho de 2013.
Arcabouço anthill. URL http://www.speed.dcc.ufmg.br/anthill. último acesso em
Dezembro de 2012.
Pentaho data integration - PDI. URL http://kettle.pentaho.com. Último acesso em
Junho de 2013.
R.A. Ferreira, W. Meira, D. Guedes, L.M.A. Drummond, B. Coutinho, G. Teodoro,
T. Tavares, R. Araujo, and G.T. Ferreira. Anthill: a scalable run-time environment
for data mining applications. In Computer Architecture and High Performance
Computing, 2005. SBAC-PAD 2005. 17th International Symposium on, pages
159–166, 2005. doi: 10.1109/CAHPC.2005.12.
Mehmed Kantardzic. Data Mining: Concepts, Models, Methods, and Algorithms.
JohnWiley & Sons, 2003. ISBN 0471228524.
Andrew S. Tanenbaum. Redes de Computadores. Elsevier, Rio de Janeiro, trad.
4 ed.edition, 2003.
29. Sérgio M. Dias (CETEC/CTBHE) | Edital SERPRO/UFMG 01/2013: Potencial Mercadológico
Referências
Patrice McDermott, Building open government, Government Information
Quarterly, Volume 27, Issue 4, October 2010, Pages 401-413, ISSN 0740-624X,
10.1016/j.giq.2010.07.002.
Li Ding, Dominic DiFranzo, Alvaro Graves, James Michaelis, Xian Li, Deborah L.
McGuinness, Jim Hendler: Data-gov Wiki: Towards Linking Government Data.
AAAI Spring Symposium: Linked Data Meets Artificial Intelligence 2010
S. Acar, J. M. Alonso, and K. Novak. Improving access to government through
better use of the web, Online 2009. available at http://www.w3.org/TR/egov-
improving/