SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Downloaden Sie, um offline zu lesen
Mineração de Dados do
Censo Escolar
Gustavo Carvalho, Helder Santana, Thiago
Silva
Resumo
1. O Trabalho;
2. Pré-processamento;
3. Processamento;
4. Análise;
5. Regras Geradas;
6. Conclusão;
Pré-processamento
● Dados heterogêneos;
● 2007 à 2011 várias semelhanças;
● Unificação das bases:
○ 2009 como ponto de partida;
○ Remoção de atributos pouco participativos;
○ Problemas:
■ ID_QUADRA_ESPORTES;
■ ID_AGUA_FILTRADA;
Pré-processamento
● Tratamento de atributos:
○ Exclusão:
■ DT_ANO_LETIVO_(INICIO & TERMINO);
■ FK_COD_LINGUA_INDIGENA;
■ ID_CONVENIADA_PP;
■ ID_DEPENDENCIAS_OUTRAS;
■ ID_ESP_MEDIO_*(Todos os 4);
■ PK_COD_ENTIDADE & FK_COD_ESTADO;
Obs.: Atributo DESC_CATEGORIA_ESCOLA_PRIVADA não foi excluído.
Pré-processamento
● Tratamento de atributos:
○ Categorização:
■ NUM_COMP_ADMINISTRATIVOS;
■ NUM_COMP_ALUNOS;
■ NUM_COMPUTADORES;
■ NUM_FUNCIONARIOS;
■ NUM_SALAS_EXISTENTES;
■ NUM_SALAS_UTILIZADAS;
Processamento
● Filter “NumericToNominal”;
● Demora de gerar resultados ou loop infinito;
● Regras apenas com valores 0 ⇒
substituição de 0 por vazio;
● Redução do escopo para apenas 2011;
● Várias execuções removendo cada vez mais
atributos;
Análise
● Regras ordenadas pelas medidas de
avaliação;
● “Qualidade” avaliada pelo conhecimento do
domínio;
● Regras óbvias foram excluídas;
Regras Geradas
ID_LOCALIZACAO_DIFERENCIADA=0 ⇒ DESC_SITUACAO_FUNCIONAMENTO=1
(25301) (25301) conf:(1)
“Se a localização não for diferenciada então a escola está em funcionamento.”
Talvez escolas que não estejam em atividades não participaram do censo. Caso
contrário, grande parte das escolas estão funcionando.
ID_LOCALIZACAO_DIFERENCIADA:
0 - Não se aplica
1 - Á rea de assentamento
2 - Terra indı́gena
3 - Á rea remanescente de quilombos
DESC_SITUACAO_FUNCIONAMENTO:
1 - EM ATIVIDADE
2 - PARALISADA
3 - EXTINTA
4 - EXTINTA NO ANO ANTERIOR
Regras Geradas
Mais sobre localização diferenciada:
● ID_LIXO_COLETA_PERIODICA=1 (23731) ⇒ ID_LOCALIZACAO _DIFERENCIADA=0 (23573) conf:(0.99);
● ID_EQUIP_TV=1 (24633) ⇒ ID_LOCALIZACAO_DIFERENCIADA=0 (24322) conf:(0.99) ;
● ID_EQUIP_DVD=1 (24158) ⇒ ID_LOCALIZACAO_DIFERENCIADA=0 (23865) conf:(0.99);
● ID_COZINHA=1 ID_EQUIP_DVD=1 (23595) ⇒ ID_LOCALIZACAO _DIFERENCIADA=0 (23308) conf:(0.99);
● ID_COMPUTADORES=1 (23320) ⇒ ID_LOCALIZACAO _DIFERENCIADA=0 (23034) conf:(0.99);
Axioma da lógica clássica:
Logo, escolas em localização diferenciada aparentemente
possuem deficiência nas estruturas/equipamentos citados.
Entretanto, o suporte é muito baixo.
Regras Geradas
● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_AGUA _INEXISTENTE=0 ID_ESGOTO_INEXISTENTE=0
(25505) conf:(0.99);
● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_ENERGIA _INEXISTENTE=0 (25673) conf:(1);
● ID_ENERGIA_INEXISTENTE=0 (25673) ⇒ DESC_SITUACAO _FUNCIONAMENTO=1 (25673) conf:(1);
● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_ENERGIA _OUTROS=0 (25687) conf:(1);
● ID_ENERGIA_OUTROS=0 (25687) ⇒ DESC_SITUACAO _FUNCIONAMENTO=1 (25687) conf:(1);
● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_EQUIP_TV=1 (24633) conf:(0.96);
● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_COZINHA=1 (24630) conf:(0.96);
● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_EQUIP_DVD=1 (24158) conf:(0.94);
Todas as escolas em funcionamento possui água, esgoto e
energia elétrica. A maioria possui cozinha, TV e DVD.
Regras Geradas
● ID_LABORATORIO _CIENCIAS=0 (27004) ⇒ ID_SALA_LEITURA=0
(24240) conf:(0.9);
○ Indica prioridade de sala de leitura sobre laboratório de ciências;
● ID_ALIMENTACAO=1 (22808) ⇒ ID_COZINHA=1 (22467) conf:(0.99);
○ Refeições produzidas na própria escola;
● ID_COMPUTADORES=1 (23320) ⇒ ID_EQUIP_TV=1 (22929) conf:(0.98);
○ Indica prioridade de TV sobre computadores;
● ID_LIXO_QUEIMA=0 (23420) ⇒ ID_LIXO_COLETA_PERIODICA=1 (22914)
conf:(0.98);
○ Se a escola não queima o lixo então possui coleta periódica.
Conclusão
● Mineração de dados é também tentativa e
erro, o que torna o processo cíclico;
● Pouco tempo disponível, demora para gerar
regras e pouca experiência dificultou a
geração de regras relevantes;
● Grande maioria das escolas (do sul) possui
infraestrutura básica (água, energia,
esgoto…) exceto aquelas em localização
diferenciada.
Referências
1. de Vasconcelos, Lívia Maria Rocha, and Cedric Luiz de Carvalho. "Aplicação de Regras de
Associação para Mineração de Dados na Web." Brasil, Universidade Federal do Rio Grande do Sul
(2004): 11-14.
2. Brusso, M. J. Access Miner: Uma proposta para a Extração de Regras de Associação Aplicada à
Mineração do Uso da Web. Master’s thesis, PPGC da UFRGS, Porto Alegre - RS, 2000.
3. Data Mining na Prática: Regras de Associação. Mauro Pichiliani. 2008.
4. Pang-Ning, Tan, Michael Steinbach, and Vipin Kumar. "Introduction to data mining." WP Co
(2006).
5. Azevedo, Paulo J., and Alípio M. Jorge. "Comparing rule measures for predictive association
rules." Machine Learning: ECML 2007. Springer Berlin Heidelberg, 2007. 510-517.
6. Mattos, Guilherme. L. M. “Medidas de interesse de regras associativas: estudo de caso com dados
de clientes de créditos bancários”. 2007.
7. Bürkle, Paula Y. “Um Método de Pós-processamento de Regras de Associação com Base nas
Relações de Dependência entre os Atributos”. 2006.
8. “Weka 3: Data Mining Software in Java”, http://reality.sgi.
com/employees/jam_sb/mocap/MoCapWP_v2.0.html, Dezembro 2014.

Weitere ähnliche Inhalte

Ähnlich wie Mineração de Dados no Senso Escolar

Ähnlich wie Mineração de Dados no Senso Escolar (10)

Aula Data Mining
Aula Data MiningAula Data Mining
Aula Data Mining
 
Construindo ERP's com PHP: Desafios em design, manutenção segurança e perf...
Construindo ERP's com PHP: Desafios em design, manutenção segurança e perf...Construindo ERP's com PHP: Desafios em design, manutenção segurança e perf...
Construindo ERP's com PHP: Desafios em design, manutenção segurança e perf...
 
SIGMA - SISTEMAS COMPLEXOS
SIGMA - SISTEMAS COMPLEXOSSIGMA - SISTEMAS COMPLEXOS
SIGMA - SISTEMAS COMPLEXOS
 
Mineração
MineraçãoMineração
Mineração
 
Painel 03 01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
Painel 03   01 - Rommel Carvalho - detecção preventiva de fracionamento de co...Painel 03   01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
Painel 03 01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de compras
 
i-Educar - 1º Seminário PHP no Serpro
i-Educar - 1º Seminário PHP no Serproi-Educar - 1º Seminário PHP no Serpro
i-Educar - 1º Seminário PHP no Serpro
 
Sistema de Irrigação Automatizado com Interface de Controle e Monitoramento O...
Sistema de Irrigação Automatizado com Interface de Controle e Monitoramento O...Sistema de Irrigação Automatizado com Interface de Controle e Monitoramento O...
Sistema de Irrigação Automatizado com Interface de Controle e Monitoramento O...
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
A Crise Energética e seus impactos nos Data Centers
A Crise Energética e seus impactos nos Data CentersA Crise Energética e seus impactos nos Data Centers
A Crise Energética e seus impactos nos Data Centers
 

Mehr von Gustavo Carvalho

Mehr von Gustavo Carvalho (8)

Process aware interrupt scheduling and accounting
Process aware interrupt scheduling and accountingProcess aware interrupt scheduling and accounting
Process aware interrupt scheduling and accounting
 
Medidas de Avaliação de Classificação em Mineração de Texto
Medidas de Avaliação de Classificação em Mineração de TextoMedidas de Avaliação de Classificação em Mineração de Texto
Medidas de Avaliação de Classificação em Mineração de Texto
 
Integração com Redes Sociais em Aplicativos Móveis
Integração com Redes Sociais em Aplicativos MóveisIntegração com Redes Sociais em Aplicativos Móveis
Integração com Redes Sociais em Aplicativos Móveis
 
Parkour Descalço
Parkour DescalçoParkour Descalço
Parkour Descalço
 
Estudo de caso do Aplicativo InMap
Estudo de caso do Aplicativo InMapEstudo de caso do Aplicativo InMap
Estudo de caso do Aplicativo InMap
 
Apresentação comercial do App Spots
Apresentação comercial do App SpotsApresentação comercial do App Spots
Apresentação comercial do App Spots
 
Jogos Educativos
Jogos EducativosJogos Educativos
Jogos Educativos
 
Sistema de Recomendação de Lojas
Sistema de Recomendação de LojasSistema de Recomendação de Lojas
Sistema de Recomendação de Lojas
 

Kürzlich hochgeladen

Kürzlich hochgeladen (6)

Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 

Mineração de Dados no Senso Escolar

  • 1. Mineração de Dados do Censo Escolar Gustavo Carvalho, Helder Santana, Thiago Silva
  • 2. Resumo 1. O Trabalho; 2. Pré-processamento; 3. Processamento; 4. Análise; 5. Regras Geradas; 6. Conclusão;
  • 3. Pré-processamento ● Dados heterogêneos; ● 2007 à 2011 várias semelhanças; ● Unificação das bases: ○ 2009 como ponto de partida; ○ Remoção de atributos pouco participativos; ○ Problemas: ■ ID_QUADRA_ESPORTES; ■ ID_AGUA_FILTRADA;
  • 4. Pré-processamento ● Tratamento de atributos: ○ Exclusão: ■ DT_ANO_LETIVO_(INICIO & TERMINO); ■ FK_COD_LINGUA_INDIGENA; ■ ID_CONVENIADA_PP; ■ ID_DEPENDENCIAS_OUTRAS; ■ ID_ESP_MEDIO_*(Todos os 4); ■ PK_COD_ENTIDADE & FK_COD_ESTADO; Obs.: Atributo DESC_CATEGORIA_ESCOLA_PRIVADA não foi excluído.
  • 5. Pré-processamento ● Tratamento de atributos: ○ Categorização: ■ NUM_COMP_ADMINISTRATIVOS; ■ NUM_COMP_ALUNOS; ■ NUM_COMPUTADORES; ■ NUM_FUNCIONARIOS; ■ NUM_SALAS_EXISTENTES; ■ NUM_SALAS_UTILIZADAS;
  • 6. Processamento ● Filter “NumericToNominal”; ● Demora de gerar resultados ou loop infinito; ● Regras apenas com valores 0 ⇒ substituição de 0 por vazio; ● Redução do escopo para apenas 2011; ● Várias execuções removendo cada vez mais atributos;
  • 7. Análise ● Regras ordenadas pelas medidas de avaliação; ● “Qualidade” avaliada pelo conhecimento do domínio; ● Regras óbvias foram excluídas;
  • 8. Regras Geradas ID_LOCALIZACAO_DIFERENCIADA=0 ⇒ DESC_SITUACAO_FUNCIONAMENTO=1 (25301) (25301) conf:(1) “Se a localização não for diferenciada então a escola está em funcionamento.” Talvez escolas que não estejam em atividades não participaram do censo. Caso contrário, grande parte das escolas estão funcionando. ID_LOCALIZACAO_DIFERENCIADA: 0 - Não se aplica 1 - Á rea de assentamento 2 - Terra indı́gena 3 - Á rea remanescente de quilombos DESC_SITUACAO_FUNCIONAMENTO: 1 - EM ATIVIDADE 2 - PARALISADA 3 - EXTINTA 4 - EXTINTA NO ANO ANTERIOR
  • 9. Regras Geradas Mais sobre localização diferenciada: ● ID_LIXO_COLETA_PERIODICA=1 (23731) ⇒ ID_LOCALIZACAO _DIFERENCIADA=0 (23573) conf:(0.99); ● ID_EQUIP_TV=1 (24633) ⇒ ID_LOCALIZACAO_DIFERENCIADA=0 (24322) conf:(0.99) ; ● ID_EQUIP_DVD=1 (24158) ⇒ ID_LOCALIZACAO_DIFERENCIADA=0 (23865) conf:(0.99); ● ID_COZINHA=1 ID_EQUIP_DVD=1 (23595) ⇒ ID_LOCALIZACAO _DIFERENCIADA=0 (23308) conf:(0.99); ● ID_COMPUTADORES=1 (23320) ⇒ ID_LOCALIZACAO _DIFERENCIADA=0 (23034) conf:(0.99); Axioma da lógica clássica: Logo, escolas em localização diferenciada aparentemente possuem deficiência nas estruturas/equipamentos citados. Entretanto, o suporte é muito baixo.
  • 10. Regras Geradas ● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_AGUA _INEXISTENTE=0 ID_ESGOTO_INEXISTENTE=0 (25505) conf:(0.99); ● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_ENERGIA _INEXISTENTE=0 (25673) conf:(1); ● ID_ENERGIA_INEXISTENTE=0 (25673) ⇒ DESC_SITUACAO _FUNCIONAMENTO=1 (25673) conf:(1); ● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_ENERGIA _OUTROS=0 (25687) conf:(1); ● ID_ENERGIA_OUTROS=0 (25687) ⇒ DESC_SITUACAO _FUNCIONAMENTO=1 (25687) conf:(1); ● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_EQUIP_TV=1 (24633) conf:(0.96); ● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_COZINHA=1 (24630) conf:(0.96); ● DESC_SITUACAO_FUNCIONAMENTO=1 (25761) ⇒ ID_EQUIP_DVD=1 (24158) conf:(0.94); Todas as escolas em funcionamento possui água, esgoto e energia elétrica. A maioria possui cozinha, TV e DVD.
  • 11. Regras Geradas ● ID_LABORATORIO _CIENCIAS=0 (27004) ⇒ ID_SALA_LEITURA=0 (24240) conf:(0.9); ○ Indica prioridade de sala de leitura sobre laboratório de ciências; ● ID_ALIMENTACAO=1 (22808) ⇒ ID_COZINHA=1 (22467) conf:(0.99); ○ Refeições produzidas na própria escola; ● ID_COMPUTADORES=1 (23320) ⇒ ID_EQUIP_TV=1 (22929) conf:(0.98); ○ Indica prioridade de TV sobre computadores; ● ID_LIXO_QUEIMA=0 (23420) ⇒ ID_LIXO_COLETA_PERIODICA=1 (22914) conf:(0.98); ○ Se a escola não queima o lixo então possui coleta periódica.
  • 12. Conclusão ● Mineração de dados é também tentativa e erro, o que torna o processo cíclico; ● Pouco tempo disponível, demora para gerar regras e pouca experiência dificultou a geração de regras relevantes; ● Grande maioria das escolas (do sul) possui infraestrutura básica (água, energia, esgoto…) exceto aquelas em localização diferenciada.
  • 13. Referências 1. de Vasconcelos, Lívia Maria Rocha, and Cedric Luiz de Carvalho. "Aplicação de Regras de Associação para Mineração de Dados na Web." Brasil, Universidade Federal do Rio Grande do Sul (2004): 11-14. 2. Brusso, M. J. Access Miner: Uma proposta para a Extração de Regras de Associação Aplicada à Mineração do Uso da Web. Master’s thesis, PPGC da UFRGS, Porto Alegre - RS, 2000. 3. Data Mining na Prática: Regras de Associação. Mauro Pichiliani. 2008. 4. Pang-Ning, Tan, Michael Steinbach, and Vipin Kumar. "Introduction to data mining." WP Co (2006). 5. Azevedo, Paulo J., and Alípio M. Jorge. "Comparing rule measures for predictive association rules." Machine Learning: ECML 2007. Springer Berlin Heidelberg, 2007. 510-517. 6. Mattos, Guilherme. L. M. “Medidas de interesse de regras associativas: estudo de caso com dados de clientes de créditos bancários”. 2007. 7. Bürkle, Paula Y. “Um Método de Pós-processamento de Regras de Associação com Base nas Relações de Dependência entre os Atributos”. 2006. 8. “Weka 3: Data Mining Software in Java”, http://reality.sgi. com/employees/jam_sb/mocap/MoCapWP_v2.0.html, Dezembro 2014.