SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Downloaden Sie, um offline zu lesen
AGREGAÇÃO DE DADOS
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
OBJETIVOS DA AULA
• Apresentar a primeira etapa do processo de
transformação de dados em informação	

• Descrever os diferentes níveis de agregação de
dados	

• Exibir erros comuns na análise de dados agregados
NÍVEIS DE AGREGAÇÃO
Fato Série Multi-série
Multi-série
somável
Registros
de sumário
Transações
individuais
Habilidade para explorar os dados
- +
NÍVEIS DE AGREGAÇÃO
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657
Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
FATO
• Um fato (factoid) é um ponto único de informação	

• Calculado a partir dos dados crus, é escolhido para
enfatizar um ponto específico	

• Não possibilita qualquer exploração dos dados
!
36.7% do café vendido em 2000 foi consumido por mulheres.
SÉRIE
• Apresenta um tipo de informação (variável
dependente) comparado com outra (variável
independente)	

• Frequentemente a variável independente é o
tempo
SÉRIE
• Neste exemplo, o total de vendas depende do ano	

• Ou seja, o ano é independente (escolha um ano) e
o total de vendas é dependente (baseado nesta
escolha, o consumo foi de x)
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
SÉRIE
• Uma série também pode ser baseada em valores
contínuos, como temperatura.
Temperatura da Água (C) Tempo até uma
queimadura de 1o grau
116 35 minutos
122 1 mínuto
131 5 segundos
140 2 segundos
149 1 segundo
154 Instantâneo
SÉRIE
• Ou ser uma seqüência de
valores não-contíguos, mas
relacionados em uma
mesma categoria
Planeta Massa relativa á
da Terra
Mercúrio 0.0553
Vênus 0.815
Terra 1
Marte 0.107
Júpiter 317.8
Saturno 95.2
Urano 14.5
Netuno 17.1
SÉRIE
• Em muitos casos uma série possui apenas uma variável
dependente para cada variável independente	

• Em outras palavras, há apenas um valor para o
consumo total de café para cada ano	

• Este tipo de informação geralmente é exibido
utilizando um gráfico de barras, de colunas ou de série
temporal
SÉRIE
Total de vendas
0
35000
70000
105000
140000
2000 2001 2002 2003 2004 2005 2006 2007 2008
MULTI-SÉRIE
• Uma multi-série é um conjunto de dados que possui vários itens
de informação dependente para um único item de informação
independente	

• Com esse conjunto de dados sabemos que em 2001 foram
servidas 16.452 doses de café para homens e 14.021 doses de café
regular (com cafeína e açúcar)
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
MULTI-SÉRIE
• Porém, não sabemos como combinar essas duas informações
de forma útil: elas não são relacionadas!	

• Não temos como dizer qual o percentual de cafés regulares
servidos para homens	

• Multi-série são simplesmente várias séries em um mesmo gráfico
ou tabela	

• Podemos exibi-las juntas mas não temos como combiná-las de
forma significativa
MULTI-SÉRIE
0
17500
35000
52500
70000
2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino Regular
MULTI-SÉRIE SOMÁVEL
• Como o próprio nome já sugere, uma multi-série
somável diz respeito a uma estatística em
particular (sexo, tipo de café) segmentada em
subgrupos
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
MULTI-SÉRIE
SOMÁVEL
• Como sabemos que um
bebedor de café é homem
ou mulher, podemos somar
estes valores para obter uma
observação sobre o total de
consumo e com isso exibir
porcentagens
Consumo de Café por sexo em
2001
28%
72%
Homem Mulher
MULTI-SÉRIE SOMÁVEL
Consumo total de café, por sexo
0
35000
70000
105000
140000
2000 2001 2002 2003 2004 2005 2006 2007 2008
Masculino Feminino
MULTI-SÉRIE SOMÁVEL
• Um desafio ao se utilizar multi-séries é entender quais séries podem
ser combinadas.	

• Não há nada nesta tabela que nos diga como combinar estas
informações - processamento humano!
Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291
Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657
Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
É DIFÍCIL EXPLORAR DADOS
RESUMIDOS
• 36.7% das cafés vendidos em 2000 foram
consumidos por mulheres	

• Foram vendidos 9.929 cafés regulares em 200	

• Portanto, mulheres compraram 3643.9 cafés
regulares em 2010
É DIFÍCIL EXPLORAR DADOS
RESUMIDOS
• Errado!
• O fato do resultado ser uma fração já nos mostra que isso não é uma
boa idéia (ninguém compra .9 xícaras de café)	

• Este tipo de inferência só pode ser feita se soubermos como uma
categoria (tipo de café) é distribuída em uma outra categoria (sexo).	

• A única forma de explorar realmente os dados e poder responder
novas questões é analisar os dados crus	

• Depois é preciso saber como agregá-los corretamente
REGISTROS DE SUMÁRIO
Nome Sexo Regular Decaf Mocha Total
Pedro M 2 3 1 6
Maria F 4 0 0 4
José M 1 2 4 7
Joana F 3 1 0 4
Belinha F 1 0 0 1
João M 2 1 3 6
Biu M 3 1 0 4
Jacó M 0 0 1 1
Total 5M, 3F 16 8 9 33
REGISTROS DE SUMÁRIO
• Esse tipo de tabela é bastante familiar para
qualquer um que já usou o Excel	

• Tivemos 5 consumidores do sexo masculino e 3
do feminino	

• Vendemos 16 cafés regulares, 8 decaf e 9
mochas, totalizando 33 cafés
REGISTROS DE SUMÁRIO
• Mas o mais importante é que podemos combinar
categorias de dados para responder mais
perguntas exploratória 	

• Por exemplo “Mulheres preferem algum tipo
específico de café?”
REGISTROS DE SUMÁRIO
• Olhando esta tabela podemos "afirmar" que
mulheres preferem café regular e homens não
têm uma preferência específica.
Sexo
Média de
Regulares
Média de
Decaf
Média de
Mocha
M 1.60 1.40 1.80
F 2.67 0.33 0.00
Total 2.29 1.14 1.14
REGISTROS DE SUMÁRIO
• Mesmo agora ainda temos algum nível de agregação	

• Resumimos os dados em várias dimensões - sexo e tipo de
café - ao agregá-los por nome de cliente. 	

• Apesar desses ainda não serem os dados crus, já estamos
bem próximos disso.	

• Uma vantagem desse agrupamento é reduzir o tamanho
do conjunto de dados
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• É comum agregar registros
de sumário ou dados crus
para podermos exibi-los
mais facilmente. 	

• Considere as seguintes
transações
Nome Regular Decaf Mocha
Pedro 2 3 1
Maria 4 0 0
José 1 2 4
Joana 3 1 0
Belinha 1 0 0
João 2 1 3
Biu 3 1 0
Jacó 0 0 1
Total 16 8 9
Médias 2 1 1.125
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
Média de xícaras consumidas
0
0.5
1
1.5
2
Regular Decaf Mocha
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• A média esconde detalhes!
• É possível que algumas pessoas tenham tomado uma única dose
de um determinado café e outras tenham tomando várias doses.	

• Existem formas mais adequadas para observar as variações de
forma a melhor exibir a forma de uma informação 	

• Se mantemos os dados crus podemos entrelaçar mais de uma
variável dependente a cada variável independente.
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
Frequênciadecadaevento
0
1
2
3
1 2 3 4 5 6 7
Moda: o número mais
frequente de cafés
consumidos é 4
Média: o número médio
de cafés por cliente é 4.12
USANDOVISUALIZAÇÃO
PARA REVELARVARIAÇÕES
• A média foi 4.12 porém o histograma demonstra
que há 3 clientes que bebem muito café!	

• Quando se tem os dados crus é possível
identificar exceções e pontos fora da curva
(outliers) e contar uma história mais precisa.	

• Porém, estes ainda não são os dados crus!
TRANSAÇÕES INDIVIDUAIS
• Estas transações podem ser
agregadas por qualquer coluna. 	

• O tempo também pode ser
agregado em intervalos (hora, dia,
ano, etc) 	

• Os dados que vimos lá no início
da aula podem ser facilmente
gerados a partir de um conjunto
de transações como estas	

• Mas é impossível fazer o
caminho inverso!
Hora Nome Sexo Café
17:00 Pedro M Regular
17:01 Maria F Regular
17:02 José M Mocha
17:03 Joana F Decaf
17:04 Belinha F Regular
17:05 João M Regular
17:06 Biu M Mocha
17:07 Jacó M Decaf
DECIDINDO COMO
AGREGAR OS DADOS
• Quando agregamos dados crus como estes para gerar sumários
como os que vimos hoje nós perdemos a história dos dados	

• Por exemplo, quando agrupamos as transações individuais para
fazer uma totalização anual, nós:	

• Removemos os nomes dos clientes, tornando os dados
anônimos	

• Agrupamos os horários de compras, gerando um sumário por
ano
DECIDINDO COMO
AGREGAR OS DADOS
• Qualquer um desses dois itens de dados poderia ser utilizado para
identificar que alguém consome uma quantidade muito grande de
café	

• E se ao invés de café, estivéssemos vendendo bebidas alcóolicas? 	

• Deveríamos alertar um cliente que bebe demais?	

• Se um cliente se envolve em um acidente, os registros do seu
consumo de bebidas alcóolicas poderiam ser utilizados como
prova contra ele?
REFERÊNCIAS
• Data + Design:A simple introduction to preparing
an visualizing information,Tina Chiasson et al

Weitere ähnliche Inhalte

Was ist angesagt?

Metodologia cientifica
Metodologia cientificaMetodologia cientifica
Metodologia cientifica
jaddy xavier
 
Aula 3 revisão de literatura e metodologia
Aula 3 revisão de literatura e metodologiaAula 3 revisão de literatura e metodologia
Aula 3 revisão de literatura e metodologia
bioalvarenga
 
Como realizar um Trabalho Científico
Como realizar um Trabalho CientíficoComo realizar um Trabalho Científico
Como realizar um Trabalho Científico
ligasmedicas
 
02 técnica quantitativa - survey
02   técnica quantitativa - survey02   técnica quantitativa - survey
02 técnica quantitativa - survey
Fabio Lima
 
Análise e interpratação dos dados
Análise e interpratação dos dadosAnálise e interpratação dos dados
Análise e interpratação dos dados
Adamo Cruz
 
Apresentação iniciação científica
Apresentação   iniciação científicaApresentação   iniciação científica
Apresentação iniciação científica
Gerdian Teixeira
 

Was ist angesagt? (20)

Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
Capítulo 5 instrumentos de pesquisa
Capítulo 5   instrumentos de pesquisaCapítulo 5   instrumentos de pesquisa
Capítulo 5 instrumentos de pesquisa
 
Metodologia cientifica
Metodologia cientificaMetodologia cientifica
Metodologia cientifica
 
Aula 3 revisão de literatura e metodologia
Aula 3 revisão de literatura e metodologiaAula 3 revisão de literatura e metodologia
Aula 3 revisão de literatura e metodologia
 
Pesquisas de Levantamento ou Surveys
Pesquisas de Levantamento ou SurveysPesquisas de Levantamento ou Surveys
Pesquisas de Levantamento ou Surveys
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Pesquisa qualitativa
Pesquisa qualitativaPesquisa qualitativa
Pesquisa qualitativa
 
Métodos e tipos de pesquisa
Métodos e tipos de pesquisaMétodos e tipos de pesquisa
Métodos e tipos de pesquisa
 
Introdução à metodologia da pesquisa científica
Introdução à metodologia da pesquisa científicaIntrodução à metodologia da pesquisa científica
Introdução à metodologia da pesquisa científica
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentais
 
Como realizar um Trabalho Científico
Como realizar um Trabalho CientíficoComo realizar um Trabalho Científico
Como realizar um Trabalho Científico
 
Tipos de Pesquisa e Métodos Científicos
Tipos de Pesquisa e Métodos CientíficosTipos de Pesquisa e Métodos Científicos
Tipos de Pesquisa e Métodos Científicos
 
Guia para apresentação de uma Tese
Guia para apresentação de uma TeseGuia para apresentação de uma Tese
Guia para apresentação de uma Tese
 
02 técnica quantitativa - survey
02   técnica quantitativa - survey02   técnica quantitativa - survey
02 técnica quantitativa - survey
 
Big Data
Big DataBig Data
Big Data
 
Análise e interpratação dos dados
Análise e interpratação dos dadosAnálise e interpratação dos dados
Análise e interpratação dos dados
 
Apresentação iniciação científica
Apresentação   iniciação científicaApresentação   iniciação científica
Apresentação iniciação científica
 
Algoritmos: Tipos de Dados
Algoritmos: Tipos de DadosAlgoritmos: Tipos de Dados
Algoritmos: Tipos de Dados
 
Modelagem multidimensional conceitos básicos
Modelagem multidimensional conceitos básicosModelagem multidimensional conceitos básicos
Modelagem multidimensional conceitos básicos
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBI
 

Andere mochten auch

Considerações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisaConsiderações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisa
Leticia Strehl
 
Método Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de DadosMétodo Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de Dados
Natalia Pina
 
Metodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos geraisMetodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos gerais
Juliana Sarieddine
 
Dados, tabelas e gráficos de barras
Dados, tabelas e gráficos de barrasDados, tabelas e gráficos de barras
Dados, tabelas e gráficos de barras
rubensdiasjr07
 

Andere mochten auch (20)

Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Análise de conteúdo de uma entrevista
Análise de conteúdo de uma entrevistaAnálise de conteúdo de uma entrevista
Análise de conteúdo de uma entrevista
 
análise de conteudo
análise de conteudoanálise de conteudo
análise de conteudo
 
Considerações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisaConsiderações preliminares sobre dados quantitativos de pesquisa
Considerações preliminares sobre dados quantitativos de pesquisa
 
Capítulo 10 de Creswell
Capítulo 10 de CreswellCapítulo 10 de Creswell
Capítulo 10 de Creswell
 
Qualiquanti
QualiquantiQualiquanti
Qualiquanti
 
Método Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de DadosMétodo Qualitativo/ Analise de Dados
Método Qualitativo/ Analise de Dados
 
Metodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos geraisMetodologia científica introdução e conceitos gerais
Metodologia científica introdução e conceitos gerais
 
Metodos de analises
Metodos de analisesMetodos de analises
Metodos de analises
 
Metodologia científica
Metodologia científicaMetodologia científica
Metodologia científica
 
Projeto Aprender e Ensinar - Gráficos e Tabelas
Projeto  Aprender e Ensinar  - Gráficos e TabelasProjeto  Aprender e Ensinar  - Gráficos e Tabelas
Projeto Aprender e Ensinar - Gráficos e Tabelas
 
Interpretação de gráficos e tabelas
Interpretação de gráficos e tabelasInterpretação de gráficos e tabelas
Interpretação de gráficos e tabelas
 
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
METODOLOGIA CIENTÍFICA - Guia Simplificado para a Classificação de Pesquisas ...
 
Como apresentar os seus dados em gráficos e tabelas
Como apresentar os seus dados em gráficos e tabelasComo apresentar os seus dados em gráficos e tabelas
Como apresentar os seus dados em gráficos e tabelas
 
Dados, tabelas e gráficos de barras
Dados, tabelas e gráficos de barrasDados, tabelas e gráficos de barras
Dados, tabelas e gráficos de barras
 
Aula 01 - Métodos de Análise de Dados
Aula 01 - Métodos de Análise de DadosAula 01 - Métodos de Análise de Dados
Aula 01 - Métodos de Análise de Dados
 

Mehr von Alexandre Duarte

Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Alexandre Duarte
 
Análise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAnálise de Redes Sociais: Introdução
Análise de Redes Sociais: Introdução
Alexandre Duarte
 
Dicas para calouros na Universidade
Dicas para calouros na UniversidadeDicas para calouros na Universidade
Dicas para calouros na Universidade
Alexandre Duarte
 

Mehr von Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
 
Análise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAnálise de Redes Sociais: Introdução
Análise de Redes Sociais: Introdução
 
Dicas para calouros na Universidade
Dicas para calouros na UniversidadeDicas para calouros na Universidade
Dicas para calouros na Universidade
 
Unidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosUnidade 0: Projeto de Experimentos
Unidade 0: Projeto de Experimentos
 

Kürzlich hochgeladen

Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
FabianeMartins35
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
NarlaAquino
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
PatriciaCaetano18
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
CleidianeCarvalhoPer
 
Aula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptxAula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptx
andrenespoli3
 
8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito
tatianehilda
 

Kürzlich hochgeladen (20)

Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxSlides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVAEDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 
Produção de Texto - 5º ano - CRÔNICA.pptx
Produção de Texto - 5º ano - CRÔNICA.pptxProdução de Texto - 5º ano - CRÔNICA.pptx
Produção de Texto - 5º ano - CRÔNICA.pptx
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptx
 
Projeto de Extensão - DESENVOLVIMENTO BACK-END.pdf
Projeto de Extensão - DESENVOLVIMENTO BACK-END.pdfProjeto de Extensão - DESENVOLVIMENTO BACK-END.pdf
Projeto de Extensão - DESENVOLVIMENTO BACK-END.pdf
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
 
Aula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptxAula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptx
 
8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito
 

Introdução à Analise de Dados - aula 3 - Agregação de Dados

  • 1. AGREGAÇÃO DE DADOS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  • 2. OBJETIVOS DA AULA • Apresentar a primeira etapa do processo de transformação de dados em informação • Descrever os diferentes níveis de agregação de dados • Exibir erros comuns na análise de dados agregados
  • 3. NÍVEIS DE AGREGAÇÃO Fato Série Multi-série Multi-série somável Registros de sumário Transações individuais Habilidade para explorar os dados - +
  • 4. NÍVEIS DE AGREGAÇÃO Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362 Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657 Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
  • 5. FATO • Um fato (factoid) é um ponto único de informação • Calculado a partir dos dados crus, é escolhido para enfatizar um ponto específico • Não possibilita qualquer exploração dos dados ! 36.7% do café vendido em 2000 foi consumido por mulheres.
  • 6. SÉRIE • Apresenta um tipo de informação (variável dependente) comparado com outra (variável independente) • Frequentemente a variável independente é o tempo
  • 7. SÉRIE • Neste exemplo, o total de vendas depende do ano • Ou seja, o ano é independente (escolha um ano) e o total de vendas é dependente (baseado nesta escolha, o consumo foi de x) Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
  • 8. SÉRIE • Uma série também pode ser baseada em valores contínuos, como temperatura. Temperatura da Água (C) Tempo até uma queimadura de 1o grau 116 35 minutos 122 1 mínuto 131 5 segundos 140 2 segundos 149 1 segundo 154 Instantâneo
  • 9. SÉRIE • Ou ser uma seqüência de valores não-contíguos, mas relacionados em uma mesma categoria Planeta Massa relativa á da Terra Mercúrio 0.0553 Vênus 0.815 Terra 1 Marte 0.107 Júpiter 317.8 Saturno 95.2 Urano 14.5 Netuno 17.1
  • 10. SÉRIE • Em muitos casos uma série possui apenas uma variável dependente para cada variável independente • Em outras palavras, há apenas um valor para o consumo total de café para cada ano • Este tipo de informação geralmente é exibido utilizando um gráfico de barras, de colunas ou de série temporal
  • 11. SÉRIE Total de vendas 0 35000 70000 105000 140000 2000 2001 2002 2003 2004 2005 2006 2007 2008
  • 12. MULTI-SÉRIE • Uma multi-série é um conjunto de dados que possui vários itens de informação dependente para um único item de informação independente • Com esse conjunto de dados sabemos que em 2001 foram servidas 16.452 doses de café para homens e 14.021 doses de café regular (com cafeína e açúcar) Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
  • 13. MULTI-SÉRIE • Porém, não sabemos como combinar essas duas informações de forma útil: elas não são relacionadas! • Não temos como dizer qual o percentual de cafés regulares servidos para homens • Multi-série são simplesmente várias séries em um mesmo gráfico ou tabela • Podemos exibi-las juntas mas não temos como combiná-las de forma significativa
  • 14. MULTI-SÉRIE 0 17500 35000 52500 70000 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino Regular
  • 15. MULTI-SÉRIE SOMÁVEL • Como o próprio nome já sugere, uma multi-série somável diz respeito a uma estatística em particular (sexo, tipo de café) segmentada em subgrupos Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
  • 16. MULTI-SÉRIE SOMÁVEL • Como sabemos que um bebedor de café é homem ou mulher, podemos somar estes valores para obter uma observação sobre o total de consumo e com isso exibir porcentagens Consumo de Café por sexo em 2001 28% 72% Homem Mulher
  • 17. MULTI-SÉRIE SOMÁVEL Consumo total de café, por sexo 0 35000 70000 105000 140000 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino Feminino
  • 18. MULTI-SÉRIE SOMÁVEL • Um desafio ao se utilizar multi-séries é entender quais séries podem ser combinadas. • Não há nada nesta tabela que nos diga como combinar estas informações - processamento humano! Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362 Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657 Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
  • 19. É DIFÍCIL EXPLORAR DADOS RESUMIDOS • 36.7% das cafés vendidos em 2000 foram consumidos por mulheres • Foram vendidos 9.929 cafés regulares em 200 • Portanto, mulheres compraram 3643.9 cafés regulares em 2010
  • 20. É DIFÍCIL EXPLORAR DADOS RESUMIDOS • Errado! • O fato do resultado ser uma fração já nos mostra que isso não é uma boa idéia (ninguém compra .9 xícaras de café) • Este tipo de inferência só pode ser feita se soubermos como uma categoria (tipo de café) é distribuída em uma outra categoria (sexo). • A única forma de explorar realmente os dados e poder responder novas questões é analisar os dados crus • Depois é preciso saber como agregá-los corretamente
  • 21. REGISTROS DE SUMÁRIO Nome Sexo Regular Decaf Mocha Total Pedro M 2 3 1 6 Maria F 4 0 0 4 José M 1 2 4 7 Joana F 3 1 0 4 Belinha F 1 0 0 1 João M 2 1 3 6 Biu M 3 1 0 4 Jacó M 0 0 1 1 Total 5M, 3F 16 8 9 33
  • 22. REGISTROS DE SUMÁRIO • Esse tipo de tabela é bastante familiar para qualquer um que já usou o Excel • Tivemos 5 consumidores do sexo masculino e 3 do feminino • Vendemos 16 cafés regulares, 8 decaf e 9 mochas, totalizando 33 cafés
  • 23. REGISTROS DE SUMÁRIO • Mas o mais importante é que podemos combinar categorias de dados para responder mais perguntas exploratória • Por exemplo “Mulheres preferem algum tipo específico de café?”
  • 24. REGISTROS DE SUMÁRIO • Olhando esta tabela podemos "afirmar" que mulheres preferem café regular e homens não têm uma preferência específica. Sexo Média de Regulares Média de Decaf Média de Mocha M 1.60 1.40 1.80 F 2.67 0.33 0.00 Total 2.29 1.14 1.14
  • 25. REGISTROS DE SUMÁRIO • Mesmo agora ainda temos algum nível de agregação • Resumimos os dados em várias dimensões - sexo e tipo de café - ao agregá-los por nome de cliente. • Apesar desses ainda não serem os dados crus, já estamos bem próximos disso. • Uma vantagem desse agrupamento é reduzir o tamanho do conjunto de dados
  • 26. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • É comum agregar registros de sumário ou dados crus para podermos exibi-los mais facilmente. • Considere as seguintes transações Nome Regular Decaf Mocha Pedro 2 3 1 Maria 4 0 0 José 1 2 4 Joana 3 1 0 Belinha 1 0 0 João 2 1 3 Biu 3 1 0 Jacó 0 0 1 Total 16 8 9 Médias 2 1 1.125
  • 27. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES Média de xícaras consumidas 0 0.5 1 1.5 2 Regular Decaf Mocha
  • 28. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • A média esconde detalhes! • É possível que algumas pessoas tenham tomado uma única dose de um determinado café e outras tenham tomando várias doses. • Existem formas mais adequadas para observar as variações de forma a melhor exibir a forma de uma informação • Se mantemos os dados crus podemos entrelaçar mais de uma variável dependente a cada variável independente.
  • 29. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES Frequênciadecadaevento 0 1 2 3 1 2 3 4 5 6 7 Moda: o número mais frequente de cafés consumidos é 4 Média: o número médio de cafés por cliente é 4.12
  • 30. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • A média foi 4.12 porém o histograma demonstra que há 3 clientes que bebem muito café! • Quando se tem os dados crus é possível identificar exceções e pontos fora da curva (outliers) e contar uma história mais precisa. • Porém, estes ainda não são os dados crus!
  • 31. TRANSAÇÕES INDIVIDUAIS • Estas transações podem ser agregadas por qualquer coluna. • O tempo também pode ser agregado em intervalos (hora, dia, ano, etc) • Os dados que vimos lá no início da aula podem ser facilmente gerados a partir de um conjunto de transações como estas • Mas é impossível fazer o caminho inverso! Hora Nome Sexo Café 17:00 Pedro M Regular 17:01 Maria F Regular 17:02 José M Mocha 17:03 Joana F Decaf 17:04 Belinha F Regular 17:05 João M Regular 17:06 Biu M Mocha 17:07 Jacó M Decaf
  • 32. DECIDINDO COMO AGREGAR OS DADOS • Quando agregamos dados crus como estes para gerar sumários como os que vimos hoje nós perdemos a história dos dados • Por exemplo, quando agrupamos as transações individuais para fazer uma totalização anual, nós: • Removemos os nomes dos clientes, tornando os dados anônimos • Agrupamos os horários de compras, gerando um sumário por ano
  • 33. DECIDINDO COMO AGREGAR OS DADOS • Qualquer um desses dois itens de dados poderia ser utilizado para identificar que alguém consome uma quantidade muito grande de café • E se ao invés de café, estivéssemos vendendo bebidas alcóolicas? • Deveríamos alertar um cliente que bebe demais? • Se um cliente se envolve em um acidente, os registros do seu consumo de bebidas alcóolicas poderiam ser utilizados como prova contra ele?
  • 34. REFERÊNCIAS • Data + Design:A simple introduction to preparing an visualizing information,Tina Chiasson et al