2. Quem sou?
Professor da UFRPE do curso de Licenciatura
em Computação
Estudante de doutorado em Ciência da
Computação
Pesquiso sobre Mineração de Dados
Educacionais;
Contatos:
Email: rlr@ded.ufrpe.br
Facebook: /rodrigomuribec
2
3. Agenda
Entendimento sobre estatística;
Natureza das variáveis;
Correlação x Regressão;
Pressupostos do modelo de regressão;
Softwares Estatísticos/Data Mining;
Exemplo prática no software R;
Conhecendo o Rcommander
3
Material: https://goo.gl/uf5bwe
5. Introdução a Estatística
• A estatística lida com o
planejamento, coleta, análise e
interpretação dos dados como
ferramentas auxiliares na tomada
de decisões e resolução de
problemas;
6. Introdução a Estatística
• Algumas áreas e técnicas da estatística...
▫ Estatística descritiva;
▫ Planejamento de experimentos;
▫ Análise multivariada;
▫ Estatística não-paramétrica;
▫ Análise de regressão;
▫ Modelos lineares;
▫ Séries temporais;
▫ Tecnologia da amostragem;
▫ Controle de qualidade;
▫ ...Etc.
7. • Primeiro vamos entender tipos de dados
7
Natureza das variáveis
Categóricas Numéricas
Nominal
(classificação)
Ordinal
(classificação)
Discreta
(contagem)
Contínua
(mensuração)
sexo, raça,
região, grupo
sangüíneo
pressão
sangüínea
(baixa,
normal, alta)
Número de
acidentes,
número de
filhos
Peso, altura,
pressão
sangüínea
10. 10
Análise de Correlação e Regressão
• Correlação: medida descritiva que mede força
da relação entre duas variáveis quantitativas;
• Regressão: A finalidade é estimar valores
de uma variável, com base em valores
conhecidos da outra;
11. 11
Correlação de Pearson
• Mede o grau da correlação (positiva ou negativa) entre
duas variáveis de escala métrica;
P > 0,4 Significa uma correlação
positiva entre as duas variáveis.
-0,4 < 0 > 0,4 : Significa que as duas
variáveis não dependem linearmente
uma da outra.
P < -0,4 Significa uma correlação
negativa entre as duas variáveis - Isto
é, se uma aumenta, a outra sempre
diminui.
13. 13
Análise de Regressão Linear
1. Determinar como duas variáveis se relacionam;
2. Estimar a função que determina a relação entre as
variáveis;
3. Usar a equação ajustada para prever valores da variável
dependente.
i i iY X
Modelo de Regressão Linear Simples
15. 15
Análise de Regressão Linear
• Em um modelo estatístico, geralmente a variável resposta é afetada
por várias variáveis;
• Então, analisamos Y como função apenas das K primeiras variáveis,
sendo que permanece um erro (ou resíduo), devido a não utilização das
outras m variáveis.
50
55
60
65
70
75
80
85
90
95
100
150 160 170 180 190
Altura (cm)
Peso(kg)
1 2 1( , ,..., , ,..., )k k k mY f X X X X X
16. • A relação entre X e Y é Linear;
• Os valores de X são fixos, isto é, X não é uma variável aleatória;
• A média dos erros é nula, isto é:
( ) 0iE 1,2,...,i n
2 2 2
( ) ( ) [ ( )] ( )i i i iVar E E E
• O erro em uma observação é não correlacionado com o erro em
qualquer outra observação;
• Os erros têm distribuição normal.
Pressupostos do modelo de regressão
17. 17
Análise de Regressão
O coeficiente de determinação ou simplesmente . É uma medida
da proporção da variabilidade em uma variável que é explicada pela
variabilidade da outra.
2
R
Definimos o coeficiente de determinação ou explicação do modelo, que é
dado por:
2 SQreg bSxy
R
SQtot Syy
O coeficiente está entre logo, quanto mais próximo de 1
Estiver o valor de , melhor será o ajuste do modelo e quanto mais
Próximo de 0 (zero), pior é o ajuste.
2
0 1R 2
R
18. • Muitas vezes, podemos encontrar problemas na especificação
da função que relaciona as variáveis (não linearidade);
• Pode ser verificado através de um gráfico de dispersão entre X
e Y;
• Existem funções que podem ser transformadas em modelos
lineares;
• Existem vários tipos de funções que podemos transformar, tais
como:
Ajuste do modelo de regressão
Função Potência;
Função Exponencial;
Função Hiperbólica.
19.
20. Softwares utilizados na estatística
• Existem diversas ferramentas que dão suporte a
análise dos dados quantitativos, dentre elas:
21. Trabalhando com a base de dados
• Geralmente as bases de dados são digitadas em Excel;
• Todos os softwares estatísticos importam bases em
formatos: xls, xlsx, csv, txt,etc;
• É aconselhável que a base seja transformada pra CSV;
• Quando existem diferentes bases de dados e queremos
fazer integração pra análises, utilizamos alguns
softwares:
22. 22
Software Estatístico R
• É um conjunto integrado de pacotes ou bibliotecas para
manipulação de dados, cálculo e visualização gráfica;
• É uma ferramenta com uma grande quantidade de pacotes
para atender diversas áreas;
• Possui uma linguagem de fácil entendimento;
• É software livre !!!
23. 23
Software Estatístico R
• O R possui mais de 3.500 pacotes disponíveis;
• Foi uma evolução do S-plus;
• Começou em 1993;
• Em 1995 adotou a licença GPL
33. 33
Trabalhando na prática
• Tirar a média, mediana, máximo e minimo para
cada uma das variáveis quantitativas;
• Plote gráficos de dispersão para as variáveis
quantitativas contínuas;
• Plote gráficos de histograma para variáveis
quantitativas contínuas;
• Faça correlações entre as variáveis quantitativas;
• Analise a normalidade dos dados;
40. • O que é o Rcmdr?
▫ Um pacote do R para manipulação gráfica;
▫ Facilita as análises básicas;
▫ Não precisa utilizar linha de comando;
▫ Disponibiliza uma saída de script;
▫ É leve e pode ser instalado em qualquer versão do
R;
40
Pacote Rcomander