Este documento presenta un manual práctico de quimiometría. Define la quimiometría como la aplicación de la estadística a problemas químicos y analíticos. Explica conceptos básicos como probabilidad, distribuciones de probabilidad, muestras representativas, errores y precisión de mediciones. También cubre técnicas estadísticas como límites de confianza, inferencia estadística y pruebas de hipótesis usando estadísticos de contraste y valores p.
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
Manual práctico de quimiometría 2013
1. Manual prácticoManual práctico
de Quimiometríade Quimiometría
Dr. Germán Tortosa Muñoz
german.tortosa@eez.csic.es
Departamento de Microbiología del Suelo y Sistemas Simbióticos
Estación Experimental del Zaidín (EEZ-CSIC)
“Técnicas básicas de análisis químico en muestras de interés biológico”
III Edición, mayo de 2013
2. ¿Qué es la Quimiometría?¿Qué es la Quimiometría?
““La aplicación de la estadística a losLa aplicación de la estadística a los
problemas de la Química (Analítica)”problemas de la Química (Analítica)”
-ProbabilidadProbabilidad (descifra el comportamiento de los fenómenos o(descifra el comportamiento de los fenómenos o
sucesos aleatorios)sucesos aleatorios)
-Estadística descriptivaEstadística descriptiva (análisis descriptivo de los(análisis descriptivo de los
fenómenos o sucesos aleatorios)fenómenos o sucesos aleatorios)
-Estadístida inferencialEstadístida inferencial (predicción y conclusiones de los(predicción y conclusiones de los
fenómenos o sucesos aleatorios)fenómenos o sucesos aleatorios)
3. Conceptos básicosConceptos básicos
¿Qué es un fenómeno (o suceso) aleatorio?¿Qué es un fenómeno (o suceso) aleatorio?
““aquel en que los resultados son inciertos, imprevisibles o impredecibles”aquel en que los resultados son inciertos, imprevisibles o impredecibles”
En la Ciencia y en la Química, se estudian fenómenos (o sucesos)En la Ciencia y en la Química, se estudian fenómenos (o sucesos)
aleatorios…aleatorios…
¿Fenómenos determinista?¿Fenómenos determinista?
Población, muestra poblacional y variablePoblación, muestra poblacional y variable
- Población:- Población: Conjunto global del sistema a estudiarConjunto global del sistema a estudiar
- Muestra poblacional- Muestra poblacional: Un subconjunto representativo: Un subconjunto representativo
- Variable:- Variable: Propiedad medible de la muestraPropiedad medible de la muestra
5. ProbabilidadProbabilidad
Ejemplo: ¿Cuál es la probabilidad de que me salga cara al tirar unaEjemplo: ¿Cuál es la probabilidad de que me salga cara al tirar una
moneda?moneda?
Frecuencia relativa:Frecuencia relativa: en un experimento aleatorio, el cociente entre elen un experimento aleatorio, el cociente entre el
número de veces que se obtiene un resultado deseado con respecto alnúmero de veces que se obtiene un resultado deseado con respecto al
total de veces que se realizatotal de veces que se realiza
http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.
Probabilidad:Probabilidad: Valor al cualValor al cual
tiende la frecuencia relativatiende la frecuencia relativa
Con la probabilidad trataremos de conocerCon la probabilidad trataremos de conocer
el comportamiento que rigen los sucesos (oel comportamiento que rigen los sucesos (o
conjunto de datos aleatorios) queconjunto de datos aleatorios) que
estudiamosestudiamos
Ejemplo: 50%Ejemplo: 50%
EJEMPLO Nº1EJEMPLO Nº1
6. ¿Cómo se distribuyen los datos aleatorios?¿Cómo se distribuyen los datos aleatorios?
¿Cómo se distribuye su probabilidad?¿Cómo se distribuye su probabilidad?
- Estudiamos una variableEstudiamos una variable
- Representamos los resultados en forma de histogramaRepresentamos los resultados en forma de histograma
7. Tipos de distribución de probabilidadTipos de distribución de probabilidad
Depende del tipoDepende del tipo
de variablede variable
(discreta o(discreta o
continua):continua):
- Binomial- Binomial
- Normal- Normal
- Chi-cuadrado- Chi-cuadrado
- T de Student- T de Student
- F- F
- Poisson- Poisson
- Beta- Beta
- Gamma- Gamma
- Etc…- Etc…
8. Tipos de distribución de probabilidadTipos de distribución de probabilidad
Depende del tipoDepende del tipo
de variablede variable
(discreta o(discreta o
continua):continua):
- Binomial- Binomial
- Normal- Normal
- Chi-cuadrado- Chi-cuadrado
- T de Student- T de Student
- F- F
- Poisson- Poisson
- Beta- Beta
- Gamma- Gamma
- Etc…- Etc…
9. El caso de la distribución normalizadaEl caso de la distribución normalizada
-Gran cantidad deGran cantidad de
pruebaspruebas
estadística seestadística se
basan en ellasbasan en ellas
- Simétrica con- Simétrica con
respecto a un valorrespecto a un valor
μμ y descrita pory descrita por σσ
Resultados de la concentración de nitratos en agua (μg L-1
)
0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,50 0,47
0,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,50
0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,51 0,47
0,51 0,51 0,51 0,48 0,48 0,47 0,50 0,49 0,48
0,51 0,50 0,50 0,53 0,53 0,52 0,50 0,51 0,51
EJEMPLO Nº2EJEMPLO Nº2
http://personal.us.es/jgam/applets/AppletsDocentes.htm
10. El caso de la distribución normalizadaEl caso de la distribución normalizada
- Gran cantidad de pruebas estadística se basan en ellasGran cantidad de pruebas estadística se basan en ellas
- Simétrica con respecto a un valor- Simétrica con respecto a un valor μμ y descrita pory descrita por σσ
11. El caso de la distribución normalizadaEl caso de la distribución normalizada
12. Muestra representativa yMuestra representativa y “Teorema central“Teorema central
del límite”del límite”
“Cuando N≥30, la
población muestral
grande, aunque la
población no esté
distribuida
normalmente, la
media aritmética
tenderá a una
distribución normal”
13. Muestra representativa yMuestra representativa y “Teorema central“Teorema central
del límite”del límite”
Cuando N≥30, μ y σ
(valor verdadero y
dispersión) se supone
que coincide con la
media aritmética
muestral (o también la
mediana) y con la
desviación estándar
(DISTRIBUCIÓN
NORMALIZADA)
14. Muestra representativa yMuestra representativa y “Teorema central“Teorema central
del límite”del límite”
¿¿¿QUÉ
PASA
CUANDO
SE
TRABAJA
CON
N≤30???
16. Sentido de un valor analíticoSentido de un valor analítico
¿Qué lleva esta muestra?, ¿cuánto lleva esta muestra?
Implica un valor numérico…
“No existen resultados cuantitativos de interés si no van acompañados
de alguna estimación de los errores inherentes a los mismos” (Miller y
Miller, 2009)
Tipos de error:
-Groseros o accidentales (ej., un aparato se rompe…)
-Aleatorio (no tendencia)
-Sistemático (presente una tendencia, ej. Una pipeta mal calibrada, …)
17. Sentido de un valor analíticoSentido de un valor analítico
Otros conceptos importantes:
Precisión: describe los errores aleatorios. Hace mención a la dispersión
de los datos con respecto al valor real. En el caso de las distribuciones
normalizadas de datos, haría referencia a la anchura de la campana
gaussiana siendo más ancha cuanto más dispersos están los datos y
viceversa.
Exactitud: es la proximidad al verdadero valor de una medida individual
o un valor promedio (ejemplo: una pipeta mide teóricamente 50 ml y
experimentalmente como media mide 49,9 ml, por lo que sería bastante
exacta). Está afectada por los errores aleatorios y sistemáticos.
18. Sentido de un valor analíticoSentido de un valor analítico
Otros conceptos importantes:
Reproducibilidad: es la capacidad de obtener los mismos resultados en
un análisis independientemente de las condiciones usadas (laboratorio,
analista, fecha, material, etc.).
Repetibilidad: capacidad de obtener los mismos resultados en un
análisis en las mismas condiciones usadas (laboratorio, analista, fecha,
material, etc.).
Incertidumbre: intervalo dentro del cual es razonablemente verosímil
que se encuentre el verdadero valor de la magnitud. Hace referencia a la
expresión de un resultado analítico con su error inherente (aleatorio y
sistemático).
19. Sentido de un valor analíticoSentido de un valor analítico
20. Incertidumbre de un valor analíticoIncertidumbre de un valor analítico
En ausencia de error sistemático, la media aritmética debería coincidir
con el verdadero valor que se espera.
Intervalo de valores donde sea probable encontrar el valor verdadero.
Este depende de dos factores:
-Precisión de las medidas (dispersión o desviación estándar)
-Número de medidas que se realice
N≥30 es poco viable (IMPORTANTE)
Desde el punto de vista analítico, para medidas de muestras repetidas,
se puede suponer una distribución casi normal y se asume que
las medias de las muestras muy pequeñas se distribuyen
normalmente…
21. Límite de Confianza de la MediaLímite de Confianza de la Media
Intervalo de confianza para muestras grandes:
Z dependerá del grado de confianza requerido
95%, z=1,96 ; 99%,z=2,58; 99,7%, z=2,97
Intervalo de confianza para muestras pequeñas:
Valores de t para intervalos
de confianza de
Grados de
libertad
95 % 99%
2 4,30 9,92
5 2,57 4,03
10 2,23 3,17
20 2,09 2,85
50 2,01 2,68
100 1,98 2,63
22. Límite de Confianza de la MediaLímite de Confianza de la Media
EJEMPLO Nº4EJEMPLO Nº4
http://graphpad.com/quick
23. Imagen conceptual del Límite de ConfianzaImagen conceptual del Límite de Confianza
de la Mediade la Media
24. Presentación de resultadosPresentación de resultados
No existe unaminidad. Posibilidades:
- Media y desviación estándar (estimación de la cantidad
medida y precisión)
- Error estándar de la media (σ/√n)
- Intervalo de confianza
Nota: el intervalo de confianza tiene sentido cuando tenemos muchas
repeticiones. Cuando son pocas, (n ≤ 10) no tiene mucho sentido
“Las cifras significativas no deben exceder de nuestra precisión”
29. Inferencia estadísticaInferencia estadística
Decisión correcta de Tipo A: Suponemos que los nitratos son menores de 50 mg
L-1
y lo confirmamos con los análisis. Podemos afirmar que NO HAY
contaminación.
Decisión correcta de Tipo B: Suponemos que los nitratos son mayores de 50 mg
L-1
y lo confirmamos con los análisis. Podemos afirmar que HAY contaminación.
Error de Tipo I (o de tipo α): Suponemos que la concentración de nitratos era
mayor de 50 mg L-1
y no lo era.
Error de Tipo II (de tipo β): Suponemos que la concentración de nitratos era
menor de 50 mg L-1
y no lo era.
Nuestra elección Realidad
H0 es cierta H1 es cierta
Escogemos H0 como
cierta
Decisión correcta de Tipo A
(p = 1-α)
Error de tipo II (p= β)
Escogemos H1 como
cierta
Error de tipo I (p = α)
Decisión correcta de Tipo B
(p= 1-β)
30. Inferencia estadísticaInferencia estadística
A la hora de descartar una u otra hipótesis, no podremos afirmar exactamente
cual es la decisión correcta debido a que solo tenemos acceso a una parte de la
población (una muestra de ella). Por lo tanto, es lógico que hablemos en
términos probabilísticos, ya que así podremos evaluar el error que cometemos
al equivocarnos.
Así, en términos de probabilidad tendríamos lo siguiente:
Probabilidad de escoger H0 siendo H0 cierta = 1-α
Probabilidad de escoger H0 siendo H1 cierta = β
Probabilidad de escoger H1 siendo H0 cierta = α
Probabilidad de escoger H1 siendo H1 cierta = 1-β
Nuestra elección Realidad
H0 es cierta H1 es cierta
Escogemos H0 como
cierta
Decisión correcta de Tipo A
(p = 1-α)
Error de tipo II (p= β)
Escogemos H1 como
cierta
Error de tipo I (p = α)
Decisión correcta de Tipo B
(p= 1-β)
33. Estadístico de contraste yEstadístico de contraste y pp-valor-valor
¿Cuál es el criterio que debemos seguir para
poder afirmar u descartar una hipótesis?
-Cálculo del estadístico de contraste
-Este es un parámetro que se calcula teniendo en
cuenta que los datos cumplen la distribución
normalizada y se relaciona con el área de la curva
la cual se correspondería con la región de rechazo,
es decir, que si nuestra muestra está en esa zona
podríamos descartar la hipótesis nula (H0).
-Si ese valor fuese menor que el nivel de
significación (α) que hemos prefijado, podríamos
rechazar la hipótesis nula.
-Nota: los valores más usados para α son 0,05, 0,01
y 0,001, es decir, que la probabilidad de acertar en
nuestra afirmación sería del 95%, 99% y 99,9%
respectivamente.
34. Estadístico de contraste yEstadístico de contraste y pp-valor-valor
En resumen, descartaremos H0 si p-valor ≤ α, siendo α =
0,05, (también puede ser 0,01 y 0,001).
http://bcs.whfreeman.com/ips4e/cat_010/applets/pvalue_ips.html
Queremos saber si hay
contaminación en estas aguas. ¿El
valor obtenido de nuestras
muestras es distinto
significativamente de 50 mg L-1
,
valor que según el cual la
legislación te dice que tienes
contaminación por nitratos? Al
hacer el contraste de hipótesis,
definimos H0 y H1:
H0 : El valor de nuestros análisis
es igual a 50 mg L-1
H1 : El valor de nuestros análisis
es mayor a 50 mg L-1
EJEMPLO Nº6EJEMPLO Nº6
35. Estadístico de contraste yEstadístico de contraste y pp-valor-valor
http://bcs.whfreeman.com/ips4e/cat_010/applets/pvalue_ips.html
Como podemos observar, nos ha salido un p-valor = 0,0001 (p-valor ≤ 0,05). Por lo
tanto, podemos rechazar la hipótesis nula y confirmar que la concentración de
nitratos obtenida en las muestras analizadas es mayor que 50 significativamente
(con un 95% de probabilidad).
36. Tipos de variablesTipos de variables
Cualitativas. Son aquellas que expresan una propiedad de las muestras que no se puede
expresar numéricamente (ejemplo: el color de los ojos). A su vez, podemos clasificarlas en
dos grupos:
- Ordinal o cuasicuantitativa, en la cual puede adoptar varios regidos por
un cierto orden (ejemplo: leve, moderado o grave).
- Nominal, en la cual no existe ningún tipo de orden (ejemplo: tipo de medio
de locomoción, coche, motocicleta, etc.).
Cuantitativas o numéricas, las cuales se pueden expresar mediante un valor
numérico (ejemplo: la concentración de nitratos de 50 mg L-1
). A su vez, se pueden clasificar
en dos grupos:
- Discretas, en las cuales solo pueden adoptar valores enteros (ejemplo:
número de hijos, días, etc.).
- Continuas, en las cuales pueden adoptar todos los valores posibles reales
(ejemplo: la altura de un jugador de baloncesto es de 2,15 metros, hace -2ºC en la
calle, etc.).
37. Tipos de variables y tests estadísticosTipos de variables y tests estadísticos
-Variable independiente. Es aquella que no depende de ningún factor concreto y que
a su vez, puede provocar una modificación en otras variables.
-Variable dependiente. Es aquella que puede ser modificada por otra variable
(independiente). Un ejemplo es aquella propiedad que se mide en una muestra a lo largo
del tiempo.
TIPOS DE TEST ESTADÍSTICOS:
Técnicas paramétricas. Se utilizan cuando las variables siguen una distribución
normalizada y se basan en la media y la varianza.
Técnicas no paramétricas o “robustas”. Se utilizan cuando no siguen un tipo de
distribución conocida. Están basadas en el empleo de la mediana.
38. Tests estadísticos de interés en análisis
químico de muestras biológicas
- Análisis para una muestra poblacional
- Análisis para dos muestras poblacionales
-Análisis para más de dos muestras poblacionales
-Análisis de la correlación
39. Tests estadísticos de interés en análisis
químico de muestras biológicas
- Análisis para una muestra poblacional
- Análisis descriptivos
40. Tests estadísticos de interés en análisis
químico de muestras biológicas
- Análisis para una muestra poblacional
- Test de normalidad
http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htEJEMPLO 7EJEMPLO 7
41. Tests estadísticos de interés en análisis
químico de muestras biológicas
- Análisis para una muestra poblacional
- Contrastes de la media de una población con un valor de referencia (t
de Student, paramétrico y de signos, no paramétrico)
p >0,05, no significativo, (NS)
p entre 0,01 y 0,05, significativo, (*)
p entre 0,001 y 0,01, muy significativo, (**)
p < 0,001, extremadamente significativo, (***)
http://www.graphpad.com/quickcalcs/OneSampleT1.cfm?Format=SD
http://www.fon.hum.uva.nl/Service/Statistics/Sign_Test.html
EJEMPLO 8EJEMPLO 8
42. Tests estadísticos de interés en análisis
químico de muestras biológicas
-Análisis para dos muestras poblacionales
- t de Student (paramétrico)
- U de Mann-Whitney (no paramétrico)
http://graphpad.com/quickcalcs/ttest1.cfm
http://faculty.vassar.edu/lowry/utest.html
EJEMPLO 9EJEMPLO 9
43. Tests estadísticos de interés en análisis
químico de muestras biológicas
- Análisis para más de dos muestras poblacionales
-ANOVA (paramétrico)
Que las variables sean
independientes
Que tengan una distribución
normalizada
Que sus varianzas no difieran
significativamente.
-Pruebas “post-hoc”
-Análisis de Kruskal-Wallis
(no paramétrico)
http://www.amstat.org/publications/jse/v18n2/ANO
VAExercise.xls
http://department.obg.cuhk.edu.hk/researchsupport/
KruskallWallis.aspEJEMPLO 10EJEMPLO 10
44. Inferencia estadísticaInferencia estadística
ANÁLISIS DE REGRESIÓN
(LINEAL )
RECTA DE REGRESIÓN DE Y
SOBRE X
(MÉTODO DE LOS MÍNIMOS
CUADRADOS)
y=y0+ax
R (coeficiente de correlación)
http://faculty.vassar.edu/lowry/cor
r_stats.html
PérdidasdeMO(%)
0
5
10
15
20
25
30
35
40
45
50
55
60
AL+G
AL+G+Fe
AL+G+P
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
0
5
10
15
20
25
30
35
40
45
50
55
60
65
AL+S
AL+S+Fe
AL+S+P
Proceso de compostaje (semanas)
y = y0
+ ax
y = a(1-e
-bx
)
EJEMPLO 11EJEMPLO 11
45. Bibliografía imprescindible:Bibliografía imprescindible:
- Estadística y Quimiometría para Química Analítica.- Estadística y Quimiometría para Química Analítica. Miller y Miller. ISBN: 84-205-Miller y Miller. ISBN: 84-205-
3514-13514-1
-- QuimiometríaQuimiometría. Carlos Mongay Fernández. ISBN: 9788437059235. Carlos Mongay Fernández. ISBN: 9788437059235
-- QuimiometríaQuimiometría .Guillermo Ramis Ramos y Mª Cecilia García Álvarez-Coque. ISBN:.Guillermo Ramis Ramos y Mª Cecilia García Álvarez-Coque. ISBN:
84773890478477389047
46. Webs:
Web Pages that Perform Statistical Calculations! (http://statpages.org)
STAT-ATTIC STATistics Applets for Teaching Topics in Introductory Courses.
(http://sapphire.indstate.edu/~stat-attic/index.php)
Apuntes sobre Bioestadística, Universidad de Málaga
(http://www.bioestadistica.uma.es/baron/apuntes/).
Aula Virtual de Bioestadística. http://e-stadistica.bio.ucm.es/index.html
Dr Arsham´s Statistic site (http://home.ubalt.edu/ntsbarsh/Business-stat/opre504.htm)
Material de clase de la asignatura Estadística 2
(http://augusta.uao.edu.co/moodle/course/view.php?id=284)
Estadística aplicada a la Bioinformática
(http://sebbm.bq.ub.es/BioROM/contenido/UIB/bioinfo/index.htm)
Bioestadística, Universidad de Granada (http://www.ugr.es/~bioestad/)
Department of Obstetrics and Gynaecology. The Chinese University of Hong Kong.
(http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp)
Applets y software gratuito:
Recopilación muy completa sobre software estadístico libre y de pago
(http://statpages.org/javasta2.html)
47. Variable:Variable:
-Estadística descriptiva (media, DE, …)Estadística descriptiva (media, DE, …)
-Representación gráficaRepresentación gráfica
-Test de Normalidad :Test de Normalidad :
-Paramétrico (p)Paramétrico (p)
-No paramétrico (np)No paramétrico (np)
POBLACIÓNPOBLACIÓN
MuestraMuestra
PoblacionalPoblacional
RepresentativaRepresentativa
N≥30N≥30
Estadística inferencialEstadística inferencial
1 muestra poblacional:1 muestra poblacional:
-Contraste con valor de refenciaContraste con valor de refencia
-t de Student (p)t de Student (p)
- Prueba de signos (np)Prueba de signos (np)
2 muestras poblacionales:2 muestras poblacionales:
-t de Student (p),t de Student (p),
- U de Mann-Whitney (np)U de Mann-Whitney (np)
Más de 2 muestrasMás de 2 muestras
poblacionales:poblacionales:
-ANOVA (p),ANOVA (p),
- Krustal-Wallis (np)Krustal-Wallis (np)
Relación entre variablesRelación entre variables
(Correlación):(Correlación):
-Regresión linealRegresión lineal