Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas

Presentación de artículos sobre
errores estadísticos frecuentes
en publicaciones biomédicas

Diana Paola Cuesta Castro
MD, MSc, candidata PhD Epidemiología

Grupo de estudio en Epidemiología
Escuela de Ciencias de la Salud- Universidad Pontificia Bolivariana
Medellín, Colombia

Disponible en “Temas de Epidemiología Clínica” http://dianacuesta.wordpress.com

La MBE y las guías para publicar los diferentes tipos de
estudios han contribuido a evidenciar los errores
estadísticos.

Error 1. Informar mediciones con una
precisión innecesaria.

• Mayor comprensión si se usan dos dígitos.
• Algunas mediciones no necesitan tanta precisión
en su reporte:
• Ejemplos:
No. de mujeres: 29 942 hasta 94 347
• 29 900 hasta 94 300
30 000 hasta 94 000
Promedio de edad 60.18 kg vs 60 kg.

Error en Modo correcto de
presentación presentarlo
p < 0,000000001 p < 0,001
p= ,000 p < 0,001
p= ,0000 p < 0,0001
p= 0,0109567 p=0,011 ó p=0,01
n.s (o peor: p=n.s) p=0,13 (por ejemplo)
p > 0,05 p=0,39 (por ejemplo)
p < 0,05 p=0,03

Martínez M, et al. Bioestadística Amigable. 2 ed. Diaz de Santos. 2006

Error 2. Transformar datos continuos a
categóricos sin explicar por qué o cómo.

• Explicar el criterio para
establecer puntos de corte en
la transformación de
variables cuantitativas a
categóricas
• Reducir el nivel de
medición, reduce la
variabilidad y precisión de
las mediciones

Error 3. Falta información del cambio promedio
individual en las comparaciones pareadas

Error 4. Uso incorrecto de la estadística
descriptiva

• Promedio y desviación
estándar son las medidas
más usadas para datos
continuos.
• Se usan si la variable
distribuye normal, de lo
contrario se debe utilizar la
mediana y el rango o el
68%
rango intercuartílico.
95%
99%

• Solo medidas de
tendencia central
sin medidas de
dispersión
CMJ. 2004;45(4):361-370

Error 5. Uso del error estándar de la media
como una medida de estadística descriptiva.

Error estándar de la media
Población - Es menor que la desviación estándar por lo
que se reporta para aparentar mas precisión
Media ±1 EEM es IC68%
- Preferible utilizar IC95%

Muestra Desviación estándar de la media
Uso como medida de dispersión de
los datos de la muestra

Inferencia
estadística
• En una muestra de 100 hombres, el
promedio del peso es 72kg D.E 8. Estimación
• Si el peso distribuye normal, 68% del peso puntual
de los hombres está entre 64-80 kg y 95%
entre 56-88 kg.

EE: DS/√n EE:8/ √100 EE:0.8 Estimación
• Si se tomaran repetidas muestras aleatorias por intervalos
de la misma población de hombres, 68% de
esas muestras se espera que tengan valores
entre 71.2 – 72.8 kg (Media ±1 EE).
• Preferible IC95% Media ±2 EEM
Peso promedio 72 kg IC95% 70.4-73.6
Prueba de
hipótesis

Error 6. Informar sólo el “valor p” para los
resultados.

• Cuando en los resultados solo se informa que hubo
significancia estadística (“El efecto del medicamento fue
estadísticamente significativo”) o el valor p<0.05
▫ Cuál es el valor p? 0.049 – 0.001
▫ Cuál es el tamaño del efecto?
▫ Es importante clínicamente?
▫ Uso arbitrario del punto de corte 0.05

• Informar el valor p sin el intervalo de confianza no permite
conocer la precisión de la estimación (“el promedio de la
presión arterial sistólica en el grupo de tratamiento
disminuyó de 110 a 92 mmHg, p=0.02)

• Los valores del IC no siempre son clínicamente importantes
(“El medicamento redujo la presión arterial diastólica en
promedio 18 mmHg, de 110 a 92 mmHg, IC95% 2 a 34
mmHg, p=0.02”)

Valores del IC Probabilidad de que la
clínicamente intervención sea
importantes clínicamente efectiva
Si Si
No No
Algunos Muestra insuficiente para
valorar el efecto

Reflexiones sobre las pruebas de hipótesis (PH)

• Están desarrolladas para el caso de que los datos procedan de
una muestra seleccionada aleatoriamente.
• Se basan en una suposición que raras veces se cumple en la
práctica: la hipótesis nula es cierta
• Ignoran el tamaño o magnitud del efecto y se centra en una
decisión dicotómica a favor o en contra de una hipótesis.
• Confusión de significancia clínica con estadística:
Un valor p no refleja en absoluto la magnitud de la diferencia que se
observa, sino la probabilidad de haber observado esa diferencia si en
realidad no hay ninguna.
Silva-Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud. Diaz de
Santos1997
Clark ML. Los valores P y los intervalos de confianza. Rev Panam Salud Publica.2004;15(5):293-6

Reflexiones sobre las pruebas de hipótesis

• Creencia de que un valor p mayor que α confirma que la
hipótesis nula es correcta, o que representa la probabilidad
de que lo sea.
• El no poder rechazar la hipótesis nula no equivale a poder
confirmarla.
• Dependen de un factor ajeno al problema de estudio: el
tamaño de la muestra.
• La elección de trabajar con una o dos colas depende de la
visión subjetiva del investigador.

Silva-Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud. Diaz de
Santos1997
Clark ML. Los valores P y los intervalos de confianza. Rev Panam Salud Publica.2004;15(5):293-6

Error 7. No confirmar el cumplimiento de los
supuestos de las pruebas estadísticas utilizadas.

• La aplicación de pruebas de hipótesis sin la verificación de
supuestos puede dar resultados no precisos.
• Se debe incluir la información sobre la manera en que se
verificaron los supuestos de las pruebas utilizadas.
• Errores:
▫ Usar pruebas paramétricas cuando los datos no
distribuyen normal.
▫ Usar pruebas para análisis de grupos independientes
cuando realmente son grupos relacionados

Error 8. Utilizar un análisis de regresión lineal
sin haber demostrado que la relación es, de
hecho, lineal.

• Sin verificar los supuestos
los resultados pueden estar
incorrectos.
• Supuesto de linealidad:
gráficamente se verifica
contrastando los residuales
de los datos con la línea de
regresión.

Error 9. Reporte de “missing data”.

• Considerar los siguientes aspectos cuando hayan
resultados faltantes:
1. Naturaleza del missing data: outliers no incluidos en el
análisis? pérdida accidental de los datos? Fueron
excluidos algunos datos por no respaldar la hipótesis?
2. Generalización de los resultados: es el rango de valores
real? Fue tan bajo los drop outs?
3. La calidad del estudio. Si no coinciden los totales, cuan
cuidadoso fue el autor?
• Para evaluar los missing data revise el flujograma de los
pacientes que participaron en el estudio

Error 9. Reporte de
“missing data”.

http://www.consort-statement.org/

Error 10. No informar si se hicieron o cómo se
hicieron los ajustes para las pruebas de
hipótesis múltiples.

• Múltiples pruebas de hipótesis en un conjunto de datos
incrementan el riesgo de encontrar diferencias solo por
azar.
No. de Ho
1 2 3 4 5 6 7 8 9 10 20 50
independientes
P de que uno o
más valor
5% 10% 14% 19% 23% 26% 30% 34% 37% 40% 64% 92%
p<0.05 solo por
azar
Ajuste del valor
0.0253

0.0170

0.0127

0.0102

0.0085

0.0073

0.0064

0.0057

0.0051

0.0026

0.0010
0.05

crítico de
rechazo
Motulsky H. Intuitive Biostatistics. New York, Oxford University Press. 1995

• Ocurre cuando:
1. Se establece si los grupos
de comparación tienen
características basales
similares (se espera que
no hayan).

Predictors of 30-Day Mortality and
Hospital Costs in Patients With
Ventilator-Associated Pneumonia
Attributed to Potentially Antibiotic-
Resistant Gram-Negative Bacteria
CHEST 2008; 134:281–287

• Ocurre cuando:
2. Realización de múltiples comparaciones por pares:
cuando en tres o más grupos de datos se realizan
comparaciones de dos en dos por separado.
3. Evaluar múltiples endpoints que están influenciados
por el mismo conjunto de variables explicativas
4. La realización de análisis secundarios de las
relaciones observadas durante el estudio, pero no
identificadas en el diseño original.

• Ocurre cuando:
6. La realización de análisis de subgrupos no planeados
en el estudio original.
7. Se hace múltiples análisis interinos con datos
acumulados (medición del efecto en diferentes
momentos).
8. Se comparan grupos de individuos en diferentes
momentos del tiempo.

Error 11. Presentación innecesaria de la
comparación estadística de las características
baslaes en el ensayo clínico aleatorio.

• Cualquier diferencia de las características basales entre
los grupos de un ensayo con asignación aleatoria se debe
al azar y no indica al presencia de sesgo como si ocurre en
otros tipos de estudio.

• Las diferencias observadas solo indican que deben ser
ajustadas en el análisis estadístico de los resultados pero
el valor p no debe ser reportado.

Error 12. No se define “normal” o “anormal”
al informar resultados de pruebas diagnósticas.

Qué es normal en Medicina?

Sin relación clínica

Diagnóstico Tratamiento Riesgo Estadística Percentiles Social

Error 13. No se explica cómo fueron manejados
los resultados inciertos cuando se calculó la
sensibilidad y especificidad de una prueba
• No todas las pruebas diagnósticas proporcionan
resultados claramente positivos o negativos.
• Se deben reportar el número de pacientes con
resultados intermedios, indeterminado o
ininterpretables e
informar como se
manejaron en el
análisis

Error 14. Uso de tablas y figuras sólo para
“almacenar” los datos, en lugar de ayudar a los
lectores.

• Las tablas y figuras comunican información.
• Las tablas comunican mejor datos numéricos precisos.
• Los gráficos de puntos comunican patrones generales
de comparación
• Mapas comunican mejor las relaciones espaciales

Error 15. Uso de un diagrama o gráfico en el
que el mensaje visual no es compatible con el
mensaje de los datos del texto.

• Se recuerda mejor el mensaje de una imagen que el de
los datos en que se basa. Debe existir entre ellos
concordancia de la información .
• Atentos con los valores de inicio de los ejes porque se
distorsiona la información.

Journal of Clinical Epidemiology. 2010;63:1045-1047

Escala Aritmética: incorrecta Escala Logarítmica: correcta

Error 16. Confundir las “unidades de
observación” al informar e interpretar los
resultados.

• La unidad de observación es la unidad de estudio.
• Diferenciar la unidad de estudio de los pacientes
estudiados, a veces coinciden.
• La unidad de observación la define el objetivo del
estudio.

Error 17. Interpretación de estudios con
resultados no significativos y de bajo poder
estadístico como “negativo”, cuando lo son, de
hecho, no concluyentes.

• Confusión de términos “negativo” y “no conluyente”
como si fueran similares.
• En estudios con bajo poder los resultados observados
no son negativos sino no concluyentes porque el
estudio es incapaz de detectar diferencias cuando
realmente existen.
• Sucede lo mismo con las pruebas de hipótesis en la
comparaciones basales de los grupos porque tiene bajo
poder.

Error 18. No distinguir entre estudios
“pragmáticos”(efectividad) y “explicativos”
(eficacia) en el diseño e interpretación de
investigación biomédica.

Característica Explicativos Pragmáticos
Objetivo Comprender la enfermedad o Guiar la decisión clínica
procesos terapéuticos
Condiciones del Ideales o condiciones de Práctica clínica
estudio laboratorio

Hallazgos Conocimiento biológico no Afectados por factores no
generalizable a la práctica controlados
clínica

Comparación entre los tipos de ensayos clínicos

Explicativos o Pragmáticos o
Aspecto
Eficacia Efectividad
Pregunta Respuesta en Respuesta en circunstancias
circunstancias ideales reales
Criterios de Estrictos. Limitados a Todos los pacientes
elegibilidad alto riesgo y alta
adherencia
Pacientes excluidos Excluidos del análisis Incluidos en el análisis
durante el estudio
Tratamiento Estricta vigilancia de la De rutina
administración
Intensidad del Alto número de visitas De rutina
seguimiento

Haynes B, Sackett D, Guyatt G, Tugwell P. Clinical Epidemiology: How to Do Clinical Practice
Research. 3 edition

Comparación entre los tipos de ensayos clínicos

Pragmáticos o
Aspecto Explicativos o Eficacia
Efectividad
Compliance o Monitoreo estricto, estrategias Poco o ningún monitoreo
adherencia para mejorar adherencia
Desenlaces Efectos adversos atribuidos al Todos los efectos negativos
tratamiento aun cuando no estén
relacionados
Seguimiento Hasta que desarrolla el evento Hasta la muerte o finalización
del seguimiento, lo que
ocurra primero
Eventos Solo los que ocurren durante el Cualquiera que ocurra luego
analizados tiempo en que el paciente recibe de la asignación aleatoria
la terapia

Haynes B, Sackett D, Guyatt G, Tugwell P. Clinical Epidemiology: How to Do Clinical Practice
Research. 3 edition

Error 19. No informar de los resultados en
unidades de utilidad clínica.

• Existen diversas maneras de presentar los
resultados y cada una cierta información sobre
la efectividad clínica.

Medidas Relativas Medidas Absolutas
Reducción o Incremento
Riesgo Relativo
del Riesgo Absoluto
Reducción o Incremento
NNT o NNH
del Riesgo Relativo

Error 20. Confundir la significación estadística y
la importancia clínica.

• Pequeñas diferencias entre
grupos con muestras grandes
pueden ser estadísticamente
significativas pero no
clínicamente importantes.
• Grandes diferencias en grupos
con muestras pequeñas pero no
significativas pueden ser
clínicamente importantes.

www.dentalhypotheses.com

Evaluación de la importancia de los resultados
clínicos: importancia clínica frente significación
estadística
• Las pruebas de significación estadística no
informa de la importancia de los resultados, tan sólo de
la probabilidad de que dichos resultados sean
atribuibles al azar (p < 0,05).
• Los intervalos de confianza ofrecen información
sobre la importancia y precisión de los resultados.
• Cualquier diferencia en el tamaño del efecto, por
pequeña que sea, puede alcanzar significación
estadística si la n es grande.

Ochoa C. Evaluación de la importancia de los resultados clínicos: importancia clínica frente
significación estadística. Evid Pediatr. 2010;6:40

• Perspectivas de la valoración de la importancia
clínica de los resultados:

Paciente Clínico Investigador

Industria farmacéutica Agencias reguladoras

Instituciones Autoridades de
de salud salud pública

Evid Pediatr. 2010;6:40

No hay consenso sobre la definición de un resultado
clínicamente importante, podría ser:
o Variable de resultado válida y con sentido clínico.
o Valorado al menos por alguna de las partes implicadas
en el proceso asistencial.
o Que justifique una modificación en el manejo del
paciente.
o Que suponga un beneficio para el paciente.
o Desenlace duradero, fácil de medir, aceptable (por los
pacientes) y coste-efectiva.


No hay consenso sobre la definición de un resultado
clínicamente importante, podría ser:
(CONT)
o Que haya alcanzado significación estadística en un
estudio válido (ausencia de sesgos).
o Definido por consenso de expertos.
o Adaptado a las circunstancias (diferente según la
situación).
o Que dependa de la perspectiva desde la que se juzgue:
clínicos, investigadores, pacientes, industria
farmacéutica o agencias financiadoras.


• La valoración de la importancia clínica pueden ser tomada
de los criterios de causalidad.
o Temporalidad
o Plausibilidad biológica
o Fuerza de asociación
o Consistencia
o Coherencia
o Gradiente biológico


Proceso de valoración de la importancia
clínica de los resultados de un estudio

Tamaño del efecto Repercusión
Medidas de frecuencia Cuantitativa Cualitativa sobre la toma
Medidas de impacto de decisiones

Otros estudios con las Beneficio
mismas o distintas Comparativa
medidas de efecto Riesgo/costes


Ochoa C. Evaluación de la importancia de los resultados clínicos:
importancia clínica frente significación estadística. Evid Pediatr.

Tipos de error Fuentes de error

• Sesgo • Muestreo
• Imprecisión • Mediciones
• Estimación
• Pruebas de hipótesis
• Reporte

Categoría I. Sampling Bias

• La participación voluntaria de los sujetos de un estudio
invariablemente contiene un sesgo de selección porque
nunca existe una verdadera selección aleatoria.
• La inclusión de muestras de diferentes poblaciones requiere
de un muestreo estratificado.
• La selección de controles en estudios de intervención puede
inducir un sesgo de muestreo: inadecuada asignación
aleatoria, implementación no concurrente de las
intervenciones en estudio.
• Se afectan las medidas de tendencia central y de dispersión
de los resultados

Cómo se minimiza el sesgo de selección?

• Definición específica de la población de interés:
criterios de elegibilidad explícitos.
• Ajustes de la asignación aleatoria:
o Fija: simple, bloques, estratificada.
o Dinámica
o Adaptativa
• Ajustar los resultados del estudio en caso de
imbalance de las características basales de los grupos.

Categoría II. Sampling Imprecision

• El uso de muestras pequeñas
aumenta la imprecisión,
entonces por qué se usan?
• El error estándar depende
inversamente del tamaño de la
muestra pero no se relaciona
linealmente.
• Ignorar la estructura de la
población en el muestreo
aumenta la imprecisión de los
resultados

Categoría III. Measurement Bias
• Informar detalladamente los métodos de recolección de
la información para brindar reproducibilidad.
• Los cambios en algunos procesos durante la ejecución
del estudio puede ser una fuente de sesgo y hay que
identificarlos.

Categoría IV. Measurement Imprecision
• Medir el coeficiente de variación como medida de
imprecisión (CV=DE/media) cuando se hacen
mediciones repetidas de un mismo espécimen en un
mismo tiempo (error técnico).

Categoría V. Estimation Bias

• Error cuando se estima el parámetro con la información
disponible, sigue una tendencia consistente.
• No esta relacionado con prejuicios derivados de la recogida
de datos per se.
• Missing data: hubo?, informativos y no informativos
• En ensayos clínicos que comparan grupos de tto y uno de
ellos es coadyuvante, no se puede estimar el efecto aislado
del coadyuvante porque su efecto ocurre en presencia del tto
estándar:
▫ Sin tratamiento
▫ Tto estándar
▫ Tto estándar + coadyuvante

Categoría VI. Estimation Imprecision

• Error en la estimación del parámetro, sigue una
tendencia en cualquier sentido, es llamado “ruido”.
• No confundir imprecisión adquirida por el proceso de
muestreo con la imprecisión adquirida por la
obtención de la estimación.
• Muestras pequeñas son mas imprecisas.
• La estructura de los datos afecta la precisión de los
métodos utilizados en el análisis: cuando hay
mediciones repetidas en un sujeto y se toma el valor
como un promedio de ellas se aumenta la variabilidad

Categoría VII. Bias in hypothesis testing

Considerar los tipos de errores en la estimación por
pruebas de hipótesis, principalmente el error tipo I

Prueba de hipótesis de una cola

• Ofrece mayor potencia estadística
que la de dos colas. Zona de
• Usa mitad de la muestra que la de No rechazo

dos colas.
• Uso en:
o Es imposible que se de una diferencia
de promedio en una dirección
o Bajo ninguna circunstancia es de interés Zona de
una diferencia en una dirección. No rechazo

• Debe justificarse su elección en la
prueba

http://www.unc.edu/courses/2003fall/biol/145/001/docs/lectures/Sep29

• Las múltiple pruebas de hipótesis incrementa el error
tipo I.
• Ajustar el nivel de significación cuando se realizan
pruebas múltiples.
• Verificar supuestos de las pruebas que se aplican.
• Idealmente ≥30 sujetos para verificar supuestos.

Categoría VIII. Imprecision in hypothesis testing

• Se mide con el error tipo II.
• El error tipo II se incrementa en las muestras pequeñas,
errores técnicos grandes y estimaciones imprecisas.
• Ocurre cuando se comparan grupos de diferentes tamaños

Categoría IX. Reporting Bias
• Contribución al sesgo de publicación.
• Diferenciar las diferencias estadísticamente
significativas de las diferencias biológicas
importantes.
• Diferenciar estudios con resultados negativos de los
estudios con resultados no concluyentes

Categoría X. Reporting Imprecision
• El uso de ± para indicar variación debe informarse si
es la desviación estándar o el error estándar
• Informar parcialmente el valor p y la manera en qué
se obtuvo.

Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas

Recomendados

Recomendados

Más contenido relacionado

Similar a Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas

Similar a Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas (20)

Último

Último (20)

Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas