Contenuti del corso organizzato dall'IRCCS Istituto Mario Negri e UNAMSI sulla interpretazione dei principali indicatori statistici e delle principali misure di associazione usati in medicina. Milano, 11 aprile 2015
1. Reperire, valutare l’informazione
medico-scientifica: strumenti
(statistici) per interpretare i risultati(statistici) per interpretare i risultati
Milano, 11 aprile 2015
Eugenio Santoro
eugenio.santoro@marionegri.it
www.slideshare.net/eugeniosantoro
www.twitter.com/eugeniosantoro
Laboratorio di Informatica Medica
IRCSS - Istituto di Ricerche Farmacologiche “Mario Negri”
2. Mi presento
• Eugenio Santoro, Twitter: @eugeniosantoro,
eugenio.santoro@marionegri.it
• Ricercatore presso il Dipartimento di
Epidemiologia dell’IRCCS - Istituto di Ricerche
Farmacologiche Mario Negri
• GISSI, GISSI-2, GISSI-3, GISSI-Prevenzione
Trials: data management and statistics
• “Web 2.0 e social media in medicina” book
http://www.pensiero.it/ecomm/pc/viewPrd.asp?i
dproduct=564
3. Misure di associazione
• A trattamento sperimentale
• B trattamento controllo
• Mortalità (A)= 8%
• Mortalità (B)=12%
• Quale differenza ?
4. Misure di associazione
• Mortalità (A)= 8%
• Mortalità (B)=12%
• Riferimento è B• Riferimento è B
• Riduzione assoluta: 4%
• Riduzione proporzionale (o relativa): (12-
8)/12=33%
5. Misure di associazione
• A no fumo
• B esposizione a fumo
• Mortalità (A)= 8%
• Mortalità (B)=12%
• Quale differenza ?
6. Misure di associazione
• Mortalità (A)= 8%
• Mortalità (B)=12%
• Riferimento è A• Riferimento è A
• Aumento assoluto: 4%
• Aumento proporzionale (o relativo):(12-
8)/8=50%
7. Statistiche associate alla tabella
di contingenza
• Chi quadro di eterogeneità
• È la statistica che si calcola qualora si voglia
confrontare due o più proporzioni osservate:
Esempio: PatologiaEsempio: Patologia
Esposizione
SI NO
SI a b E1=a+b
NO c d E2=c+d
M1=a+c M2=b+d N
8. Esempio: Infarto del miocardio /
consumo di alcool
Alcool Infarto controlli
SI 71 52 123
NO 29 48 77
• χχχχ2 = 7.6
• Il valore critico per la distribuzione χχχχ2 con 1 grado di libertà è 3.84.
• Quindi possiamo dire che l’associazione riscontrata tra esposizione
e malattia non è da attribuirsi esclusivamente al caso
100 100 200
9. Interpretazioni del test di
significativita’
• P <0.05 = I due
trattamenti sono
differenti
• P<0.05 : se fosse vera
l’ipotesi nulla, difficilmente
si sarebbero ottenuto risultatidifferenti
• P >0.05 I due
trattamenti sono
uguali
si sarebbero ottenuto risultati
di questo tipo per puro caso
• P>0.05. Non si puo’
escludere che l’ipotesi nulla
sia vera
10. Test di Significativita’ vs
Stime di effetto
Mortalita’.
Tumore Y A vs B 15% vs 12.5%Tumore Y A vs B 15% vs 12.5%
N=12000 P = 0.0007
Tumore X A vs B 15% vs 7.5%
N= 240 P=0.066
11. Suggerimento
Bisogna dare meno importanza alla p e più importanza
alla precisione di una stima per valutare il peso di unalla precisione di una stima per valutare il peso di un
risultato
19. • L’intervallo di confidenza è un range di valori attorno alla
stima puntuale che indica il grado di precisione statistica che
caratterizza la stima
• Il livello di confidenza (95%, 90%...) è posto per convenzione
Intervalli di confidenza
• L’ampiezza dell’intervallo esprime la precisione della
misurazione: più è ampio l’intervallo , meno è precisa la stima
• I limiti superiori e inferiori dell’intervallo sono detti limiti di
confidenza
24. Misure di associazione assolute o
relative?
I giornali di tutto il mondo e molte
riviste scientifiche presentarono
l’aspirina a bassa dose come un
farmaco in grado di dimezzare il
rischio di IMA (riduzione relativarischio di IMA (riduzione relativa
del rischio del 44%) senza
evidenziare che la riduzione
assoluta del rischio era appena
dello 0,18% all’anno (1,8 per mille
o, come indicato nell’abstract dello
studio, 185 per 100.000 trattati
all’anno) e che occorre trattare con
aspirina 556 persone per un anno (o
111 persone per 5 anni) per evitare
un infarto
1,26% 2,16%
26. Il test di Student.
•differenza delle due medie
•errore standard della differenza delle medie
•numero dei gradi di libertà
•numero t (più piccolo è t e più è probabile che la differenza tra le medie sia casuale)
•tabella di valori di t
•numero p (se p<0.05, la differenza è considerata significativa)
28. Se i gruppi da confrontare sono più di due.
• t-test di Bonferroni (è più conservativo quando i gruppi sono molto numerosi)
•test di Student-Neuman-Keuls
La p di Buonferroni è uguale alla p di Student moltiplicata per il numero dei confronti eseguiti.
31. La regressione logistica
La variabile dipendente (y) è di tipo binario (vivo/morto), quelle
indipendenti (xi, covariate) possono essere qualsiasi.
I risultati sono:
•AOR (Adjusted Odd Ratio, odds ratio aggiustato)•AOR (Adjusted Odd Ratio, odds ratio aggiustato)
•il coefficiente di regressione della covariata ed il suo SE
•la significatività della covariata
•la correlazione parziale della covariata
•l’odds ratio della covariata
32.
33. Analisi della sopravvivenza di Kaplan-Meier.
•Calcola la probabilità (condizionata) di sopravvivenza in
ciascuno dei tempi in cui si verifica almeno uno degli eventi
terminali
•Fornisce le curve di sopravvivenza
•Se i casi sono divisi in gruppi, è possibile confrontare
le rispettive distribuzioni di sopravvivenza attraverso il Log-rank
Test
36. La regressione di Cox
Mette in evidenza eventuali relazioni tra il tempo che impiega
l’evento a verificarsi ed un gruppo di variabili indipendenti.
Ad esempio: c’è una relazione tra la durata di un matrimonio eAd esempio: c’è una relazione tra la durata di un matrimonio e
le seguenti variabili (covariate) ?
•1 Differenza di età degli sposi
•2 Numero dei figli
•3 Reddito familiare
•4 ecc...
41. Errori comuni nella
interpretazione/diffusione dei risultati
-ENDPOINT: .Non si sono osservate differenze statisticamente
significative trai i due trattamenti per quanto riguarda O.S.,
P.F.S., Q.o.L., e tossicita’. Il trattamento X si e’ pero’ dimostrato
SIGNIFICATIVAMENTE piu’ efficace di Y nel ridurre la mortalita’SIGNIFICATIVAMENTE piu’ efficace di Y nel ridurre la mortalita’
per emorragie gastriche
- SOTTOGRUPPI:. si e’ pero’ osservato che nei pazienti maschi
di eta’ inferiore ai 55 anni con neoplasia epidermoide il tr.
Sperimentale induceva un miglioramento prognostico
SIGNIFICATIVO (P<0.05). Questo f a ritenere
42. Problemi
• Se si eseguono molteplici analisi per sottogruppo o
differenti tipi di endpoint (non pianificati), la
probabilità che almeno 1 analisi fornisca, per caso,
risultati statisticamente significativi è > 5 %
• La probabilità di un risultato falsamente positivo• La probabilità di un risultato falsamente positivo
aumenta all’aumentare del numero di test di
significatività
43. Test multipli vs Analisi derivate
dai dati
• Test multipli :
• Predeterminati (Protocollo di studio)
• Numero finito
• Possibile correzione statistica
• Analisi derivate dai dati
• L’osservazione di un particolare fenomeno
induce all’esecuzione di un test di significatività
• Numero potenzialmente illimitato
• Prive di alcuna validità statistica
44. MOLTEPLICITA’ : Regole generali
• Viene stabilito, prima dell’inizio dello studio, il
numero e tipo (tempo) delle analisi (ES. 2 analisi per
soggetti < 50 e >50 anni, oppure 3 analisi, dopo 100,
200 e 300 eventi (finale)
• Viene stabilito un insieme di regole per decidere che lo• Viene stabilito un insieme di regole per decidere che lo
studio ha dato un risultato significativo (o per
interrompere lo studio)
• Queste regole sono dei livelli di significativita’ (tutti <
α) calcolati in modo che la probabilita’ di errore α
complessiva sia quella desiderata (ES. 5%)
45. Analisi Per Sottogruppi:
Metodo piu’ utilizzato (sbagliato)
IL TEST DI SIGNIFICATIVITA’ VIENE
RIPETUTO IN OGNI SOTTOGRUPPO ALRIPETUTO IN OGNI SOTTOGRUPPO AL
LIVELLO DI SIGNIFICATIVITA’
CONVENZIONALE
46. Esempio: trial ipotetico con 120 pz a braccio
Osserviamo 72 risposte (60%) (tratt.sper.) contro
48 (cont.) (40%), p<0.002 (molto signif.)
Tre sottogruppi:
< 30anni: 48/80 (60%) vs 32/80 (40%),
p=0.01p=0.01
30-50 anni: 12/20 (60%) vs 8/20 (40%),
p=0.2 n.s.
> 50anni: 12/40 (60%) vs 8/20 (40%),
p=0.2 n.s.
E’ sbagliato dire che l’effetto del trattamento è più efficace in pz < 30 anni
47. Soluzioni tipiche
(Sottogruppi)
• Viene definita come analisi primaria l’analisi
sull’intero gruppo
• Viene introdotta come analisi secondaria
l’analisi per alcuni sottogruppi predefiniti sel’analisi per alcuni sottogruppi predefiniti se
significativita’ nell’analisi primaria. Questa si
basa su un test di interazione
• Il test di significativita’ nei vari sottogruppi e’
privo di senso e produce risultati assurdi
48. Analisi per sottogruppi:
test di interazione
Nuova ipotesi nulla: Omogeneita’ dell’effetto (o del
non effetto) in tutti i sottogruppi (l’effetto e’ lo
stesso?)
In qualche sottogruppo esiste evidenza
‘significativa’ di un effetto diverso?‘significativa’ di un effetto diverso?
Analisi stratificata o multivariata
Scarsa potenza statistica
Suggerimento per nuovi studi o meta-analisi
49. Riferimenti bibliografici
Franzosi MG, Santoro E. et al. Ten-Year Follow-Up of the First Megatrial Testing
Thrombolytic Therapy in Patients With Acute Myocardial Infarction. Results of the
Gruppo Italiano per lo Studio della Sopravvivenza nell’Infarto-1 Study.
Circulation. 1998;98:2659-2665
Ce.V.E.A.S.–Gli indici statistici più usati. URL: assr.regione.emilia-
romagna.it/it/servizi/pubblicazioni/collane-cessate/archivio-
pacchetti/inserto22001.pdf
Ajay K et al. Interpreting Results of Clinical Trials: A Conceptual Framework.
Clin J Am Soc Nephrol 3: 1246–1252, 2008.
Shail M et al. How to Read a Clinical Trial Paper: A Lesson in Basic Trial
Statistics. Gastroenterol Hepatol (N Y). 2012 Apr; 8(4): 241–248.
50. Ringraziamenti
Paolo Bruzzi, IST – Istituto Nazionale per la ricerca
sul cancro, Genova
Liliane Chatenoud, IRCCS Istituto di Ricerche
Farmacologiche Mario Negri, Milano