1. Convegno SIS - Valorizzazione delle Statistiche Pubbliche
Prendere decisioni: il ruolo della statistica per la conoscenza e la governance
Correzione della mancata risposta
totale nell'indagine ISTAT sulla
disabilità
Daniela Cocchi, Claudia De Vitiis, Francesca Inglese,
Marco Dionisio Terribili
Roma, 19-20 Aprile 2012
2. Sommario
La disabilità e l’indagine sull’ Integrazione sociale delle persone
con disabilità
Il problema della mancata risposta totale (MRT)
Una proposta alternativa al trattamento della MRT
3. La nuova Classificazione internazionale del Funzionamento,
della Disabilità e della Salute (Icf) approvata dall'Oms
(Organizzazione Mondiale della Sanità) nel 2001
La disabilità non è più definita solo come difficoltà od incapacità di
svolgere determinate attività in conseguenza di una menomazione
Concorrono a determinare una condizione di disabilità le
restrizioni nella partecipazione alla vita collettiva e l'influenza dei
fattori contestuali (servizi, barriere architettoniche, agevolazioni
nell'accesso al lavoro, ecc.)
4. L’indagine sull’Integrazione sociale delle persone con disabilità
scaturisce dal progetto di ricerca "Sistema di Informazione
Statistica sulla Disabilità", nato da una convenzione tra l'Istat e il
Ministero del Lavoro e delle Politiche Sociali
Obiettivi del progetto
realizzare un sistema integrato di informazioni per il monitoraggio
del fenomeno della disabilità in Italia
fornire, mediante l'analisi dei bisogni, delle condizioni sociali e di
salute della popolazione con disabilità, un supporto per le politiche e
per la programmazione delle attività di assistenza, sostegno ed
integrazione (monitoraggio dello stato di attuazione della normativa
sul territorio)
5. L’ indagine sull’ Integrazione sociale
delle persone con disabilità
costituisce una importantissima fonte informativa del fenomeno nel
nostro Paese in quanto sopperisce alle lacune che le altre fonti, di
natura esclusivamente amministrativa, presentano sull’argomento
Obiettivi
descrivere le condizioni di salute e i livelli di inclusione sociale degli
intervistati nei diversi ambiti di vita (scuola, lavoro, rete di relazioni
sociali, tempo libero, ecc.)
valutare l'interazione tra condizioni di salute e fattori ambientali, che
possono agire come barriere (limitazioni alla mobilità, difficoltà di
accesso a percorsi formativi o lavorativi, mancanza di adeguati
sostegni per i bisogni assistenziali, ecc.)
6. Disegno dell’indagine
La seconda edizione dell’indagine sulla disabilità (la prima risale al
2004) è stata condotta nel 2010 attraverso una tecnica di rilevazione
di tipo CATI (Computer Assisted Telephone Interview) su un
sottocampione dell’Indagine Multiscopo “Condizioni di salute e
ricorso ai servizi sanitari” 2004-2005 il cui disegno di campionamento
è a più stadi comuni-famiglie, con stratificazione dei comuni
Il campione dei disabili
è costituito dagli individui di età compresa tra gli 11 e gli 80 anni che, in
occasione dell’indagine sulla Salute del 2004-2005, avevano riferito di
avere limitazioni nelle abituali attività della vita quotidiana o di essere
affetti da invalidità (3502 individui disabili)
7. La mancata risposta totale nell’indagine
L’indagine sulla disabilità è stata affetta da un elevato tasso di
mancata risposta totale: i rispondenti effettivi sono stati 1.258
(individui non eleggibili 614)
Le due componenti di mancata risposta
Rifiuto a collaborare (340 individui)
Irreperibilità (1290 individui) delle persone che erano state
identificate come disabili al momento della intervista sulla Salute
(individui non raggiungibili telefonicamente, ecc.)
Cause principali
• lag temporale che intercorre tra le due indagini
• riduzione della copertura della rete telefonica fissa
8. La metodologia utilizzata per il trattamento della MRT
La riponderazione
Una prassi consolidata presso gli Istituti nazionali di statistica per il trattamento della MRT è di
ricorrere a tecniche di ponderazione delle unità rispondenti. Tali tecniche presentano
l’importante proprietà di condurre a stime caratterizzate da livelli di varianza e distorsione più
piccoli rispetto a quelli corrispondenti alle stime ottenute senza previo trattamento della MRT
basata sulla stima della probabilità di risposta
E’ una tecnica particolarmente adatta al caso in esame, in quanto si dispone di numerose
informazioni, note su tutte le unità del campione, derivanti dall’indagine sulla Salute
Le informazioni disponibili sono di tipo socio-demografico (sesso, età, stato civile, titolo di
studio, numero di componenti della famiglia), sono relative ad alcune patologie che l’individuo
presenta e alle condizioni che lui stesso percepisce circa le sue difficoltà nella vita quotidiana
e altre ancora, come la ripartizione geografica e una variabile che identifica gli individui che
all’indagine avevano rilasciato un recapito telefonico
9. Modellizzazione della probabilità di risposta
• si assume che la mancata risposta sia il risultato di un processo aleatorio
- la probabilità di risposta ϑ k indica la probabilità di una generica unità k di
essere inclusa nel sottocampione dei rispondentis r del campione s -
• è fondata sulla stima di un legame funzionale tra le probabilità di risposta e un
insieme di variabili ausiliarie x k
• si assume che le unità appartenenti a sottoinsiemi omogenei abbiano la stessa
probabilità di risposta
Definizione delle celle di ponderazione: la tecnica
Response propensity scoring
• specificazione del modello di risposta individuale tramite modelli logistici o
metodi di regressione di tipo non parametrico (algoritmo CART - Classification
And Regression Tree)
• suddivisione delle unità del campione s in celle definite sulla base del modello
prescelto
• attribuzione a ciascuna unità rispondente di un fattore correttivo ottenuto come
inverso della probabilità predetta di risposta individuale, oppure come
reciproco del tasso di risposta osservato nella cella di appartenenza
10. Proposta di una procedura alternativa al trattamento della MRT
analisi comparativa con la procedura standard
La procedura 1: correzione in unico passo
consiste nella determinazione di un unico fattore di
aggiustamento che corregge i pesi diretti dei rispondenti in
modo da rappresentare sia le unità risultate irreperibili sia
quelle che hanno rifiutato di collaborare
La procedura 2: correzione in due passi
2
Consiste nella determinazione di due fattori di aggiustamento:
il primo corregge i pesi diretti degli individui risultati reperibili,
per rappresentare gli irreperibili; il secondo corregge i pesi
degli individui rispondenti, per rappresentare i non rispondenti
tra i reperibili
11. Parametro di interesse
Y= ∑y
k∈U
k
Espressione generale dello stimatore di Y
ˆ
Y= ∑ y k wk
k∈sr
wk * = d k γ k f k
procedura P1
wk =
**
wk = d k 1 γ k 2 γ k f k
procedura P 2
12. dove, per l’individuo k
dk = 1/ π k peso diretto
w*
k
peso finale ottenuto con la procedura 1
w**
k
peso finale ottenuto con la procedura 2
ˆ
γ k =1 ϑk è il fattore correttivo per MTR ottenuto come reciproco della
probabilità di risposta stimata mediante la procedura 1
1 γk 2 γk sono i fattori correttivi, rispettivamente di prima e seconda
fase, ottenuti con la procedura 2
fk correttore di post-stratificazione legato alla procedura di
correzione (atto a garantire che distribuzioni campionarie pesate per
certe variabili ausiliarie siano conformi alle distribuzioni note per le
stesse variabili)
13. Stima delle probabilità di risposta - specificazione dei modelli
Variabile dipendente (modello logistico) e variabile target (modello non
parametrico)
Procedura 1
1 se l’unità k, appartenente al campione s, è rispondente
rk =
0 se l’unità k, appartenente al campione s, è irreperibile o non rispondente
Procedura 2
1 se l’unità k, appartenente al campione s, è risultata reperibile Fase 1
r =
,
k
0 altrimenti
1 se l’unità k, appartenente all’insieme degli individui risultati Fase 2
r =
k
,,
reperibili, risulta rispondente
0 altrimenti
Le variabili ausiliarie x k sono scelte sulla base della correlazione lineare
con la variabile esito dell’indagine
14. Scelta dei modelli studiati
Criteri
Bontà di adattamento (logistico) - Akaike Information Criterion (AIC)
Ottimalità (CART) - funzione di costo data dal tasso di corretta
classificazione delle unità k e dal numero di nodi
Procedura 1
Variabili esplicative del modello logistico: variabile dummy che identifica gli
individui che all’indagine Salute avevano rilasciato un recapito telefonico,
classi di età, sesso, stato civile, livello di istruzione, livello di gravità della
disabilità
Predittori CART: variabile dummy che identifica gli individui che all’indagine
Salute avevano rilasciato un recapito telefonico, numero di componenti della
famiglia, classi di età
15. Procedura 2
Fase 1
Variabili esplicative del modello logistico: variabile dummy che identifica gli
individui che all’indagine Salute avevano rilasciato un recapito telefonico, classi
di età, sesso, stato civile, livello di istruzione, difficoltà di movimento, numero di
disabilità
Predittori CART fase 1: variabile dummy che identifica gli individui che
all’indagine Salute avevano rilasciato un recapito telefonico, numero di
componenti della famiglia, stato civile
Fase 2
Variabili esplicative del modello logistico: classi di età
Predittori CART fase 2: classi di età, livello di istruzione
16. Metodi applicati per la definizione delle celle di aggiustamento e
determinazione dei fattori correttivi
Metodo logistico predetto
in ciascuna delle celle di aggiustamento, definite sulla base del modello, il
correttore per mancata risposta è calcolato come reciproco della probabilità
di risposta predetta in base al modello logistico
Metodo logistico osservato
le celle di aggiustamento sono definite sulla base dei quantili della
distribuzione delle probabilità predette - il correttore è definito come inverso
del tasso di risposta osservato
Algoritmo CART
il correttore è definito come reciproco della probabilità di risposta (stimata
con il tasso di risposta osservato tra le unità appartenenti a ciascun gruppo
definito sulla base dei nodi terminali individuati)
17. Principali risultati
L’insieme dei pesi campionari, con e senza post-stratificazione (effettuata in classi
definite in base alle modalità delle variabili sesso ed età), ottenuti con i due approcci
sono stati confrontati, mediante opportuni indicatori, al fine di individuare e
scegliere quello avente performance migliori
L’analisi comparativa
distribuzioni dei pesi finali
matrice di correlazione
indice di concordanza (misura di adattamento dei modelli ai dati)
variabilità dei pesi tramite l’indice 1+CV2 (misura l’influenza dei pesi stessi
sulla varianza degli stimatori)
Confronto dei pesi con migliori performance risultanti dalle due procedure
Indice di
Pesi finali 1+CV2
concordanza
w*
k
(CART) 1,54 0,55
**
wk (CART) 1,50 0,67
Nota: il fattore correttivo risultato migliore nella fase 1 della seconda procedura è quello calcolato sui
quartili della distribuzione delle probabilità individuali
18. Riferimenti bibliografici
• Kish L. (1992) Weighting for Unequal Pi. Journal of Official Statistics 8, 183-200
• Inserimento lavorativo delle persone con disabilità, Sistema di Informazione
Statistica sulla Disabilità, Istat
• Olson K. M. (2006), Survey partecipation, non response bias, measuremet error
bias, and total bias, Sociology Department, Faculty Pubblications, University of
Nebraska – Lincoln
• Rizzo L., Kalton G. e Brick M. (1996). A Comparison of Some Weighting
Adjustment Methods for Panel Nonresponse. Survey Methodology 22, 43-53
• Särndal C.E., Swensson B., Wretman J. (1992) Model assisted survey sampling,
Springer Verlag, New York, Chapter 15.