C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design
Ähnlich wie C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design
Ähnlich wie C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design (20)
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design
1. GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
SESSIONE I
CAMPIONAMENTO E STIMA
Optimal sample allocation for the Stratified
Simple Random Sampling and the Incomplete
Stratified Sampling design
Relatore: Paolo Righi
Claudia De Vitiis, Paolo Righi, Marco Dionisio Terribili
2. Indice
1. Obiettivo del lavoro
2. Introduzione al problema
3. Criterio di allocazione: problema di ottimizzazione
4. La sperimentazione: la progettazione del disegno campionario per
l’indagine sull’inserimento professionale dei laureati
5. Conclusioni
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
3. Obiettivo del lavoro
1. Analizzare il metodo di allocazione del campione nel disegno
stratificato (utilizzato in Istat):
• Nota nel frame di selezioni l’appartenenza delle unità ai domini di
interesse il metodo alloca il campione (minimizzando la
dimensione - ottimizzazione) in modo tale da rispettare delle
soglie massime di precisione delle stime attese nei domini di
interesse (domini pianificati);
• I domini pianificati sono aggregazione di strati.
2. Evidenziare alcune criticità del disegno stratificato dal punto di vista
dell’allocazione
3. Introdurre il disegno a stratificazione incompleta per risolvere i
problemi di allocazione:
• il disegno a stratificazione incompleta definisce delle probabilità dii
h h h nh n / N
inclusione ma alloca solo in valore atteso unità
nello strato h;
• L’allocazione campionaria nei domini di interesse è pianificata.
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
4. Introduzione al problema
Il disegno di campionamento
• Il disegno di campionamento è una distribuzione di probabilità p(.) che
assegna a tutti i sottoinsiemi, s, di una popolazione U una probabilità
di estrazione p(s)
• Nei disegni di tipo stratificato (semplice), le p(s) sono ottenute
definendo le probabilità di inclusione di ciascuna unità
• Fissare le fissare le (allocazione del campione) disegno
• Criteri per fissare le :
a) Allocazione proporzionale
b) Allocazione uniforme
c) Allocazione di compromesso: combinazione convessa di a) e b) –
metodi basati su funzioni obiettivo.
k h h h n / N
h h n
h n
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
5. Criterio di allocazione: problema di ottimizzazione
Min c
( )
(ˆ ) ( 1,..., ; 1,..., )
V t V d D r
R
dr dr
( ) ( )
h H
0 1 (
1,..., )
h
k U h h
Funzione obiettivo
1 con 1
h h
N N
( ) ( ) ( ) V t f Y S h d dr hr hr
2 quando 2
h h h
(ˆ ) ( , ; ) 2
deveessereun numerointero
h h
N
N
Vincoli indotti dal disegno
Stratificato A stratificazione incompleta
U U h d
1 con 1
N N
U U h h d
h d
h d
U
U h h
2 quando 2
deve essere un numero intero
h d
N
N
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
6. La sperimentazione: la progettazione del disegno campionario per
l’indagine sull’inserimento professionale dei laureati (triennali)
• L’indagine produce stime sull’inserimento professionale dei laureati a tre
anni dal conseguimento del titolo.
• Le stime sono prodotte a livello Nazionale, per tipologie di corso, ecc.
• I domini di stima di maggior dettaglio sono (edizione 2011)
• DOM1: Ateneo × Area (aggregazione di Corsi) – 448 domini;
• DOM2: Corso (di studio) × Sesso - 86 domini.
• Tutte le altre tipologie di dominio si ottengono per
aggregazione.
• Per controllare le dimensioni campionarie dei domini
di interesse l’indagine (edizione 2011) ha utilizzato
una stratificazione a due vie:
Ateneo × (Corso × Sesso) – 2,981 strati
Ateneo
Corso × Sesso
Strati
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
7. Indagine sull’inserimento professionale dei laureati (triennali)
• Nella sperimentazione il processo di allocazione ha considerato come
stime obiettivo i totali dei laureati (per i DOM1 e DOM2) che:
• LAVORANO;
• CERCANO una occupazione;
• STUDIANO.
• Il problema di ottimizzazione:
• richiede la definizione delle soglie massime di precisione
delle stime (espresse in CV)
• I parametri e (che sono ignoti!).
• Possiamo sostituire i valori con delle stime
) (dr V
Tipo di Dominio CV- Lavora CV-Cerca CV-Studia
Ateneo × Area 13% 25% 20%
Corso (di studio) × Sesso 13% 25% 15%
(hr ) Y 2
(hr ) S
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
8. Indagine sull’inserimento professionale dei laureati (triennali)
• La stima dei parametri avviene mediante un modello di predizione
logistico (stimato con i dati dell’indagine precedente)
• I parametri (stimati) del logistico sono utilizzati per predire i valori
delle variabili di interesse per le unità nel frame di selezione
Modello
• I cinque modelli sono detti: modelli di lavoro
• Il modello di lavoro è (molto probabilmente) diverso dal modello che
determina i parametri di input
Strati del
disegno
Dimensione
del campione
per il disegno
stratificato
Dimensione del
campione per il
disegno a
stratificazione
incompleta
1: Total average (intercept) 2,981 26,419 24,845
2: Gender 2,981 26,673 25,232
3: Group 2,981 31,539 30,061
4: Gender + Group + Group * Gender 2,981 31,345 29,879
5: (Gender*Area) + University 2,981 36,624 35,027
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
9. Quali effetti produce?
Esempio:
• Modello di lavoro
Gruppo × Sesso (Modello 4)
• Modello di riferimento
University+ Group+
Age class+Region+
Gender+
Final grades class
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
10. Indagine sull’inserimento professionale dei laureati (triennali)
• La predizione dei parametri si può ottenere con modelli più complessi
• Ad esempio
6: University+ Group +Age class+Region+Gender+Final grades class
7: University+ Course +Age class+Region+Gender+Final grades class
• Le predizioni sulle unità nel frame sono omogenee per
sottopopolazioni incluse negli strati incrocio
(University × Course × Gender)
• Queste sottopopolazioni rappresentano degli strati
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
11. Confronto tra modelli
Distribuzione dei residui
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
12. Indagine sull’inserimento professionale dei laureati (triennali)
• Se consideriamo la stratificazione indotta dal modello di lavoro
Modello
Strati del
disegno
Dimensione
del campione
per il disegno
stratificato
Dimensione del
campione per il
disegno a
stratificazione
incompleta
6: University+ Group+Age
class+Region+Gender+Final grades
class
8,743 63,246 34,620
7: University+Course+Age
class+Region+Gender+Final grades
class
31,486 63,168 34,622
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
13. Effetto dei vincoli indotti dal disegno nella allocazione
del campione
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
14. Conclusioni
A. L’allocazione del campione è parte integrante della strategia di stima
B. Per allocare il campione è fondamentale sfruttare l’informazione
ausiliaria sui principali fenomeni di interesse attraverso strumenti
statistici (modelli)
C. L’allocazione finale dipende tuttavia anche dallo schema di selezione
(del disegno) che rende il disegno più o meno efficiente (a parità di
informazione)
D. Il lavoro confronta le allocazioni del disegno stratificato standard ed
a stratificazione incompleta per l’indagine sull’integrazione de
laureati
E. Il secondo disegno si è dimostrato:
1- più efficiente (campioni più piccoli);
2- più flessibile nell’utilizzo delle informazione ausiliarie
F. Il disegno sarà implementato nella prossima edizione dell’indagine
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
15. Bibliografia essenziale
Allocazione del campione
Cochran W.G. (1977). Sampling Techniques. Wiley. New York.
Deville J.-C., Tillé Y. (2005). Variance approximation under balanced sampling, Journal of
Statistical Planning and Inference, 128, 569-591.
Khan, M. G. M., T. Mati, and M. J. Ahsan (2010). An optimal Multivariate stratified sampling design
using auxiliary information: An integer solution using goal programming approach. Journal of
Official Statistics 26, 695-708.
Disegni con stratificazione a più vie (standard e a stratificazione incompleta)
Deville J.-C., Tillé Y. (2004). Efficient Balanced Sampling: the Cube Method, Biometrika, 91, 893-
912.
Falorsi P. D., Righi P. (2008). A Balanced Sampling Approach for Multi-way Stratification Designs
for Small Area Estimation, Survey Methodology, 34, 223-234.
Winkler, W. E. (2001). Multi-Way Survey Stratification and Sampling, Research Report Series,
Statistics #2001-01. Statistical Research Division U.S. Bureau of the Census Washington D.C.
20233
Algoritmi per l’allocazione
Choudhry, G. H., J. N. K. Rao, and M. A. Hidiroglou (2012). On sample allocation for efficient
domain estimation. Survey Methodology 18, 23-29.
Chromy J. (1987). Design Optimization with Multiple Objectives, Proceedings of the Survey
Research Methods Section. American Statistical Association, 194-199.
Falorsi P. D., Righi P. (2012). A Unified Approach for Defining Optimal Multivariate and Multi-
Domains Sampling Designs, 46th Scientific Meeting of the Italian Statistical Society
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi