M. Scanu - Sistema unitario di metadati. Componente relativa ai metadati strutturali – Uso di SDMX
1. Sistema unitario di metadati
Componente relativa ai metadati strutturali – Uso di SDMX
Mauro Scanu
Responsabile UO “Sistema integrato di metadati”
Servizio: Sviluppo sistema di metadati, Qualità Statistica e
Coordinamento progetti europei di R&S ”
Direzione: DCIQ
1
2. Sistema Unitario di Metadati
Sommario
Perché il SUM
Relazione con GSBPM e i sistemi in uso in
Istituto
Uso di SDMX nel SUM
Alcune possibili estensioni di SDMX
2
3. Perché il SUM
Linee ispiratrici progettazione SUM
Dotarsi di uno strumento di
integrazione/armonizzazione e
documentazione a supporto dei
processi di raccolta, elaborazione e
diffusione dei dati
Tendere all’armonizzazione con gli
standard internazionali e, in particolare,
europei
Pertanto, il SUM si dovrà integrare
con i sistemi sviluppati o in corso
di realizzazione all’Istituto
3
4. Sistema Unitario di Metadati - schema
Corporate metadata warehouse
Metadati
Valutazione complessiva
Pianificazione strategica
gestionali Metadati
Metadati
strutturali
referenziali
Specifica Diffusione e
Disegno Preparazione Raccolta Trattamento Analisi Archiviazione Valutazione
requisiti comunicazione
Documentazione Dati
Dati grezzi (inclusi Dati Dati di Report di
(PAA, PST, aggregati Pubblicazioni
i dati amministrativi) validati diffusione qualità
piani metodologici/IT, intermedi
architettura d’indagine,
piano di campionamento,…) Corporate data warehouse
4
5. Sistema Unitario di Metadati
Confronto con altre esperienze
Maggio 2012 – brainstorming DCIQ (in corso
collaborazione con gruppo I.Stat)
Giugno 2012 – presentazione DIQR
Febbraio-Luglio 2012 – confronto con Banca
d’Italia
Settembre 2012 – incontro con gdl acquisizione
dati
Dicembre 2012 – incontro gdl sist. int. stime
risultati econ. imprese dati indag. e ammin.
Altri confronti: ABS, SFSO, StatCanada, Eurostat,
OCSE. Inserito nell’EA, confronto con sistema di
5 BA, compatibilità con GSIM
6. Sistema Unitario di Metadati
Obiettivi
Tracciabilità dei processi: Tracciabilità delle
informazioni prodotte nel ciclo di vita del dato
per diversi scopi interni ed esterni e
automatizzazione delle procedure
Supporto alla produzione: Facilità nel
recupero dei metadati e possibilità di poterli
riusare nelle diverse fasi del processo
produttivo
Supporto alla ricerca e al corretto uso dei
dati: Assegnazione del corretto significato
dei dati, delle definizioni e delle condizioni
di utilizzo, importante soprattutto ora che si
6 parla di open data
7. SUM metadati strutturali - Logica incrementale
Metadati per macrodati
(inclusa mappatura per SEP)
Metadati per microdati
Relazioni di trasformazione
dei metadati
Macrodati:
1. (entro il 2012) prima modellazione dei metadati strutturali per i dati già presenti in
I.Stat (SDMX 2.0) e individuazione dello standard per la descrizione dei metadati
strutturali per la versione a regime, in collaborazione con gruppo I.Stat
2. (entro il 2013/2014) costruzione/adeguamento software a supporto della nuova
modellazione proposta e adeguamento dei metadati alla nuova modellazione
7
8. SUM metadati strutturali - Logica incrementale
Metadati per macrodati
(inclusa mappatura per SEP)
Metadati per microdati
Relazioni di trasformazione
dei metadati
Microdati
1. (entro il 2013) individuazione di uno standard per la descrizione dei
metadati strutturali per i microdati (DDI, SDMX,…)
2. (entro il 2014) costruzione/adeguamento software
3. (entro il 2015) modellazione dei metadati strutturali per i microdati
8
9. SUM metadati strutturali – schema di relazione
Esempio di relazione fra SUM e una fase del processo
produttivo dei dati (raccolta dati)
SUM
Per consultazione
e acquisizione Metadati per macrodati
Acquisizione metadati Metadata (inclusa mappatura per SEP)
GUI
presenti in SUM Per modifica Metadati per microdati
Gestione
e caricamento
Relazioni di trasformazione
dei metadati
Consultazione
Modifica metadati Caricamento metadati Web Service (I/O) – incluso SEP
metadati SDMX + SDMX Esteso
presenti in SUM non presenti in SUM
in SUM
Acquisizione metadati
Meta presenti in SUM
Portali,
Sistemi,
software
generalizzati per
l’acquisizione
9 dati
10. SUM: Uso di SDMX per la modellazione
Prima modellazione concettuale dei metadati
di diffusione seguendo la logica SDMX 2.0:
CONCETTI
DSD
-unità statistica
-concetti temporali(frequenza, periodo temporale)
-variabile statistica categoriale/qualitativa
-variabili numeriche/quantitative
-operatore statistico
-unità di misura
-operatore di visualizzazione strutture di
-informazione di supporto alla diffusione dei dati metadati
relative agli
ipercubi di
dati
LISTE
-elenchi di unità statistiche
-elenchi di conc. temporali (es: freq. Annuale, mensile,…)
-classificazioni,
-elenchi di misure
-elenchi di operatori statistici,
-elenchi di operatori di
visualizzazione (num. decimali, fatt. di scala,…)
-elenchi di informazioni di supporto alla
diffusione dei dati (riservatezza, dati prov.,..)
10
11. Raffinamento rispetto a logica SDMX 2.0
concetti Metadati strutturali liste
Lista piatta
Livelli di Operazioni possibili:
Concetti Raggruppamenti -Sinonimie nei codici
classificazione (di output o per questionari)
statistici -Operazioni fra codelist (fusione)
(variabili) - Gestione del “totale”
Classificazioni Evoluzione
gerarchiche temporale
concetti
geografici
Lista piatta
concetti
operativi
(indicatori, misure, Rapporti raggruppamenti
Unit multiplier,..) Funzionali fra gli Operazioni possibili:
item di una -Operazioni fra codelist (fusione)
Code list
tempo (es: esp-imp=saldo)
Unità /
popolazione
frequenza Time format
Lista di unità “standard” (individui, famiglie, imprese,…)
11
12. SUM metadati strutturali: attività in corso
1 concept scheme cross domain (48 concetti)
18 liste di concetti relativi a variabili statistiche sui 19 temi di I.Stat
Le code list usate in 18 temi (272 code list diverse, al netto delle versioni)
Le DSD relative a 18 temi di I.Stat (209 DSD)
Struttura e competitività del sistema delle
imprese (8/5) Partecipazione sociale
Ambiente ed energia (9/13) Conti nazionali (23/20)
Popolazione e famiglie Agricoltura
Condizioni economiche delle famiglie e
disuguaglianze (35/29) Industria e Costruzioni (5/6)
Salute e sanità (24/12) Servizi (18/12)
Pubbliche amministrazioni e
Assistenza e previdenza (13/7) istituzioni private (12/7)
Commercio con l'estero e
Istruzione e formazione internazionalizzazione (3/2)
Cultura, comunicazione, tempo libero Prezzi (6/7)
Giustizia e sicurezza Lavoro (22/32)
Opinioni dei cittadini e soddisfazione per
12
13. SUM metadati strutturali: cosa è disponibile
Il sistema di metadati disponibile interagisce già con i sistemi:
1. SEP
2. I.Stat
Nei prossimi mesi il legame fra il sistema di metadati e questi sistemi
verrà esteso, oltre a iniziare la fase di confronto con gli altri sistemi
che usano metadati
Metadati per macrodati
(inclusa mappatura per SEP)
Metadati per microdati
Relazioni di trasformazione
dei metadati
Sistema di interscambio
Meta
I.Stat
SEP
13
14. SUM metadati strutturali: regole
E’ necessario definire delle regole di interscambio
per gestire il rapporto fra i metadati nel SUM e
quelli necessari nelle diverse fasi del processo
produttivo dei dati.
14
15. SUM metadati strutturali: regole
Primo esempio: relazione con I.Stat (in
collaborazione con PSS/C)
Per il SUM è necessario organizzare i metadati secondo il
loro significato statistico. Questo richiede che i metadati
siano dettagliati in un modo da poter essere riusati nelle
diverse fasi del processo di produzione del dato.
Al contrario, per la diffusione del dato un eccessivo
spacchettamento ed indicazione degli stessi in “campi
diversi” renderebbe la lettura di difficile consultazione.
Si sta quindi lavorando con il PSS/C per definire le regole di
interconnessione tra I.Stat ed il SUM. La problematica
principale riguarda il modo in cui si rappresenta e
descrive il “tipo dato”.
Gli elementi statistici che caratterizzano il tipo dato sono
molteplici: unità statistica, operatore statistico, alcuni
tipi di variabile, informazione di supporto,…
15
16. Esempio 1
Modellazione I.Stat: omogeneità nella distribuzione del reddito netto
familiare
Modellazione SUM
Popolazione: famiglie
Variabile di analisi: reddito netto familiare
Operatore statistico: Indice di omogeneità – Indice di Gini
16
17. Esempio 2
Modellazione I.Stat: produzione lorda di energia elettrica da fonte
rinnovabile - milioni di KWh
Modellazione SUM
Popolazione: operatori del settore elettrico DA SIDI /SIQual
Variabile di analisi: produzione lorda di energia elettrica da fonte rinnovabile
Operatore statistico: valore totale (totale di variabile)
Unità di misura: KWh
Fattore di scala: in milioni
17
18. SUM metadati strutturali: SDMX esteso
Le regole di relazione fra i metadati gestiti in SUM e i
metadati usati nelle diverse fasi del processo
produttivo rendono SDMX 2.0 insufficiente, e
richiedono uno standard aggiornato
Esempio: relazione SUM con I.Stat (in collaborazione con
PSS/C)
1. Necessità di documentare il legame fra i metadati del SUM
e quelli di I.Stat (ad esempio per il “tipo dato”)
2. Possibilità di assegnare a una classificazione più codifiche
(ad esempio codifiche OCSE, Eurostat, etc)
3. Estensione alla modellazione dei metadati relativi ai
microdati (se necessario)
4. Documentazione sulla storicità delle modalità
Necessità di miglioramenti nei software
1. Necessità di gestire l’ordine di visualizzazione delle
modalità delle code list
2. Necessità di gestire relazioni complesse (es: più di un padre
18 per una modalità di classificazione)
20. 4.COLLECT 5. PROCESS 7. DISSEMINATION
Meta Micro Meta Macro
data data data data
6 ANALYSE
Operator (balance, index
Elementary Validated Preaggregated data Statistical output
Check, edit, codying disclosure controls
number, ratio,..)
Frame data data microdata or output data obtained from
two preaggreated
Data structure Questionnaire Data structure Data structure
Statistical operator (from micro to macro data)
data (ratio,
balance,…) or
Sample selection
marginalization
Frame Survey Analysis Analysis Data structure
population unit unit population
Num. var.
categorical/qualitative variable
for prop. Numerical Numerical Numerical
design question variable variable
Marginalization of a
Unit of Unit of Unit of Unit of
measure measure measure measure
Design Coded Qualitative Qualitative Qualitative
variable question variable variable variable
Classification Classification Classification Classification Classification
20