IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
Andrea Mancini - Open Census
1. Open Census
Andrea Mancini
Direttore dipartimento per i censimenti
e gli archivi amministrativi e statistici- Istat
Bologna, Smart Cities Exhibition, 16 ottobre 2013
2. LE INNOVAZIONI DEI CENSIMENTI 2011
Utilizzo di fonti amministrative
Realizzazione di liste pre-censuarie
Organizzazione di reti territoriali basate su criteri
di flessibilità e diversificazione di ruoli e funzioni
Tecniche di acquisizione multi-canale
Governo dei processi guidato da sistemi
informativi per la collaborazione tra i soggetti
coinvolti
Andrea Mancini, Open Census, Bologna 16 ottobre 2013
3. CIS: SISTEMI WEB IMPRESE E NON PROFIT
Sito istituzionale
Questionario
Portale della rete
SGR
4. I CENSIMENTI 2011: ORGANIZZAZIONE DEI SISTEMI INFORMATIVI
PER LA FASE DI ACQUISIZIONE DATI
Un censimento completamente in rete
Portale di comunicazione istituzionale
Questionario elettronico
5. I CENSIMENTI 2011: ORGANIZZAZIONE DEI SISTEMI INFORMATIVI
PER LA FASE DI ACQUISIZIONE DATI
Un censimento completamente in rete
Portale di comunicazione istituzionale
Questionario elettronico
Sito informativo e repository
dei materiali di lavoro per la
rete di rilevazione (RETE)
6. I CENSIMENTI 2011: ORGANIZZAZIONE DEI SISTEMI
INFORMATIVI PER LA FASE DI ACQUISIZIONE DATI
Un censimento completamente in rete
Portale di comunicazione istituzionale
Questionario elettronico
Sito informativo e repository
dei materiali di lavoro per la
rete di rilevazione (RETE)
Sistema di gestione della
rilevazione (SGR)
7. UTILIZZO DEI SISTEMI: POPOLAZIONE
Quasi 25 milioni di potenziali
rispondenti
8.783.824
questionari compilati on line
Circa 80.000 operatori
Tre tipi di questionario
(Long, short, convivenze
istituzionali)
85 funzioni disponibili in
SGR
8. UTILIZZO DEI SISTEMI: INDUSTRIA E SERVIZI
Più di 700.000 questionari
acquisiti via web
Punte di 25.000 questionari
al giorno
3417 Operatori
65 funzioni disponibili
Cinque tipi di questionario
(2 imprese, 1 istituzioni noprofit, 2 PA)
9. CARATTERISTICHE DEI QUESTIONARI ELETTRONICI
Strumento web per la
compilazione autonoma
del questionario
Accesso riservato e
sicuro
Insieme minimale di
controlli in fase di
compilazione
Facilità d’uso
10. CARATTERISTICHE GENERALI DEL SISTEMA DI GESTIONE DELLA RILEVAZIONE
(SGR)
Creazione e gestione
autonoma delle rete di
rilevazione
Sistema web di
workflow distribuito
Gestione e monitoraggio
della multi-canalità in
tempo reale
Interazione sul Controllo e
sulla correzione del dato: dal
dato grezzo alla validazione
11. PRINCIPALI FUNZIONI DI SGR
Creazione rete di rilevazione
Gestione del ciclo di vita dei questionari
Check dei questionari (solo industria e servizi)
Monitoraggio della rilevazione
Confronto censimento/anagrafe (solo popolazione)
12. DIFFUSIONE DATI TERRITORIALI: IL FUTURO
Dati di sintesi per area di circolazione
Area di Circolazione – Via Cadibona
Lista/input Variazione Rilevato
Numeri Civici
20
+16
36
Edifici
18
+1
19
Famiglie
37
-3
34
Individui
81
+1
82
Attributi
21 abitativi
15 non abitativi
16 residenziali
2 servizi
1 non utilizzato
33 da lac
0 da lifa
1 da rnc
35 maschi
47 femmine
13. CENSIMENTO POPOLAZIONE: DIFFUSIONE POPOLAZIONE LEGALE
Dati di
popolazione legale
e struttura
demografica:
pubblicati il 18
dicembre 2012 su
I.Stat
App smartphone
14. LE 5 DEGLI OPEN DATA (TIM BERNERS-LEE)
Dati disponibili su Web in qualunque formato sotto una licenza aperta
Dati disponibili su Web in formato strutturato (leggibile e riusabile)
Uso di formati non proprietari per esporre dati su Web
Uso di Identificatori unici per denotare le informazioni su Web (le “cose”) in
modo che possano essere “puntati” dagli utenti
I dati puntano-a / sono-puntati-da altri dati su Web
15. LE DEI DATI ISTAT
1
1
2
3
3->4
3
Stiamo lavorando
per arrivare a 5
16. SIREA: SISTEMA A SUPPORTO DELLA REVISIONE DELLE ANAGRAFI
COMUNALI
Con la funzione «Confronto censimento/anagrafe» di SGR ciascun
Comune ha controllato la corrispondenza individuale tra iscrizione in
anagrafe e presenza al censimento. SGR ha prodotto automaticamente il
bilancio ad hoc del confronto per ciascun comune.
SGR
SIREA
LISTE DEFINITIVE:
L1: Presenti in LAC censiti al medesimo indirizzo
L2: Presenti in LAC non censiti
L3: Censiti non presenti in LAC con flag di
deduplicazione
L4: Presenti in LAC censiti ad un altro indirizzo
Deduplicati intercomunali L1-L4
17. SIREA: SISTEMA A SUPPORTO DELLA REVISIONE DELLE ANAGRAFI
COMUNALI
Stato della revisione al 10/10/2013:
COMUNI
COMUNI CHE
STANNO
ESEGUENDO LA
REVISIONE
8094
COMUNI CHE
HANNO FINITO LA COMUNI CHE
COMUNI CHE NON
REVISIONE DELLA HANNO FINITO LA HANNO INIZIATO LA
L2
REVISIONE DI L3
REVISIONE
7664
2488
2488
430
LISTA3
LISTA2
LISTA3 REV DA REV LISTA3
TOT
LISTA2 LISTA2 REV DA REV LISTA2 DA LISTA3
EFFETTUAT TOTAL DA REV
POPOLAZ TOT
EFFETTUATE TOTALE REV PERC TOTALE E
E
PERC
59.433.744 2.383.071
1.373.342 1.009.729
42,37
713.349
433.193 280.156
39,27
18. SUPERARE IL CENSIMENTO DECENNALE
• Costi elevati e concentrati nel tempo
• Impegno organizzativo estremo
• Crescente esigenza di privacy espressa
dall’opinione pubblica
• Disponibilità di dati amministrativi non
pienamente sfruttati
• Tempestività/Obsolescenza
dell’informazione
19. OBIETTIVI DEL CENSIMENTO PERMANENTE
Sistema integrato di dati amministrativi e indagine
statistiche per la produzione frequente di dati
territoriali
Massimo uso di fonti amministrative non solo
anagrafiche
+
Indagini campionarie a rotazione per:
• correggere gli errori di copertura
• integrare con nuovi dati le fonti amministrative
=
Dati censuari territoriali disponibili ogni anno
20. UN SISTEMA INTEGRATO DI ARCHIVI E CENSIMENTI
ANAGRAFI
ANAGRAFI
COMUNALI
COMUNALI
Censimento
Continuo
delle Famiglie
Individui e
Convivenze
Indagini
Indagini
Demosociali
Demosociali
D-sample
D-sample
C-sample
C-sample
Sistema
Informativ
o della
Popolazion
e (famiglie
e
individui)
Altre fonti
Altre fonti
amministrative
amministrative
Sistema
Integrato
di
Microdati
di
Famiglie,
Individui e
Unità
Dati statistici da fonti
Dati statistici da fonti
amministrative organizzate
amministrative organizzate
Sistema
Informati
vo
delle
Unità
Economic
he
Informazioni
sulla
Struttura ed
Evoluzione delle
Unità
Indagini
Indagini
economiche
economiche
D-sample
D-sample
C-sample
C-sample
Servizio
Informativo
ARCHIMEDE
Archivio di indirizzi e
Sistema di Georeferenziazione
22
21. L’INDAGINE C-SAMPLE:
• Stimare e correggere l’errore di sovra e
sotto-copertura delle anagrafi comunali
• Utilizza il metodo cattura-ricattura
– I cattura: LAC
– II cattura: campione areale di sezioni/n.ri civici
• Ritorno sul campo dopo il linkage tra le
due fonti per la stima della sovracopertura della LAC
• Circa 650.000 famiglie campione ogni
anno
• Paperless Survey: tecnica CAPI
22. D-SAMPLE: UN'IPOTESI ALLO STUDIO
• Domini minimi:
• Agglomerati di comuni (stessi di C-sample) con < 5000
ab.
• Comuni tra 5000 e 20000 abitanti
• Aree di censimento in comuni con > 20000 abitanti
• Produzione di stime dirette in tutti i domini di
interesse
• Famiglie campione estratte dalle LAC ogni
anno con riferimento a ciascun dominio
• Rotazione dei campioni di famiglie nel
quinquennio
• Coordinamento negativo del campione di
famiglie con la C-sample
• Paperless Survey: tecnica CAWI e CAPI per
non ancora rispondenti
{"16":"OL: Open Licence Il dato è disponibile sul web (in qualsiasi formato) ma con una licenza aperta affinché possa essere considerato Open Data\nRE: Machine Readable Il dato è disponibile in un formato strutturato che può essere interpretato da un software (per esempioun foglio di calcolo Microsoft Excel al posto di un’immagine scansionata di una tabella)\nOF: Open Format Il dato è in un formato strutturato (vedi il punto 2) e inoltre questo formato non è proprietario (nell’esempio di prima, CSV è un formato migliore di Microsoft Excel in quanto non soggetto a licenza)\nResource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web\nURI: RDF Oltre a rispettare tutti i criteri precedenti, il dato fa uso di standard aperti definiti da W3C (come RDF e SPARQL) per identificare oggetti, cosicché le persone possono far riferimento (programmatico, NdT) alle tue risorse\nResource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web\nLD: Linked Data Il dato rispetta tutti gli altri criteri e inoltre contiene collegamenti ad altri dati al fine di fornire un contesto alle proprie informazioni.\n","17":"OL: Open Licence Il dato è disponibile sul web (in qualsiasi formato) ma con una licenza aperta affinché possa essere considerato Open Data\nRE: Machine Readable Il dato è disponibile in un formato strutturato che può essere interpretato da un software (per esempioun foglio di calcolo Microsoft Excel al posto di un’immagine scansionata di una tabella)\nOF: Open Format Il dato è in un formato strutturato (vedi il punto 2) e inoltre questo formato non è proprietario (nell’esempio di prima, CSV è un formato migliore di Microsoft Excel in quanto non soggetto a licenza)\nResource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web\nURI: RDF Oltre a rispettare tutti i criteri precedenti, il dato fa uso di standard aperti definiti da W3C (come RDF e SPARQL) per identificare oggetti, cosicché le persone possono far riferimento (programmatico, NdT) alle tue risorse\nResource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web\nLD: Linked Data Il dato rispetta tutti gli altri criteri e inoltre contiene collegamenti ad altri dati al fine di fornire un contesto alle proprie informazioni.\n","7":"Togliere animazione\n","14":"Comuni CON archivio di indirizzi\n","15":"Il termine Linked Data non implica necessariamente il concetto di “Open”, il LD possono essere infatti coperti da licenze specifiche. Nei Linked Open Data i dati proposti sono Open, ovvero rilasciati secondo varie licenze, e.g. licenza CC BY-SA, e liberamente utilizzabili dagli utenti.\n"}