2. A statistician is someone who doesn´t know what he´s
talking about -
and makes you feel it´s your fault.
unknown
veli-matti.jantunen@stat.fi 2
3. Perustietoja Tilastokeskuksen
vapaasti saatavien tietojen jakelumuodoista
Johdatus tilastotiedon esitystapoihin ja kuutiomuotoon
PC-Axis-maailma ja –tiedostot (.px)
hieman yleistietoa
tiedostojen käsittelyvihjeitä
Rakenteisista taulukoista
Excel ja csv
XML
tulevaisuuden jakeluratkaisu?
veli-matti.jantunen@stat.fi 3
5. Tilastot esitetään useimmiten taulukkoina
Taulukoissa esitetään useiden muuttujien (luokitusten)
yhdistelmiä
Vuosittainen väkiluku kunnittain, sukupuolittain ja ikäryhmittäin
tulisi käyttää vain vakioituja, uniikkeja luokituksia
Pelkkä numeerinen tieto ei riitä, vaan tarvitaan (usein runsaasti)
metadataa (tietoa tiedosta) taulukon yhteyteen
Kolme esitysmallia = kolme ajattelutapaa
julkaisutaulukko
peräkkäislista
kuutiomuoto
veli-matti.jantunen@stat.fi 5
7. Peräkkäislista
Yleisehkö tiedon siirtotapa (tietokantalistaukset)
Tietoyhdistelmät, joille on todellisia havaintoja
veli-matti.jantunen@stat.fi 7
8. Kuutio matemaatikon silmin
Moniulotteinen taulukko (sääntiö, matriisi) koostuu
1-n ortogonaalisesta dimensiosta
Indeksit nimetään dimensioittain
Taulukon alkiot muodostuvat dimensioiden karteesisen tulon
perusteella eli jokaisen alkion sijainti on määrätty
veli-matti.jantunen@stat.fi 8
9. Kuutio tilastoihmisen silmin
Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)
kaikki muuttujat ovat samanarvoisia
Muuttujat koostuvat puolestaan nimetyistä arvoista (luokat,
nimikkeet)
Puhtaassa kuutiomuodossa
jokainen muuttujien arvojen yhdistelmä on mukana
jokaisen alkion sijainti on määrätty
veli-matti.jantunen@stat.fi 9
10. Esimerkki: Yritysten toimipaikat -kuutio
Kunta Vuosi Toimiala Muuttujat
2000 2001 2002 ...
Alahärmä
A Maa-, riista- ja metsätalous
Alajärvi
Alastaro B Kalatalous
... Muuttujan arvot
C Mineraalien kaivu
...
tietoalkio:
Alastaron kalatalousyritykset vuonna 2002
veli-matti.jantunen@stat.fi 10
12. PC-Axis-ohjelmaperheestä
PC-Axis: avoin tiedostomuoto
kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tekstitiedostona
1990-luvulta
myös: veloitukseton loppukäyttäjän ohjelma px-taulukon asetteluun,
tilastolaskentaan ja tiedostomuunnoksiin
PX-Web: px-taulukkotietokannan jakelupalvelin
käyttäjälle selkeä ja yksinkertainen (”tilastoihmisiltä tilastoihmisille”)
ylläpitäjälle räätälöinti ja hallinta helppoa
PC-Axis ja PX-Web ovat SCB:n tuotteita
tuotekehitystä ohjaa käyttäjistä koostuva PC-Axis Reference Group
veli-matti.jantunen@stat.fi 12
17. PC-Axis-tiedosto (.px)
px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen
tilastotaulukon esittämiseen metatietoineen
ihmissilmin ymmärrettävissä
Tiedot esitetään avainsanalausekkeina,
joita on neljä perustyyppiä:
TAULUKKOAVAINSANA=…;
MUUTTUJA-AVAINSANA("Muuttuja")=…;
ARVOAVAINSANA("Muuttuja","arvo")=…;
SOLUAVAINSANA("arvo1","arvo2",…)=…;
Lauseke päättyy aina puolipisteeseen (;)
veli-matti.jantunen@stat.fi 17
19. Avainsanalausekkeista
Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")
paitsi numeeriset ja loogiset (YES/NO) arvot
Pitkä lauseke rivitetään (katkaistaan osiin) lainausmerkein
"Tämä on pitkä teksti,"
" joka on katkaistu (huomaa välilyönti)";
Listan alkiot erotetaan pilkuilla
VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset";
Monikielisten taulukoiden lisäkielen kielikoodi liitetään
avainsanan perään hakasulkeisiin
VALUES[en]("Gender")="Total","Males","Females";
veli-matti.jantunen@stat.fi 19
20. Rakenteesta
Avainsanojen tallennusjärjestyksen tulee olla PX-Webin
standardin mukainen
Osa avainsanoista on pakollisia (MATRIX, SUBJECT-AREA, …)
Solukohtaisten avainsanojen syntaksi riippuu muuttujien
järjestyksestä
Taulukon muuttujat ovat kahdessa avainsanassa:
STUB ja HEADING
Dataosa (DATA= ) on aina viimeinen
Tiedostomuodon käsikirja:
www.stat.fi/tup/pcaxis/lataus_tyokalut.html
veli-matti.jantunen@stat.fi 20
21. Kuinka monta alkiota on taulukossa?
Lue muuttujat avainsanoista STUB ja HEADING
(tässä järjestyksessä)
STUB="Ikä","Vuosi";
HEADING="Sukupuoli","Siviilisääty";
Lue muuttujittain VALUES-avainsanoista arvojen määrä
VALUES("Ikä")="Yhteensä","0","1","2","3","4",… (101)
VALUES("Vuosi")="1990","1991","1992",… (21)
VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset"; (3)
VALUES("Siviilisääty")="Yhteensä","Naimaton",… (8)
101 x 21 x 3 x 8 = 50904 tietoalkiota
veli-matti.jantunen@stat.fi 21
22. Dataosasta
Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien
arvojen järjestystä
alkioita tulee olla juuri oikea määrä
Alkiot erotetaan toisistaan välilyönnein
Alkio on joko luku, piste- tai viivakoodi
lukujen desimaalierotin on piste, ei tuhaterottimia,
negatiiviset luvut osoitetaan miinusmerkillä
0 1 2.3 -4.567
pistekoodeilla osoitetaan puuttuvaa tms. tietoa,
viivakoodi on ’tarkka nolla’
"." ".." "..." "...." "....." "......" "-"
veli-matti.jantunen@stat.fi 22
24. Tilastokeskuksesta saatavat px-tiedostot
Lista:
pxweb2.stat.fi/database/StatFin/StatFin_rap.csv
A prikos: kehitteillä oleva avoin data –sivusto
stat.fi/org/lainsaadanto/avoin_data.html
veli-matti.jantunen@stat.fi 24
26. Vain tarpeelliset taulukkotiedot
Taulukon otsikko on ensimmäisessä solussa (kulmasolussa)
Sarakemuuttujat
muuttujannimet reunasarakkeella allekkain
vastaavat arvotekstit (luokitukset) muuttujariveillä
Rivimuuttujat
muuttujannimet yhdellä rivillä vierekkäin
vastaavat arvotekstit (luokitukset) muuttujasarakkeilla
Data-alkio on aina rivi- ja sarakearvojensa leikkauspisteessä
veli-matti.jantunen@stat.fi 26
27. Esimerkkitaulukko (hierarkkinen otsikointi)
Avioliiton solmineet 1975-2001 taulukko-otsikko
Vuosi 1975 … sarakemuuttujat
Ikä 15-19 20-24 25-29 30-34 …
Kunta Kunta Sukupuoli
000 Koko maa miehet 1352 14793 10367 2503 …
naiset 5693 15794 6704 1583 …
yhteensä 7045 30587 17071 4086 …
004 Alahärmä miehet 1 11 9 0 …
naiset 5 17 5 1 …
yhteensä 6 28 14 1 …
005 Alajärvi miehet 2 24 15 0 …
naiset 19 14 8 1 …
yhteensä 21 38 23 1 …
006 Alastaro miehet 2 10 14 3 …
naiset 4 17 6 1 …
yhteensä 6 27 20 4 …
… … … … … … … …
rivimuuttujat dataosa
veli-matti.jantunen@stat.fi 27
29. Kaksimuuttujaisten taulukoiden perusrakenteet
väestö alueittain ja vuosittain väestö alueittain ja vuosittain
alue vuosi vuosi vuodet
alue
data-
kunnat vuodet
sarake kunnat datataulukko (matriisi)
veli-matti.jantunen@stat.fi 29
30. Kolmimuuttujaisten taulukoiden perusrakenteet
väestö alueittain, vuosittain ja ikäryhmittäin väestö alueittain, vuosittain ja ikäryhmittäin
alue vuosi ikäryhmä3 ikäryhmä3 iät
alue vuosi
data-
kunnat vuodet iät kunnat vuodet datataulukko
sarake
väestö alueittain, vuosittain ja ikäryhmittäin
vuosi vuodet
ikäryhmä iät
alue
kunnat datataulukko
veli-matti.jantunen@stat.fi 30
34. Common Structure of Statistical Information (CoSSI)
www.stat.fi/cossi
Tilastotiedon yleinen malli
kuvaa kaikkiin tilastoihin liittyvät tiedot
Mallissa märitellään tietosisällöt ja niiden keskinäinen hierarkia
mallinnuskielenä XML-DTD
Kolme muotoa
XDF isoille taulukoille, dataosa kuin px-tiedostoissa
Cals julkaisutaulukoille (~html-taulukot)
Keys harvamatriiseille
veli-matti.jantunen@stat.fi 34
35. CoSSI
The point of departure in CoSSI was an (infological) analysis of the
information being considered
The conclusion from the analysis was that although in practice the
definition of statistical information has varied according to a given situation
and application, in reality statistical information has a certain simplifiable
and acceptable universal structure
CoSSI describes the general structure that is not dependent on the
situation of the statistical information presented in differing formats
CoSSI defines the structures of statistical data, metadata
and publications
veli-matti.jantunen@stat.fi 35