SlideShare ist ein Scribd-Unternehmen logo
1 von 39
Downloaden Sie, um offline zu lesen
Stats4Finland-työpaja:
Tilastokeskuksen tilastodatan
      tiedostomuodoista



                              veli-matti.jantunen@stat.fi
A statistician is someone who doesn´t know what he´s
                     talking about -
            and makes you feel it´s your fault.
                                                             unknown




                               veli-matti.jantunen@stat.fi             2
Perustietoja Tilastokeskuksen
vapaasti saatavien tietojen jakelumuodoista
   Johdatus tilastotiedon esitystapoihin ja kuutiomuotoon
   PC-Axis-maailma ja –tiedostot (.px)
       hieman yleistietoa
       tiedostojen käsittelyvihjeitä


   Rakenteisista taulukoista
         Excel ja csv

   XML
         tulevaisuuden jakeluratkaisu?



                                          veli-matti.jantunen@stat.fi   3
Tilastotaulukon esitystavoista
      ja kuutiomuodosta




                 veli-matti.jantunen@stat.fi   4
Tilastot esitetään useimmiten taulukkoina

   Taulukoissa esitetään useiden muuttujien (luokitusten)
    yhdistelmiä
        Vuosittainen väkiluku kunnittain, sukupuolittain ja ikäryhmittäin
        tulisi käyttää vain vakioituja, uniikkeja luokituksia

   Pelkkä numeerinen tieto ei riitä, vaan tarvitaan (usein runsaasti)
    metadataa (tietoa tiedosta) taulukon yhteyteen
   Kolme esitysmallia = kolme ajattelutapaa
      julkaisutaulukko

      peräkkäislista

      kuutiomuoto
                                               veli-matti.jantunen@stat.fi   5
Julkaisutaulukko

 Mielessä paperijulkaisu
 Tavoitteena optimoida tilankäyttö




                                  veli-matti.jantunen@stat.fi   6
Peräkkäislista

 Yleisehkö tiedon siirtotapa (tietokantalistaukset)
 Tietoyhdistelmät, joille on todellisia havaintoja




                                    veli-matti.jantunen@stat.fi   7
Kuutio matemaatikon silmin

   Moniulotteinen taulukko (sääntiö, matriisi) koostuu
    1-n ortogonaalisesta dimensiosta
   Indeksit nimetään dimensioittain
   Taulukon alkiot muodostuvat dimensioiden karteesisen tulon
    perusteella eli jokaisen alkion sijainti on määrätty




                                       veli-matti.jantunen@stat.fi   8
Kuutio tilastoihmisen silmin

   Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)
        kaikki muuttujat ovat samanarvoisia

   Muuttujat koostuvat puolestaan nimetyistä arvoista (luokat,
    nimikkeet)
   Puhtaassa kuutiomuodossa
      jokainen muuttujien arvojen yhdistelmä on mukana

      jokaisen alkion sijainti on määrätty




                                               veli-matti.jantunen@stat.fi   9
Esimerkki: Yritysten toimipaikat -kuutio

           Kunta        Vuosi          Toimiala                                                Muuttujat
                        2000 2001 2002 ...
             Alahärmä
                                             A Maa-, riista- ja metsätalous
         Alajärvi
      Alastaro                               B Kalatalous
...                                                                                       Muuttujan arvot
                                             C Mineraalien kaivu

                                             ...




                                             tietoalkio:
                                             Alastaron kalatalousyritykset vuonna 2002




                                                            veli-matti.jantunen@stat.fi                     10
PC-Axis-maailma




         veli-matti.jantunen@stat.fi   11
PC-Axis-ohjelmaperheestä

   PC-Axis: avoin tiedostomuoto
        kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tekstitiedostona
             1990-luvulta
        myös: veloitukseton loppukäyttäjän ohjelma px-taulukon asetteluun,
         tilastolaskentaan ja tiedostomuunnoksiin

   PX-Web: px-taulukkotietokannan jakelupalvelin
        käyttäjälle selkeä ja yksinkertainen (”tilastoihmisiltä tilastoihmisille”)
        ylläpitäjälle räätälöinti ja hallinta helppoa

   PC-Axis ja PX-Web ovat SCB:n tuotteita
        tuotekehitystä ohjaa käyttäjistä koostuva PC-Axis Reference Group

                                                 veli-matti.jantunen@stat.fi          12
PX-Web maailmalla




                    veli-matti.jantunen@stat.fi   13
PX-Edit

   Tilastokeskuksessa kehitetty asiantuntijoille
    tarkoitettu veloitukseton PC-Axis-taulukoiden muokkaustyökalu
        px-tiedostojen syntaksitarkistus ja optimointi
        px- ja xml-taulukoiden tuottaminen sekalaisista lähteistä
        metatietoköyhien taulukoiden rikastus

   Kansainvälinen menestys
      osa Tilastokeskuksen panosta px-tuoteperheen kehitykseen
      osa SCB:n PC-Axis-koulutuspakettia (PC-Axis, PX-Web ja PX-Edit)

      osa FAOn CountryStat-pakettia



   Koodattu DyalogAPL:llä (www.tryapl.org)
                                              veli-matti.jantunen@stat.fi   14
PC-Axis- ja XML-julkaisutaulukoiden teko
.px                                         PX-Edit                                             Julkistus     StatFin
   .px
                                  manuaalinen tai eräajokäyttö
     .px                                                                        .px            Web-ajastin:
                                       syntaksitarkistus                                                       PX-Web
          PC-Axis-                    metatietorikastus                                          sivuston
          taulukot                                                                                  ja
                                        XML-konversio                                           StatFinin     + StatFin-
                                                                                                ajastukset     arkisto
                                             .xml/CALS
    .px
                           .xls
                            *)                Julkaisutuotanto                                                 WWW
                                                FastWeb-XML
                                         ARBORTEXT              Jakeluvarasto                                   HTML
           Excel ja muut
                                                                   XML/DB
                             .xml/
          SAS                              Julkaisun     .xml       eXist
                             CALS                                                                                PDF
    SuperSTAR                           toimittaminen
                                        ja metatiedon              Automaat-
Tilastosovellukset                           lisäys                  tinen                                      RSS,
                                                                 PDF- ja HTML-                                  txt...
*) määrämuotoinen,                                                 muunnos
rakenteinen .xls, .txt tai .csv

                                                                 veli-matti.jantunen@stat.fi                             15
PC-Axis-tiedostoista




            veli-matti.jantunen@stat.fi   16
PC-Axis-tiedosto (.px)

   px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen
    tilastotaulukon esittämiseen metatietoineen
        ihmissilmin ymmärrettävissä

   Tiedot esitetään avainsanalausekkeina,
    joita on neljä perustyyppiä:
        TAULUKKOAVAINSANA=…;
        MUUTTUJA-AVAINSANA("Muuttuja")=…;
        ARVOAVAINSANA("Muuttuja","arvo")=…;
        SOLUAVAINSANA("arvo1","arvo2",…)=…;

   Lauseke päättyy aina puolipisteeseen (;)
                                       veli-matti.jantunen@stat.fi   17
veli-matti.jantunen@stat.fi   18
Avainsanalausekkeista

   Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")
        paitsi numeeriset ja loogiset (YES/NO) arvot

   Pitkä lauseke rivitetään (katkaistaan osiin) lainausmerkein
     "Tämä on pitkä teksti,"
     " joka on katkaistu (huomaa välilyönti)";

   Listan alkiot erotetaan pilkuilla
     VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset";

   Monikielisten taulukoiden lisäkielen kielikoodi liitetään
    avainsanan perään hakasulkeisiin
        VALUES[en]("Gender")="Total","Males","Females";
                                             veli-matti.jantunen@stat.fi   19
Rakenteesta

 Avainsanojen tallennusjärjestyksen tulee olla PX-Webin
  standardin mukainen
 Osa avainsanoista on pakollisia (MATRIX, SUBJECT-AREA, …)

   Solukohtaisten avainsanojen syntaksi riippuu muuttujien
    järjestyksestä 
 Taulukon muuttujat ovat kahdessa avainsanassa:
  STUB ja HEADING
 Dataosa (DATA= ) on aina viimeinen


   Tiedostomuodon käsikirja:
         www.stat.fi/tup/pcaxis/lataus_tyokalut.html
                                          veli-matti.jantunen@stat.fi   20
Kuinka monta alkiota on taulukossa?

   Lue muuttujat avainsanoista STUB ja HEADING
    (tässä järjestyksessä)
     STUB="Ikä","Vuosi";
     HEADING="Sukupuoli","Siviilisääty";

   Lue muuttujittain VALUES-avainsanoista arvojen määrä
     VALUES("Ikä")="Yhteensä","0","1","2","3","4",…    (101)
     VALUES("Vuosi")="1990","1991","1992",…              (21)
     VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset";    (3)
     VALUES("Siviilisääty")="Yhteensä","Naimaton",…       (8)

101 x 21 x 3 x 8 = 50904 tietoalkiota

                                   veli-matti.jantunen@stat.fi   21
Dataosasta

   Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien
    arvojen järjestystä
        alkioita tulee olla juuri oikea määrä

   Alkiot erotetaan toisistaan välilyönnein
   Alkio on joko luku, piste- tai viivakoodi
        lukujen desimaalierotin on piste, ei tuhaterottimia,
         negatiiviset luvut osoitetaan miinusmerkillä
            0 1 2.3 -4.567
        pistekoodeilla osoitetaan puuttuvaa tms. tietoa,
         viivakoodi on ’tarkka nolla’
            "." ".." "..." "...." "....." "......" "-"
                                                 veli-matti.jantunen@stat.fi   22
veli-matti.jantunen@stat.fi   23
Tilastokeskuksesta saatavat px-tiedostot

   Lista:
     pxweb2.stat.fi/database/StatFin/StatFin_rap.csv

   A prikos: kehitteillä oleva avoin data –sivusto
     stat.fi/org/lainsaadanto/avoin_data.html




                                      veli-matti.jantunen@stat.fi   24
Rakenteisen taulukon periaatteet
          (CSV, xls)




                  veli-matti.jantunen@stat.fi   25
Vain tarpeelliset taulukkotiedot

   Taulukon otsikko on ensimmäisessä solussa (kulmasolussa)
   Sarakemuuttujat
        muuttujannimet reunasarakkeella allekkain
        vastaavat arvotekstit (luokitukset) muuttujariveillä

   Rivimuuttujat
        muuttujannimet yhdellä rivillä vierekkäin
        vastaavat arvotekstit (luokitukset) muuttujasarakkeilla

   Data-alkio on aina rivi- ja sarakearvojensa leikkauspisteessä


                                               veli-matti.jantunen@stat.fi   26
Esimerkkitaulukko (hierarkkinen otsikointi)
Avioliiton solmineet 1975-2001                                           taulukko-otsikko
Vuosi                              1975                         …        sarakemuuttujat
Ikä                                15-19       20-24            25-29        30-34 …

Kunta       Kunta      Sukupuoli
000         Koko maa   miehet      1352       14793            10367         2503   …
                       naiset      5693       15794             6704         1583   …
                       yhteensä    7045       30587            17071         4086   …
004         Alahärmä   miehet         1          11                9            0   …
                       naiset         5          17                5            1   …
                       yhteensä       6          28               14            1   …
005         Alajärvi   miehet         2          24               15            0   …
                       naiset        19          14                8            1   …
                       yhteensä      21          38               23            1   …
006         Alastaro   miehet         2          10               14            3   …
                       naiset         4          17                6            1   …
                       yhteensä       6          27               20            4   …
…           …          …              …           …                …            …   …
rivimuuttujat                                                                    dataosa
                                           veli-matti.jantunen@stat.fi                      27
Yksimuuttujaisen taulukon perusrakenne
väestö alueittain
alue




           data-
kunnat
           sarake




                           veli-matti.jantunen@stat.fi   28
Kaksimuuttujaisten taulukoiden perusrakenteet
väestö alueittain ja vuosittain   väestö alueittain ja vuosittain
alue       vuosi                  vuosi      vuodet
                                  alue




                      data-
kunnat     vuodet
                      sarake      kunnat                      datataulukko (matriisi)




                                       veli-matti.jantunen@stat.fi                      29
Kolmimuuttujaisten taulukoiden perusrakenteet
väestö alueittain, vuosittain ja ikäryhmittäin   väestö alueittain, vuosittain ja ikäryhmittäin
alue       vuosi      ikäryhmä3                  ikäryhmä3             iät
                                                 alue       vuosi



                                    data-
kunnat     vuodet     iät                        kunnat        vuodet             datataulukko
                                    sarake




väestö alueittain, vuosittain ja ikäryhmittäin
vuosi      vuodet
ikäryhmä iät
alue




kunnat                      datataulukko




                                                    veli-matti.jantunen@stat.fi                   30
veli-matti.jantunen@stat.fi   31
Tilastokeskuksesta saatavat csv-tiedostot

   Lista:
    pxweb2.stat.fi/database/StatFin/StatFin_rap_csv.csv
    (päivitetään satunnaisesti)
   Lyhyt kuvaus:
    www.stat.fi/tup/pcaxis/csv_tiedostokuvaus.pdf




                                    veli-matti.jantunen@stat.fi   32
Tulevaisuus: XML




          veli-matti.jantunen@stat.fi   33
Common Structure of Statistical Information (CoSSI)

   www.stat.fi/cossi
   Tilastotiedon yleinen malli
        kuvaa kaikkiin tilastoihin liittyvät tiedot

   Mallissa märitellään tietosisällöt ja niiden keskinäinen hierarkia
        mallinnuskielenä XML-DTD

   Kolme muotoa
        XDF isoille taulukoille, dataosa kuin px-tiedostoissa
        Cals julkaisutaulukoille (~html-taulukot)
        Keys harvamatriiseille

                                                  veli-matti.jantunen@stat.fi   34
CoSSI

   The point of departure in CoSSI was an (infological) analysis of the
    information being considered

   The conclusion from the analysis was that although in practice the
    definition of statistical information has varied according to a given situation
    and application, in reality statistical information has a certain simplifiable
    and acceptable universal structure

   CoSSI describes the general structure that is not dependent on the
    situation of the statistical information presented in differing formats
     CoSSI defines the structures of statistical data, metadata
    and publications

                                              veli-matti.jantunen@stat.fi             35
XML Based Dissemination
   Modules:
      Document metadata

      Statistical metadata

      Processing metadata

      Publications
                                       CoSSI            (www.stat.fi/cossi)
      Data

           matrices (XDF)
           tables (CALS)
           sparse matrix (KEYS)




                                   veli-matti.jantunen@stat.fi                36
CoSSI Implementation

   Modular DTD system
        Document Type Definitions
        Use of standards
             CALS, XDF, Dublin-Core...
        Statistical matrix (statinfo_xdf.dtd)
             statmeta.dtd, docmeta.dtd, xdf.dtd
        Statistical table (statinfo_cals.dtd)
             statmeta.dtd, docmeta.dtd, cals.dtd
        Publications and documents (publication.dtd)
             docmeta.dtd, statmeta.dtd, statinfo_cals.dtd, figure.dtd...
   XML
        One XML-file  data and metadata
        Multi-lingual documents
                                                    veli-matti.jantunen@stat.fi   37
Tilastokeskuksesta saatavat xml/xdf-tiedostot

   Lista:
    pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv
    (päivitetään satunnaisesti)
   Kuvaus:
    www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html




                                    veli-matti.jantunen@stat.fi   38
The sign of a truly educated man is to be deeply moved by statistics
                                                                    George Bernard Shaw




                                      veli-matti.jantunen@stat.fi                         39

Weitere ähnliche Inhalte

Mehr von Apps4Finland

Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012Apps4Finland
 
Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012Apps4Finland
 
Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...
Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...
Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...Apps4Finland
 
Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012
Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012
Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012Apps4Finland
 
Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...
Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...
Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...Apps4Finland
 
Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012Apps4Finland
 
Robert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartat
Robert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartatRobert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartat
Robert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartatApps4Finland
 
Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012Apps4Finland
 
NewBiz4Finland 12.9.2012, Tero Piirainen
NewBiz4Finland 12.9.2012, Tero PiirainenNewBiz4Finland 12.9.2012, Tero Piirainen
NewBiz4Finland 12.9.2012, Tero PiirainenApps4Finland
 
NewBiz4Finland, Teemu Tapanila, AaltoES
NewBiz4Finland, Teemu Tapanila, AaltoESNewBiz4Finland, Teemu Tapanila, AaltoES
NewBiz4Finland, Teemu Tapanila, AaltoESApps4Finland
 
New biz4finland, teemu tapanila, aaltoes
New biz4finland, teemu tapanila, aaltoesNew biz4finland, teemu tapanila, aaltoes
New biz4finland, teemu tapanila, aaltoesApps4Finland
 
New b iz4finland, jukka heikkilä
New b iz4finland, jukka heikkiläNew b iz4finland, jukka heikkilä
New b iz4finland, jukka heikkiläApps4Finland
 
New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012
New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012
New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012Apps4Finland
 
New biz4finland 12.9.2012, sami sahala
New biz4finland 12.9.2012, sami sahalaNew biz4finland 12.9.2012, sami sahala
New biz4finland 12.9.2012, sami sahalaApps4Finland
 
New biz4finland 12.9.2012, olli rinne
New biz4finland 12.9.2012, olli rinneNew biz4finland 12.9.2012, olli rinne
New biz4finland 12.9.2012, olli rinneApps4Finland
 
New biz4finland 12.9.2012, mika hållfast
New biz4finland 12.9.2012, mika hållfast New biz4finland 12.9.2012, mika hållfast
New biz4finland 12.9.2012, mika hållfast Apps4Finland
 
Newbiz4finland Sissonen, Pärssinen - joukkoliikennedata
Newbiz4finland   Sissonen, Pärssinen - joukkoliikennedata Newbiz4finland   Sissonen, Pärssinen - joukkoliikennedata
Newbiz4finland Sissonen, Pärssinen - joukkoliikennedata Apps4Finland
 
New biz4finland jukka ahtikari
New biz4finland   jukka ahtikariNew biz4finland   jukka ahtikari
New biz4finland jukka ahtikariApps4Finland
 
New biz4finland, tommi arola
New biz4finland, tommi arolaNew biz4finland, tommi arola
New biz4finland, tommi arolaApps4Finland
 
Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot
Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistotStats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot
Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistotApps4Finland
 

Mehr von Apps4Finland (20)

Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Olli Alm: Susi, Apps4Finland-työt Paikkatietomarkkinoilla 2012
 
Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Eero Hyvönen: Matkailusampo, Apps4Finland-työt Paikkatietomarkkinoilla 2012
 
Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...
Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...
Panu Koskela: Maailman Suurin Muistipeli, Apps4Finland-työt Paikkatietomarkki...
 
Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012
Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012
Olli Rinne: Apps4Finland-kilpailun esittely Paikkatietomarkkinoilla 2012
 
Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...
Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...
Jussi Mäkinen: Rautatiehistoriallinen kartta, Apps4Finland-työt Paikkatietom...
 
Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Jyrki Kuoppala: ShareNav, Apps4Finland-työt Paikkatietomarkkinoilla 2012
 
Robert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartat
Robert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartatRobert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartat
Robert Eriksson, Mikko Ahlström: Espoon aurinko- ja geoenergiakartat
 
Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012
Tuomas Husu: Taukkis, Apps4Finland-työt Paikkatietomarkkinoilla 2012
 
NewBiz4Finland 12.9.2012, Tero Piirainen
NewBiz4Finland 12.9.2012, Tero PiirainenNewBiz4Finland 12.9.2012, Tero Piirainen
NewBiz4Finland 12.9.2012, Tero Piirainen
 
NewBiz4Finland, Teemu Tapanila, AaltoES
NewBiz4Finland, Teemu Tapanila, AaltoESNewBiz4Finland, Teemu Tapanila, AaltoES
NewBiz4Finland, Teemu Tapanila, AaltoES
 
New biz4finland, teemu tapanila, aaltoes
New biz4finland, teemu tapanila, aaltoesNew biz4finland, teemu tapanila, aaltoes
New biz4finland, teemu tapanila, aaltoes
 
New b iz4finland, jukka heikkilä
New b iz4finland, jukka heikkiläNew b iz4finland, jukka heikkilä
New b iz4finland, jukka heikkilä
 
New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012
New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012
New biz4finland, ilkka pirttimaa blindsquare käyttäjäkeskeinen-kehitys-2012
 
New biz4finland 12.9.2012, sami sahala
New biz4finland 12.9.2012, sami sahalaNew biz4finland 12.9.2012, sami sahala
New biz4finland 12.9.2012, sami sahala
 
New biz4finland 12.9.2012, olli rinne
New biz4finland 12.9.2012, olli rinneNew biz4finland 12.9.2012, olli rinne
New biz4finland 12.9.2012, olli rinne
 
New biz4finland 12.9.2012, mika hållfast
New biz4finland 12.9.2012, mika hållfast New biz4finland 12.9.2012, mika hållfast
New biz4finland 12.9.2012, mika hållfast
 
Newbiz4finland Sissonen, Pärssinen - joukkoliikennedata
Newbiz4finland   Sissonen, Pärssinen - joukkoliikennedata Newbiz4finland   Sissonen, Pärssinen - joukkoliikennedata
Newbiz4finland Sissonen, Pärssinen - joukkoliikennedata
 
New biz4finland jukka ahtikari
New biz4finland   jukka ahtikariNew biz4finland   jukka ahtikari
New biz4finland jukka ahtikari
 
New biz4finland, tommi arola
New biz4finland, tommi arolaNew biz4finland, tommi arola
New biz4finland, tommi arola
 
Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot
Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistotStats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot
Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot
 

Stats4 finland 28.8.2012, veli matti jantunen

  • 1. Stats4Finland-työpaja: Tilastokeskuksen tilastodatan tiedostomuodoista veli-matti.jantunen@stat.fi
  • 2. A statistician is someone who doesn´t know what he´s talking about - and makes you feel it´s your fault. unknown veli-matti.jantunen@stat.fi 2
  • 3. Perustietoja Tilastokeskuksen vapaasti saatavien tietojen jakelumuodoista  Johdatus tilastotiedon esitystapoihin ja kuutiomuotoon  PC-Axis-maailma ja –tiedostot (.px)  hieman yleistietoa  tiedostojen käsittelyvihjeitä  Rakenteisista taulukoista  Excel ja csv  XML  tulevaisuuden jakeluratkaisu? veli-matti.jantunen@stat.fi 3
  • 4. Tilastotaulukon esitystavoista ja kuutiomuodosta veli-matti.jantunen@stat.fi 4
  • 5. Tilastot esitetään useimmiten taulukkoina  Taulukoissa esitetään useiden muuttujien (luokitusten) yhdistelmiä  Vuosittainen väkiluku kunnittain, sukupuolittain ja ikäryhmittäin  tulisi käyttää vain vakioituja, uniikkeja luokituksia  Pelkkä numeerinen tieto ei riitä, vaan tarvitaan (usein runsaasti) metadataa (tietoa tiedosta) taulukon yhteyteen  Kolme esitysmallia = kolme ajattelutapaa  julkaisutaulukko  peräkkäislista  kuutiomuoto veli-matti.jantunen@stat.fi 5
  • 6. Julkaisutaulukko  Mielessä paperijulkaisu  Tavoitteena optimoida tilankäyttö veli-matti.jantunen@stat.fi 6
  • 7. Peräkkäislista  Yleisehkö tiedon siirtotapa (tietokantalistaukset)  Tietoyhdistelmät, joille on todellisia havaintoja veli-matti.jantunen@stat.fi 7
  • 8. Kuutio matemaatikon silmin  Moniulotteinen taulukko (sääntiö, matriisi) koostuu 1-n ortogonaalisesta dimensiosta  Indeksit nimetään dimensioittain  Taulukon alkiot muodostuvat dimensioiden karteesisen tulon perusteella eli jokaisen alkion sijainti on määrätty veli-matti.jantunen@stat.fi 8
  • 9. Kuutio tilastoihmisen silmin  Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)  kaikki muuttujat ovat samanarvoisia  Muuttujat koostuvat puolestaan nimetyistä arvoista (luokat, nimikkeet)  Puhtaassa kuutiomuodossa  jokainen muuttujien arvojen yhdistelmä on mukana  jokaisen alkion sijainti on määrätty veli-matti.jantunen@stat.fi 9
  • 10. Esimerkki: Yritysten toimipaikat -kuutio Kunta Vuosi Toimiala Muuttujat 2000 2001 2002 ... Alahärmä A Maa-, riista- ja metsätalous Alajärvi Alastaro B Kalatalous ... Muuttujan arvot C Mineraalien kaivu ... tietoalkio: Alastaron kalatalousyritykset vuonna 2002 veli-matti.jantunen@stat.fi 10
  • 11. PC-Axis-maailma veli-matti.jantunen@stat.fi 11
  • 12. PC-Axis-ohjelmaperheestä  PC-Axis: avoin tiedostomuoto  kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tekstitiedostona  1990-luvulta  myös: veloitukseton loppukäyttäjän ohjelma px-taulukon asetteluun, tilastolaskentaan ja tiedostomuunnoksiin  PX-Web: px-taulukkotietokannan jakelupalvelin  käyttäjälle selkeä ja yksinkertainen (”tilastoihmisiltä tilastoihmisille”)  ylläpitäjälle räätälöinti ja hallinta helppoa  PC-Axis ja PX-Web ovat SCB:n tuotteita  tuotekehitystä ohjaa käyttäjistä koostuva PC-Axis Reference Group veli-matti.jantunen@stat.fi 12
  • 13. PX-Web maailmalla veli-matti.jantunen@stat.fi 13
  • 14. PX-Edit  Tilastokeskuksessa kehitetty asiantuntijoille tarkoitettu veloitukseton PC-Axis-taulukoiden muokkaustyökalu  px-tiedostojen syntaksitarkistus ja optimointi  px- ja xml-taulukoiden tuottaminen sekalaisista lähteistä  metatietoköyhien taulukoiden rikastus  Kansainvälinen menestys  osa Tilastokeskuksen panosta px-tuoteperheen kehitykseen  osa SCB:n PC-Axis-koulutuspakettia (PC-Axis, PX-Web ja PX-Edit)  osa FAOn CountryStat-pakettia  Koodattu DyalogAPL:llä (www.tryapl.org) veli-matti.jantunen@stat.fi 14
  • 15. PC-Axis- ja XML-julkaisutaulukoiden teko .px PX-Edit Julkistus StatFin .px manuaalinen tai eräajokäyttö .px .px Web-ajastin: syntaksitarkistus PX-Web PC-Axis- metatietorikastus sivuston taulukot ja XML-konversio StatFinin + StatFin- ajastukset arkisto .xml/CALS .px .xls *) Julkaisutuotanto WWW FastWeb-XML ARBORTEXT Jakeluvarasto HTML Excel ja muut XML/DB .xml/ SAS Julkaisun .xml eXist CALS PDF SuperSTAR toimittaminen ja metatiedon Automaat- Tilastosovellukset lisäys tinen RSS, PDF- ja HTML- txt... *) määrämuotoinen, muunnos rakenteinen .xls, .txt tai .csv veli-matti.jantunen@stat.fi 15
  • 16. PC-Axis-tiedostoista veli-matti.jantunen@stat.fi 16
  • 17. PC-Axis-tiedosto (.px)  px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen tilastotaulukon esittämiseen metatietoineen  ihmissilmin ymmärrettävissä  Tiedot esitetään avainsanalausekkeina, joita on neljä perustyyppiä:  TAULUKKOAVAINSANA=…;  MUUTTUJA-AVAINSANA("Muuttuja")=…;  ARVOAVAINSANA("Muuttuja","arvo")=…;  SOLUAVAINSANA("arvo1","arvo2",…)=…;  Lauseke päättyy aina puolipisteeseen (;) veli-matti.jantunen@stat.fi 17
  • 19. Avainsanalausekkeista  Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")  paitsi numeeriset ja loogiset (YES/NO) arvot  Pitkä lauseke rivitetään (katkaistaan osiin) lainausmerkein "Tämä on pitkä teksti," " joka on katkaistu (huomaa välilyönti)";  Listan alkiot erotetaan pilkuilla VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset";  Monikielisten taulukoiden lisäkielen kielikoodi liitetään avainsanan perään hakasulkeisiin  VALUES[en]("Gender")="Total","Males","Females"; veli-matti.jantunen@stat.fi 19
  • 20. Rakenteesta  Avainsanojen tallennusjärjestyksen tulee olla PX-Webin standardin mukainen  Osa avainsanoista on pakollisia (MATRIX, SUBJECT-AREA, …)  Solukohtaisten avainsanojen syntaksi riippuu muuttujien järjestyksestä   Taulukon muuttujat ovat kahdessa avainsanassa: STUB ja HEADING  Dataosa (DATA= ) on aina viimeinen  Tiedostomuodon käsikirja: www.stat.fi/tup/pcaxis/lataus_tyokalut.html veli-matti.jantunen@stat.fi 20
  • 21. Kuinka monta alkiota on taulukossa?  Lue muuttujat avainsanoista STUB ja HEADING (tässä järjestyksessä) STUB="Ikä","Vuosi"; HEADING="Sukupuoli","Siviilisääty";  Lue muuttujittain VALUES-avainsanoista arvojen määrä VALUES("Ikä")="Yhteensä","0","1","2","3","4",… (101) VALUES("Vuosi")="1990","1991","1992",… (21) VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset"; (3) VALUES("Siviilisääty")="Yhteensä","Naimaton",… (8) 101 x 21 x 3 x 8 = 50904 tietoalkiota veli-matti.jantunen@stat.fi 21
  • 22. Dataosasta  Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien arvojen järjestystä  alkioita tulee olla juuri oikea määrä  Alkiot erotetaan toisistaan välilyönnein  Alkio on joko luku, piste- tai viivakoodi  lukujen desimaalierotin on piste, ei tuhaterottimia, negatiiviset luvut osoitetaan miinusmerkillä 0 1 2.3 -4.567  pistekoodeilla osoitetaan puuttuvaa tms. tietoa, viivakoodi on ’tarkka nolla’ "." ".." "..." "...." "....." "......" "-" veli-matti.jantunen@stat.fi 22
  • 24. Tilastokeskuksesta saatavat px-tiedostot  Lista: pxweb2.stat.fi/database/StatFin/StatFin_rap.csv  A prikos: kehitteillä oleva avoin data –sivusto stat.fi/org/lainsaadanto/avoin_data.html veli-matti.jantunen@stat.fi 24
  • 25. Rakenteisen taulukon periaatteet (CSV, xls) veli-matti.jantunen@stat.fi 25
  • 26. Vain tarpeelliset taulukkotiedot  Taulukon otsikko on ensimmäisessä solussa (kulmasolussa)  Sarakemuuttujat  muuttujannimet reunasarakkeella allekkain  vastaavat arvotekstit (luokitukset) muuttujariveillä  Rivimuuttujat  muuttujannimet yhdellä rivillä vierekkäin  vastaavat arvotekstit (luokitukset) muuttujasarakkeilla  Data-alkio on aina rivi- ja sarakearvojensa leikkauspisteessä veli-matti.jantunen@stat.fi 26
  • 27. Esimerkkitaulukko (hierarkkinen otsikointi) Avioliiton solmineet 1975-2001 taulukko-otsikko Vuosi 1975 … sarakemuuttujat Ikä 15-19 20-24 25-29 30-34 … Kunta Kunta Sukupuoli 000 Koko maa miehet 1352 14793 10367 2503 … naiset 5693 15794 6704 1583 … yhteensä 7045 30587 17071 4086 … 004 Alahärmä miehet 1 11 9 0 … naiset 5 17 5 1 … yhteensä 6 28 14 1 … 005 Alajärvi miehet 2 24 15 0 … naiset 19 14 8 1 … yhteensä 21 38 23 1 … 006 Alastaro miehet 2 10 14 3 … naiset 4 17 6 1 … yhteensä 6 27 20 4 … … … … … … … … … rivimuuttujat dataosa veli-matti.jantunen@stat.fi 27
  • 28. Yksimuuttujaisen taulukon perusrakenne väestö alueittain alue data- kunnat sarake veli-matti.jantunen@stat.fi 28
  • 29. Kaksimuuttujaisten taulukoiden perusrakenteet väestö alueittain ja vuosittain väestö alueittain ja vuosittain alue vuosi vuosi vuodet alue data- kunnat vuodet sarake kunnat datataulukko (matriisi) veli-matti.jantunen@stat.fi 29
  • 30. Kolmimuuttujaisten taulukoiden perusrakenteet väestö alueittain, vuosittain ja ikäryhmittäin väestö alueittain, vuosittain ja ikäryhmittäin alue vuosi ikäryhmä3 ikäryhmä3 iät alue vuosi data- kunnat vuodet iät kunnat vuodet datataulukko sarake väestö alueittain, vuosittain ja ikäryhmittäin vuosi vuodet ikäryhmä iät alue kunnat datataulukko veli-matti.jantunen@stat.fi 30
  • 32. Tilastokeskuksesta saatavat csv-tiedostot  Lista: pxweb2.stat.fi/database/StatFin/StatFin_rap_csv.csv (päivitetään satunnaisesti)  Lyhyt kuvaus: www.stat.fi/tup/pcaxis/csv_tiedostokuvaus.pdf veli-matti.jantunen@stat.fi 32
  • 33. Tulevaisuus: XML veli-matti.jantunen@stat.fi 33
  • 34. Common Structure of Statistical Information (CoSSI)  www.stat.fi/cossi  Tilastotiedon yleinen malli  kuvaa kaikkiin tilastoihin liittyvät tiedot  Mallissa märitellään tietosisällöt ja niiden keskinäinen hierarkia  mallinnuskielenä XML-DTD  Kolme muotoa  XDF isoille taulukoille, dataosa kuin px-tiedostoissa  Cals julkaisutaulukoille (~html-taulukot)  Keys harvamatriiseille veli-matti.jantunen@stat.fi 34
  • 35. CoSSI  The point of departure in CoSSI was an (infological) analysis of the information being considered  The conclusion from the analysis was that although in practice the definition of statistical information has varied according to a given situation and application, in reality statistical information has a certain simplifiable and acceptable universal structure  CoSSI describes the general structure that is not dependent on the situation of the statistical information presented in differing formats  CoSSI defines the structures of statistical data, metadata and publications veli-matti.jantunen@stat.fi 35
  • 36. XML Based Dissemination  Modules:  Document metadata  Statistical metadata  Processing metadata  Publications CoSSI (www.stat.fi/cossi)  Data  matrices (XDF)  tables (CALS)  sparse matrix (KEYS) veli-matti.jantunen@stat.fi 36
  • 37. CoSSI Implementation  Modular DTD system  Document Type Definitions  Use of standards  CALS, XDF, Dublin-Core...  Statistical matrix (statinfo_xdf.dtd)  statmeta.dtd, docmeta.dtd, xdf.dtd  Statistical table (statinfo_cals.dtd)  statmeta.dtd, docmeta.dtd, cals.dtd  Publications and documents (publication.dtd)  docmeta.dtd, statmeta.dtd, statinfo_cals.dtd, figure.dtd...  XML  One XML-file  data and metadata  Multi-lingual documents veli-matti.jantunen@stat.fi 37
  • 38. Tilastokeskuksesta saatavat xml/xdf-tiedostot  Lista: pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv (päivitetään satunnaisesti)  Kuvaus: www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html veli-matti.jantunen@stat.fi 38
  • 39. The sign of a truly educated man is to be deeply moved by statistics George Bernard Shaw veli-matti.jantunen@stat.fi 39