Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
1. Avoin dataanalytiikka & terveystieteet
Leo Lahti, Helsinki & Wageningen (Alankomaat)
THL 3.1 2.201 3
2. Leo Lahti
Helsingin yliopisto (eltdk)
Wageningenin yliopisto (Lab. Microbiol.), Alankomaat
Tutkijatohtori (SA)
Ihmiskehon mikrobiekologia
TkT (Aalto, 201 0)
Bioinformatiikka & koneoppiminen
DI (TKK 2003)
Teknillinen fysiikka & matematiikka
VTK (HY 2009)
Käytännöllinen filosofia & kansantaloustiede
Open Knowledge Foundation Finland; Open Science work group
Avoimen datan ohjelmakirjastot (rOpenSci; sorvi; Louhos-blogi)
Avoimen lähdekoodin analyysivälineitä avoimelle datalle;
biolääketiede keskeisimpänä sovellusalueena
3. Laskennallinen tiede & bioinformatiikka
Avoin ja suljettu yhteiskunnallinen data
Uusia tutkimustapoja ja välineitä?
Keskustelua
4. Bioinformatiikka on monitieteinen tutkimusala, joka kehittää ja
käyttää matematiikan, tietojenkäsittelytieteen sekä
tilastotieteen menetelmiä biologisten ongelmien ratkaisuun.
- Organisoi tietoaineistoja tutkijoiden saataville
- Kehittää laskennallisia menetelmiä ja tietoresursseja
- Soveltaa näitä (molekyyli)biologian tutkimuksessa
Perimän rakenteen ja toiminnan kartoitus, geenisekvenssit,
proteiinien ja geenien rakenne ja toiminta, evoluutiotutkimus,
mikrobiekologia, tautigeenien kartoitus, eliöiden
sukulaisuussuhteiden selvittäminen, prognostiikka,
diagnostiikka
5. Ihmisen perimä
3,000,000,000 emäsparia
22,000 geeniä
mRNA; ncRNA; miRNA; lincRNA
100,000 proteiinia
- proteiinikompleksit
- muu aineenvaihdunta, soluviestintä
- biokemialliset vaikutusverkot
- satoja kudostyyppejä
- tuhansia sairauksia
- ympäristötekijät
10. R Avoin tieteellinen laskentakieli
jokapäiväiseen tiedonlouhintaan
www.r-project.org
- Laaja käyttäjä- ja kehittäjäyhteisö
- Avoin lähdekoodi
- Tuhansia analyysimenetelmiä (tilastollinen testaus,
tiedonlouhinta, visualisointi)
- Uusia työkaluja ja vaihtoehtoja SAS/SPSS/Matlab/Excel-säädölle
11. Number of analysis tools for R
now growing exponentially
CRAN
rOpenGov
r4stats.com
17. Pullonkauloja avoimen datan hyödyntämisessä
- tiedon hajanaisuus
- heikko saavutettavuus
- sotkuinen data
- katoava data
- vertailukelvoton data
- välineiden puute
- yksityisyydensuoja
18. Louhos kerää ja kehittää algoritmeja
avoimelle Suomidatalle
louhos.github.com
19. R/sorvikirjasto kattaa jo noin
20 kotimaista tietolähdettä
Kunnallisvaalit
Datavaalit
Eduskunnan äänestykset
Vaalikoneet
YLE/MOT Yritystuet
Maanmittauslaitos (MML)
Suomen ympäristökeskus (SYKE/OIVA)
Google Maps
OpenStreetMap
Kuntatason informaatio
Maakuntatason informaatio
Helsingin seudun ympäristöpalvelut (HSY)
Helsingin kaupungin kiinteistövirasto (HKK)
Helsinki Region Infoshare (HRI)
Asuntojen hinnat
Koulutus
Kulttuuri
Postinumerot
Tilastokeskus
Väestörekisterit
Nimitilastot
Maailmanpankki
28. Merkkipaaluja
201 0 sorvi-paketti & Louhos-blogi alulle
201 1 Datajournalismin työpaja, Vanha ylioppilastalo
Apps4Finland Datan Avaus-sarjan voitto (sorvi)
201 2 SHARE-konferenssi (Belgrad)
Kaupunkitutkimuksen päivät (Helsinki)
HSOpen Hackathon - yhteistyö (Vaalidatapaketti)
Sitralta 1 4,000e rahoitus Datavaalit-hankkeelle
Open Legislative Data-konferenssi (Pariisi)
Open Knowledge Festival (Helsinki)
Apps4Finland Datan Avaus-sarjan voitto (Datavaalit)
Apps4Finland Dataopas-sarjan yleisöäänet (Datawiki)
Louhos-blogiin 20,000 vierailua
201 3 Open Knowledge Foundation; Open Science työryhmä
Mukaan CRAN-verkostoon
Open Knowledge Roadshow
Sotkanet-sovellus Apps4Finland-finaalissa (+Demos Helsinki)
Globaali rOpenGov-verkosto käynnistyy
NIPS Machine Learning Open Source Software workshop (Lake Tahoe, US)
29. Uutta dataa & välineitä yhteiskuntatutkimukseen
Datan saatavuus: tietolähteiden kartoitus; joustavat haku- ja
putsausrutiinit
Läpinäkyvyys & toistettavuus: kaikki vaiheet yhdessä koodissa
Vuorovaikutteisuus: nopea datan seulonta ja visualisointi
Monipuolisuus: koodipohjaa voidaan jakaa ja uudelleenkäyttää
Lokalisoitu: kotimaisiin tarpeisiin
Uusia tutkimusvälineitä: R/Python-koodikirjastot!
(SAS/SPSS/Matlab/Excel: ei vastaavia välineitä