SlideShare ist ein Scribd-Unternehmen logo
1 von 12

Sissejuhatus andmekaevesse hariduses
Mart Laanpere
Mis on andmekaeve?

 Prognooside ja mustrite automatiseeritud
   väljasõelumine suurtest andmekogudest
 Populaarsuse põhjused: suuremad
   andmehulgad, digitaalsed jalajäljed, kiiremad
   arvutid, analüütika, open linked data, soovitus-
   süsteemid
 Kust tulevad andmed: logifailid, andmebaasi-
   tarkvara, sotsiaalmeedia, nuhkvara…
 Andmed > Informatsioon > Teadmus > Tarkus
Näiteid

 http://www.educationaldatamining.org/JEDM

 Koostöömustrite kaevandamine tuutori
   nõustamisvestlustest
 Algaja internetikasutaja toevajaduse analüüs

 Tõenäosuslik mudel relevantsete ja
   mitterelevantsete lausete eristamiseks
   matemaatikaülesannetes
Mille poolest AK erineb statistikast?
    Statistikud koguvad üldjuhul sihipäraselt oma
      andmestiku, andmekaevajad kasutavad
      arvutisüsteemides tekkivat andmesegadust
    Osa andmekaeve tehnikatest põhineb
      statistikal
    Andmekaeve võimaldab proaktiivset
      tegutsemist
    Andmekaeve on pigem tulevikku-, statistika
      tagasivaatav
Andmekaeve protsess




            Allikas: Wikipeedia
Peamised andmekaeve tehnikad

 Klassikalised tehnikad:
   Statistika:
     keskmised, hajuvus, histogramm, regressi
     oon
   Lähimad naabrid
   Klasteranalüüs: hierarhiline, k-means

 Uue põlvkonna tehnikad:
   Otsustuspuud
   Tehisnärvivõrgud
   Reeglite tuletamine
Harjutus: histogramm

 Koosta histogramm AKU õpiku ptk. 3.6 põhjal

 Box.com/AKU12
Harjutus: Google Analytics

 Demo: Dippleri analüütika

 Loo endale GA konto ja lisa see oma blogile
Demo: lineaarne regressioon

 Weka: http://www.cs.waikato.ac.nz/~ml/weka/

 Lineaarne regressioon Weka abil
Harjutus: Twitteri analüüs

 http://www.technologyreview.com/view/421201/h
   ow-to-use-twitter-for-personal-data-mining/

 Viige selle näite eeskujul läbi Wordle analüüs oma
   Twitteri (vms) andmevoo baasil
Demo: otsustuspuu

 http://www.stylusandslate.com/decision_trees/
Kirjandus

 Innar Liiv (2002) Andmekaevandamine. AA

 Kurt Thearling (2010) Data Mining Techniques

 Educational Data Mining Society:
   http://www.educationaldatamining.org

 Knowledge Discovery Nuggets:
   http://www.kdnuggets.com

Weitere ähnliche Inhalte

Mehr von Mart Laanpere

Mehr von Mart Laanpere (20)

Digital Turn intro 2017
Digital Turn intro 2017Digital Turn intro 2017
Digital Turn intro 2017
 
Haridustehnoloogia akadeemiline suund
Haridustehnoloogia akadeemiline suundHaridustehnoloogia akadeemiline suund
Haridustehnoloogia akadeemiline suund
 
Education system in Estonia: PISA and Digital Turn
Education system in Estonia: PISA and Digital TurnEducation system in Estonia: PISA and Digital Turn
Education system in Estonia: PISA and Digital Turn
 
Scenario-Based Validation of the Online Tool for Assessing Teachers’ Digital ...
Scenario-Based Validation of the Online Tool for Assessing Teachers’ Digital ...Scenario-Based Validation of the Online Tool for Assessing Teachers’ Digital ...
Scenario-Based Validation of the Online Tool for Assessing Teachers’ Digital ...
 
Evidence-Centered Approach to Online Assessment of Students’ Digital Competence
Evidence-Centered Approach to Online Assessment of Students’ Digital CompetenceEvidence-Centered Approach to Online Assessment of Students’ Digital Competence
Evidence-Centered Approach to Online Assessment of Students’ Digital Competence
 
Digipädevuste tasemetöös
Digipädevuste tasemetöösDigipädevuste tasemetöös
Digipädevuste tasemetöös
 
Digital Mirror: Measuring the digital innovation maturity in Estonian schools
Digital Mirror: Measuring the digital innovation maturity in Estonian schoolsDigital Mirror: Measuring the digital innovation maturity in Estonian schools
Digital Mirror: Measuring the digital innovation maturity in Estonian schools
 
Best Practice Benchmarking course by Euneos
Best Practice Benchmarking course by EuneosBest Practice Benchmarking course by Euneos
Best Practice Benchmarking course by Euneos
 
Samsung Digi Pass - e-portfoolio
Samsung Digi Pass - e-portfoolioSamsung Digi Pass - e-portfoolio
Samsung Digi Pass - e-portfoolio
 
Samsung Digi Pass õpimärgid
Samsung Digi Pass õpimärgidSamsung Digi Pass õpimärgid
Samsung Digi Pass õpimärgid
 
Ettevõtlusõppe lõimimine läbiva teemaga Tehnoloogia ja innovatsioon
Ettevõtlusõppe lõimimine läbiva teemaga Tehnoloogia ja innovatsioonEttevõtlusõppe lõimimine läbiva teemaga Tehnoloogia ja innovatsioon
Ettevõtlusõppe lõimimine läbiva teemaga Tehnoloogia ja innovatsioon
 
EstCORE tutvustus
EstCORE tutvustusEstCORE tutvustus
EstCORE tutvustus
 
TSP-STEM introductory lecture
TSP-STEM introductory lectureTSP-STEM introductory lecture
TSP-STEM introductory lecture
 
Analysing the Use of Distributed Digital Learning Resources
Analysing the Use of Distributed Digital Learning  ResourcesAnalysing the Use of Distributed Digital Learning  Resources
Analysing the Use of Distributed Digital Learning Resources
 
Creative Classroom õpistsenaariumid
Creative Classroom õpistsenaariumidCreative Classroom õpistsenaariumid
Creative Classroom õpistsenaariumid
 
Digipöörde töötuba HTG õpetajatele
Digipöörde töötuba HTG õpetajateleDigipöörde töötuba HTG õpetajatele
Digipöörde töötuba HTG õpetajatele
 
Digipoore: Ideest teostuseni
Digipoore: Ideest teostuseniDigipoore: Ideest teostuseni
Digipoore: Ideest teostuseni
 
Centre for Educational Technology
Centre for Educational TechnologyCentre for Educational Technology
Centre for Educational Technology
 
Digimina tutvustus: õpetajate digipädevuste hindamisvahend
Digimina tutvustus: õpetajate digipädevuste hindamisvahendDigimina tutvustus: õpetajate digipädevuste hindamisvahend
Digimina tutvustus: õpetajate digipädevuste hindamisvahend
 
E-õpik polegi õpik?
E-õpik polegi õpik?E-õpik polegi õpik?
E-õpik polegi õpik?
 

Sissejuhatus andmekaevesse hariduses

  • 2. Mis on andmekaeve?  Prognooside ja mustrite automatiseeritud väljasõelumine suurtest andmekogudest  Populaarsuse põhjused: suuremad andmehulgad, digitaalsed jalajäljed, kiiremad arvutid, analüütika, open linked data, soovitus- süsteemid  Kust tulevad andmed: logifailid, andmebaasi- tarkvara, sotsiaalmeedia, nuhkvara…  Andmed > Informatsioon > Teadmus > Tarkus
  • 3. Näiteid  http://www.educationaldatamining.org/JEDM  Koostöömustrite kaevandamine tuutori nõustamisvestlustest  Algaja internetikasutaja toevajaduse analüüs  Tõenäosuslik mudel relevantsete ja mitterelevantsete lausete eristamiseks matemaatikaülesannetes
  • 4. Mille poolest AK erineb statistikast?  Statistikud koguvad üldjuhul sihipäraselt oma andmestiku, andmekaevajad kasutavad arvutisüsteemides tekkivat andmesegadust  Osa andmekaeve tehnikatest põhineb statistikal  Andmekaeve võimaldab proaktiivset tegutsemist  Andmekaeve on pigem tulevikku-, statistika tagasivaatav
  • 5. Andmekaeve protsess Allikas: Wikipeedia
  • 6. Peamised andmekaeve tehnikad  Klassikalised tehnikad:  Statistika: keskmised, hajuvus, histogramm, regressi oon  Lähimad naabrid  Klasteranalüüs: hierarhiline, k-means  Uue põlvkonna tehnikad:  Otsustuspuud  Tehisnärvivõrgud  Reeglite tuletamine
  • 7. Harjutus: histogramm  Koosta histogramm AKU õpiku ptk. 3.6 põhjal  Box.com/AKU12
  • 8. Harjutus: Google Analytics  Demo: Dippleri analüütika  Loo endale GA konto ja lisa see oma blogile
  • 9. Demo: lineaarne regressioon  Weka: http://www.cs.waikato.ac.nz/~ml/weka/  Lineaarne regressioon Weka abil
  • 10. Harjutus: Twitteri analüüs  http://www.technologyreview.com/view/421201/h ow-to-use-twitter-for-personal-data-mining/  Viige selle näite eeskujul läbi Wordle analüüs oma Twitteri (vms) andmevoo baasil
  • 12. Kirjandus  Innar Liiv (2002) Andmekaevandamine. AA  Kurt Thearling (2010) Data Mining Techniques  Educational Data Mining Society: http://www.educationaldatamining.org  Knowledge Discovery Nuggets: http://www.kdnuggets.com