Dr. Tomás Horváth előadása a Magyar Információbrókerek Egyesülete konferenciáján - Mesterséges intelligencia az információkeresésben és -feldolgozásban, 2018. jún. 6.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Az adatbányászat és gépi tanulás automatizálása – de hogyan?
1. Az adatbányászat és gépi
tanulás automatizálása
– de hogyan?
dr. Horváth Tomáš
Adattudományi és Adattechnológiai tanszék (T-Labs)
Informatikai kar, ELTE
2. Egy átlagos “adattudomány” projekt
Feladat
megértése
Adatok megértése Modellezés
Adatok
előkészítése
Eredmény
értékelése
Modell
hasznosí-
tása
időigényes
(szakértők + adattudósok)
unalmas
(adattudósok)
izgalmas
(szakértők+adattudósok)
3. Automatizáció - de miért?
● Sokkal kevesebb az “adattudósok” száma mint amennyi feladat van
● A kevésbé kreatív munkát csinálhatnák robotok is
○ Adatok előkészítése (automatizált adatbányászat)
■ zaj szűrés, hiányzó adatok pótlása, attribútumok kiválasztása, dimenzió csökkentés, …
○ Modellezés (automatizált gépi tanulás)
■ modell, algoritmus, hibafüggvény, hyper-paraméterek (pl. regularizáció), …
■ erről szólunk egy-két szót a következőkben
● Sok jó kutatási feladat rejlik a témában
4. Gépi tanulás - Modellezés
Train
Adatok
Modell típus
Optimalizáló
Algoritmus
hibafüggvény
hyper-
paraméterek
Optimalizált
modell
Teszt
Adat
Predikció
NO FREE LUNCH
tanulás
5. Automatizáció - de hogyan?
Az adott kérdéstől függ
● Milyen modellt használjunk?
○ transzfer tanulás, meta-tanulás
● Hogyan állítsuk be az adott modell hyper-paramétereit?
○ fekete-doboz függvények optimalizációja
● és hasonló kérdések
○ Kell-e egyáltalán hyper-paramétereket beállítani?
○ Meddig fog tartani az adott adatokon
az adott modell optimalizációja?
Sokszor látunk nem éppen jó ML/DM megoldásokat
● mert, “eddig így szoktuk csinálni” vagy
● mert, “a Google-nél bevált”, stb.