Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Strojové učení  z rychlíku  Devel.cz 2013 Michal Illich
Dnešní menu●   Co to je a k čemu vůbec?●   Obecný princip strojového učení●   Neuronové sítě●   Rozhodovací stromy a lesy
Klasické problémy●   Rozpoznávání obrazu    OCR      vizuální klasifikace     self driving cars●   Rozpoznávání řeči    vo...
Kde se používá na webu - I
Kde se používá na webu - II
Kde se používá na webu - III
Je jen pro velké?●   Ano i ne.●   víceméně všechny velké firmy jej používají●   potřebuje dost dat●   pomůže skoro na všec...
Kdy použít strojové učení?1. Máte víc dat, než zvládne zanalyzovat člověk.  to je u navštěvovaných webů skoro vždy...2. Js...
K čemu? → Jak?
Dvě základní použití          supervidovaného strojového učení●   Předpovídá (číslo)    CTR reklamy     Hodnocení filmu   ...
Kde je to „učení“    Data rozdělíte na (minimálně) 2 hromádky:●   Trénovací    Na nich se strojové učení „učí“.    To jest...
Od obecného k algoritmům...
Umělé neuronové sítě
Neuron
Deep learning●   Klasické neuronové sítě ze 70. let    trénují jen přes „backpropagation“    neumí dobře natrénovat >2 hid...
NN jsou univerzální●   Nejenom na rozpoznávání obrazu●   Na vstupu libovolné pole čísel    všechna data jde převést na čís...
Kde začít – dobré knihovny:●   FANN (C)    http://leenissen.dk/fann/wp/●   cuda-convnet (C++, GPU)    http://code.google.c...
Rozhodovací stromy (a lesy)●   jiná technika strojového učení●   není tak cool jako neuronové sítě●   ale má i výhody:    ...
Příklad
Trénovací data (zjednodušená)
Od stromu k lesům●   takových stromů si uděláme třeba 100●   jejich výsledky zprůměrujeme●   boosting: větší váhu přikládá...
I rozhodovací lesy jsou univerzální●   na vstupu libovolná data    není potřeba normalizovat či převádět texty na čísla●  ...
Kde začít – dobré knihovny:●   gbm (R)    http://cran.r-project.org/web/packages/gbm/●   Weka (Java)    http://www.cs.waik...
Na co nezbyl čas●   SVM (support vector machines)    rychlé, přesné    ideálně na klasifikaci, z číselných vstupů●   CRF /...
Díky!      michal@illich.cz        @michalillichPS: Přijímáme: C, Python, PHP
www.doporucim.cz/mobile/DEVELMICHAL
Zdroje ilustračních obrázků:http://www.cs.toronto.edu/~kriz/cifar.htmlhttp://code.google.com/p/cuda-convnet/http://cl.nais...
Strojové učení z rychlíku
Strojové učení z rychlíku
Strojové učení z rychlíku
Strojové učení z rychlíku
Strojové učení z rychlíku
Nächste SlideShare
Wird geladen in …5
×

Strojové učení z rychlíku

3.788 Aufrufe

Veröffentlicht am

Stručný úvod do strojového učení. Zejména pro vývojáře, kteří se s machine learningem ještě nesetkali.

Veröffentlicht in: Technologie
  • Login to see the comments

Strojové učení z rychlíku

  1. 1. Strojové učení z rychlíku Devel.cz 2013 Michal Illich
  2. 2. Dnešní menu● Co to je a k čemu vůbec?● Obecný princip strojového učení● Neuronové sítě● Rozhodovací stromy a lesy
  3. 3. Klasické problémy● Rozpoznávání obrazu OCR vizuální klasifikace self driving cars● Rozpoznávání řeči voice dial voice search siri● Inteligentní agenti roboti autonomní systémyO tomhle tahle přednáška nebude...
  4. 4. Kde se používá na webu - I
  5. 5. Kde se používá na webu - II
  6. 6. Kde se používá na webu - III
  7. 7. Je jen pro velké?● Ano i ne.● víceméně všechny velké firmy jej používají● potřebuje dost dat● pomůže skoro na všech projektech● není to tak složité, jak to vypadá
  8. 8. Kdy použít strojové učení?1. Máte víc dat, než zvládne zanalyzovat člověk. to je u navštěvovaných webů skoro vždy...2. Jste schopni definovat a změřit cíl. víc objednávek víc prokliků méně odchodů víc konverzí víc dat přesnější predikce žádané věci na skladě ...3. Jste v konkurenčním prostředí. strojové učení není zázrak, „jen“ vám dá náskok
  9. 9. K čemu? → Jak?
  10. 10. Dvě základní použití supervidovaného strojového učení● Předpovídá (číslo) CTR reklamy Hodnocení filmu Relevanci …● Třídí (kategorie) Spam/ham Rubrika Téma Pohlaví Věk ...
  11. 11. Kde je to „učení“ Data rozdělíte na (minimálně) 2 hromádky:● Trénovací Na nich se strojové učení „učí“. To jest hledá vztahy a vytvoří si z nich „model“.● Testovací Na nich ověřujeme, jak dobře model funguje. Tedy zda jsou ty „znalosti“ přenositelné na nová data.
  12. 12. Od obecného k algoritmům...
  13. 13. Umělé neuronové sítě
  14. 14. Neuron
  15. 15. Deep learning● Klasické neuronové sítě ze 70. let trénují jen přes „backpropagation“ neumí dobře natrénovat >2 hidden vrstvy● Convolutional networks ručně navržená topologie sítí, výborná na rozpoznávání obrazu● 2006+ Hinton a další – deep learning umí po vrstvách trénovat velmi hluboké sítě dokáží využít i neoznačkovaná vstupní data (pre-training) RBM, stacked autoencoders a další algoritmy
  16. 16. NN jsou univerzální● Nejenom na rozpoznávání obrazu● Na vstupu libovolné pole čísel všechna data jde převést na čísla...● Na výstupu opět pole čísel může být jeden výstup: predikce nebo mnoho výstupů označující kategorie
  17. 17. Kde začít – dobré knihovny:● FANN (C) http://leenissen.dk/fann/wp/● cuda-convnet (C++, GPU) http://code.google.com/p/cuda-convnet/● Theano (Python, GPU) http://deeplearning.net/software/theano/
  18. 18. Rozhodovací stromy (a lesy)● jiná technika strojového učení● není tak cool jako neuronové sítě● ale má i výhody: – rychleji se učí – není potřeba upravovat vstupní data – model je pochopitelný pro člověka
  19. 19. Příklad
  20. 20. Trénovací data (zjednodušená)
  21. 21. Od stromu k lesům● takových stromů si uděláme třeba 100● jejich výsledky zprůměrujeme● boosting: větší váhu přikládáme datům, u kterých se předchozí stromy spletly
  22. 22. I rozhodovací lesy jsou univerzální● na vstupu libovolná data není potřeba normalizovat či převádět texty na čísla● rychlé a s dobrou přesností● použitelné na mnoho problémů i na fulltext
  23. 23. Kde začít – dobré knihovny:● gbm (R) http://cran.r-project.org/web/packages/gbm/● Weka (Java) http://www.cs.waikato.ac.nz/ml/weka/● Scikit-learn (Python) http://scikit-learn.org/
  24. 24. Na co nezbyl čas● SVM (support vector machines) rychlé, přesné ideálně na klasifikaci, z číselných vstupů● CRF / HMM značkování textů, named entity recognition● Naive Bayes, lineární regrese základní statistické techniky jednoduché, ale dost dobré na spoustu úloh
  25. 25. Díky! michal@illich.cz @michalillichPS: Přijímáme: C, Python, PHP
  26. 26. www.doporucim.cz/mobile/DEVELMICHAL
  27. 27. Zdroje ilustračních obrázků:http://www.cs.toronto.edu/~kriz/cifar.htmlhttp://code.google.com/p/cuda-convnet/http://cl.naist.jp/~kevinduh/notes/duh12deeplearn.pdfhttp://www.positscience.com/media-gallery/detail/161/94+ pozadí koupené ve fotobance

×