SlideShare ist ein Scribd-Unternehmen logo
1 von 19
…we do target precisely
Hluboké učení pro
každého?
Neuronové sítě a spol.
Pro Data Restart 2018
Jan Matoušek / Data Mind s.r.o.
■Data mining/ data science (od 2003)
■Šéf Data Mind s.r.o. (od 2009)
■Co dělám: Předpovědní a segmentační modely
pro marketing (TELCO, RETAIL,
AUTOMOTIVE)
■Připravujeme průmyslové modely a
automatizaci do Kebooly (letos)
strana 2
Neuronové sítě na ráně
Co dělají neuronové sítě v běžném životě:
■Obírají vás na akciové, měnové burze (jo, platí i pro Kryptoměny a i pro HODL strategie)
■Zjišťují váš věk, pohlaví a náladu
■Kontrolují zda jste terorista
■Hrají hry
■Diagnostikují lidi
■Diagnostikují přístroje
■Rozpoznávají běžnou řeč
■Detekují složitý malware
■Detekují sofistikované podvody
■Řídí auta
■Poznávají dopravní a poznávací značky
strana 3
Dělat hluboké neuronové sítě nebo ne?
strana 4
ANO, jako veš NE
ANO NE, vobyč.marketingový data
ANO NE, jsem v pohodě
Kde nasadit hlubokou
neuronovou síť:
■ Komplexní signál
 Video
 Audio
 Senzory
 Složité jazykové problémy
 State of art aplikace
 Ožebračit 10.000 obchodníků
na burze
 Diagnostikovat rakovinu lépe
než ostatní
 Překonat 50 agentur v
předpovědi výpovědí (Churn
prediction)
 Frajeření na ostatní analytiky
 Celoživotní vzdělávání
Proč je děláme my ?
Poptávka na počítání a rozpoznání konzerv na pásu:
■Bez počítadla
■Z obrazových dat
■Včetně rozpoznání druhu konzervy
Další poptávka na Predictive Maintenance:
■Údržbu strojů na základě predikce
strana 5
Učící se křivka
strana 6
■Populární články nepomáhají
■Začínáme výběrem softwaru
■Šprtáme
■ Napojujeme
■ Ladíme
■ Provozujeme
■ Měníme
1. Čumíme do Facebooku /Youtube
strana 7
Zdroj:
Tom Brown
Publikováno 22. 1.
2018
Na Youtube
2.Vybíráme softwarový balíček
■Dilema mezi
nejpopulárnějším
TensorFlow a
nejjednodušším open
source Kerasem se
vyřeší snadno
■Použijte obojí
■Keras aTensoflow
vytvoří prostředí, které
je
 Jednoduché
 Silné když bude
potřeba
■Jednodušší jsou jen
komerční balíčky
napříkladWolfram
strana 8
Obrázek: Popularita jednotlivých balíčku pro Deep learning.
Zdroj dat: The Data Incubator, měřítko je ve standardních odchylkách
(!, pozn.: geekové pro geeky)
3 Šprtací zdroje
Zdrojů jsou stovky, já vyzkoušel:
■ Stanfordská univerzita a její videa
Jsou na youtube ,
Např: Introduction to Convolutional
Neural Networks forVisual
Recognition
■ Datacamp
■ Coursera
Jak to dostat do provozu (zkratky):
■ Keras je zadarmo v Pythonu + R
■ Nečekejte na nákupGPU (grafiky)
■ Nekoukejte naTED ani na bajky o
geniálních topinkovačích
■ Pozor na akademické knihy
 Grantoví běžci mají nekonečně
mnoho času
 Ladění parametru fň pro počítače
roku 2025 na 680 stránkách není to,
co byste měli číst na počátku
strana 9
4The Keras BLOG
■https://blog.keras.io/building-
powerful-image-classification-
models-using-very-little-data.html
■Neuronovou sít postavíte za 80
řádek kódu, které jsou tam
uvedeny
 Těžkých 80 řádek
strana 10
5. Porno, psi a kočky – Jak zvolíme první úlohu
■State of art úlohy:
 Porno na Seznam.cz (tlačítko skrýt hanbaté
obrázky)
 Google obrázky
 Desítky akademických i komerčních autorů
 Architektury modelů jsou často publikované
 Kaggle – soutěž datových geeků
■Obyčejné úlohy
 Rozpoznání psů a koček – doporučeno
autory Kerasu
 Rozpoznání Slonů a Aut
■Příliš triviální úlohy (nebrat)
 Rozpoznání barev, světla
 Nepotřebujete model, vystačíte si s
klasifikací RGB
strana 11
Příklad – Krok 1
Ukázkový model v Data Mind:
■ Obrázky s označením aut a slonů
■ Obrázky jsou různorodé (netříděný zdroj: seznam.cz)
strana 12
Příklad – Krok 2
Zpracování obrázků:
■Obrázky jsou převedeny na stejnou velikost
■Pro účely učení jsou použity náhodné rotace, posuny a oříznutí
strana 13
Standardizace velikosti Náhodné úpravy
Model ?
■Model obsahuje neurony:
Jednoduché funkce které se učí dle
vstupních signálů
■Výstupní vrstva má charakter:
Klasifikace:
Typ obrázku
strana 14
Příklad – Krok 3 – Architektura modelu
Vrstvy zpracování obrázků
■ První vrstva zachycuje nejmenší podobrázky například o 4*4 pixelech, které se snažíme pochopit pomocí „filtrů“
■ Obrázky se skládají do větších a větších čtverců zachycujících komplexnější tvary
Ze 190 malých výseků obrázků získáme 99, pak 48,pak 23 větších skládáním obrázků
■ Ve výsledku odhadujeme typ objektu
■ Chyby a úspěšné predikce upravují zpětně váhy jednotlivých „neuronů“
strana 15
Odhalení
čáry
Odhalení
chobotu
Odhalení
slona
Klasifikace slona
a měření vlivů
na správnou
klasifikaci
Zpětná propagace vah
dle úspěchu a chyb
Význam tvaru
slona
Význam
chobotu
Význam čáry
Příklad – Krok 4 – Skoring
strana 16strana 16
Skoring
čáry
Skoring
chobotu
Skoring
slona
Klasifikace slona
Vliv jednotlivých prvků na
správnou klasifikaci je znám
■ Neuronová síť uvidí nový obrázek, nelekne se ho, ale naopak ho správně zařadí do kategorie
■ Při klasifikaci objektů použijeme již naučené váhy:
 Malých obrázků a v nich rozpoznaných tvarů
 Součtu těchto malých obrázků do větších celků
 Celkový skoring objektu
Úspěšnost
Ve vzorovém projektu bylo úspěšně klasifikováno 95% objektů, na
kterých se model neučil a „viděl je“ až následně, když byl již hotov:
■Kdy nastane chybná klasifikace:
■S autem níže má naše neuronová síť velký problém.
Auto nemá kola, ale zato má hlavu a chobot, takže je klasifikováno jako slon
strana 17
Jednorožec Ksenie Sorokina
■ DigitálníAkademie Czechitas
■ Mentoring s Honzou
■ Úkol:
 Porozumět principům Hlubokého učení
 Nastavit model
 Natrénovat model
 Otestovat
 Optimalizovat
■ Výsledek:
 Model funguje s přesností 96%
 Optimalizace: zkráceni doby tréninku
 Technický článek: ttps://bit.ly/2pNkHSH
■ Ocenění:
 Jednorožec (nejvyšší metál v Czechitas)
 Keboola
■ Dělat hluboké neuronové sítě se vyplatí a dá se to
strana 18
Jednorožec ….
www.datamind.cz
Data Mind s.r.o., Pobřežní 18/16, 170 00 Praha 7
Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů.
Jan.Matousek
@datamind.cz
Ksenia Sorokina
@keboola.com
www.keboola.com

Weitere ähnliche Inhalte

Mehr von Taste Medio

Symboly značky prakticky
Symboly značky praktickySymboly značky prakticky
Symboly značky praktickyTaste Medio
 
Marketingový framework PAVRD
Marketingový framework PAVRDMarketingový framework PAVRD
Marketingový framework PAVRDTaste Medio
 
Pozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizíPozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizíTaste Medio
 
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?Taste Medio
 
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Taste Medio
 
Bageta plná hejtu
Bageta plná hejtuBageta plná hejtu
Bageta plná hejtuTaste Medio
 
Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)Taste Medio
 
"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkami"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkamiTaste Medio
 
Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?Taste Medio
 
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciPříběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciTaste Medio
 
Kde jsou limity zákaznické 360°?
 Kde jsou limity zákaznické 360°? Kde jsou limity zákaznické 360°?
Kde jsou limity zákaznické 360°?Taste Medio
 
Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?Taste Medio
 
Jak měřit značku s využitím behaviorálních věd
 Jak měřit značku s využitím behaviorálních věd Jak měřit značku s využitím behaviorálních věd
Jak měřit značku s využitím behaviorálních vědTaste Medio
 
Rozhlas v 21. století, online analytika napříč webem i vzduchem
Rozhlas v 21. století, online analytika napříč webem i vzduchemRozhlas v 21. století, online analytika napříč webem i vzduchem
Rozhlas v 21. století, online analytika napříč webem i vzduchemTaste Medio
 
Statistické modely jako další nástroj PPC marketingu
Statistické modely jako další nástroj PPC marketinguStatistické modely jako další nástroj PPC marketingu
Statistické modely jako další nástroj PPC marketinguTaste Medio
 
2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?Taste Medio
 
Komplexní reporting for dummies
Komplexní reporting for dummiesKomplexní reporting for dummies
Komplexní reporting for dummiesTaste Medio
 
Soumrak session based analytiky
Soumrak session based analytikySoumrak session based analytiky
Soumrak session based analytikyTaste Medio
 
#Spolupráce s influencerem
#Spolupráce s influencerem#Spolupráce s influencerem
#Spolupráce s influenceremTaste Medio
 
Pod pokličkou MasterChefa
Pod pokličkou MasterChefaPod pokličkou MasterChefa
Pod pokličkou MasterChefaTaste Medio
 

Mehr von Taste Medio (20)

Symboly značky prakticky
Symboly značky praktickySymboly značky prakticky
Symboly značky prakticky
 
Marketingový framework PAVRD
Marketingový framework PAVRDMarketingový framework PAVRD
Marketingový framework PAVRD
 
Pozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizíPozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizí
 
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
 
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
 
Bageta plná hejtu
Bageta plná hejtuBageta plná hejtu
Bageta plná hejtu
 
Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)
 
"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkami"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkami
 
Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?
 
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciPříběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
 
Kde jsou limity zákaznické 360°?
 Kde jsou limity zákaznické 360°? Kde jsou limity zákaznické 360°?
Kde jsou limity zákaznické 360°?
 
Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?
 
Jak měřit značku s využitím behaviorálních věd
 Jak měřit značku s využitím behaviorálních věd Jak měřit značku s využitím behaviorálních věd
Jak měřit značku s využitím behaviorálních věd
 
Rozhlas v 21. století, online analytika napříč webem i vzduchem
Rozhlas v 21. století, online analytika napříč webem i vzduchemRozhlas v 21. století, online analytika napříč webem i vzduchem
Rozhlas v 21. století, online analytika napříč webem i vzduchem
 
Statistické modely jako další nástroj PPC marketingu
Statistické modely jako další nástroj PPC marketinguStatistické modely jako další nástroj PPC marketingu
Statistické modely jako další nástroj PPC marketingu
 
2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?
 
Komplexní reporting for dummies
Komplexní reporting for dummiesKomplexní reporting for dummies
Komplexní reporting for dummies
 
Soumrak session based analytiky
Soumrak session based analytikySoumrak session based analytiky
Soumrak session based analytiky
 
#Spolupráce s influencerem
#Spolupráce s influencerem#Spolupráce s influencerem
#Spolupráce s influencerem
 
Pod pokličkou MasterChefa
Pod pokličkou MasterChefaPod pokličkou MasterChefa
Pod pokličkou MasterChefa
 

Hluboké učení pro každého (Jan Matoušek)

  • 1. …we do target precisely Hluboké učení pro každého? Neuronové sítě a spol. Pro Data Restart 2018
  • 2. Jan Matoušek / Data Mind s.r.o. ■Data mining/ data science (od 2003) ■Šéf Data Mind s.r.o. (od 2009) ■Co dělám: Předpovědní a segmentační modely pro marketing (TELCO, RETAIL, AUTOMOTIVE) ■Připravujeme průmyslové modely a automatizaci do Kebooly (letos) strana 2
  • 3. Neuronové sítě na ráně Co dělají neuronové sítě v běžném životě: ■Obírají vás na akciové, měnové burze (jo, platí i pro Kryptoměny a i pro HODL strategie) ■Zjišťují váš věk, pohlaví a náladu ■Kontrolují zda jste terorista ■Hrají hry ■Diagnostikují lidi ■Diagnostikují přístroje ■Rozpoznávají běžnou řeč ■Detekují složitý malware ■Detekují sofistikované podvody ■Řídí auta ■Poznávají dopravní a poznávací značky strana 3
  • 4. Dělat hluboké neuronové sítě nebo ne? strana 4 ANO, jako veš NE ANO NE, vobyč.marketingový data ANO NE, jsem v pohodě Kde nasadit hlubokou neuronovou síť: ■ Komplexní signál  Video  Audio  Senzory  Složité jazykové problémy  State of art aplikace  Ožebračit 10.000 obchodníků na burze  Diagnostikovat rakovinu lépe než ostatní  Překonat 50 agentur v předpovědi výpovědí (Churn prediction)  Frajeření na ostatní analytiky  Celoživotní vzdělávání
  • 5. Proč je děláme my ? Poptávka na počítání a rozpoznání konzerv na pásu: ■Bez počítadla ■Z obrazových dat ■Včetně rozpoznání druhu konzervy Další poptávka na Predictive Maintenance: ■Údržbu strojů na základě predikce strana 5
  • 6. Učící se křivka strana 6 ■Populární články nepomáhají ■Začínáme výběrem softwaru ■Šprtáme ■ Napojujeme ■ Ladíme ■ Provozujeme ■ Měníme
  • 7. 1. Čumíme do Facebooku /Youtube strana 7 Zdroj: Tom Brown Publikováno 22. 1. 2018 Na Youtube
  • 8. 2.Vybíráme softwarový balíček ■Dilema mezi nejpopulárnějším TensorFlow a nejjednodušším open source Kerasem se vyřeší snadno ■Použijte obojí ■Keras aTensoflow vytvoří prostředí, které je  Jednoduché  Silné když bude potřeba ■Jednodušší jsou jen komerční balíčky napříkladWolfram strana 8 Obrázek: Popularita jednotlivých balíčku pro Deep learning. Zdroj dat: The Data Incubator, měřítko je ve standardních odchylkách (!, pozn.: geekové pro geeky)
  • 9. 3 Šprtací zdroje Zdrojů jsou stovky, já vyzkoušel: ■ Stanfordská univerzita a její videa Jsou na youtube , Např: Introduction to Convolutional Neural Networks forVisual Recognition ■ Datacamp ■ Coursera Jak to dostat do provozu (zkratky): ■ Keras je zadarmo v Pythonu + R ■ Nečekejte na nákupGPU (grafiky) ■ Nekoukejte naTED ani na bajky o geniálních topinkovačích ■ Pozor na akademické knihy  Grantoví běžci mají nekonečně mnoho času  Ladění parametru fň pro počítače roku 2025 na 680 stránkách není to, co byste měli číst na počátku strana 9
  • 10. 4The Keras BLOG ■https://blog.keras.io/building- powerful-image-classification- models-using-very-little-data.html ■Neuronovou sít postavíte za 80 řádek kódu, které jsou tam uvedeny  Těžkých 80 řádek strana 10
  • 11. 5. Porno, psi a kočky – Jak zvolíme první úlohu ■State of art úlohy:  Porno na Seznam.cz (tlačítko skrýt hanbaté obrázky)  Google obrázky  Desítky akademických i komerčních autorů  Architektury modelů jsou často publikované  Kaggle – soutěž datových geeků ■Obyčejné úlohy  Rozpoznání psů a koček – doporučeno autory Kerasu  Rozpoznání Slonů a Aut ■Příliš triviální úlohy (nebrat)  Rozpoznání barev, světla  Nepotřebujete model, vystačíte si s klasifikací RGB strana 11
  • 12. Příklad – Krok 1 Ukázkový model v Data Mind: ■ Obrázky s označením aut a slonů ■ Obrázky jsou různorodé (netříděný zdroj: seznam.cz) strana 12
  • 13. Příklad – Krok 2 Zpracování obrázků: ■Obrázky jsou převedeny na stejnou velikost ■Pro účely učení jsou použity náhodné rotace, posuny a oříznutí strana 13 Standardizace velikosti Náhodné úpravy
  • 14. Model ? ■Model obsahuje neurony: Jednoduché funkce které se učí dle vstupních signálů ■Výstupní vrstva má charakter: Klasifikace: Typ obrázku strana 14
  • 15. Příklad – Krok 3 – Architektura modelu Vrstvy zpracování obrázků ■ První vrstva zachycuje nejmenší podobrázky například o 4*4 pixelech, které se snažíme pochopit pomocí „filtrů“ ■ Obrázky se skládají do větších a větších čtverců zachycujících komplexnější tvary Ze 190 malých výseků obrázků získáme 99, pak 48,pak 23 větších skládáním obrázků ■ Ve výsledku odhadujeme typ objektu ■ Chyby a úspěšné predikce upravují zpětně váhy jednotlivých „neuronů“ strana 15 Odhalení čáry Odhalení chobotu Odhalení slona Klasifikace slona a měření vlivů na správnou klasifikaci Zpětná propagace vah dle úspěchu a chyb Význam tvaru slona Význam chobotu Význam čáry
  • 16. Příklad – Krok 4 – Skoring strana 16strana 16 Skoring čáry Skoring chobotu Skoring slona Klasifikace slona Vliv jednotlivých prvků na správnou klasifikaci je znám ■ Neuronová síť uvidí nový obrázek, nelekne se ho, ale naopak ho správně zařadí do kategorie ■ Při klasifikaci objektů použijeme již naučené váhy:  Malých obrázků a v nich rozpoznaných tvarů  Součtu těchto malých obrázků do větších celků  Celkový skoring objektu
  • 17. Úspěšnost Ve vzorovém projektu bylo úspěšně klasifikováno 95% objektů, na kterých se model neučil a „viděl je“ až následně, když byl již hotov: ■Kdy nastane chybná klasifikace: ■S autem níže má naše neuronová síť velký problém. Auto nemá kola, ale zato má hlavu a chobot, takže je klasifikováno jako slon strana 17
  • 18. Jednorožec Ksenie Sorokina ■ DigitálníAkademie Czechitas ■ Mentoring s Honzou ■ Úkol:  Porozumět principům Hlubokého učení  Nastavit model  Natrénovat model  Otestovat  Optimalizovat ■ Výsledek:  Model funguje s přesností 96%  Optimalizace: zkráceni doby tréninku  Technický článek: ttps://bit.ly/2pNkHSH ■ Ocenění:  Jednorožec (nejvyšší metál v Czechitas)  Keboola ■ Dělat hluboké neuronové sítě se vyplatí a dá se to strana 18 Jednorožec ….
  • 19. www.datamind.cz Data Mind s.r.o., Pobřežní 18/16, 170 00 Praha 7 Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů. Jan.Matousek @datamind.cz Ksenia Sorokina @keboola.com www.keboola.com