SlideShare a Scribd company logo
1 of 26
Jak se vyhnout chybám při analýze
nejen velkých dat
Gauss Algorithmic - nástrahy datové analýzy
Ján Janča
Gauss Algorithmic
Specialista na on-line marketing
a využití prediktivní a datové
analytiky v e-commerce.
“80 % výsledků,
které přinesou
zisk, najdete ve
20 % analýz.”
“Dopředu nikdy nevíte, kterých 20 % to bude.”
Gauss Algorithmic - Big data, heslo s kterým se je nutno vypořádat
● Big data = jakýkoliv soubor dat, ve kterém nejsme schopni najíst
souvislosti tradičními postupy (tužka, papír, mozek,... Excel).
● Big data analytics = postupy a algoritmy pro získání informací z dat.
● Data driven management = přijímání rozhodnutí na základě informací.
Data Informace Rozhodnutí
Big data je jednoduchá, ale revoluční myšlenka, že data mají cenu. Big znamená důležité (big deal).
Gauss Algorithmic - Nejvýznamnější vlastníci dat na světě
15x 1 EB = 1018 B = 106 TB
příklad: Randall Munroe
National Geospatial-
Intelligence Agency
CIANational Reconnaissance
Office
NSA
Gauss Algorithmic - Proč přišla “Big data” právě teď
● Výpočetní výkon a kapacita
datových úložišť rostou
exponenciálně.
● Lze “upočítat” 100 000x víc
než před 10 lety.
“Humans, who are limited by slow
biological evolution, couldn't compete
and would be superseded”
Stephen Hawking
Gauss Algorithmic - Problém s “Big data” analýzou
“80 % výsledků,
které přinesou
zisk, najdete ve
20 % analýz.”
“Dopředu nikdy nevíte, kterých 20 % to bude.”
Gauss Algorithmic - Problém s “Big Data” analýzou
● za 80 % výrobních problémů může 20 % příčin
● 80 % příjmů získáte od 20 % zákazníků
● 20 % vaší reklamy přivede 80 % zákazníků
● 80 % dat přenese v síti 20 % uživatelů
● 80 % skladové plochy vám zabere 20 % skladových položek
● 20% vašich obchodních zástupců zajistí 80 % tržeb
● nejčastěji nosíte 20 % oblečení a 80 % téměř nepoužíváte
● 80 % příjmů ve stripclubech získá 20 % tanečnic
Gauss Algorithmic - Problém s “Big data” analýzou
● Potřeba rozhodovat se na základě informací získaných z dat “v
reálném” čase.
● Omezené množství “upočitatelných analýz v reálném” čase.
● Hodnota získané informace v čase klesá (buď přestane být
aktuální nebo stejnou informaci získá více subjektů).
● Potřeba nejprve precizně formulovat otázky, které omezí
počet prováděných analýz.
Dopady pravidla 80/20 na datovou analýzu
Podle výzkumu univerzity MIT, 72% vedoucích pracovníků v oblasti
business analytics není spokojeno s rychlostí získávání informací z dat.
Gauss Algorithmic - Problém s “Big data” analýzou
Pozor na homeopatickou
statistiku.
Množství informací uložené v
určitém množství dat je
konečné, někdy dokonce zcela
nepatrné, a nijak nesouvisí s
množstvím z nich generovaných
grafů a tabulek.
Řešením není kvantita, ale kvalita
Gauss Algorithmic - Problém s “Big data” analýzou
1. Úspěšnou datovou analýzu lze
dělat bez znalostí matematiky a
statistiky.
1. Úspěšnou datovou analýzu lze
dělat pouze se znalostí
matematiky a statistiky.
Pozor na rozdíl mezi kvalifikací a kompetencí
Dva časté omyly na startu
Gauss Algorithmic - Problém s “Big data” analýzou
Anscombův kvartet v číslech
Pro všechny 4. skupiny platí:
Střední hodnota x: 9.0
Střední hodnota y: 7.5
Odchylka x: 11.00
Odchylka y: 4.13
Korelace mezi x a y: 0.816
Koeficienty linreg: y = 3.00 + 0.50 x
Statisticky téměř shodné datasety.
Kompletní příklad na: http://insightdatascience.com/blog/eda-and-graphics-eli-bressert.html
Nikdy slepě nevěřte datům I.
Gauss Algorithmic - Problém s “Big data” analýzou
Ve skutečnosti se od sebe
zásadně liší.
“There are a lot of small
data problems that occur in
big data, they don’t
disappear because you’ve
got lots of the stuff. They
get worse.”
Prof. David Spiegelhalter
University of Cambridge
Nikdy slepě nevěřte datům II.
Gauss Algorithmic - nástrahy datové analýzy
Standardní postup datové analýzy
Gauss Algorithmic - nástrahy datové analýzy
Vývoj vyhledávání značek
“Blackberry”, “Apple” a “Nokia”
na Google.com
Jak určit oběžnou dobu Měsíce
okolo Země bez fyzikálních
výpočtů.
Hledaná fráze: “full moon”
Jak může získat data a odpovědi manager I.
Gauss Algorithmic - nástrahy datové analýzy
Jak může získat data a odpovědi manager II.
Gauss Algorithmic - nástrahy datové analýzy
Ne každá korelace je signifikantní
Gauss Algorithmic - nástrahy datové analýzy
Ne každá korelace je signifikantní
Gauss Algorithmic - nástrahy datové analýzy
1. průměrná úspěšnost, počet objednávek a očekávaný obrat podle
hodiny, kdy zákazník vytvoří objednávku..
2. Úspěšnost uzavření obchodu v závislosti na době mezi vložením
objednávky a prvním telefonickým kontaktem z call centra.
Některé korelace jsou signifikantní
Gauss Algorithmic - nástrahy datové analýzy
1. Počet objednávek na obyvatele dle krajů 2. Průměrná cena na osobu a obyvatele v kraji 3. Průměrná cena na osobu a disponabilní příjem/ kraj
Nespoléhejte jen na vlastní data
● Spojení vlastních a cizích dat může přinést zcela nové výsledky.
● Cizí data mohou být “vývojkou” informací skrytých na vašem
“datafilmu”.
Gauss Algorithmic - nástrahy datové analýzy
Počasí
Ekonomická
data
Geodata
Gauss Algorithmic - nástrahy datové analýzy
Makropohled vs. mikropohled
Gauss Algorithmic - nástrahy datové analýzy
● Data, která nevyužívate jsou nákladem (HW, energie, přenos dat při
ukládání a zálohování).
● Ať děláte co děláte, stejně nikdy nebudete mít “všechna” data, jejich
shromažďování je předpokladem nikoliv smyslem projektu.
● Technologie bez kvalifikovaného personálu nemohou naplnit svůj
potenciál.
● Iluze automatizovaný managerských “klikacích” nástrojů pro
vizualizaci dat se začíná rozplývat.
● Záčatkem projektu musí být definice cílů a otázek jak se k nim dostat
+ plán jak výsledky implementovat v rozhodovacím procesu.
Hlavní problémy využití (velkých) dat
Gauss Algorithmic - nástrahy datové analýzy
● Jaký problém chcete vyřešit? Lidé chtějí více dat, ne proto, aby
udělali lepší analýzu, ale proto, že neví co v datech hledají a tak
chtějí “všechny”.
● Jaká data skutečně potřebuji k řešení problému? Nejen interní, ale i
externí.
● Jak budu data analyzovat? Nejen technologie, ale znalosti a
zkušenosti.
● Jak budu prezentovat výstupy lidem, kteří se jimi mají řídit?
● Jak manageři přenesou výsupy analýzy do reálného provozu.
Jaké otázky si klást před zahajením projektu
Gauss Algorithmic - Používané technologie
● Používáme otevřené technologie vyvíjené a využívané špičkovými
vědeckými týmy (astrofyzika, částicová fyzika, neurovědy).
● IPython / Jupyter + knihovny (scikit learn, scipy, numpy, pandas).
● Jupyter - Multi-user language-agnostic/independent (Python, Julia, R, Ruby,
Haskell, Scala, Go,...).
● Apache Spark - zpracování velkých dat (až 100x rychlejší než Hadoop).
Gauss Algorithmic - pár slov o společnosti
● Spin off digitální agentury Cognito.cz
● Analýza velkých dat, strojové učení a prediktivní analytika
● Jsme posedlí hledáním odpovědí
● “We must know, we will know”
Carl Friedrich Gauss
1777 - 1855
● Matematik
● Fyzik
● Astronom
● Statistik
David Hilbert
1862- 1943
● Matematik
● Optimista
Gauss Algorithmic - Co děláme
● Analýza jazyka (složitost, obsah, význam slov
pro ROI, např. v PPC.)
● Cílení, segmentace a personalizace.
● Detekce anomálií / kybernetická bezpečnost.
● Doporučování pro e-shopy i weby.
● Prediktivní analýzy (poptávka vs cena,
elasticita, scoringové modely, atd.).
● Strategie analýzy firemních dat.
● Zakázkové analýzy malých i velkých dat
(clustering, statistika, webová analytika).
Děkuji za pozornost.
Čas pro Vaše dotazy.

More Related Content

Similar to Jak se vyhnout chybám při analýze nejen velkých dat

Datadriven management
Datadriven managementDatadriven management
Datadriven managementRevoltBI
 
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016Profinit
 
Soumrak session based analytiky
Soumrak session based analytikySoumrak session based analytiky
Soumrak session based analytikyTaste Medio
 
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...Taste
 
2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?Taste Medio
 
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQueryData Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQueryTaste
 
01 online úvod final huntova a tucek
01 online úvod final huntova a tucek01 online úvod final huntova a tucek
01 online úvod final huntova a tucekSIMAR
 
Machine learning - Plantyst
Machine learning - PlantystMachine learning - Plantyst
Machine learning - PlantystRoman Čapek
 
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketinguJan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketinguTargito
 
4 hádanky budoucnosti e-mail marketingu
4 hádanky budoucnosti e-mail marketingu4 hádanky budoucnosti e-mail marketingu
4 hádanky budoucnosti e-mail marketinguTaste Medio
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytikaTaste Medio
 
Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Taste Medio
 
Datarestart - Big Data v praxi
Datarestart - Big Data v praxiDatarestart - Big Data v praxi
Datarestart - Big Data v praxiProfinit
 
Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)
Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)
Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)H1.cz
 
Pokročilá segementace webových návštěvníků (Jan Matoušek)
Pokročilá segementace webových návštěvníků (Jan Matoušek)Pokročilá segementace webových návštěvníků (Jan Matoušek)
Pokročilá segementace webových návštěvníků (Jan Matoušek)Taste Medio
 
Web jako součást obchodního procesu
Web jako součást obchodního procesuWeb jako součást obchodního procesu
Web jako součást obchodního procesuAITOM Digital s.r.o.
 
Strojové učení z rychlíku
Strojové učení z rychlíkuStrojové učení z rychlíku
Strojové učení z rychlíkumichalillich
 
Analytika ve světě startupu (Petr Bureš)
Analytika ve světě startupu (Petr Bureš)Analytika ve světě startupu (Petr Bureš)
Analytika ve světě startupu (Petr Bureš)Taste Medio
 
Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)Sherpas
 
Data Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTM
Data Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTMData Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTM
Data Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTMTaste
 

Similar to Jak se vyhnout chybám při analýze nejen velkých dat (20)

Datadriven management
Datadriven managementDatadriven management
Datadriven management
 
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
 
Soumrak session based analytiky
Soumrak session based analytikySoumrak session based analytiky
Soumrak session based analytiky
 
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
 
2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?2020: AutoML, aneb nahradí roboti analytiky?
2020: AutoML, aneb nahradí roboti analytiky?
 
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQueryData Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
 
01 online úvod final huntova a tucek
01 online úvod final huntova a tucek01 online úvod final huntova a tucek
01 online úvod final huntova a tucek
 
Machine learning - Plantyst
Machine learning - PlantystMachine learning - Plantyst
Machine learning - Plantyst
 
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketinguJan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
 
4 hádanky budoucnosti e-mail marketingu
4 hádanky budoucnosti e-mail marketingu4 hádanky budoucnosti e-mail marketingu
4 hádanky budoucnosti e-mail marketingu
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytika
 
Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)
 
Datarestart - Big Data v praxi
Datarestart - Big Data v praxiDatarestart - Big Data v praxi
Datarestart - Big Data v praxi
 
Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)
Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)
Poslední středa: Neztraťte se v datech (Jakub Drahokoupil)
 
Pokročilá segementace webových návštěvníků (Jan Matoušek)
Pokročilá segementace webových návštěvníků (Jan Matoušek)Pokročilá segementace webových návštěvníků (Jan Matoušek)
Pokročilá segementace webových návštěvníků (Jan Matoušek)
 
Web jako součást obchodního procesu
Web jako součást obchodního procesuWeb jako součást obchodního procesu
Web jako součást obchodního procesu
 
Strojové učení z rychlíku
Strojové učení z rychlíkuStrojové učení z rychlíku
Strojové učení z rychlíku
 
Analytika ve světě startupu (Petr Bureš)
Analytika ve světě startupu (Petr Bureš)Analytika ve světě startupu (Petr Bureš)
Analytika ve světě startupu (Petr Bureš)
 
Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)Webová analytika (ČZU - Webdesign, 11. 12. 2013)
Webová analytika (ČZU - Webdesign, 11. 12. 2013)
 
Data Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTM
Data Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTMData Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTM
Data Restart 2022: Roman Appeltauer - Aktivace first-party dat pomocí SGTM
 

Jak se vyhnout chybám při analýze nejen velkých dat

  • 1. Jak se vyhnout chybám při analýze nejen velkých dat
  • 2. Gauss Algorithmic - nástrahy datové analýzy Ján Janča Gauss Algorithmic Specialista na on-line marketing a využití prediktivní a datové analytiky v e-commerce. “80 % výsledků, které přinesou zisk, najdete ve 20 % analýz.” “Dopředu nikdy nevíte, kterých 20 % to bude.”
  • 3. Gauss Algorithmic - Big data, heslo s kterým se je nutno vypořádat ● Big data = jakýkoliv soubor dat, ve kterém nejsme schopni najíst souvislosti tradičními postupy (tužka, papír, mozek,... Excel). ● Big data analytics = postupy a algoritmy pro získání informací z dat. ● Data driven management = přijímání rozhodnutí na základě informací. Data Informace Rozhodnutí Big data je jednoduchá, ale revoluční myšlenka, že data mají cenu. Big znamená důležité (big deal).
  • 4. Gauss Algorithmic - Nejvýznamnější vlastníci dat na světě 15x 1 EB = 1018 B = 106 TB příklad: Randall Munroe National Geospatial- Intelligence Agency CIANational Reconnaissance Office NSA
  • 5. Gauss Algorithmic - Proč přišla “Big data” právě teď ● Výpočetní výkon a kapacita datových úložišť rostou exponenciálně. ● Lze “upočítat” 100 000x víc než před 10 lety. “Humans, who are limited by slow biological evolution, couldn't compete and would be superseded” Stephen Hawking
  • 6. Gauss Algorithmic - Problém s “Big data” analýzou “80 % výsledků, které přinesou zisk, najdete ve 20 % analýz.” “Dopředu nikdy nevíte, kterých 20 % to bude.”
  • 7. Gauss Algorithmic - Problém s “Big Data” analýzou ● za 80 % výrobních problémů může 20 % příčin ● 80 % příjmů získáte od 20 % zákazníků ● 20 % vaší reklamy přivede 80 % zákazníků ● 80 % dat přenese v síti 20 % uživatelů ● 80 % skladové plochy vám zabere 20 % skladových položek ● 20% vašich obchodních zástupců zajistí 80 % tržeb ● nejčastěji nosíte 20 % oblečení a 80 % téměř nepoužíváte ● 80 % příjmů ve stripclubech získá 20 % tanečnic
  • 8. Gauss Algorithmic - Problém s “Big data” analýzou ● Potřeba rozhodovat se na základě informací získaných z dat “v reálném” čase. ● Omezené množství “upočitatelných analýz v reálném” čase. ● Hodnota získané informace v čase klesá (buď přestane být aktuální nebo stejnou informaci získá více subjektů). ● Potřeba nejprve precizně formulovat otázky, které omezí počet prováděných analýz. Dopady pravidla 80/20 na datovou analýzu Podle výzkumu univerzity MIT, 72% vedoucích pracovníků v oblasti business analytics není spokojeno s rychlostí získávání informací z dat.
  • 9. Gauss Algorithmic - Problém s “Big data” analýzou Pozor na homeopatickou statistiku. Množství informací uložené v určitém množství dat je konečné, někdy dokonce zcela nepatrné, a nijak nesouvisí s množstvím z nich generovaných grafů a tabulek. Řešením není kvantita, ale kvalita
  • 10. Gauss Algorithmic - Problém s “Big data” analýzou 1. Úspěšnou datovou analýzu lze dělat bez znalostí matematiky a statistiky. 1. Úspěšnou datovou analýzu lze dělat pouze se znalostí matematiky a statistiky. Pozor na rozdíl mezi kvalifikací a kompetencí Dva časté omyly na startu
  • 11. Gauss Algorithmic - Problém s “Big data” analýzou Anscombův kvartet v číslech Pro všechny 4. skupiny platí: Střední hodnota x: 9.0 Střední hodnota y: 7.5 Odchylka x: 11.00 Odchylka y: 4.13 Korelace mezi x a y: 0.816 Koeficienty linreg: y = 3.00 + 0.50 x Statisticky téměř shodné datasety. Kompletní příklad na: http://insightdatascience.com/blog/eda-and-graphics-eli-bressert.html Nikdy slepě nevěřte datům I.
  • 12. Gauss Algorithmic - Problém s “Big data” analýzou Ve skutečnosti se od sebe zásadně liší. “There are a lot of small data problems that occur in big data, they don’t disappear because you’ve got lots of the stuff. They get worse.” Prof. David Spiegelhalter University of Cambridge Nikdy slepě nevěřte datům II.
  • 13. Gauss Algorithmic - nástrahy datové analýzy Standardní postup datové analýzy
  • 14. Gauss Algorithmic - nástrahy datové analýzy Vývoj vyhledávání značek “Blackberry”, “Apple” a “Nokia” na Google.com Jak určit oběžnou dobu Měsíce okolo Země bez fyzikálních výpočtů. Hledaná fráze: “full moon” Jak může získat data a odpovědi manager I.
  • 15. Gauss Algorithmic - nástrahy datové analýzy Jak může získat data a odpovědi manager II.
  • 16. Gauss Algorithmic - nástrahy datové analýzy Ne každá korelace je signifikantní
  • 17. Gauss Algorithmic - nástrahy datové analýzy Ne každá korelace je signifikantní
  • 18. Gauss Algorithmic - nástrahy datové analýzy 1. průměrná úspěšnost, počet objednávek a očekávaný obrat podle hodiny, kdy zákazník vytvoří objednávku.. 2. Úspěšnost uzavření obchodu v závislosti na době mezi vložením objednávky a prvním telefonickým kontaktem z call centra. Některé korelace jsou signifikantní
  • 19. Gauss Algorithmic - nástrahy datové analýzy 1. Počet objednávek na obyvatele dle krajů 2. Průměrná cena na osobu a obyvatele v kraji 3. Průměrná cena na osobu a disponabilní příjem/ kraj Nespoléhejte jen na vlastní data ● Spojení vlastních a cizích dat může přinést zcela nové výsledky. ● Cizí data mohou být “vývojkou” informací skrytých na vašem “datafilmu”.
  • 20. Gauss Algorithmic - nástrahy datové analýzy Počasí Ekonomická data Geodata
  • 21. Gauss Algorithmic - nástrahy datové analýzy Makropohled vs. mikropohled
  • 22. Gauss Algorithmic - nástrahy datové analýzy ● Data, která nevyužívate jsou nákladem (HW, energie, přenos dat při ukládání a zálohování). ● Ať děláte co děláte, stejně nikdy nebudete mít “všechna” data, jejich shromažďování je předpokladem nikoliv smyslem projektu. ● Technologie bez kvalifikovaného personálu nemohou naplnit svůj potenciál. ● Iluze automatizovaný managerských “klikacích” nástrojů pro vizualizaci dat se začíná rozplývat. ● Záčatkem projektu musí být definice cílů a otázek jak se k nim dostat + plán jak výsledky implementovat v rozhodovacím procesu. Hlavní problémy využití (velkých) dat
  • 23. Gauss Algorithmic - nástrahy datové analýzy ● Jaký problém chcete vyřešit? Lidé chtějí více dat, ne proto, aby udělali lepší analýzu, ale proto, že neví co v datech hledají a tak chtějí “všechny”. ● Jaká data skutečně potřebuji k řešení problému? Nejen interní, ale i externí. ● Jak budu data analyzovat? Nejen technologie, ale znalosti a zkušenosti. ● Jak budu prezentovat výstupy lidem, kteří se jimi mají řídit? ● Jak manageři přenesou výsupy analýzy do reálného provozu. Jaké otázky si klást před zahajením projektu
  • 24. Gauss Algorithmic - Používané technologie ● Používáme otevřené technologie vyvíjené a využívané špičkovými vědeckými týmy (astrofyzika, částicová fyzika, neurovědy). ● IPython / Jupyter + knihovny (scikit learn, scipy, numpy, pandas). ● Jupyter - Multi-user language-agnostic/independent (Python, Julia, R, Ruby, Haskell, Scala, Go,...). ● Apache Spark - zpracování velkých dat (až 100x rychlejší než Hadoop).
  • 25. Gauss Algorithmic - pár slov o společnosti ● Spin off digitální agentury Cognito.cz ● Analýza velkých dat, strojové učení a prediktivní analytika ● Jsme posedlí hledáním odpovědí ● “We must know, we will know” Carl Friedrich Gauss 1777 - 1855 ● Matematik ● Fyzik ● Astronom ● Statistik David Hilbert 1862- 1943 ● Matematik ● Optimista
  • 26. Gauss Algorithmic - Co děláme ● Analýza jazyka (složitost, obsah, význam slov pro ROI, např. v PPC.) ● Cílení, segmentace a personalizace. ● Detekce anomálií / kybernetická bezpečnost. ● Doporučování pro e-shopy i weby. ● Prediktivní analýzy (poptávka vs cena, elasticita, scoringové modely, atd.). ● Strategie analýzy firemních dat. ● Zakázkové analýzy malých i velkých dat (clustering, statistika, webová analytika). Děkuji za pozornost. Čas pro Vaše dotazy.