Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
22. 10. 2014
Skryté nebezpečenstvá 
čísiel 
@rgavuliak 
roman.gavuliak@gmail.com
Obsahuje 
● Zlé zlé priemery 
● Simpsonov paradox 
● Korelácia a kauzalita 
● Benfordov zákon 
● Base rate fallacy 
● Regr...
Zlé zlé priemery 
Stránka s obsahom 
Priemer: 16.57 
Medián: 2 
Modus: 1 
Zlé zlé stredné hodnoty
Zlé zlé priemery
Zlé zlé priemery 
● Histogram 
● Box-plot graf 
● Frekvenčné tabuľky
D'oh! 
● Zlé zlé priemery 
● Simpsonov paradox 
● Korelácia a kauzalita 
● Benfordov zákon 
● Base rate fallacy 
● Regress...
Simpsonov paradox 
a.k.a priveľa agregácie
Simpsonov paradox
Simpsonov paradox 
● Skontrolovať break downy 
● Zvážiť všetky možné faktory
Každá SME (Projekt-N) diskusia 
● Zlé zlé priemery 
● Simpsonov paradox 
● Korelácia a kauzalita 
● Benfordov zákon 
● Bas...
Korelácia neznamená kauzalitu 
Ale koreluje s ňou
Korelácia neznamená kauzalitu
Korelácia neznamená kauzalitu
Korelácia neznamená kauzalitu 
64.5 %
Korelácia neznamená kauzalitu 
● Spoločná príčina 
● Predikcia vs A/B testy 
● Common sense (a.k.a. domain knowledge)
Zákony sú na to aby sa porušovali 
● Zlé zlé priemery 
● Simpsonov paradox 
● Korelácia a kauzalita 
● Benfordov zákon 
● ...
Benfordov zákon 
Ako často čísla začínajú na 
konkrétne číslice?
Benfordov zákon 
Prvá číslica Pravdepodobnosť 
1 30.1% 
2 17.6% 
3 12.5% 
4 9.7% 
5 7.9% 
6 6.7% 
7 5.8% 
8 5.1% 
9 4.6%
Benfordov zákon - kde všade? 
Účty za elektrinu, adresy domov, 
burzové dáta, populácia, dĺžka riek...
Huh? 
● Zlé zlé priemery 
● Simpsonov paradox 
● Korelácia a kauzalita 
● Benfordov zákon 
● Base rate fallacy 
● Regressi...
Base rate fallacy 
● V meste A operujú 2 taxi spoločnosti, Modrá (85 %) a 
Zelená (15 %) 
● V noci vodič taxíku zrazil cho...
Base rate fallacy 
12 % 
17 %
Base rate fallacy 
Šanca, že taxík je naozaj modrý 
41 %
Base rate fallacy 
● Bayesovský prístup
Návrat k priemeru 
● Zlé zlé priemery 
● Simpsonov paradox 
● Korelácia a kauzalita 
● Benfordov zákon 
● Base rate fallac...
Regression to the mean 
Máte pocit, že... 
po tom, ako Vás šef za niečo “zjazdí”, Vaše 
výsledky sa zlepšia? 
keď už kvôli...
Regression to the mean 
Skúste hádzať kockou a vždy keď hodíte 
jednotku, nakričte na ňu … 
Čo by sa stalo ak si ten med s...
Regression to the mean 
● Data beats intuition 
Naozaj neškodný?
Určite ste počuli... 
“Statistics are like bikinis. What they reveal is 
suggestive, but what they conceal is vital.” 
― A...
Ale... 
It is easy to lie with statistics but it is easier to 
lie without them. 
- Frederick Mosteller 
Essentially, all ...
Zdroje 
http://vudlab.com/simpsons/ 
http://www.drmaciver.com/2014/05/spurious-correlations-and-causation/ 
http://www.kir...
Ďakujem za pozornosť 
otázky, pripomienky, skúsenosti?
6.11.2014 
Refinery Gallery 
User Experience / Ecommerce / Data Mining / Data Visualisation 
Performance Marketing / Softw...
Nächste SlideShare
Wird geladen in …5
×

Skryté nebezpečenstvá čísel

718 Aufrufe

Veröffentlicht am

Prezentacia z meetupu Banalytics (22. 10. 2014) zaoberajuca sa casto prehliadanymi javmi, ktore mozu v ramci kvantitativnej analyzy nastat.

Veröffentlicht in: Wissenschaft
  • Loggen Sie sich ein, um Kommentare anzuzeigen.

  • Gehören Sie zu den Ersten, denen das gefällt!

Skryté nebezpečenstvá čísel

  1. 1. 22. 10. 2014
  2. 2. Skryté nebezpečenstvá čísiel @rgavuliak roman.gavuliak@gmail.com
  3. 3. Obsahuje ● Zlé zlé priemery ● Simpsonov paradox ● Korelácia a kauzalita ● Benfordov zákon ● Base rate fallacy ● Regression to the mean
  4. 4. Zlé zlé priemery Stránka s obsahom Priemer: 16.57 Medián: 2 Modus: 1 Zlé zlé stredné hodnoty
  5. 5. Zlé zlé priemery
  6. 6. Zlé zlé priemery ● Histogram ● Box-plot graf ● Frekvenčné tabuľky
  7. 7. D'oh! ● Zlé zlé priemery ● Simpsonov paradox ● Korelácia a kauzalita ● Benfordov zákon ● Base rate fallacy ● Regression to the mean
  8. 8. Simpsonov paradox a.k.a priveľa agregácie
  9. 9. Simpsonov paradox
  10. 10. Simpsonov paradox ● Skontrolovať break downy ● Zvážiť všetky možné faktory
  11. 11. Každá SME (Projekt-N) diskusia ● Zlé zlé priemery ● Simpsonov paradox ● Korelácia a kauzalita ● Benfordov zákon ● Base rate fallacy ● Regression to the mean
  12. 12. Korelácia neznamená kauzalitu Ale koreluje s ňou
  13. 13. Korelácia neznamená kauzalitu
  14. 14. Korelácia neznamená kauzalitu
  15. 15. Korelácia neznamená kauzalitu 64.5 %
  16. 16. Korelácia neznamená kauzalitu ● Spoločná príčina ● Predikcia vs A/B testy ● Common sense (a.k.a. domain knowledge)
  17. 17. Zákony sú na to aby sa porušovali ● Zlé zlé priemery ● Simpsonov paradox ● Korelácia a kauzalita ● Benfordov zákon ● Base rate fallacy ● Regression to the mean
  18. 18. Benfordov zákon Ako často čísla začínajú na konkrétne číslice?
  19. 19. Benfordov zákon Prvá číslica Pravdepodobnosť 1 30.1% 2 17.6% 3 12.5% 4 9.7% 5 7.9% 6 6.7% 7 5.8% 8 5.1% 9 4.6%
  20. 20. Benfordov zákon - kde všade? Účty za elektrinu, adresy domov, burzové dáta, populácia, dĺžka riek...
  21. 21. Huh? ● Zlé zlé priemery ● Simpsonov paradox ● Korelácia a kauzalita ● Benfordov zákon ● Base rate fallacy ● Regression to the mean
  22. 22. Base rate fallacy ● V meste A operujú 2 taxi spoločnosti, Modrá (85 %) a Zelená (15 %) ● V noci vodič taxíku zrazil chodca a ušiel z miesta nehody ● Svedok nehody identifikoval taxík modrej farby ● Polícia otestovala schopnosť svedka rozoznať tieto dve farby za rovnakých podmienok v akých sa stala nehoda s 80 % úspešnosťou rozoznávajúce schopnosti ● Verili by ste výpovedi svedka?
  23. 23. Base rate fallacy 12 % 17 %
  24. 24. Base rate fallacy Šanca, že taxík je naozaj modrý 41 %
  25. 25. Base rate fallacy ● Bayesovský prístup
  26. 26. Návrat k priemeru ● Zlé zlé priemery ● Simpsonov paradox ● Korelácia a kauzalita ● Benfordov zákon ● Base rate fallacy ● Regression to the mean
  27. 27. Regression to the mean Máte pocit, že... po tom, ako Vás šef za niečo “zjazdí”, Vaše výsledky sa zlepšia? keď už kvôli prechladnutiu vypľúvate dušu, pomôže Vám med s maslom? Nezúfajte, je tu návrat k priemeru!
  28. 28. Regression to the mean Skúste hádzať kockou a vždy keď hodíte jednotku, nakričte na ňu … Čo by sa stalo ak si ten med s maslom nedáte? ... Áno, presne pre toto kontrolná skupina berie placebo...
  29. 29. Regression to the mean ● Data beats intuition Naozaj neškodný?
  30. 30. Určite ste počuli... “Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.” ― Aaron Levenstein "Lies, damned lies, and statistics„ ― Mark Twain
  31. 31. Ale... It is easy to lie with statistics but it is easier to lie without them. - Frederick Mosteller Essentially, all models are wrong, but some are useful. - George E. P. Box
  32. 32. Zdroje http://vudlab.com/simpsons/ http://www.drmaciver.com/2014/05/spurious-correlations-and-causation/ http://www.kirix.com/blog/2008/07/22/fun-and-fraud-detection-with-benfords-law/ http://en.wikipedia.org/wiki/Representativeness_heuristic#The_taxicab_proble m http://understandinguncertainty.org/node/545 http://matheducators.stackexchange.com/questions/1325/impressive-common-misleading- interpretations-in-statistics-to-make-students-awar/1464#1464 http://ije.oxfordjournals.org/content/34/1/215.full
  33. 33. Ďakujem za pozornosť otázky, pripomienky, skúsenosti?
  34. 34. 6.11.2014 Refinery Gallery User Experience / Ecommerce / Data Mining / Data Visualisation Performance Marketing / Software Development Jozo Kovac 7Segments Customer Retention, The Key to Business Success Thomas Hitthaler Strukt Interactive Data Visualization of an Airport in real-time Stefan Konopatzki Stilago Active Buyers – The source of each conversion Dejan Pekter More info and registration at conversionmeetup.net Nordeus Reactor design pattern

×