Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
1. B. Zoubek / P. Máša / P. Paščenko / M. Holub 30. listopadu 2016
BIG DATA:
reálné aplikace pro business
tady a teď
2. 2
08:30 - 09:00 Registrace, coffee & networking
09:00 - 09:30 Funkční a nefunkční modely zavedení BIG DATA ve firmách
09:30 - 10:00 Uplně nový vhled do chovaní klienta prostřednictvím Data science
10:00 - 10:15 Přestávka
10:15 - 10:50 Případové studie:
Identifikace fraudu (BANKOVNICTVÍ, TELEKOMUNIKACE)
Zvyšovaní efektu využití klientských dat (FINANCE)
10:50 - 11:00 Shrnutí, závěr
11:00 - 11:30 Diskuse u kávy
Program pracovní snídaně
Petr Paščenko
Head of Data Science
Profinit
Martin Holub
Data Science Consultant
Petr Máša
Partner
smartshift
4. Funkční a nefunkční modely
› Některé modely vedou k úspěchu a některé ne. V čem je liší?
Některé firmy se snaží
zavádět nové koncepty.
Některé uspějí.
Jiné nikoliv.
Některé firmy se snaží
opakovat funkční modely
od konkurentů.
Některé uspějí.
Jiné nikoliv.
BIG DATA SCIENCE
slibuje nové možnosti
a rostoucí profit
Jak být úspěšný a jak
předejít neúspěchu?
5. Úspěšné modely zavedení
› Příklady úspěšných v oblasti BIG DATA SCIENCE? Jaký byl
původní záměr? Jaká byla velikost trhu? Jaká byla role
BIG DATA SCIENCE?
Neustálé zlepšování a revize business cílů je klíčová.
6. BIG DATA SCIENCE
› Návrat do buducnosti?
2002 2016
Stále potřebujeme vlastní
know-how pro realizaci
Business + Tech
Korporátní klienti + Online
startupy
Business responsible – Jako
služba – Konzultace
Marketing + Prodejní podpora
Stále potřebujeme
tým pro podporu
Tým nadšených lidí, kteří
chtějí něco dokázat
Spolupráce s týmem
odborníků se specifickými
znalostmi
Reálný čas a BIG DATA
nejsou omezením.
(objem, nástroje pro datové
toky)
7. Funkční a nefunkční modely zavedení business
přínosů
› Některé modely fungují a jiné nefungují. V čem se liší?
› Mnoho firem se snaží představovat nové koncepty. Některé
jsou úspěšné a některé vůbec ne. Některé společnosti se snaží
kopírovat funkční koncepty konkurence. Jaké jsou hlavní faktory
úspěchu?
Phase 1 Phase 2 Phase 3
Collect
underpants ? Profit
8. Od soumraku do úsvitu
› Nečekejte úspěch hned na první dobrou
› Většina firem neví, jakého je schopna ve finále dosáhnout profitu.
Jen věří tomu, že jdou správnou cestou a zkušenost v podobě
silného business pocitu. Jak reagují jejich klienti? Z čeho se těší?
Mají jasnou vizi, realizační tým a schopnost uvést věci do reality.
Vše stavějí na zkušenostech.
Buďte akceschopní
Akceptujte chyby
Stavte na úspěších
Mějte vizi a přesvědčení
o tom, že vaše cesta je
správná.
Mějte vizi
Fokus na business cíle
Slibujte splnitelné
Mějte jasné business cíle.
Zkoušejte, naslouchejte co
můžete zlepšit a kam až
můžete zajít.
Na první pokus zpravidla
nedostanete zázraky. Ale může
vám ukázat kudy jít a co k tomu
udělat. Zejména ve velkých
korporacích je to dobrý start.
Mějte tým, který je schopný uvést
nápady do reálného života. Připravte
jim vhodné prostředí a předpoklady.
Učte se z chyb. Plánujte vše
s vědomím, že nasazení trvá déle
a bere více zdrojů, než původně
čekáte.
Nebojte se přenastavovat business
cíle při dosažení přínosů. Nemějte
strach z toho, že se původní záměr
nepovedl, stavte na skutečných
úspěších. Podporujte je a rozvíjejte.
9. Příklady – případové studie zavedení big dat
ONLINE HERNÍ STARTUP
Německo
BANKA
Západní Evropa
HERNÍ STUDIO
Česká prepublika
UTILITY
CEE
1 3
2 4
10. Role potřebné k úspěchu
› Jaké role jsou potřebné pro úspěšné zavedení?
› Tyto role jsou potřebné pro každou business změnu, která využívá
techniického vylepšení. Klíčové role je potřeba upravit konkrétnímu
prostředí, některé role jsou vynechány (manažerská podpora atd.).
Klíčové výkonné role jsou uvedeny níže.
Business
visionář
a sponzor
Business
architekt se
silným IT
Analytika
(Data Science)
„Osvícení“
IT architekti
11. Data Science a Big Data
Vhled do chování klienta
Petr Paščenko
14. 15
Data Science
› Statistika, Informatika, Data mining, Strojové učení, Umělá inteligence
› Rozdíl oproti Business Intelligence
– BI: kolik tužek prodaly jednotlivé pobočky v září?
– DS: kolik jich prodají v říjnu?
› Klíčové kritérium je práce s nejistotou, pravděpodobnostní výsledek
– Prediktivní modelování
– Segmentace, shlukování
– Podobnostní modelování, kolaborativní filtrování,
doporučovací systémy
– Detekce anomalit
– Text-mining,
– Web-mining,
– Image processing,
– SNA,
– atd.
15. 16
Data Science otázky
› Kteří klienti
– si vezmou úvěr / kreditku / hypotéku / cestovní pojištění atd.
– odejdou / předčasně splatí úvěr / nesplatí úvěr
– pracují u které firmy / žijí ve společné domácnosti / hodně cestují / dojíždějí
› Jaký produkt/službu
– nabídnout klientovi na pobočce / jaký zobrazit reklamní banner
› Jaký komunikační kanál zvolit pro konkrétního klienta
› Kteří obchodní partneři
– se chystají odejít / pracují i pro jinou pojišťovnu / nadhodnocují pojistné události
› Fraud
– Které pojistné události jsou pojistnými podvody?
– Které transakce jsou podvržené?
– Které sim karty zneužívají telefonní síť?
› Jaké zboží kdy dodávat na které pobočky obchodního řetězce?
› Jaká je očekávaná velikost datového extraktu v dwh?
16. 17
Big Data
› Definice
– Metodika a ekosystém technologií pro ukládání a správu a analýzu velkých dat na
distribuovaných úložištích (cluster) pomocí paralelních výpočtů
› Spojení výpočetní a datové platformy
– Data jsou tak velká, že je nejde zpracovávat mimo cluster
› Klíčová slova
– Hadoop, HDFS, Hbase, Hive, Impala, Hortonworks, Cloudera, Spark atd.
› Uvedení mýtů na pravou míru
– Nejde o náhradu relačních databází a dwh, ale o jejich doplnění
– Nejde o objem dat, ale o typ výpočtů, které nad nimi provádíme
› Jak to souvisí s Data Science
– Hlavní využití, analytické výpočty nad velkými daty (Google Page Rank)
– Mezitím v Česku: hlavní využití, levné úložiště dat
› Kde to začalo
– Google, Amazon, Netflix, Facebook – rozsáhlé doporučovací problémy
17. 18
Big Data Science
› Google
– Google není vyhledávač, Google je řadič
– 1G stránek s řádově více odkazy
– V jakém pořadí zobrazit výsledky vyhledávání
– Big Data Algoritmus PageRank
• Hledání vlastních vektorů velké matice
› Amazon, Netflix, YouTube
– Kdo si koupil Babičku, ten si koupí Broučky
– Big Data Algoritmus Kolaborativní filtrování
• Singular Value Decomposition
› Facebook
– Komu zobrazit jaký obsah
– Kombinace
• SNA – přátelé
• Kolaborativní filtrování – like
› A co banky?
18. 19
Big Data – Architektura
HADOOP + SPARKDWH
DATA SCIENTIST
BYZNYS ANALYTIK
DATA SCIENCEBYZNYS BIG DATA
ANALÝZA
DAT VÝVOJ
A ÚPRAVY
MODELŮ
TESTOVÁNÍ
A PRODUKČNÍ
BĚH MODELŮ NA
VELKÝCH DATECH
ZÁKAZNÍK
KONZUMUJE
VÝSLEDKY FORMOU
SQL NEBO
KOMPATIBILNÍ
20. 21
Big Data Science – hlavní přínos
› Klasický Data Mining se omezuje na SQL agregace (avg, sum,…)
› Big Data – umožňuje vyhledávat podobnosti a vztahy
– počítání micro-událostí (kolikrát A a B zaplatili ve stejném obchodě)
– Párové statistiky (c2c podobnosti, rodinné vztahy, zaměstnání, atd.)
– Tranzitivní vztahy (klient – obchod – klient)
TRANSAKCE PODOBNOSTI
A VZTAHY
HADOOP SPARK SQL
21. 22
Analýza Finančních Transakcí pomocí BD
› Vytváříme vyladěné modely pro retailové banky
› Vstup – finanční transakce
› Výstup – využitelné informace o klientovi, příznaky, události,
› Cílem je obohatit stávající obchodní proces o novou znalost
Převod mezi lidmi
Platba kartou
Příjem
Nákup na internetu
Platby za služby
Ostatní platby
Výběr z bankomatu
22. 23
Salary detector
› Vstup
– Finanční transakce typu firma - klient
› Výstup: Identifikované vztahy
zaměstnavatel – zaměstnanec
› Business case
– Rizikové skóre, detekce událostí, podobnosti (c2c/b2b),…
› Principy
– Detekce transakčních vzorců, text mining, pokročilá statistika
› Vysoká přesnost i pro
– Krátké úvazky – délka nepřesahující 3 měsíce
– Nestandardní úvazky (částečné úvazky, práce na živnost, atd.)
– Firmy s malým počtem zaměstnanců
› Nastavitelná přesnost (TP/FP)
› Reference
– Equa Bank
23. 24
Detekce domácnosti – Banka/Telco
› Vstup
– Klientské transakce – banka (c2c, karetní operace,…)
– Informace ze sítě – telco (cdr, lokace, billing)
– Základní demografie (věk, pohlaví, adresa, příjmení,…)
› Výstup
– Identifikace členů domácnosti a rodinných vztahů
› Obchodní využití
– Rodinný marketing, robustní rizikové skóre,…
› Principy
– Detekce transakčních vzorců, analýza interakcí, text mining
› Nastavitelná přesnost (TP/FP)
› Reference
– Equa Bank, TP: 93% při FP: 2.5%
24. BIGDATA – Data Science tým
Case study (finanční sektor)
Martin Holub
25. 26
Cíle banky
› Banka chce:
Zahájit aktivní prodej pojištění
Profit z prodeje pojištění
1
3
Phase 1 Phase 2 Phase 3
Collect
underpants ? Profit
26. 27
Naše porozumění
Klient zná potenciál trhu (dle zpracované analýzy klientského portfolia)
v oblasti prodeje pojišťovacích produktů a má data o tom, kde jsou
hlavní customer touch-points (kde iteruje s klientem)...
Hledá hlavní obchodní argumentace pro oslovení klientů pro
upsell pojišťovacích produktů pro finanční služby v on-line
kanálech.
Potřebuje ověřit možnosti oslovení klientů banky, kteří využívají
pojišťovací produkty.
Hlavními prodejními kanály jsou internetbanking, eshop,
interní a externí call centrum a ATM.
1
2
3
27. 28
Naše zadání
Připravit ideově “value proposition” pro prodejní nabídky
pojistných produktů podle životní situace klienta (např. podle
transakční historie klienta nebo činnosti, kterou je banka
schopna identifikovat v on-line prostoru či styku klienta
s bankou).
Zformalizovat základní výběrová kritéria pro kampaně
v on-line kanálech pro zadání na direct marketing.
Optimalizovat prodej v on-line kanálech na základě best
practices.
1
2
3
28. 29
Pojistné produkty
1. Pojištění karty a osobních věcí k DK či KK
2. Pojištění vyčerpané částky ke KK
3. Cestovní pojištění k účtu
4. Pojištění pravidelných plateb / výdajů k osobnímu účtu
5. Právní ochrana k osobnímu účtu
6. Autopojištění
7. Pojištění domácnosti
8. Pojištění sportovního vybavení
9. Pojištění odpovědnosti
29. 30
Požadované výstupy
Ke každému z 9 pojistných produktů definovat 2 – 3 prodejní
kampaně tj.:
a) cílová skupina, podmínky výběru dle demografického
vymezení skupiny a transakční historie,
b) hlavní argumentace proč by měl klient zakoupit,
c) kanál pro kampaň (telesales, on-line, ATM,…)
Doporučit možná zlepšení prodejních on-line kanálů pro
prodej pojištění pro zvýšení prodeje.
Doporučit, na které TOP3 produkty v oblasti pojištění se
zaměřit z pohledu úspěšnosti a revenue.
1
2
3
31. 32
Požadované výstupy (.doc)
6. Autopojištění
Jedná se o nejvíce zajímavý produkt pojištění a to jak pro budoucí
revenue banky, tak také pro budování vztahu s klienty v oblasti pojištění
resp. v oblasti finančních služeb.
Prodej může být úspěšný pouze v případě přípravy value propozice proti
každému jinému autopojištění konkurenčních pojišťoven. Lze take využít
efektivní časování. Ze seznamu lze také vyloučit některé silné pojišťovny
se silným resp. loajálním kmenem typu ČPP.
Navíc Autopojištění od klienta, jak ho připravilo oddělení produktového
management je unikátním pojišťovacím produktem, protože jako jediný na
ČR trhu “neřeší” malus a bonus. Je zkrátka určený pro velmi specifickou
a zároveň širokou cílovou skupinu.
32. 33
Požadované výstupy (.doc)
6. Autopojištění – II.
Obchodní potenciál je velmi zajímavý – hypotézy:
› 100 tisíc+ unikátních klientů
› 2 000 000 000+ celkový objem transakcí
› Průměrné pojistné 3840 Kč / rok
› Dosažitelná úspěšnost kampaně až 10%
› Dosažitelná výše sjednatelské provize až 70 000 000 Kč
33. 34
Požadované výstupy (.doc)
6. Autopojištění – III.
1. Definovat 2 – 3 prodejní kampaně tj.:
› Cílová skupina, podmínky výběru dle demografického vymezení
skupiny a transakční historie
› Hlavní argumentace proč by měl klient zakoupit
› Kanál pro kampaň (telesales, on-line)
Zejména mladí lidé
Svatba - změna příjmení
Odchod na mateřskou - narození dítěte
Rodina - potřeba prvního soukromého auta
Rodina - druhé dítě - větší auto - stejná pojistná částka?
Klienti s vyšším škodním průběhem
Klienti bez historie u pojišťoven
Klienti se služebním autem - bez historie plateb v servisu
Klienti po PÚ - transakce na kartě servis = vyšší pojistné
Velká města, zejména Praha
Rodiny s dospívajícími dětmi (podle věku - děti 18 až 21 ideálně)
34. 35
Autopojištění
Cílová skupina & časování
› Dle (ne)segmentačních kritérií
a pojišťoven
– Zejména mladí lidé
– Města/okresy
– Vyšší škodní průběh
– Svatba, rodina, změna potřeb
Způsob oslovení
› IB (banner ideálně s kalkulačkou
– minimálně POV, max. 1 proklik)
› Inbound call + follow-up
› Outbound call (dle BC)
Value propozice, argumentace
› Dle pojišťoven
– AXA, … - krytí
– ČP, Allianz – garance ceny
› Dle produktových doporučení
Způsob sjednání
› Během hovoru
› Přes web (IB cena, má-li zájem,
pak stránky pojištění)
36. 37
Lesson Learned
Je potřeba začít budovat důvěru klientů v oblasti X-sell
Důvodem neúspěšných kampaní není pouze jejich špatné
nastavení, jedná se často o nedůvěru či nepochopení
Pokud nezafungují připravené životní situace, je potřeba
„zvolnit“ a zkusit jiný přístup
1
2
3
Kdy mají klienti banku rádi?
Musím si koupit pojištění ke kartě? NE
Potřebuji pojištění karty a osobních věcí? NE
Potřebuji pojištění domácnosti? ANO, protože vím, co to je a vím, že pojištění
chrání to, co mám rád a na čem mi záleží.
Potřebuji autopojištění? ANO, protože to je povinné a protože auto potřebuji
a jeho oprava stojí hodně peněz.
37. 38
1. Autopojištění
2. Pojištění domácnosti
3. Pojištění odpovědnosti
4. Pojištění sportovního vybavení
Výstupy: TOP3 produkty v oblasti pojištění
z pohledu úspěšnosti a revenue
39. 40
Executive summary
Pojistný trh má
velký potenciál
- Předepsané pojistné – cca 120 mld. ročně (retail + business)
- Identifikované platby klientů klienta – cca 12 mld. ročně
- Provize 5 největších finančních zprostředkovatelů – cca 5 mld. ročně
Návrh projektu
– vytěžit z něj
100 mil. Kč
Navrhujeme projekt (sada kampaní na klienty zejména přes ADK
+ jejich nastavení a ladění), který přinese za období od / do
z pojistného trhu 100 mil. Kč (dle metodiky dále popsané).
Způsob odměny
– projekt vs
success fee model
Time & Material
- Odměna v % za smlouvy uzavřené ve výše uvedeném období
- Bonus ve výši % v případě dosažení 100 mil. Kč
- Odměna 0% za smlouvy uzavřené po dohodnutém termínu
VS
40. 41
Podrobnější popis obsahu projektu
Vytěžování klientských dat – prodej NŽP, ŽP
Využít resp. vytěžit existující transakční a jiná provozní data klienta
k inteligentním výběrům pro přípravu a realizaci přímých kampaní se
zaměřením na prodej (sjednání) neživotního (NŽP) a životního (ŽP)
pojištění.
Připravit potřebnou value proposition ve spolupráci se zástupci
produktových oddělení klienta.
Postupné zavádění jednotlivých scénářů a dalších potřebných aktivit
vedoucích k dosažení prodejů NŽP a ŽP pojištění stávajícím klientům
klienta hlavně prostřednictvím ADK.
Důležitou součástí je průběžné vyhodnocování kampaní, jejich ladění
a finální správné vyhodnocení projektu.
V rámci projektu očekáváme realizaci několika kampaní v několika
alternativách a časových vlnách.
41. 42
Požadavky na součinnost
Business sponzor
+ executive assistant
0.5 – 1.5 MDs / měsíc
Oddělení datových analýz
0.5 – 3 MDs /kampaň/pilot
Oddělení kampaní
0.5 – 3 MDs /kampaň/ pilot
Oddělení ADK
a komunikačních kanálů
0.5 – 1 MD /kampaň/pilot
Obchod
Produkty – nabídky, segmentace
0 – 10 MDs
Oddělení marketingu
1-3 MDs / kampaň / pilot
Oddělení produktů – ladění, procesy
1 – 5 MDs / měsíčně
43. 44
Kritéria úspěchu projektu a metodika výpočtu
provizí
› Získání dodatečných 100 mil. Kč na provizích (počítaných
dle metodiky níže) za prodeje od / do
ŽIVOTNÍ
POJIŠTĚNÍ
Odhad 40 mil. Kč
(není kritériem, kritériem je součet)
Metodika: přijaté provize vynásobené koeficientem očekávaných storen (počítán jako
procento storno provizí ku vyplaceným provizím za celý nový business za všechny
distribuční kanály).
NEŽIVOTNÍ
POJIŠTĚNÍ
Odhad 60 mil. Kč
(není kritériem, kritériem je součet)
Metodika: přijaté provize plus očekávané budoucí provize dle průměrné délky života
smlouvy v kmeni pojišťovny za daný druh pojištění za všechny distribuční kanály (např.
autopojištění, majetkové pojištění).
45. 46
Shrnutí úlohy
› Detekce přístupu pod falešnou
identitou s cílem vykrást účet
› Scenář: podvodník překonal 2FA
› Vstup
– Běhová data z online bankovnictví (sekvence akcí v klientském sezení).
› Výstup
– Identifikovaná fraudulentní sezení
› Principy
– Velmi složitý problém, podíl fraudů cca 1:120 000
– Vyžaduje vícero zřetězených sít
– Pokročilé statistické modely (detekce lokálních odlehlostí)
› Nastavitelná přesnost (TP/FP), např.: TP: 50% for FP: 0.3%
BANKA
46. 47
Klasifikační úloha
› Vstupní data
– Akce klientů
› Příznakový vektor
– Statistiky session
– Délka, čas na akci, …
› Model
– Klasifikátor
› Výsledek
– Ano / Ne
ID SESSION ID DATETIME ACTION AMOUNT RESULT
1234567890 vs3T … dGpf
2015-04-03
13:03:58
112 0
1234567890 vs3T … dGpf
2015-04-03
13:03:58
130 0
1234567890 vs3T … dGpf
2015-04-03
13:04:14
1248 0
1234567890 vs3T … dGpf
2015-04-03
13:04:14
120 12400 530
1234567890 vs3T … dGpf
2015-04-03
13:07:21
530 0
1234567890 vs3T … dGpf
2015-04-03
13:07:38
120 12400 0
1234567890 vs3T … dGpf
2015-04-03
13:09:03
68 0
FRAUD? ALERT
PROVÉST PLATBU
PŘÍZNAKOVÝ VEKTOR
ANO
NE
47. 48
Internetové bankovnictví
› Uvažujme banku s milionovou klientskou bází
› Každý klient provede denně v průměru jednu návštěvu v IB
› Denně průměrně 1 000 000 session
› Z toho zhruba 12% session s platbou
› 120 000 session s platbou
› Denně v průměru 1 fraud
› To není moc ;-)
49. 50
Co nefunguje
› Klasifikátory učené z dat
– Nevyvážené třídy
– NE s úspěšností 99,999%
› Popíšeme typický útok
– Neexistuje typický útok
– Příprava na minulou válku
FRAUD? ALERT
PROVÉST PLATBU
PŘÍZNAKOVÝ VEKTOR
ANO
NE
50. 51
Detekce anomalit
› Podvodník se chová jinak než klient
› Nevíme jak, ale jinak
› Jak poznáte, že někdo nebo něco je divný?
VS
55. 56
Co je SimBox Fraud
› Podvodné schéma v telekomunikacích
› Mezinárodní volání přináší značné zisky, o které se operátoři dělí
ZAHRANIČNÍ
OPERÁTOR
DOMÁCÍ
OPERÁTOR
56. 57
Co je SimBox Fraud
› Nebo by alespoň měli
› SBF je snahou obejít operátora v cílové zemi
57. 58
Telco Big Data SimBox Fraud
› Scénář
– Zahraniční operátor/subjekt obchází
standardní mezistátní hovor přes internet
s cílem ušetřit na mezinárodním propojovacím
poplatku
› Vstup
– Telco, síťová data (cdr, location, billing)
› Výstup
– Identifikované podezřelé sim karty
› Principy
– Detekce specifických typů neobvyklého chování
– Rozpoznání skupin s podobným chováním
– Automatická detekce pomocí roamingových dat
› Nastavitelná přesnost (TP/FP)
› Reference
– T-Mobile
58. 59
Metoda řešení
› Podvodná sim karta má odlišné vzorce chování
› Sestavíme pro každou sim kartu popisný vektor
› Vyhodnotíme charakteristické vzorce
› Problém
– Extrémě malá tréninková data
– 3 simboxy, 40 sim karet, 11 dní
› Bayesovský klasifikátor
– Víme, co se děje uvnitř
– Robustní matematický základ
61. 62
Výsledek
› PoC ukázalo, že úloha je efektivně řešitelná
› Proběhl pilot
– Nebyl nalezen žádný další Simbox
› Bylo nalezeno několik různých jiných typů zneužití
sítě a porušení provozních podmínek
– objednána implementace
63. 64
Big Data Science
HADOOP + SPARKDWH
DATA SCIENTIST
BYZNYS ANALYTIK
DATA SCIENCEBYZNYS BIG DATA
ANALÝZA
DAT VÝVOJ
A ÚPRAVY
MODELŮ
TESTOVÁNÍ
A PRODUKČNÍ
BĚH MODELŮ NA
VELKÝCH DATECH
ZÁKAZNÍK
KONZUMUJE
VÝSLEDKY FORMOU
SQL NEBO
KOMPATIBILNÍ
Interní vývoj Projekt Služba Interim
64. Profinit EU, s.r.o.
Tychonova 2, 160 00 Praha 6
Telefon
+ 420 224 316 016
Web
www.profinit.eu
LinkedIn
linkedin.com/company/profinit
Twitter
twitter.com/Profinit_EU
Děkujeme
za pozornost