SlideShare ist ein Scribd-Unternehmen logo
1 von 64
B. Zoubek / P. Máša / P. Paščenko / M. Holub 30. listopadu 2016
BIG DATA:
reálné aplikace pro business
tady a teď
2
08:30 - 09:00 Registrace, coffee & networking
09:00 - 09:30 Funkční a nefunkční modely zavedení BIG DATA ve firmách
09:30 - 10:00 Uplně nový vhled do chovaní klienta prostřednictvím Data science
10:00 - 10:15 Přestávka
10:15 - 10:50 Případové studie:
Identifikace fraudu (BANKOVNICTVÍ, TELEKOMUNIKACE)
Zvyšovaní efektu využití klientských dat (FINANCE)
10:50 - 11:00 Shrnutí, závěr
11:00 - 11:30 Diskuse u kávy
Program pracovní snídaně
Petr Paščenko
Head of Data Science
Profinit
Martin Holub
Data Science Consultant
Petr Máša
Partner
smartshift
Funkční a nefunkční
modely zavedení BIG DATA
SCIENCE
Petr Máša
Funkční a nefunkční modely
› Některé modely vedou k úspěchu a některé ne. V čem je liší?
Některé firmy se snaží
zavádět nové koncepty.
Některé uspějí.
Jiné nikoliv.
Některé firmy se snaží
opakovat funkční modely
od konkurentů.
Některé uspějí.
Jiné nikoliv.
BIG DATA SCIENCE
slibuje nové možnosti
a rostoucí profit
Jak být úspěšný a jak
předejít neúspěchu?
Úspěšné modely zavedení
› Příklady úspěšných v oblasti BIG DATA SCIENCE? Jaký byl
původní záměr? Jaká byla velikost trhu? Jaká byla role
BIG DATA SCIENCE?
Neustálé zlepšování a revize business cílů je klíčová.
BIG DATA SCIENCE
› Návrat do buducnosti?
2002 2016
Stále potřebujeme vlastní
know-how pro realizaci
Business + Tech
Korporátní klienti + Online
startupy
Business responsible – Jako
služba – Konzultace
Marketing + Prodejní podpora
Stále potřebujeme
tým pro podporu
Tým nadšených lidí, kteří
chtějí něco dokázat
Spolupráce s týmem
odborníků se specifickými
znalostmi
Reálný čas a BIG DATA
nejsou omezením.
(objem, nástroje pro datové
toky)
Funkční a nefunkční modely zavedení business
přínosů
› Některé modely fungují a jiné nefungují. V čem se liší?
› Mnoho firem se snaží představovat nové koncepty. Některé
jsou úspěšné a některé vůbec ne. Některé společnosti se snaží
kopírovat funkční koncepty konkurence. Jaké jsou hlavní faktory
úspěchu?
Phase 1 Phase 2 Phase 3
Collect
underpants ? Profit
Od soumraku do úsvitu
› Nečekejte úspěch hned na první dobrou
› Většina firem neví, jakého je schopna ve finále dosáhnout profitu.
Jen věří tomu, že jdou správnou cestou a zkušenost v podobě
silného business pocitu. Jak reagují jejich klienti? Z čeho se těší?
Mají jasnou vizi, realizační tým a schopnost uvést věci do reality.
Vše stavějí na zkušenostech.
Buďte akceschopní
Akceptujte chyby
Stavte na úspěších
Mějte vizi a přesvědčení
o tom, že vaše cesta je
správná.
Mějte vizi
Fokus na business cíle
Slibujte splnitelné
Mějte jasné business cíle.
Zkoušejte, naslouchejte co
můžete zlepšit a kam až
můžete zajít.
Na první pokus zpravidla
nedostanete zázraky. Ale může
vám ukázat kudy jít a co k tomu
udělat. Zejména ve velkých
korporacích je to dobrý start.
Mějte tým, který je schopný uvést
nápady do reálného života. Připravte
jim vhodné prostředí a předpoklady.
Učte se z chyb. Plánujte vše
s vědomím, že nasazení trvá déle
a bere více zdrojů, než původně
čekáte.
Nebojte se přenastavovat business
cíle při dosažení přínosů. Nemějte
strach z toho, že se původní záměr
nepovedl, stavte na skutečných
úspěších. Podporujte je a rozvíjejte.
Příklady – případové studie zavedení big dat
ONLINE HERNÍ STARTUP
Německo
BANKA
Západní Evropa
HERNÍ STUDIO
Česká prepublika
UTILITY
CEE
1 3
2 4
Role potřebné k úspěchu
› Jaké role jsou potřebné pro úspěšné zavedení?
› Tyto role jsou potřebné pro každou business změnu, která využívá
techniického vylepšení. Klíčové role je potřeba upravit konkrétnímu
prostředí, některé role jsou vynechány (manažerská podpora atd.).
Klíčové výkonné role jsou uvedeny níže.
Business
visionář
a sponzor
Business
architekt se
silným IT
Analytika
(Data Science)
„Osvícení“
IT architekti
Data Science a Big Data
Vhled do chování klienta
Petr Paščenko
Big Data
a Data Science
14
Data Science
› Co je to Data Science?
› Kde se tu vzala?
15
Data Science
› Statistika, Informatika, Data mining, Strojové učení, Umělá inteligence
› Rozdíl oproti Business Intelligence
– BI: kolik tužek prodaly jednotlivé pobočky v září?
– DS: kolik jich prodají v říjnu?
› Klíčové kritérium je práce s nejistotou, pravděpodobnostní výsledek
– Prediktivní modelování
– Segmentace, shlukování
– Podobnostní modelování, kolaborativní filtrování,
doporučovací systémy
– Detekce anomalit
– Text-mining,
– Web-mining,
– Image processing,
– SNA,
– atd.
16
Data Science otázky
› Kteří klienti
– si vezmou úvěr / kreditku / hypotéku / cestovní pojištění atd.
– odejdou / předčasně splatí úvěr / nesplatí úvěr
– pracují u které firmy / žijí ve společné domácnosti / hodně cestují / dojíždějí
› Jaký produkt/službu
– nabídnout klientovi na pobočce / jaký zobrazit reklamní banner
› Jaký komunikační kanál zvolit pro konkrétního klienta
› Kteří obchodní partneři
– se chystají odejít / pracují i pro jinou pojišťovnu / nadhodnocují pojistné události
› Fraud
– Které pojistné události jsou pojistnými podvody?
– Které transakce jsou podvržené?
– Které sim karty zneužívají telefonní síť?
› Jaké zboží kdy dodávat na které pobočky obchodního řetězce?
› Jaká je očekávaná velikost datového extraktu v dwh?
17
Big Data
› Definice
– Metodika a ekosystém technologií pro ukládání a správu a analýzu velkých dat na
distribuovaných úložištích (cluster) pomocí paralelních výpočtů
› Spojení výpočetní a datové platformy
– Data jsou tak velká, že je nejde zpracovávat mimo cluster
› Klíčová slova
– Hadoop, HDFS, Hbase, Hive, Impala, Hortonworks, Cloudera, Spark atd.
› Uvedení mýtů na pravou míru
– Nejde o náhradu relačních databází a dwh, ale o jejich doplnění
– Nejde o objem dat, ale o typ výpočtů, které nad nimi provádíme
› Jak to souvisí s Data Science
– Hlavní využití, analytické výpočty nad velkými daty (Google Page Rank)
– Mezitím v Česku: hlavní využití, levné úložiště dat
› Kde to začalo
– Google, Amazon, Netflix, Facebook – rozsáhlé doporučovací problémy
18
Big Data Science
› Google
– Google není vyhledávač, Google je řadič
– 1G stránek s řádově více odkazy
– V jakém pořadí zobrazit výsledky vyhledávání
– Big Data Algoritmus PageRank
• Hledání vlastních vektorů velké matice
› Amazon, Netflix, YouTube
– Kdo si koupil Babičku, ten si koupí Broučky
– Big Data Algoritmus Kolaborativní filtrování
• Singular Value Decomposition
› Facebook
– Komu zobrazit jaký obsah
– Kombinace
• SNA – přátelé
• Kolaborativní filtrování – like
› A co banky?
19
Big Data – Architektura
HADOOP + SPARKDWH
DATA SCIENTIST
BYZNYS ANALYTIK
DATA SCIENCEBYZNYS BIG DATA
ANALÝZA
DAT VÝVOJ
A ÚPRAVY
MODELŮ
TESTOVÁNÍ
A PRODUKČNÍ
BĚH MODELŮ NA
VELKÝCH DATECH
ZÁKAZNÍK
KONZUMUJE
VÝSLEDKY FORMOU
SQL NEBO
KOMPATIBILNÍ
Big Data Science
a klientská data
21
Big Data Science – hlavní přínos
› Klasický Data Mining se omezuje na SQL agregace (avg, sum,…)
› Big Data – umožňuje vyhledávat podobnosti a vztahy
– počítání micro-událostí (kolikrát A a B zaplatili ve stejném obchodě)
– Párové statistiky (c2c podobnosti, rodinné vztahy, zaměstnání, atd.)
– Tranzitivní vztahy (klient – obchod – klient)
TRANSAKCE PODOBNOSTI
A VZTAHY
HADOOP SPARK SQL
22
Analýza Finančních Transakcí pomocí BD
› Vytváříme vyladěné modely pro retailové banky
› Vstup – finanční transakce
› Výstup – využitelné informace o klientovi, příznaky, události,
› Cílem je obohatit stávající obchodní proces o novou znalost
Převod mezi lidmi
Platba kartou
Příjem
Nákup na internetu
Platby za služby
Ostatní platby
Výběr z bankomatu
23
Salary detector
› Vstup
– Finanční transakce typu firma - klient
› Výstup: Identifikované vztahy
zaměstnavatel – zaměstnanec
› Business case
– Rizikové skóre, detekce událostí, podobnosti (c2c/b2b),…
› Principy
– Detekce transakčních vzorců, text mining, pokročilá statistika
› Vysoká přesnost i pro
– Krátké úvazky – délka nepřesahující 3 měsíce
– Nestandardní úvazky (částečné úvazky, práce na živnost, atd.)
– Firmy s malým počtem zaměstnanců
› Nastavitelná přesnost (TP/FP)
› Reference
– Equa Bank
24
Detekce domácnosti – Banka/Telco
› Vstup
– Klientské transakce – banka (c2c, karetní operace,…)
– Informace ze sítě – telco (cdr, lokace, billing)
– Základní demografie (věk, pohlaví, adresa, příjmení,…)
› Výstup
– Identifikace členů domácnosti a rodinných vztahů
› Obchodní využití
– Rodinný marketing, robustní rizikové skóre,…
› Principy
– Detekce transakčních vzorců, analýza interakcí, text mining
› Nastavitelná přesnost (TP/FP)
› Reference
– Equa Bank, TP: 93% při FP: 2.5%
BIGDATA – Data Science tým
Case study (finanční sektor)
Martin Holub
26
Cíle banky
› Banka chce:
Zahájit aktivní prodej pojištění
Profit z prodeje pojištění
1
3
Phase 1 Phase 2 Phase 3
Collect
underpants ? Profit
27
Naše porozumění
Klient zná potenciál trhu (dle zpracované analýzy klientského portfolia)
v oblasti prodeje pojišťovacích produktů a má data o tom, kde jsou
hlavní customer touch-points (kde iteruje s klientem)...
Hledá hlavní obchodní argumentace pro oslovení klientů pro
upsell pojišťovacích produktů pro finanční služby v on-line
kanálech.
Potřebuje ověřit možnosti oslovení klientů banky, kteří využívají
pojišťovací produkty.
Hlavními prodejními kanály jsou internetbanking, eshop,
interní a externí call centrum a ATM.
1
2
3
28
Naše zadání
Připravit ideově “value proposition” pro prodejní nabídky
pojistných produktů podle životní situace klienta (např. podle
transakční historie klienta nebo činnosti, kterou je banka
schopna identifikovat v on-line prostoru či styku klienta
s bankou).
Zformalizovat základní výběrová kritéria pro kampaně
v on-line kanálech pro zadání na direct marketing.
Optimalizovat prodej v on-line kanálech na základě best
practices.
1
2
3
29
Pojistné produkty
1. Pojištění karty a osobních věcí k DK či KK
2. Pojištění vyčerpané částky ke KK
3. Cestovní pojištění k účtu
4. Pojištění pravidelných plateb / výdajů k osobnímu účtu
5. Právní ochrana k osobnímu účtu
6. Autopojištění
7. Pojištění domácnosti
8. Pojištění sportovního vybavení
9. Pojištění odpovědnosti
30
Požadované výstupy
Ke každému z 9 pojistných produktů definovat 2 – 3 prodejní
kampaně tj.:
a) cílová skupina, podmínky výběru dle demografického
vymezení skupiny a transakční historie,
b) hlavní argumentace proč by měl klient zakoupit,
c) kanál pro kampaň (telesales, on-line, ATM,…)
Doporučit možná zlepšení prodejních on-line kanálů pro
prodej pojištění pro zvýšení prodeje.
Doporučit, na které TOP3 produkty v oblasti pojištění se
zaměřit z pohledu úspěšnosti a revenue.
1
2
3
Výstupy
dokument.doc
dokument.xls
32
Požadované výstupy (.doc)
6. Autopojištění
Jedná se o nejvíce zajímavý produkt pojištění a to jak pro budoucí
revenue banky, tak také pro budování vztahu s klienty v oblasti pojištění
resp. v oblasti finančních služeb.
Prodej může být úspěšný pouze v případě přípravy value propozice proti
každému jinému autopojištění konkurenčních pojišťoven. Lze take využít
efektivní časování. Ze seznamu lze také vyloučit některé silné pojišťovny
se silným resp. loajálním kmenem typu ČPP.
Navíc Autopojištění od klienta, jak ho připravilo oddělení produktového
management je unikátním pojišťovacím produktem, protože jako jediný na
ČR trhu “neřeší” malus a bonus. Je zkrátka určený pro velmi specifickou
a zároveň širokou cílovou skupinu.
33
Požadované výstupy (.doc)
6. Autopojištění – II.
Obchodní potenciál je velmi zajímavý – hypotézy:
› 100 tisíc+ unikátních klientů
› 2 000 000 000+ celkový objem transakcí
› Průměrné pojistné 3840 Kč / rok
› Dosažitelná úspěšnost kampaně až 10%
› Dosažitelná výše sjednatelské provize až 70 000 000 Kč
34
Požadované výstupy (.doc)
6. Autopojištění – III.
1. Definovat 2 – 3 prodejní kampaně tj.:
› Cílová skupina, podmínky výběru dle demografického vymezení
skupiny a transakční historie
› Hlavní argumentace proč by měl klient zakoupit
› Kanál pro kampaň (telesales, on-line)
Zejména mladí lidé
Svatba - změna příjmení
Odchod na mateřskou - narození dítěte
Rodina - potřeba prvního soukromého auta
Rodina - druhé dítě - větší auto - stejná pojistná částka?
Klienti s vyšším škodním průběhem
Klienti bez historie u pojišťoven
Klienti se služebním autem - bez historie plateb v servisu
Klienti po PÚ - transakce na kartě servis = vyšší pojistné
Velká města, zejména Praha
Rodiny s dospívajícími dětmi (podle věku - děti 18 až 21 ideálně)
35
Autopojištění
Cílová skupina & časování
› Dle (ne)segmentačních kritérií
a pojišťoven
– Zejména mladí lidé
– Města/okresy
– Vyšší škodní průběh
– Svatba, rodina, změna potřeb
Způsob oslovení
› IB (banner ideálně s kalkulačkou
– minimálně POV, max. 1 proklik)
› Inbound call + follow-up
› Outbound call (dle BC)
Value propozice, argumentace
› Dle pojišťoven
– AXA, … - krytí
– ČP, Allianz – garance ceny
› Dle produktových doporučení
Způsob sjednání
› Během hovoru
› Přes web (IB cena, má-li zájem,
pak stránky pojištění)
Výstupy
TOP3 produkty
v oblasti pojištění z pohledu
úspěšnosti a revenue
37
Lesson Learned
Je potřeba začít budovat důvěru klientů v oblasti X-sell
Důvodem neúspěšných kampaní není pouze jejich špatné
nastavení, jedná se často o nedůvěru či nepochopení
Pokud nezafungují připravené životní situace, je potřeba
„zvolnit“ a zkusit jiný přístup
1
2
3
Kdy mají klienti banku rádi?
Musím si koupit pojištění ke kartě? NE
Potřebuji pojištění karty a osobních věcí? NE
Potřebuji pojištění domácnosti? ANO, protože vím, co to je a vím, že pojištění
chrání to, co mám rád a na čem mi záleží.
Potřebuji autopojištění? ANO, protože to je povinné a protože auto potřebuji
a jeho oprava stojí hodně peněz.
38
1. Autopojištění
2. Pojištění domácnosti
3. Pojištění odpovědnosti
4. Pojištění sportovního vybavení
Výstupy: TOP3 produkty v oblasti pojištění
z pohledu úspěšnosti a revenue
Co dál?
40
Executive summary
Pojistný trh má
velký potenciál
- Předepsané pojistné – cca 120 mld. ročně (retail + business)
- Identifikované platby klientů klienta – cca 12 mld. ročně
- Provize 5 největších finančních zprostředkovatelů – cca 5 mld. ročně
Návrh projektu
– vytěžit z něj
100 mil. Kč
Navrhujeme projekt (sada kampaní na klienty zejména přes ADK
+ jejich nastavení a ladění), který přinese za období od / do
z pojistného trhu 100 mil. Kč (dle metodiky dále popsané).
Způsob odměny
– projekt vs
success fee model
Time & Material
- Odměna v % za smlouvy uzavřené ve výše uvedeném období
- Bonus ve výši % v případě dosažení 100 mil. Kč
- Odměna 0% za smlouvy uzavřené po dohodnutém termínu
VS
41
Podrobnější popis obsahu projektu
Vytěžování klientských dat – prodej NŽP, ŽP
Využít resp. vytěžit existující transakční a jiná provozní data klienta
k inteligentním výběrům pro přípravu a realizaci přímých kampaní se
zaměřením na prodej (sjednání) neživotního (NŽP) a životního (ŽP)
pojištění.
Připravit potřebnou value proposition ve spolupráci se zástupci
produktových oddělení klienta.
Postupné zavádění jednotlivých scénářů a dalších potřebných aktivit
vedoucích k dosažení prodejů NŽP a ŽP pojištění stávajícím klientům
klienta hlavně prostřednictvím ADK.
Důležitou součástí je průběžné vyhodnocování kampaní, jejich ladění
a finální správné vyhodnocení projektu.
V rámci projektu očekáváme realizaci několika kampaní v několika
alternativách a časových vlnách.
42
Požadavky na součinnost
Business sponzor
+ executive assistant
0.5 – 1.5 MDs / měsíc
Oddělení datových analýz
0.5 – 3 MDs /kampaň/pilot
Oddělení kampaní
0.5 – 3 MDs /kampaň/ pilot
Oddělení ADK
a komunikačních kanálů
0.5 – 1 MD /kampaň/pilot
Obchod
Produkty – nabídky, segmentace
0 – 10 MDs
Oddělení marketingu
1-3 MDs / kampaň / pilot
Oddělení produktů – ladění, procesy
1 – 5 MDs / měsíčně
43
Požadavky na součinnost
Příprava
1.kolo
piloty
Fine-
tuning
2.kolo
Quick
win1
Quick
win2
Příprava
1.kolo
piloty
Fine-
tuning
2.kolo
Quick
win3
Příprava
1.kolo
piloty
Autopojištění
Další neživotní
pojištění
(majetek, cesto)
Long
run1
Příprava
Ad hoc piloty
Neživotní
pojištění
Běh
Následné kampaně
2014
start projektu
2014
start prvního pilotu
polovina 2015
konec projektu
finální vyhodnocení
prostředek 2014
průběžné
vyhodnocení
2014
průběžné
vyhodnocení
Životní
pojištění
Úrazové
pojištění
Konec 2014
průběžné
vyhodnocení
začátek 2015
průběžné
vyhodnocení
Poznámka: obsah a časování
kampaní není závazné a může
se měnit s cílem dosáhnout co
nejlepší výsledky.
44
Kritéria úspěchu projektu a metodika výpočtu
provizí
› Získání dodatečných 100 mil. Kč na provizích (počítaných
dle metodiky níže) za prodeje od / do
ŽIVOTNÍ
POJIŠTĚNÍ
Odhad 40 mil. Kč
(není kritériem, kritériem je součet)
Metodika: přijaté provize vynásobené koeficientem očekávaných storen (počítán jako
procento storno provizí ku vyplaceným provizím za celý nový business za všechny
distribuční kanály).
NEŽIVOTNÍ
POJIŠTĚNÍ
Odhad 60 mil. Kč
(není kritériem, kritériem je součet)
Metodika: přijaté provize plus očekávané budoucí provize dle průměrné délky života
smlouvy v kmeni pojišťovny za daný druh pojištění za všechny distribuční kanály (např.
autopojištění, majetkové pojištění).
Detekce fraudu v internetovém
bankovnictví
Petr Paščenko
46
Shrnutí úlohy
› Detekce přístupu pod falešnou
identitou s cílem vykrást účet
› Scenář: podvodník překonal 2FA
› Vstup
– Běhová data z online bankovnictví (sekvence akcí v klientském sezení).
› Výstup
– Identifikovaná fraudulentní sezení
› Principy
– Velmi složitý problém, podíl fraudů cca 1:120 000
– Vyžaduje vícero zřetězených sít
– Pokročilé statistické modely (detekce lokálních odlehlostí)
› Nastavitelná přesnost (TP/FP), např.: TP: 50% for FP: 0.3%
BANKA
47
Klasifikační úloha
› Vstupní data
– Akce klientů
› Příznakový vektor
– Statistiky session
– Délka, čas na akci, …
› Model
– Klasifikátor
› Výsledek
– Ano / Ne
ID SESSION ID DATETIME ACTION AMOUNT RESULT
1234567890 vs3T … dGpf
2015-04-03
13:03:58
112 0
1234567890 vs3T … dGpf
2015-04-03
13:03:58
130 0
1234567890 vs3T … dGpf
2015-04-03
13:04:14
1248 0
1234567890 vs3T … dGpf
2015-04-03
13:04:14
120 12400 530
1234567890 vs3T … dGpf
2015-04-03
13:07:21
530 0
1234567890 vs3T … dGpf
2015-04-03
13:07:38
120 12400 0
1234567890 vs3T … dGpf
2015-04-03
13:09:03
68 0
FRAUD? ALERT
PROVÉST PLATBU
PŘÍZNAKOVÝ VEKTOR
ANO
NE
48
Internetové bankovnictví
› Uvažujme banku s milionovou klientskou bází
› Každý klient provede denně v průměru jednu návštěvu v IB
› Denně průměrně 1 000 000 session
› Z toho zhruba 12% session s platbou
› 120 000 session s platbou
› Denně v průměru 1 fraud
› To není moc ;-)
49
1:120 000
50
Co nefunguje
› Klasifikátory učené z dat
– Nevyvážené třídy
– NE s úspěšností 99,999%
› Popíšeme typický útok
– Neexistuje typický útok
– Příprava na minulou válku
FRAUD? ALERT
PROVÉST PLATBU
PŘÍZNAKOVÝ VEKTOR
ANO
NE
51
Detekce anomalit
› Podvodník se chová jinak než klient
› Nevíme jak, ale jinak
› Jak poznáte, že někdo nebo něco je divný?
VS
52
Detekce lokálních anomalit
› Jak si subjekt stojí vůči svému okolí
53
Shrnutí postupu
› Pro každou session spočteme příznakový vektor
– Příznaky identifikovány na základě datové analýzy
› Porovnání session s ostatními session daného klienta
› Identifikace podezřelých session k prověření
› Jak hodnotíme výsledek
– True positive – kolik najdeme fraudů
– False positive – kolik musíme prověřit session
› Podstatnější je false positive
– Limitovaná lidská kapacita
› Zřetězení více sít
– Jednoduché heuristiky
• IP adresy, protiúčty
– Detekce lokálních odlehlostí
› Paralelizace
54
Výsledky
› Pro nalezení 50% podvodů je třeba prošetřit cca. 300 transakcí denně
– Při 120 000 session s platbou denně
SimBox Fraud
Petr Paščenko
56
Co je SimBox Fraud
› Podvodné schéma v telekomunikacích
› Mezinárodní volání přináší značné zisky, o které se operátoři dělí
ZAHRANIČNÍ
OPERÁTOR
DOMÁCÍ
OPERÁTOR
57
Co je SimBox Fraud
› Nebo by alespoň měli
› SBF je snahou obejít operátora v cílové zemi
58
Telco Big Data SimBox Fraud
› Scénář
– Zahraniční operátor/subjekt obchází
standardní mezistátní hovor přes internet
s cílem ušetřit na mezinárodním propojovacím
poplatku
› Vstup
– Telco, síťová data (cdr, location, billing)
› Výstup
– Identifikované podezřelé sim karty
› Principy
– Detekce specifických typů neobvyklého chování
– Rozpoznání skupin s podobným chováním
– Automatická detekce pomocí roamingových dat
› Nastavitelná přesnost (TP/FP)
› Reference
– T-Mobile
59
Metoda řešení
› Podvodná sim karta má odlišné vzorce chování
› Sestavíme pro každou sim kartu popisný vektor
› Vyhodnotíme charakteristické vzorce
› Problém
– Extrémě malá tréninková data
– 3 simboxy, 40 sim karet, 11 dní
› Bayesovský klasifikátor
– Víme, co se děje uvnitř
– Robustní matematický základ
60
Příznaky podvodné karty
61
Dynamické příznaky provozu
62
Výsledek
› PoC ukázalo, že úloha je efektivně řešitelná
› Proběhl pilot
– Nebyl nalezen žádný další Simbox
› Bylo nalezeno několik různých jiných typů zneužití
sítě a porušení provozních podmínek
– objednána implementace
Shrnutí
64
Big Data Science
HADOOP + SPARKDWH
DATA SCIENTIST
BYZNYS ANALYTIK
DATA SCIENCEBYZNYS BIG DATA
ANALÝZA
DAT VÝVOJ
A ÚPRAVY
MODELŮ
TESTOVÁNÍ
A PRODUKČNÍ
BĚH MODELŮ NA
VELKÝCH DATECH
ZÁKAZNÍK
KONZUMUJE
VÝSLEDKY FORMOU
SQL NEBO
KOMPATIBILNÍ
Interní vývoj Projekt Služba Interim
Profinit EU, s.r.o.
Tychonova 2, 160 00 Praha 6
Telefon
+ 420 224 316 016
Web
www.profinit.eu
LinkedIn
linkedin.com/company/profinit
Twitter
twitter.com/Profinit_EU
Děkujeme
za pozornost

Weitere ähnliche Inhalte

Andere mochten auch

Co bychom měli vědět o elektronických podpisech
Co bychom měli vědět o elektronických podpisechCo bychom měli vědět o elektronických podpisech
Co bychom měli vědět o elektronických podpisechJiří Peterka
 
GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)
GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)
GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)Eva Skornickova
 
Je čas změnit základy počítačové bezpečnosti
Je čas změnit základy počítačové bezpečnostiJe čas změnit základy počítačové bezpečnosti
Je čas změnit základy počítačové bezpečnostiJiří Napravnik
 
Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.
Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.
Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.Petr Koubský
 
Olda Neuberger - iCollege - vzdělání pro podnikání na internetu
Olda Neuberger - iCollege - vzdělání pro podnikání na internetuOlda Neuberger - iCollege - vzdělání pro podnikání na internetu
Olda Neuberger - iCollege - vzdělání pro podnikání na internetuDevelcz
 
The Three Laws of Cyber Security
The Three Laws of Cyber SecurityThe Three Laws of Cyber Security
The Three Laws of Cyber SecurityJiří Napravnik
 
Problémy ICT a zkušenosti z jiných oborů
Problémy ICT a zkušenosti z jiných oborůProblémy ICT a zkušenosti z jiných oborů
Problémy ICT a zkušenosti z jiných oborůJiří Napravnik
 
Pyramida cyber bezpečnosti
Pyramida cyber bezpečnostiPyramida cyber bezpečnosti
Pyramida cyber bezpečnostiJiří Napravnik
 
Startup investor pitch
Startup investor pitchStartup investor pitch
Startup investor pitchJan Hřídel
 
5 tragických pochybeni v Cyber bezpečnosti
5 tragických pochybeni v Cyber bezpečnosti5 tragických pochybeni v Cyber bezpečnosti
5 tragických pochybeni v Cyber bezpečnostiJiří Napravnik
 
StartupClub: Víte, co vaši klienti chtějí?
StartupClub: Víte, co vaši klienti chtějí? StartupClub: Víte, co vaši klienti chtějí?
StartupClub: Víte, co vaši klienti chtějí? StartupClub
 
Startup prezentace (BizIT)
Startup prezentace (BizIT)Startup prezentace (BizIT)
Startup prezentace (BizIT)Lukas Hrdlicka
 
Design služeb 2013 - Inspirace (Filip Dřímalka)
Design služeb 2013 - Inspirace (Filip Dřímalka)Design služeb 2013 - Inspirace (Filip Dřímalka)
Design služeb 2013 - Inspirace (Filip Dřímalka)AdamHazdra
 
Křest knihy Skvělé služby
Křest knihy Skvělé službyKřest knihy Skvělé služby
Křest knihy Skvělé službyAdamHazdra
 
Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...
Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...
Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...Michal Rada
 
Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...
Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...
Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...Jiří Peterka
 
Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?
Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?
Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?Jiří Peterka
 
Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...
Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...
Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...Jiří Peterka
 

Andere mochten auch (20)

Co bychom měli vědět o elektronických podpisech
Co bychom měli vědět o elektronických podpisechCo bychom měli vědět o elektronických podpisech
Co bychom měli vědět o elektronických podpisech
 
GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)
GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)
GDPR (Obecné nařízení o ochraně osobních údajů, EP 2016/679)
 
Je čas změnit základy počítačové bezpečnosti
Je čas změnit základy počítačové bezpečnostiJe čas změnit základy počítačové bezpečnosti
Je čas změnit základy počítačové bezpečnosti
 
Gamifikace pitch
Gamifikace pitchGamifikace pitch
Gamifikace pitch
 
Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.
Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.
Jak učit lidi, kteří už umí skoro všechno? iCollege po roce.
 
Olda Neuberger - iCollege - vzdělání pro podnikání na internetu
Olda Neuberger - iCollege - vzdělání pro podnikání na internetuOlda Neuberger - iCollege - vzdělání pro podnikání na internetu
Olda Neuberger - iCollege - vzdělání pro podnikání na internetu
 
Adaptivni organizace
Adaptivni organizaceAdaptivni organizace
Adaptivni organizace
 
The Three Laws of Cyber Security
The Three Laws of Cyber SecurityThe Three Laws of Cyber Security
The Three Laws of Cyber Security
 
Problémy ICT a zkušenosti z jiných oborů
Problémy ICT a zkušenosti z jiných oborůProblémy ICT a zkušenosti z jiných oborů
Problémy ICT a zkušenosti z jiných oborů
 
Pyramida cyber bezpečnosti
Pyramida cyber bezpečnostiPyramida cyber bezpečnosti
Pyramida cyber bezpečnosti
 
Startup investor pitch
Startup investor pitchStartup investor pitch
Startup investor pitch
 
5 tragických pochybeni v Cyber bezpečnosti
5 tragických pochybeni v Cyber bezpečnosti5 tragických pochybeni v Cyber bezpečnosti
5 tragických pochybeni v Cyber bezpečnosti
 
StartupClub: Víte, co vaši klienti chtějí?
StartupClub: Víte, co vaši klienti chtějí? StartupClub: Víte, co vaši klienti chtějí?
StartupClub: Víte, co vaši klienti chtějí?
 
Startup prezentace (BizIT)
Startup prezentace (BizIT)Startup prezentace (BizIT)
Startup prezentace (BizIT)
 
Design služeb 2013 - Inspirace (Filip Dřímalka)
Design služeb 2013 - Inspirace (Filip Dřímalka)Design služeb 2013 - Inspirace (Filip Dřímalka)
Design služeb 2013 - Inspirace (Filip Dřímalka)
 
Křest knihy Skvělé služby
Křest knihy Skvělé službyKřest knihy Skvělé služby
Křest knihy Skvělé služby
 
Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...
Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...
Prezentace společná témata pro elektronizaci v sociálních a zdravotních systé...
 
Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...
Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...
Naučíme se používat elektronický podpis? Nebo se za nás bude podepisovat někd...
 
Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?
Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?
Má elektronický podpis identifikovat podepsanou osobu? A pokud ano: jak?
 
Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...
Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...
Není podpis jako podpis, aneb: jak se vyznat v různých variantách elektronick...
 

Ähnlich wie Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016

Vodafone Napad Roku - Digital Marketing a Sales
Vodafone Napad Roku - Digital Marketing a SalesVodafone Napad Roku - Digital Marketing a Sales
Vodafone Napad Roku - Digital Marketing a SalesOndrej Skrehota
 
Jak vytvořit fungující prodejní kanál s online podporou?
Jak vytvořit fungující prodejní kanál s online podporou?Jak vytvořit fungující prodejní kanál s online podporou?
Jak vytvořit fungující prodejní kanál s online podporou? MARCO BBN
 
MetaData – kde je hodnota v datech
MetaData – kde je hodnota v datechMetaData – kde je hodnota v datech
MetaData – kde je hodnota v datechTaste Medio
 
Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...
Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...
Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...Taste
 
PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023
PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023
PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023Taste
 
Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Taste Medio
 
Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)
Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)
Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)KISK FF MU
 
Web jako součást obchodního procesu
Web jako součást obchodního procesuWeb jako součást obchodního procesu
Web jako součást obchodního procesuAITOM Digital s.r.o.
 
Sledování mikro-cílů - jak určit, zda má kampaň budoucnost
Sledování  mikro-cílů - jak určit, zda má kampaň budoucnostSledování  mikro-cílů - jak určit, zda má kampaň budoucnost
Sledování mikro-cílů - jak určit, zda má kampaň budoucnostMichal Blažek
 
Datarestart - Big Data v praxi
Datarestart - Big Data v praxiDatarestart - Big Data v praxi
Datarestart - Big Data v praxiProfinit
 
Petr Hovorka / Obsahová strategie pro náborovou komunikaci
Petr Hovorka / Obsahová strategie pro náborovou komunikaciPetr Hovorka / Obsahová strategie pro náborovou komunikaci
Petr Hovorka / Obsahová strategie pro náborovou komunikaciBrandBakers
 
STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily
STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily
STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily STEM/MARK
 
Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...
Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...
Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...Taste
 
20180201 1 big data jako nastroj pro hluboka transakcní mining
20180201 1 big data jako nastroj pro hluboka transakcní mining20180201 1 big data jako nastroj pro hluboka transakcní mining
20180201 1 big data jako nastroj pro hluboka transakcní miningProfinit
 
Digitální nástroje pro firmy: Myslete a pracujte jako startupy
Digitální nástroje pro firmy: Myslete a pracujte jako startupyDigitální nástroje pro firmy: Myslete a pracujte jako startupy
Digitální nástroje pro firmy: Myslete a pracujte jako startupyJiri Benedikt
 
Jak na socialni site v B2B - Filip Frid
Jak na socialni site v B2B - Filip FridJak na socialni site v B2B - Filip Frid
Jak na socialni site v B2B - Filip FridFilip Frid
 
Jak optimalizovat PPC kampaně v B2B
Jak optimalizovat PPC kampaně v B2BJak optimalizovat PPC kampaně v B2B
Jak optimalizovat PPC kampaně v B2BMichal Blažek
 
Digital Presence Management
Digital Presence ManagementDigital Presence Management
Digital Presence ManagementMEDIATEL, s.r.o.
 
Vývoj a řízení produktů v praxi - Tomáš Vyskočil
Vývoj a řízení produktů v praxi - Tomáš VyskočilVývoj a řízení produktů v praxi - Tomáš Vyskočil
Vývoj a řízení produktů v praxi - Tomáš VyskočilUP Business Club
 
Zvyšte výkonnost svého týmu
Zvyšte výkonnost svého týmu Zvyšte výkonnost svého týmu
Zvyšte výkonnost svého týmu Roman Ripa
 

Ähnlich wie Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016 (20)

Vodafone Napad Roku - Digital Marketing a Sales
Vodafone Napad Roku - Digital Marketing a SalesVodafone Napad Roku - Digital Marketing a Sales
Vodafone Napad Roku - Digital Marketing a Sales
 
Jak vytvořit fungující prodejní kanál s online podporou?
Jak vytvořit fungující prodejní kanál s online podporou?Jak vytvořit fungující prodejní kanál s online podporou?
Jak vytvořit fungující prodejní kanál s online podporou?
 
MetaData – kde je hodnota v datech
MetaData – kde je hodnota v datechMetaData – kde je hodnota v datech
MetaData – kde je hodnota v datech
 
Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...
Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...
Data Date #3: Přemysl Horáček - Jak daleko jste s datovou analytikou? Maturit...
 
PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023
PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023
PPC Date #5: Petr Bureš - Práce PPCčkaře v roce 2023
 
Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020
 
Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)
Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)
Moře financí - jak pomocí IT udržet finance pod kontrolou (M. Solnička)
 
Web jako součást obchodního procesu
Web jako součást obchodního procesuWeb jako součást obchodního procesu
Web jako součást obchodního procesu
 
Sledování mikro-cílů - jak určit, zda má kampaň budoucnost
Sledování  mikro-cílů - jak určit, zda má kampaň budoucnostSledování  mikro-cílů - jak určit, zda má kampaň budoucnost
Sledování mikro-cílů - jak určit, zda má kampaň budoucnost
 
Datarestart - Big Data v praxi
Datarestart - Big Data v praxiDatarestart - Big Data v praxi
Datarestart - Big Data v praxi
 
Petr Hovorka / Obsahová strategie pro náborovou komunikaci
Petr Hovorka / Obsahová strategie pro náborovou komunikaciPetr Hovorka / Obsahová strategie pro náborovou komunikaci
Petr Hovorka / Obsahová strategie pro náborovou komunikaci
 
STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily
STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily
STEMMARK na AČRA Workshop - Trendy, Emoce, Mobily
 
Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...
Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...
Project Restart 2023: Petr Bernadič - Jak komunikovat projekt, za který zákaz...
 
20180201 1 big data jako nastroj pro hluboka transakcní mining
20180201 1 big data jako nastroj pro hluboka transakcní mining20180201 1 big data jako nastroj pro hluboka transakcní mining
20180201 1 big data jako nastroj pro hluboka transakcní mining
 
Digitální nástroje pro firmy: Myslete a pracujte jako startupy
Digitální nástroje pro firmy: Myslete a pracujte jako startupyDigitální nástroje pro firmy: Myslete a pracujte jako startupy
Digitální nástroje pro firmy: Myslete a pracujte jako startupy
 
Jak na socialni site v B2B - Filip Frid
Jak na socialni site v B2B - Filip FridJak na socialni site v B2B - Filip Frid
Jak na socialni site v B2B - Filip Frid
 
Jak optimalizovat PPC kampaně v B2B
Jak optimalizovat PPC kampaně v B2BJak optimalizovat PPC kampaně v B2B
Jak optimalizovat PPC kampaně v B2B
 
Digital Presence Management
Digital Presence ManagementDigital Presence Management
Digital Presence Management
 
Vývoj a řízení produktů v praxi - Tomáš Vyskočil
Vývoj a řízení produktů v praxi - Tomáš VyskočilVývoj a řízení produktů v praxi - Tomáš Vyskočil
Vývoj a řízení produktů v praxi - Tomáš Vyskočil
 
Zvyšte výkonnost svého týmu
Zvyšte výkonnost svého týmu Zvyšte výkonnost svého týmu
Zvyšte výkonnost svého týmu
 

Mehr von Profinit

Reference Data Management
Reference Data ManagementReference Data Management
Reference Data ManagementProfinit
 
Cloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloudCloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloudProfinit
 
Building big data pipelines—lessons learned
Building big data pipelines—lessons learnedBuilding big data pipelines—lessons learned
Building big data pipelines—lessons learnedProfinit
 
Understand your data dependencies – Key enabler to efficient modernisation
 Understand your data dependencies – Key enabler to efficient modernisation  Understand your data dependencies – Key enabler to efficient modernisation
Understand your data dependencies – Key enabler to efficient modernisation Profinit
 
Propensity Modelling for Banks
Propensity Modelling for BanksPropensity Modelling for Banks
Propensity Modelling for BanksProfinit
 
Legacy systems modernisation
Legacy systems modernisationLegacy systems modernisation
Legacy systems modernisationProfinit
 
Automating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data StoresAutomating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data StoresProfinit
 
4 Steps Towards Data Transparency
4 Steps Towards Data Transparency4 Steps Towards Data Transparency
4 Steps Towards Data TransparencyProfinit
 
Software systems modernisation
Software systems modernisationSoftware systems modernisation
Software systems modernisationProfinit
 
Odborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileOdborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileProfinit
 
Data Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduData Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduProfinit
 
Detekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléDetekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléProfinit
 
Výsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluVýsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluProfinit
 
Propensitní modelování
Propensitní modelováníPropensitní modelování
Propensitní modelováníProfinit
 
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit
 
Profinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit
 
2019 09-23-snidane qa-public
2019 09-23-snidane qa-public2019 09-23-snidane qa-public
2019 09-23-snidane qa-publicProfinit
 
2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-fullProfinit
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyneProfinit
 

Mehr von Profinit (20)

Reference Data Management
Reference Data ManagementReference Data Management
Reference Data Management
 
Cloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloudCloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloud
 
Building big data pipelines—lessons learned
Building big data pipelines—lessons learnedBuilding big data pipelines—lessons learned
Building big data pipelines—lessons learned
 
Understand your data dependencies – Key enabler to efficient modernisation
 Understand your data dependencies – Key enabler to efficient modernisation  Understand your data dependencies – Key enabler to efficient modernisation
Understand your data dependencies – Key enabler to efficient modernisation
 
Propensity Modelling for Banks
Propensity Modelling for BanksPropensity Modelling for Banks
Propensity Modelling for Banks
 
Legacy systems modernisation
Legacy systems modernisationLegacy systems modernisation
Legacy systems modernisation
 
Automating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data StoresAutomating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data Stores
 
4 Steps Towards Data Transparency
4 Steps Towards Data Transparency4 Steps Towards Data Transparency
4 Steps Towards Data Transparency
 
Software systems modernisation
Software systems modernisationSoftware systems modernisation
Software systems modernisation
 
Odborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileOdborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum Mobile
 
Data Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduData Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí cloudu
 
Detekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléDetekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přátelé
 
Výsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluVýsledky backtestu propensitního modelu
Výsledky backtestu propensitního modelu
 
Propensitní modelování
Propensitní modelováníPropensitní modelování
Propensitní modelování
 
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
 
Profinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit webinar: Instalment Detector
Profinit webinar: Instalment Detector
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publish
 
2019 09-23-snidane qa-public
2019 09-23-snidane qa-public2019 09-23-snidane qa-public
2019 09-23-snidane qa-public
 
2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne
 

Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016

  • 1. B. Zoubek / P. Máša / P. Paščenko / M. Holub 30. listopadu 2016 BIG DATA: reálné aplikace pro business tady a teď
  • 2. 2 08:30 - 09:00 Registrace, coffee & networking 09:00 - 09:30 Funkční a nefunkční modely zavedení BIG DATA ve firmách 09:30 - 10:00 Uplně nový vhled do chovaní klienta prostřednictvím Data science 10:00 - 10:15 Přestávka 10:15 - 10:50 Případové studie: Identifikace fraudu (BANKOVNICTVÍ, TELEKOMUNIKACE) Zvyšovaní efektu využití klientských dat (FINANCE) 10:50 - 11:00 Shrnutí, závěr 11:00 - 11:30 Diskuse u kávy Program pracovní snídaně Petr Paščenko Head of Data Science Profinit Martin Holub Data Science Consultant Petr Máša Partner smartshift
  • 3. Funkční a nefunkční modely zavedení BIG DATA SCIENCE Petr Máša
  • 4. Funkční a nefunkční modely › Některé modely vedou k úspěchu a některé ne. V čem je liší? Některé firmy se snaží zavádět nové koncepty. Některé uspějí. Jiné nikoliv. Některé firmy se snaží opakovat funkční modely od konkurentů. Některé uspějí. Jiné nikoliv. BIG DATA SCIENCE slibuje nové možnosti a rostoucí profit Jak být úspěšný a jak předejít neúspěchu?
  • 5. Úspěšné modely zavedení › Příklady úspěšných v oblasti BIG DATA SCIENCE? Jaký byl původní záměr? Jaká byla velikost trhu? Jaká byla role BIG DATA SCIENCE? Neustálé zlepšování a revize business cílů je klíčová.
  • 6. BIG DATA SCIENCE › Návrat do buducnosti? 2002 2016 Stále potřebujeme vlastní know-how pro realizaci Business + Tech Korporátní klienti + Online startupy Business responsible – Jako služba – Konzultace Marketing + Prodejní podpora Stále potřebujeme tým pro podporu Tým nadšených lidí, kteří chtějí něco dokázat Spolupráce s týmem odborníků se specifickými znalostmi Reálný čas a BIG DATA nejsou omezením. (objem, nástroje pro datové toky)
  • 7. Funkční a nefunkční modely zavedení business přínosů › Některé modely fungují a jiné nefungují. V čem se liší? › Mnoho firem se snaží představovat nové koncepty. Některé jsou úspěšné a některé vůbec ne. Některé společnosti se snaží kopírovat funkční koncepty konkurence. Jaké jsou hlavní faktory úspěchu? Phase 1 Phase 2 Phase 3 Collect underpants ? Profit
  • 8. Od soumraku do úsvitu › Nečekejte úspěch hned na první dobrou › Většina firem neví, jakého je schopna ve finále dosáhnout profitu. Jen věří tomu, že jdou správnou cestou a zkušenost v podobě silného business pocitu. Jak reagují jejich klienti? Z čeho se těší? Mají jasnou vizi, realizační tým a schopnost uvést věci do reality. Vše stavějí na zkušenostech. Buďte akceschopní Akceptujte chyby Stavte na úspěších Mějte vizi a přesvědčení o tom, že vaše cesta je správná. Mějte vizi Fokus na business cíle Slibujte splnitelné Mějte jasné business cíle. Zkoušejte, naslouchejte co můžete zlepšit a kam až můžete zajít. Na první pokus zpravidla nedostanete zázraky. Ale může vám ukázat kudy jít a co k tomu udělat. Zejména ve velkých korporacích je to dobrý start. Mějte tým, který je schopný uvést nápady do reálného života. Připravte jim vhodné prostředí a předpoklady. Učte se z chyb. Plánujte vše s vědomím, že nasazení trvá déle a bere více zdrojů, než původně čekáte. Nebojte se přenastavovat business cíle při dosažení přínosů. Nemějte strach z toho, že se původní záměr nepovedl, stavte na skutečných úspěších. Podporujte je a rozvíjejte.
  • 9. Příklady – případové studie zavedení big dat ONLINE HERNÍ STARTUP Německo BANKA Západní Evropa HERNÍ STUDIO Česká prepublika UTILITY CEE 1 3 2 4
  • 10. Role potřebné k úspěchu › Jaké role jsou potřebné pro úspěšné zavedení? › Tyto role jsou potřebné pro každou business změnu, která využívá techniického vylepšení. Klíčové role je potřeba upravit konkrétnímu prostředí, některé role jsou vynechány (manažerská podpora atd.). Klíčové výkonné role jsou uvedeny níže. Business visionář a sponzor Business architekt se silným IT Analytika (Data Science) „Osvícení“ IT architekti
  • 11. Data Science a Big Data Vhled do chování klienta Petr Paščenko
  • 12. Big Data a Data Science
  • 13. 14 Data Science › Co je to Data Science? › Kde se tu vzala?
  • 14. 15 Data Science › Statistika, Informatika, Data mining, Strojové učení, Umělá inteligence › Rozdíl oproti Business Intelligence – BI: kolik tužek prodaly jednotlivé pobočky v září? – DS: kolik jich prodají v říjnu? › Klíčové kritérium je práce s nejistotou, pravděpodobnostní výsledek – Prediktivní modelování – Segmentace, shlukování – Podobnostní modelování, kolaborativní filtrování, doporučovací systémy – Detekce anomalit – Text-mining, – Web-mining, – Image processing, – SNA, – atd.
  • 15. 16 Data Science otázky › Kteří klienti – si vezmou úvěr / kreditku / hypotéku / cestovní pojištění atd. – odejdou / předčasně splatí úvěr / nesplatí úvěr – pracují u které firmy / žijí ve společné domácnosti / hodně cestují / dojíždějí › Jaký produkt/službu – nabídnout klientovi na pobočce / jaký zobrazit reklamní banner › Jaký komunikační kanál zvolit pro konkrétního klienta › Kteří obchodní partneři – se chystají odejít / pracují i pro jinou pojišťovnu / nadhodnocují pojistné události › Fraud – Které pojistné události jsou pojistnými podvody? – Které transakce jsou podvržené? – Které sim karty zneužívají telefonní síť? › Jaké zboží kdy dodávat na které pobočky obchodního řetězce? › Jaká je očekávaná velikost datového extraktu v dwh?
  • 16. 17 Big Data › Definice – Metodika a ekosystém technologií pro ukládání a správu a analýzu velkých dat na distribuovaných úložištích (cluster) pomocí paralelních výpočtů › Spojení výpočetní a datové platformy – Data jsou tak velká, že je nejde zpracovávat mimo cluster › Klíčová slova – Hadoop, HDFS, Hbase, Hive, Impala, Hortonworks, Cloudera, Spark atd. › Uvedení mýtů na pravou míru – Nejde o náhradu relačních databází a dwh, ale o jejich doplnění – Nejde o objem dat, ale o typ výpočtů, které nad nimi provádíme › Jak to souvisí s Data Science – Hlavní využití, analytické výpočty nad velkými daty (Google Page Rank) – Mezitím v Česku: hlavní využití, levné úložiště dat › Kde to začalo – Google, Amazon, Netflix, Facebook – rozsáhlé doporučovací problémy
  • 17. 18 Big Data Science › Google – Google není vyhledávač, Google je řadič – 1G stránek s řádově více odkazy – V jakém pořadí zobrazit výsledky vyhledávání – Big Data Algoritmus PageRank • Hledání vlastních vektorů velké matice › Amazon, Netflix, YouTube – Kdo si koupil Babičku, ten si koupí Broučky – Big Data Algoritmus Kolaborativní filtrování • Singular Value Decomposition › Facebook – Komu zobrazit jaký obsah – Kombinace • SNA – přátelé • Kolaborativní filtrování – like › A co banky?
  • 18. 19 Big Data – Architektura HADOOP + SPARKDWH DATA SCIENTIST BYZNYS ANALYTIK DATA SCIENCEBYZNYS BIG DATA ANALÝZA DAT VÝVOJ A ÚPRAVY MODELŮ TESTOVÁNÍ A PRODUKČNÍ BĚH MODELŮ NA VELKÝCH DATECH ZÁKAZNÍK KONZUMUJE VÝSLEDKY FORMOU SQL NEBO KOMPATIBILNÍ
  • 19. Big Data Science a klientská data
  • 20. 21 Big Data Science – hlavní přínos › Klasický Data Mining se omezuje na SQL agregace (avg, sum,…) › Big Data – umožňuje vyhledávat podobnosti a vztahy – počítání micro-událostí (kolikrát A a B zaplatili ve stejném obchodě) – Párové statistiky (c2c podobnosti, rodinné vztahy, zaměstnání, atd.) – Tranzitivní vztahy (klient – obchod – klient) TRANSAKCE PODOBNOSTI A VZTAHY HADOOP SPARK SQL
  • 21. 22 Analýza Finančních Transakcí pomocí BD › Vytváříme vyladěné modely pro retailové banky › Vstup – finanční transakce › Výstup – využitelné informace o klientovi, příznaky, události, › Cílem je obohatit stávající obchodní proces o novou znalost Převod mezi lidmi Platba kartou Příjem Nákup na internetu Platby za služby Ostatní platby Výběr z bankomatu
  • 22. 23 Salary detector › Vstup – Finanční transakce typu firma - klient › Výstup: Identifikované vztahy zaměstnavatel – zaměstnanec › Business case – Rizikové skóre, detekce událostí, podobnosti (c2c/b2b),… › Principy – Detekce transakčních vzorců, text mining, pokročilá statistika › Vysoká přesnost i pro – Krátké úvazky – délka nepřesahující 3 měsíce – Nestandardní úvazky (částečné úvazky, práce na živnost, atd.) – Firmy s malým počtem zaměstnanců › Nastavitelná přesnost (TP/FP) › Reference – Equa Bank
  • 23. 24 Detekce domácnosti – Banka/Telco › Vstup – Klientské transakce – banka (c2c, karetní operace,…) – Informace ze sítě – telco (cdr, lokace, billing) – Základní demografie (věk, pohlaví, adresa, příjmení,…) › Výstup – Identifikace členů domácnosti a rodinných vztahů › Obchodní využití – Rodinný marketing, robustní rizikové skóre,… › Principy – Detekce transakčních vzorců, analýza interakcí, text mining › Nastavitelná přesnost (TP/FP) › Reference – Equa Bank, TP: 93% při FP: 2.5%
  • 24. BIGDATA – Data Science tým Case study (finanční sektor) Martin Holub
  • 25. 26 Cíle banky › Banka chce: Zahájit aktivní prodej pojištění Profit z prodeje pojištění 1 3 Phase 1 Phase 2 Phase 3 Collect underpants ? Profit
  • 26. 27 Naše porozumění Klient zná potenciál trhu (dle zpracované analýzy klientského portfolia) v oblasti prodeje pojišťovacích produktů a má data o tom, kde jsou hlavní customer touch-points (kde iteruje s klientem)... Hledá hlavní obchodní argumentace pro oslovení klientů pro upsell pojišťovacích produktů pro finanční služby v on-line kanálech. Potřebuje ověřit možnosti oslovení klientů banky, kteří využívají pojišťovací produkty. Hlavními prodejními kanály jsou internetbanking, eshop, interní a externí call centrum a ATM. 1 2 3
  • 27. 28 Naše zadání Připravit ideově “value proposition” pro prodejní nabídky pojistných produktů podle životní situace klienta (např. podle transakční historie klienta nebo činnosti, kterou je banka schopna identifikovat v on-line prostoru či styku klienta s bankou). Zformalizovat základní výběrová kritéria pro kampaně v on-line kanálech pro zadání na direct marketing. Optimalizovat prodej v on-line kanálech na základě best practices. 1 2 3
  • 28. 29 Pojistné produkty 1. Pojištění karty a osobních věcí k DK či KK 2. Pojištění vyčerpané částky ke KK 3. Cestovní pojištění k účtu 4. Pojištění pravidelných plateb / výdajů k osobnímu účtu 5. Právní ochrana k osobnímu účtu 6. Autopojištění 7. Pojištění domácnosti 8. Pojištění sportovního vybavení 9. Pojištění odpovědnosti
  • 29. 30 Požadované výstupy Ke každému z 9 pojistných produktů definovat 2 – 3 prodejní kampaně tj.: a) cílová skupina, podmínky výběru dle demografického vymezení skupiny a transakční historie, b) hlavní argumentace proč by měl klient zakoupit, c) kanál pro kampaň (telesales, on-line, ATM,…) Doporučit možná zlepšení prodejních on-line kanálů pro prodej pojištění pro zvýšení prodeje. Doporučit, na které TOP3 produkty v oblasti pojištění se zaměřit z pohledu úspěšnosti a revenue. 1 2 3
  • 31. 32 Požadované výstupy (.doc) 6. Autopojištění Jedná se o nejvíce zajímavý produkt pojištění a to jak pro budoucí revenue banky, tak také pro budování vztahu s klienty v oblasti pojištění resp. v oblasti finančních služeb. Prodej může být úspěšný pouze v případě přípravy value propozice proti každému jinému autopojištění konkurenčních pojišťoven. Lze take využít efektivní časování. Ze seznamu lze také vyloučit některé silné pojišťovny se silným resp. loajálním kmenem typu ČPP. Navíc Autopojištění od klienta, jak ho připravilo oddělení produktového management je unikátním pojišťovacím produktem, protože jako jediný na ČR trhu “neřeší” malus a bonus. Je zkrátka určený pro velmi specifickou a zároveň širokou cílovou skupinu.
  • 32. 33 Požadované výstupy (.doc) 6. Autopojištění – II. Obchodní potenciál je velmi zajímavý – hypotézy: › 100 tisíc+ unikátních klientů › 2 000 000 000+ celkový objem transakcí › Průměrné pojistné 3840 Kč / rok › Dosažitelná úspěšnost kampaně až 10% › Dosažitelná výše sjednatelské provize až 70 000 000 Kč
  • 33. 34 Požadované výstupy (.doc) 6. Autopojištění – III. 1. Definovat 2 – 3 prodejní kampaně tj.: › Cílová skupina, podmínky výběru dle demografického vymezení skupiny a transakční historie › Hlavní argumentace proč by měl klient zakoupit › Kanál pro kampaň (telesales, on-line) Zejména mladí lidé Svatba - změna příjmení Odchod na mateřskou - narození dítěte Rodina - potřeba prvního soukromého auta Rodina - druhé dítě - větší auto - stejná pojistná částka? Klienti s vyšším škodním průběhem Klienti bez historie u pojišťoven Klienti se služebním autem - bez historie plateb v servisu Klienti po PÚ - transakce na kartě servis = vyšší pojistné Velká města, zejména Praha Rodiny s dospívajícími dětmi (podle věku - děti 18 až 21 ideálně)
  • 34. 35 Autopojištění Cílová skupina & časování › Dle (ne)segmentačních kritérií a pojišťoven – Zejména mladí lidé – Města/okresy – Vyšší škodní průběh – Svatba, rodina, změna potřeb Způsob oslovení › IB (banner ideálně s kalkulačkou – minimálně POV, max. 1 proklik) › Inbound call + follow-up › Outbound call (dle BC) Value propozice, argumentace › Dle pojišťoven – AXA, … - krytí – ČP, Allianz – garance ceny › Dle produktových doporučení Způsob sjednání › Během hovoru › Přes web (IB cena, má-li zájem, pak stránky pojištění)
  • 35. Výstupy TOP3 produkty v oblasti pojištění z pohledu úspěšnosti a revenue
  • 36. 37 Lesson Learned Je potřeba začít budovat důvěru klientů v oblasti X-sell Důvodem neúspěšných kampaní není pouze jejich špatné nastavení, jedná se často o nedůvěru či nepochopení Pokud nezafungují připravené životní situace, je potřeba „zvolnit“ a zkusit jiný přístup 1 2 3 Kdy mají klienti banku rádi? Musím si koupit pojištění ke kartě? NE Potřebuji pojištění karty a osobních věcí? NE Potřebuji pojištění domácnosti? ANO, protože vím, co to je a vím, že pojištění chrání to, co mám rád a na čem mi záleží. Potřebuji autopojištění? ANO, protože to je povinné a protože auto potřebuji a jeho oprava stojí hodně peněz.
  • 37. 38 1. Autopojištění 2. Pojištění domácnosti 3. Pojištění odpovědnosti 4. Pojištění sportovního vybavení Výstupy: TOP3 produkty v oblasti pojištění z pohledu úspěšnosti a revenue
  • 39. 40 Executive summary Pojistný trh má velký potenciál - Předepsané pojistné – cca 120 mld. ročně (retail + business) - Identifikované platby klientů klienta – cca 12 mld. ročně - Provize 5 největších finančních zprostředkovatelů – cca 5 mld. ročně Návrh projektu – vytěžit z něj 100 mil. Kč Navrhujeme projekt (sada kampaní na klienty zejména přes ADK + jejich nastavení a ladění), který přinese za období od / do z pojistného trhu 100 mil. Kč (dle metodiky dále popsané). Způsob odměny – projekt vs success fee model Time & Material - Odměna v % za smlouvy uzavřené ve výše uvedeném období - Bonus ve výši % v případě dosažení 100 mil. Kč - Odměna 0% za smlouvy uzavřené po dohodnutém termínu VS
  • 40. 41 Podrobnější popis obsahu projektu Vytěžování klientských dat – prodej NŽP, ŽP Využít resp. vytěžit existující transakční a jiná provozní data klienta k inteligentním výběrům pro přípravu a realizaci přímých kampaní se zaměřením na prodej (sjednání) neživotního (NŽP) a životního (ŽP) pojištění. Připravit potřebnou value proposition ve spolupráci se zástupci produktových oddělení klienta. Postupné zavádění jednotlivých scénářů a dalších potřebných aktivit vedoucích k dosažení prodejů NŽP a ŽP pojištění stávajícím klientům klienta hlavně prostřednictvím ADK. Důležitou součástí je průběžné vyhodnocování kampaní, jejich ladění a finální správné vyhodnocení projektu. V rámci projektu očekáváme realizaci několika kampaní v několika alternativách a časových vlnách.
  • 41. 42 Požadavky na součinnost Business sponzor + executive assistant 0.5 – 1.5 MDs / měsíc Oddělení datových analýz 0.5 – 3 MDs /kampaň/pilot Oddělení kampaní 0.5 – 3 MDs /kampaň/ pilot Oddělení ADK a komunikačních kanálů 0.5 – 1 MD /kampaň/pilot Obchod Produkty – nabídky, segmentace 0 – 10 MDs Oddělení marketingu 1-3 MDs / kampaň / pilot Oddělení produktů – ladění, procesy 1 – 5 MDs / měsíčně
  • 42. 43 Požadavky na součinnost Příprava 1.kolo piloty Fine- tuning 2.kolo Quick win1 Quick win2 Příprava 1.kolo piloty Fine- tuning 2.kolo Quick win3 Příprava 1.kolo piloty Autopojištění Další neživotní pojištění (majetek, cesto) Long run1 Příprava Ad hoc piloty Neživotní pojištění Běh Následné kampaně 2014 start projektu 2014 start prvního pilotu polovina 2015 konec projektu finální vyhodnocení prostředek 2014 průběžné vyhodnocení 2014 průběžné vyhodnocení Životní pojištění Úrazové pojištění Konec 2014 průběžné vyhodnocení začátek 2015 průběžné vyhodnocení Poznámka: obsah a časování kampaní není závazné a může se měnit s cílem dosáhnout co nejlepší výsledky.
  • 43. 44 Kritéria úspěchu projektu a metodika výpočtu provizí › Získání dodatečných 100 mil. Kč na provizích (počítaných dle metodiky níže) za prodeje od / do ŽIVOTNÍ POJIŠTĚNÍ Odhad 40 mil. Kč (není kritériem, kritériem je součet) Metodika: přijaté provize vynásobené koeficientem očekávaných storen (počítán jako procento storno provizí ku vyplaceným provizím za celý nový business za všechny distribuční kanály). NEŽIVOTNÍ POJIŠTĚNÍ Odhad 60 mil. Kč (není kritériem, kritériem je součet) Metodika: přijaté provize plus očekávané budoucí provize dle průměrné délky života smlouvy v kmeni pojišťovny za daný druh pojištění za všechny distribuční kanály (např. autopojištění, majetkové pojištění).
  • 44. Detekce fraudu v internetovém bankovnictví Petr Paščenko
  • 45. 46 Shrnutí úlohy › Detekce přístupu pod falešnou identitou s cílem vykrást účet › Scenář: podvodník překonal 2FA › Vstup – Běhová data z online bankovnictví (sekvence akcí v klientském sezení). › Výstup – Identifikovaná fraudulentní sezení › Principy – Velmi složitý problém, podíl fraudů cca 1:120 000 – Vyžaduje vícero zřetězených sít – Pokročilé statistické modely (detekce lokálních odlehlostí) › Nastavitelná přesnost (TP/FP), např.: TP: 50% for FP: 0.3% BANKA
  • 46. 47 Klasifikační úloha › Vstupní data – Akce klientů › Příznakový vektor – Statistiky session – Délka, čas na akci, … › Model – Klasifikátor › Výsledek – Ano / Ne ID SESSION ID DATETIME ACTION AMOUNT RESULT 1234567890 vs3T … dGpf 2015-04-03 13:03:58 112 0 1234567890 vs3T … dGpf 2015-04-03 13:03:58 130 0 1234567890 vs3T … dGpf 2015-04-03 13:04:14 1248 0 1234567890 vs3T … dGpf 2015-04-03 13:04:14 120 12400 530 1234567890 vs3T … dGpf 2015-04-03 13:07:21 530 0 1234567890 vs3T … dGpf 2015-04-03 13:07:38 120 12400 0 1234567890 vs3T … dGpf 2015-04-03 13:09:03 68 0 FRAUD? ALERT PROVÉST PLATBU PŘÍZNAKOVÝ VEKTOR ANO NE
  • 47. 48 Internetové bankovnictví › Uvažujme banku s milionovou klientskou bází › Každý klient provede denně v průměru jednu návštěvu v IB › Denně průměrně 1 000 000 session › Z toho zhruba 12% session s platbou › 120 000 session s platbou › Denně v průměru 1 fraud › To není moc ;-)
  • 49. 50 Co nefunguje › Klasifikátory učené z dat – Nevyvážené třídy – NE s úspěšností 99,999% › Popíšeme typický útok – Neexistuje typický útok – Příprava na minulou válku FRAUD? ALERT PROVÉST PLATBU PŘÍZNAKOVÝ VEKTOR ANO NE
  • 50. 51 Detekce anomalit › Podvodník se chová jinak než klient › Nevíme jak, ale jinak › Jak poznáte, že někdo nebo něco je divný? VS
  • 51. 52 Detekce lokálních anomalit › Jak si subjekt stojí vůči svému okolí
  • 52. 53 Shrnutí postupu › Pro každou session spočteme příznakový vektor – Příznaky identifikovány na základě datové analýzy › Porovnání session s ostatními session daného klienta › Identifikace podezřelých session k prověření › Jak hodnotíme výsledek – True positive – kolik najdeme fraudů – False positive – kolik musíme prověřit session › Podstatnější je false positive – Limitovaná lidská kapacita › Zřetězení více sít – Jednoduché heuristiky • IP adresy, protiúčty – Detekce lokálních odlehlostí › Paralelizace
  • 53. 54 Výsledky › Pro nalezení 50% podvodů je třeba prošetřit cca. 300 transakcí denně – Při 120 000 session s platbou denně
  • 55. 56 Co je SimBox Fraud › Podvodné schéma v telekomunikacích › Mezinárodní volání přináší značné zisky, o které se operátoři dělí ZAHRANIČNÍ OPERÁTOR DOMÁCÍ OPERÁTOR
  • 56. 57 Co je SimBox Fraud › Nebo by alespoň měli › SBF je snahou obejít operátora v cílové zemi
  • 57. 58 Telco Big Data SimBox Fraud › Scénář – Zahraniční operátor/subjekt obchází standardní mezistátní hovor přes internet s cílem ušetřit na mezinárodním propojovacím poplatku › Vstup – Telco, síťová data (cdr, location, billing) › Výstup – Identifikované podezřelé sim karty › Principy – Detekce specifických typů neobvyklého chování – Rozpoznání skupin s podobným chováním – Automatická detekce pomocí roamingových dat › Nastavitelná přesnost (TP/FP) › Reference – T-Mobile
  • 58. 59 Metoda řešení › Podvodná sim karta má odlišné vzorce chování › Sestavíme pro každou sim kartu popisný vektor › Vyhodnotíme charakteristické vzorce › Problém – Extrémě malá tréninková data – 3 simboxy, 40 sim karet, 11 dní › Bayesovský klasifikátor – Víme, co se děje uvnitř – Robustní matematický základ
  • 61. 62 Výsledek › PoC ukázalo, že úloha je efektivně řešitelná › Proběhl pilot – Nebyl nalezen žádný další Simbox › Bylo nalezeno několik různých jiných typů zneužití sítě a porušení provozních podmínek – objednána implementace
  • 63. 64 Big Data Science HADOOP + SPARKDWH DATA SCIENTIST BYZNYS ANALYTIK DATA SCIENCEBYZNYS BIG DATA ANALÝZA DAT VÝVOJ A ÚPRAVY MODELŮ TESTOVÁNÍ A PRODUKČNÍ BĚH MODELŮ NA VELKÝCH DATECH ZÁKAZNÍK KONZUMUJE VÝSLEDKY FORMOU SQL NEBO KOMPATIBILNÍ Interní vývoj Projekt Služba Interim
  • 64. Profinit EU, s.r.o. Tychonova 2, 160 00 Praha 6 Telefon + 420 224 316 016 Web www.profinit.eu LinkedIn linkedin.com/company/profinit Twitter twitter.com/Profinit_EU Děkujeme za pozornost