Aleksejaus Kovaliovo, BDC programavimo paslaugų centro direktoriaus, prezentacija, kurią jis skaitė metinėje IT vadovų konferencijoje „IT Summit“ 2013 metų gegužės 30-ą dieną. Šis pranešimas konferencijos dalyvių buvo geriausiai įvertintas iš visų tą dieną skaitytų pranešimų. Pranešimas skirtas aptarti šiuo metu vis aktualesnei didžiųjų duomenų (angl. big data) temai.
Per kelis pastaruosius metus apdorojamų ir saugomų duomenų apimtys eksponentiškai išaugo ir šis augimas tęsiasi toliau kosminiu greičiu. Natūraliai vyksta eilinė kompiuterinių sistemų technologijų bei architektūros evoliucija. Paradigmos pokyčio mąstą galima palyginti su perėjimu nuo universaliųjų kompiuterių (angl. mainframes) prie personalinių, toliau prie kliento-serverių ir žiniatinklio sistemų.
Prezentacijoje pateikiamas įvadas į didžiųjų duomenų (angl. big data) bei duomenų mokslo (angl. data science) tematiką, apžvelgti iki šiol retai versle nagrinėjami duomenų šaltiniai, pateikti naujoviškos verslo analitikos sistemų architektūros modeliai.
3. Kodėl?
3
2015 metai
4.4M IT darbo vietų, susijusių su BIG DATA
iš jų 1.9M x 3 = 6M JAV
Peter Sondergaard, Sr VP at Gartner and global head of Research
http://www.gartner.com/newsroom/id/2207915
Jau dabar
10. 90% per 2 metus
10
Labai daug duomenų
90% duomenų sugeneruota per pastaruosius 2 metus
Techninės platformos pinga
Debesų platformos tampa įprastu dalyku
http://www.sciencedaily.com/releases/2013/05/130522085217.htm
11. Duomenys ateina iš visur
11
Internetas kiekvienoje kišenėje
Socialinių tinklų rinkos ir revoliucijos
E-valstybės
Protinga energetika 20/20/20
Protingi daiktai...
14. Išmetam duomenis = Išmetam pinigus
14
Prarandame duomenis, nes „netelpa“
Nebandome moksliškai tyrinėti
Nežinome savo tikrų klientų, aplinkos, istorijos
Ignoruojame „baltą triukšmą“
16. BIG DATA
16
Duomenų kiekiai, kuriuos tikrai sunku apdoroti įprastomis
priemonėmis (Wikipedia)
V. V. V.
Volume – 100-ai Tbytes, Pbytes ...
Velocity –„Duomenų srovė“, FAST DATA
Variety – Struktūriniai / ne / pusiau
Nuodėmė#8: ne kaupti, o juolab, trinti duomenis
17. OPEN DATA
17
Duomenų viešinimas pakartotinam panaudojimui
Žali duomenys, skirti ne žmogui, o mašinai
Nemokamos licencijos
LINKED OPEN DATA: Semantinis atvirų duomenų tinklas
Strateginė ES kryptis
http://open-data.europa.eu/
http://data.gov.uk/
Lietuvoje užuomazgos
http://opendata.gov.lt/
http://data.ukmin.lt/
18. OPEN & BIG, BIG & OPEN?
18
Ne tas pats
BIG Technologijos
OPEN Teisiniai klausimai, standartizacija, procesai
Tačiau
BIG DATA technologijos gali būti taikomos OPEN DATA
OPEN DATA gali išaugti iki BIG
19. OPEN & BIG PAVYZDŽIAI1
http://www.buildingsdata.eu/
19
21. HADOOP
21
Paskirstyta failų sistema su replikavimu ir Java dorokliais
Palaiko milžiniškas duomenų apimtis ir failų dydžius
Daugybė atviro kodo ir komercinių versijų
29. Pranašystės
29
1. Esamų BI sistemų papildymas duomenų rezervuarais
2. Gamybiniai duomenų mokslininkų padaliniai
3. Verslo analitikos platformos, kaip paslauga (aaS)
4. Prognozinės analitikos plėtra operatyvinėse sistemose
5. Atvirų duomenų pajungimas į verslo analitiką
6. „Balto triukšmo“ standartizacija
39. 6. Standartizacija
39
Terminai ir klasifikavimas
„Sidabrinės kulkos“ nebus
Architektūros parinkimo faktoriai:
• Priimam ar publikuojam
• Saugom ar skaičiuojam
• Transakcionalumas
• Vėlavimas
• Srauto pastovumas
• Vizualizavimas
• Saugumas
• Privatumas
• ...
40. 40
0. Nauja DB technologijų ir architektūros karta
1. Esamų BI sistemų papildymas duomenų rezervuarais
2. Gamybiniai duomenų mokslininkų padaliniai
3. Verslo analitikos platformos, kaip paslauga (aaS)
4. Prognozinės analitikos plėtra operatyvinėse sistemose
5. Atvirų duomenų pajungimas į verslo analitiką
6. „Balto triukšmo“ standartizacija