2. Cattura il valore dei tuoi
dati: The new currency
Il cloud come abilitatore ai Big Data:
architetture agili e lesson learned nella
costruzione di sistemi Big Data 24x7
3. Agenda
15.30-16.00 Registrazione e welcome coffee
16.00-16.15 Benvenuto
16.15-17.00 La Business Intelligence nella visione strategica di Microsoft
17.15-18.00 Case Study e Lesson Learned: progetti di Big Data nel Cloud
18.00-18.30 Creare un nuovo Business dai dati: l’esperienza TDS
18.30-18.45 Q&A
18.45-19.30 Apertivo
4. Timing Data Service
• Timing company leader a livello nazionale per numero di atleti cronometrati
• oltre 350.000 atleti
• più di un 1.000.000 di tempi di gara
• Non solo atletica:
• ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte
• Offre servizi organizzativi, come
• grafica TV
• gestione delle iscrizioni
• la produzione di materiali (pettorali, volantini, buste, ecc.)
5. SolidQ
• Società Globale di consulenza sulla Piattaforma Dati Microsoft
• Nata nel 2002 in Spagna & North America
• Divisione Italiana aperta nel 2007
• Oltre 200 professionisti in tutto il mondo
• Maggior concentrazione di MVP su SQL Server
• Offre servizi di Consulenza, Advisory, Mentoring e Formazione su
• Data Warehousing, Business Intelligence, Big Data & Analytics
• Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery
• Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI
6. Davide Mauri
• Microsoft SQL Server MVP
• Works with SQL Server from 6.5, on BI from 2003
• Specialized in Data Solution Architecture, Database Design, Performance
Tuning, High-Performance Data Warehousing, BI, Big Data
• President of UGISS (Italian SQL Server UG)
• Regular Speaker @ SQL Server events
• R&D Director @ SolidQ
• Consulting, Training, Mentoring, Advisory
• E-mail: dmauri@solidq.com
• Twitter: @mauridb
• Blog: http://sqlblog.com/blogs/davide_mauri/default.aspx
8. Come far fruttare i propri dati?
• Dal 2013 si parla di Big Data ovunque
• Tutti vogliono farlo ma
• Panorama tecnologico in *forte* movimento
• Architetture in evoluzione
• Un pò di diffidenza da parte delle aziende
• Tutti si ricordano la bolla del 2000 e la quantità notevole di progetti falliti
• In molti aspettano che qualcun altro faccia il primo passo
• Oltre il 40% delle aziende indica che ha ancora problemi di fonti dati non integrate
• Dalla ricerca dell’Osservatorio sulla BI del Politecnico di Milano del 2014
10. Come far fruttare i propri dati?
• Come quindi mostrare a tutti che I Big Data possono essere alla portata di tutte
le società?
• Per essere più competitive
• Per essere più efficienti
• Per essere più coscienti
• Il progetto Datarace nasce nel 2014
• TDS identificato come partner ideale
• Molti dati già raccolti
• Molte analisi possibili
• Molti dati da raccogliere
• Utilizzando le stesse soluzioni che poi saranno usate per l’Internet of Things
12. Come far fruttare i propri dati?
• Obbiettivo: definire un’architettura di riferimento che potesse anche essere
usata internamente
• Applicazione pratica su un cliente (Online Bank) già in fase conclusione
• Obbiettivo: fare «percepire con mano» cosa sono i big data agli utenti
• Big Dirty Data: nel backoffice
• Small Nice Useful Data: per l’utente finale
• Problema: nel 2014 Azure era molto diverso da ora
• Sfida: progettare un’architettura modulare che potesse essere facilmente migliorata nel
tempo
• SolidQ Adaptive BI Framework: «Apply the smallest change possibile»
• www.adaptivebi.it
13. Big Data e Internet of Things.
Analizzare in modo semplice,
veloce ed economico i dati
16. Internet Of Things
• Aumenterà ancora di più la quantità di dati a cui si avrà accesso
• Le soluzioni Big Data / Analytics saranno il “cervello” alla quale tutti I sensori
(IoT) saranno collegati
• Abbiamo provato a far diventare il “saranno” in “sono”.
17. Problematiche
• Memorizzazione di grosse mole di dati
• In modo (molto) economico
• Di facile utilizzo futuro
• Altamente scalabile (per avere tempi di elaborazione buoni)
• Difficile previsione di crescita
• Esplosiva?
• Lineare?
• Facilità di fruizione delle informazioni elaborate
• User Experience semplice, ma con la possibilità di “guardare dentro”
18. Problematiche
• Dati strutturati e semistrutturati, sicuramente non omogenei
• Qualità del dato molto molto bassa
• http://www.zerounoweb.it/approfondimenti/business-intelligence/information-management-la-
sfida-della-qualit-del-dato.html (C. Vercellis, P.Pasini)
• Fonti dati multiple
• duplicazioni
• errori
• obsolescenza
• Complessità nella gestione economicamente sostenibili di grandi quantità di
dati
• Non si è sicuri che lo sforzo sia giustificato
19. Big Data
• C’è un modo molto semplice di spiegare e capire I Big Data:
20. Cloud
• Permette di avvicinarsi ai big data in modo economicamente sostenibile
• Una volta fatto un progetto piccolo è facile scalare
• I costi possono essere molto contenuti
• Addirittura gratis in alcuni casi: AzureML
• Rende tecnologie complesse come Hadoop (molto) più semplici di manutenere
• "Despite considerable hype and reported successes for early adopters, 54 percent of survey
respondents report no plans to invest at this time”, Gartner 2015
• http://www.computerworlduk.com/news/data/hadoop-big-data-adoption-fails-live-up-hype-says-gartner-
3611739/
• Attenzione però! “Il cloud è movimento”
• Processo di continuos improvement è parte del processo di sviluppo
• Ogni 6/12 mesi revisione di una parte dell’architettura
22. Arch. Logica – Load & Process
Data Sources
Sensors
ERP
Ingest
Distributed Blob Store
Event/ETL Service
Collect / Stock Batch Process
Grid Computing
Cure / Match / Purify
Grid Computing
Distilled Data
Column Store
23. Arch. Logica – External User Access
Distilled Data
Column Store
End User
REST Service
Cache Engine
Query Manager
Cache Engine
Key-Value Store
Cached Data Multichannel Devices
24. Arch. Logica – Internal User Access
Distilled Data
Column Store
End User
Excel / PowerBI
25. Arch. Logica – Analytics / Exploration
Distilled Data
Column Store
Exploration
Data ScientistDistributed Blob Store
Collect / Stock
Batch Process
Grid Computing
Analytics
Machine Learning
Distilled Data
Column Store
26. Platform Selection
• Perchè Azure?
• Fornisce soluzioni a tutti i desiderata definiti nell’architettura logica
• Con costi elastici
• Abilita soluzioni ibride
• Forte integrazione con IDE conosciuti e standard de facto (Visual Studio)
• Vision coerente e di lungo periodo
• E’ un piattaforma OPEN a tutti gli effetti
• Integrazione con Python, PHP, R, Hadoop, ecc. ecc.
• Riutilizzo esperienze e know-how interni
27. Architettura Fisica
• Data Sources
• RDBMS
• JSON RESTful service
• Wikipedia
• Fast Ingest
• Ad-Hoc .NET Service su Virtual Machine
• vNext: Azure Event Hub + Azure Data Factory
• Stock
• Azure Blob Store per JSON
• SQL Server / SQL Azure per dati strutturati
Collect / Stock
Fast Ingest
Data Sources
28. Architettura Fisica
• Batch Process su Raw Stock
• HDInsight + Python Scripts + Hive Queries
• Batch load con SSIS + HDInsight ODBC
• Data Processing (VM + SQL Azure)
• SQL Server In-Memory Engine / ColumnStore
• T-SQL + SSIS
• Ad-Hoc .NET Scripts (dentro SSIS)
• vNext: Azure Stream Analytics
• Identity Mapping (VM)
• Multi-level Fuzzy Matching algorithm in SSIS
• vNext: HDInsight + Tez/Spark
Batch Process
Data Process
Data Process
29. Architettura Fisica
• Distilled Data
• SQL Azure
• Analytics (Clustering, Forecasting)
• Azure ML
• Cache Engine
• Azure Redis
Distilled Data
Analytics
Analytics
30. Architettura Fisica
• Web Application (Azure Web Apps)
• REST Service per il Query Manager
• HTML5 + Async JQuery Front End
• Data Exploration
• Excel per i Data Scientist
• PowerBI per gli utilizzatori finali “evoluti”
• Dove il sito web non basta
Analytics
Exploration
31. Risultati
• Applicazione online dall’aprile 2015
• Massima efficienza nell’utilizzo delle Risorse
• Nessun problema anche dopo eventi importanti come la Maratona di Milano
• Funzionamento 24/7
• Sincronizzazione con I dati sorgenti in tempo reale e batch in funzione del sorgente
stessa