Big Data e la forza degli eventi - Intervento di Dominoni
1. Analisi dati in tempo reale per
governare la complessità
Matteo Dominoni
matteo.dominoni@unimib.it
2. Complessità che cresce …
• Cloud Computing – la
nuvola
• PC, tablet, smartphone
– funzionano in costante
connessione con la rete,
alla quale cedono di
fatto gran parte della
loro "memoria»
2
3. …in più dimensioni
• 590 milioni di
connessioni a
Internet in
banda larga
su rete fissa,
• 1,1 miliardi di
connessioni
su rete mobile
• (dati ITU a fine 2011)
3
4. Un ambiente di “studio”
• Università Bicocca – 40 tecnici per:
– Didattica:
• 40 laboratori informatici, 2.000 postazioni, 15.000 studenti attivi, 500
docenti, 100 server di gestione
• 20 Piattaforme elearning: 10.000 studenti
• 2 Piattaforme di assessment e sondaggi: decine di migliaia di prove in
assessment l’anno
– Ricerca/Dipartimenti
• 16 dipartimenti + 4 scuole (assistenza informatica “front-end”): 1600
docenti (interni/a contratto/collaboratori), 1.8 apparecchiature
informatiche per docente, 300 pta, 1.2 apparecchiature informatiche
per pta.
• Infrastruttura di Backend dipartimenti: 200 VM : siti, proxy, AD, sql
server, documentali, cms, fil server, print server
• Supporto attività di ricerca: “in via di definizione … livello e standard di
servizio”: 3 centri di ricerca e 2 laboratori di ricerca in fase di
sperimentazion
4
5. Gestione e Progettazione
• “cruscotto” in grado di monitorare
dati provenienti da fonti dati diverse
e disomogenee per poter prendere
delle decisioni sia di carattere
organizzativo/logistico , sia di
carattere dimensionale/quantitativo
• Serve un sistema che analizzando
centinaia di Gigabyte giornalieri
provenienti da sistemi diversi e in
formati diversi possa dar delle
risposte a chi deve prendere delle
decisioni
5
6. Alcuni esempi …
• Analisi di grossi volumi di dati eterogenei proveniente da database
applicativi, log di sistema, sistemi di accounting/autenticazione, traffico di
rete, uso delle risorse, ….. al fine di poter dare risposte a domande quali:
– riusciamo con lo staff attuale a coprire gli interventi giornalieri ?
– dove è necessario ricollocare il personale per affrontare picchi di assistenza ?
– che uso viene fatto delle risorse informatiche?
– quali sw sono piu’ utilizzati per la didattica ?
– quante ore di didattica in laboratorio con docenza viene fatta ? quanta in
selfservice?
– abbiamo un sistema di virtualizzazione che garantisce adeguate performance ?
– quali i sistemi/piattaforme vengono più utilizzate ?
– quante tempo i docenti “stanno” sulle piattaforme ?
– quali i tempi medi di risposta alle richieste di assistenza ?
– quali i dipartimenti/utenti fanno più richieste ? in quale periodo dell’anno ?
– quanti guasti e su quali apparecchiature? Quali quelli piu’ frequenti ?
– …….
– …..
6
7. monitoraggio dei laboratori
informatici
• esame dell’utilizzo medio dei
laboratori di ateneo per
capire:
– quanto effettivamente le
postazioni siano utilizzate
• per quanto tempo
• per quale utilizzo
– rilevare eventuali anomalie
– correlare le attività didattiche
7
8. Requisiti e obiettivi
• lavoro fatto su 30 laboratori e 1600 PC
• tendenza a migrare i servizi su portali online:
– importante sapere quanto le infrastrutture fisiche siano
effettivamente usate dagli studenti.
• informazioni principali da ottenere:
– stato della postazione:
• spenta
• accesa: se qualcuno la sta usando o se è idle (in attesa che
qualcuno effettui la login)
– processi in uso: nel caso che qualcuno la stia utilizzando,
capire che uso viene fatto (didattico o non)
• necessario limitare il più possibile l’invio di dati a quelli
utili (filtrando sul lato client le informazioni superflue)
8
9. Strumenti e Infrastruttura
• Strumento di raccolta dati - Splunk
– Multipiattaforma, configurazione distribuita,
funzionante senza l’appoggio di un database, con
possibilità di recuperare qualsiasi informazione sugli
host (registri di sistema, wmi, windows alert, snmp)
• laboratori distribuiti nel campus, collegati in VLAN
– problema di distribuzione degli agent
• raccolta dati effettuata con server virtuali
– configurazione veloce
– basso impatto sulla logistica dei servizi
9
10. Funzionalità
• Raccolta e indicizzazione di Dati Macchina di qualsiasi provenienza, senza
l’installazione di plugin aggiuntivi
– riesce a prendere in ingresso log di applicazioni standard e custom, stack trace, code di
messaggi, database audit trails, event logs, configurazioni e metriche da hypervisor, sistemi
operativi e network.
• Ricerca ed analisi, grazie all’architettura basata su MapReduce garantisce velocità
di accesso e scalabilità
– E’ possibile fare ricerche sia su dati storici indicizzati che sullo streaming di dati correnti sulla
stessa interfaccia, con un meccanismo di query molto simile a quello dei motori di ricerca web
tradizionali
• Reportistica e Allarmi
– tramite il report builder si possono generare tabelle, grafici e dashboard che evidenziano
tendenze significative, picchi alti e bassi, sintesi di valori critici e frequenza di eventi.
– le ricerche si possono trasformare in avvisi (Alert) che attivano automaticamente azioni quali
notifiche via e-mail, rss, trap SNMP.
• Architettura distribuita, in base al carico e al numero di dati si possono unire più
sessioni di questo software per distribuire il lavoro di indexing su più macchine,
mantenendo la base di dati comune ridondata.
10
11. Valutazione dello sforzo
• configurazione server
• istallazione agent sugli host di laboratorio
– per 140 host - esecuzione parallela – si riesce a
eseguire l’istallazione su tutte le macchine in circa
5 minuti.
• lavoro portato a termine da studente per il
suo lavoro di stage (con il supporto di tecnici
informatici)
11
12. Alcune considerazioni finali
• uso di tecnologie di questo tipo permettono
un analisi multidimensionale dei servizi
hardware e software
– con uno sforzo limitato possibile monitorare e
modellare i servizi di rete
• possibilità di sviluppare modelli intelligenti di
erogazione di servizi complessi
12