Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali
1. Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.
Corso di laurea specialistica in informatica – A.A. 2008/2009
Corso di basi di dati avanzate e
tecniche di data mining
Introduzione al Data Warehousing ed alla
Progettazione di Data Warehouse Dimensionali
Studenti: Professore:
Andrea Manfucci Giorgio Cecconi
Davide Ciambelli
2. SOMMARIO
Il modello dimensionale
Vendite al dettaglio (studio di caso)
Spedizioni (studio di caso)
Catena del valore (studio di caso)
Servizi finanziari (studio di caso)
Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 2
3. Il modello dimensionale
La progettazione dei dati del data warehouse (DW) è la
pietra angolare del progetto dell'intero DW
Basandosi sul progetto dei dati è possibile
Pianificare e progettare le applicazioni
Pianificare l'estrazione e la trasformazione dei dati
Stimare l'occupazione di memoria complessiva del DW
La progettazione dei dati in un DW dimensionale
È basata sulla modellazione dimensionale
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 3
4. Schemi dimensionali
La modellazione dimensionale è una tecnica di progettazione
logica dei dati nel DW
È orientata alla definizione di schemi relazionali di tipo “dimensionale”
Uno schema dimensionale (chiamato anche star schema o schema
a stella) è composto da
Una tabella dei fatti (fact table)
Un insieme di tabelle ausiliarie (dimension tables)
Questo schema modella i dati delle vendite di prodotti in un certo numero di
negozi nel corso del tempo
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 4
5. Scopo di uno schema dimensionale
In uno schema dimensionale
Una dimension table serve a rappresentare un insieme di elementi
chiamati membri
Una fact table serve a memorizzare un insieme di funzioni numeriche
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 5
6. Tabelle dimensione
Una dimension table memorizza una dimensione rispetto alla
quale è interessante analizzare un processo
Una dimensione è un insieme di elementi chiamati membri
Ciascuna riga di una tabella dimensione rappresenta un membro della
dimensione
Gli altri campi di una tabella dimensione memorizzano gli attributi dei
membri
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 6
7. Tabella fatti
Una fact table memorizza le misure numeriche di un proces-
so
Per fatto si intende una misura relativa ad un processo
La chiave è normalmente composta da riferimenti alle chiavi delle varie
tabelle dimensione
Gli altri campi rappresentano i fatti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 7
8. Additività e semi additività dei fatti
Un fatto è additivo se ha senso sommarlo rispetto ad ogni
possibile combinazione delle dimensioni
I fatti possono anche essere:
Semi additivi se ha senso sommarli rispetto ad alcune dimensioni
Non additivi se non ha senso sommarli
Può avere senso combinare fatti anche non completamente additivi me-
diante operazioni diverse dalla somma
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 8
9. Attributi e interrogazioni
Gli attributi delle tabelle dimensione sono il principale stru-
mento per l'interrogazione del DW
Gli attributi delle dimensioni vengono usati per
Selezionare un sottoinsieme dei dati di interesse
Raggruppare i dati di interesse
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 9
10. Formato delle interrogazioni
Le interrogazioni assumono solitamente il seguente formato
standard
Possibili anche interrogazioni che effettuano confronti e/o rapporti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 10
11. SOMMARIO
Il modello dimensionale
Vendite al dettaglio (studio di caso)
Spedizioni (studio di caso)
Catena del valore (studio di caso)
Servizi finanziari (studio di caso)
Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 11
12. Studi di caso
Le tecniche di modellazione dimensionale vengono illustrate
mediante un certo numero di esempi chiamati studi di caso
Ciascun studio di caso è relativo ad un esempio concreto
Ciascun studio di caso introduce una o più tecniche di modellazione di-
mensionale
Ciascuna tecnica può essere usata in più contesti
Inizialmente viene introdotta una semplice metodologia per
la progettazione di uno schema dimensionale
Uno schema dimensionale è composto da una singola tabella fatti e da
un insieme di tabelle dimensione
Bisogna tenere presente che
Un data mart può essere composto da più schemi dimensionali
Un DW dimensionale è normalmente composto da più data mart
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 12
13. Progettazione di uno schema dimensionale
La progettazione di uno schema dimensionale richiede lo
svolgimento di quattro passi
Scelta del processo di business da modellare
Scelta della grana del processo
Scelta delle dimensioni da cui dipende ciascun record della tabella fatti
Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti
Queste scelte devono essere guidate
Dai requisiti
Dalle sorgenti informative disponibili
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 13
14. Progettazione di uno schema dimensionale
Scelta del processo di business da modellare
Quale processo stiamo modellando?
Per processo si intende un processo operazionale, supportato da uno o
più sistemi operazionali, i cui dati possono essere utilizzati per popolare
lo schema dimensionale
Scelta della grana del processo
Che cosa descrive una singola riga della tabella fatti?
Per grana si intende il livello di dettaglio atomico che deve essere rap-
presentato nella tabella fatti per il processo
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 14
15. Progettazione di uno schema dimensionale
Scelta delle dimensioni da cui dipende ogni record della ta-
bella fatti
In che modo sono descritti i dati di interesse per il processo che stiamo
modellando?
Una dimensione è un insieme di membri caratterizzati da un certo nu-
mero di attributi da usare nelle select e nei raggruppamenti
Scelta dei fatti misurabili che popoleranno ogni record della
tabella fatti
Che cosa stiamo misurando?
I fatti sono misure del processo selezionato
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 15
16. Il processo delle vendite
Si consideri il seguente caso di studio, relativo al processo
delle vendite al dettaglio in una catena di negozi alimentari
Lavoriamo nella direzione di una grande catena di alimentari
La catena comprende 500 grandi negozi alimentari, distribuiti in 3 re-
gioni
Ogni negozio è un supermercato con diversi reparti
Nella catena di negozi sono venduti circa 60.000 tipi di prodotti indivi-
duali (SKU)
Circa 40.000 SKU vengono da fornitori esterni e su di essi è stampato
un codice a barre chiamato codice universale del prodotto (UPC)
Gli altri 20.000 SKU corrispondono a prodotti che non sono confezionati
o che sono confezionati localmente e non hanno un UPC
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 16
17. Il processo delle vendite
Dove vengono raccolti i dati della catena di negozi alimentari?
I dati relativi alle vendite vengono raccolti in ciascuna cassa mediante dei siste-
mi POS
La direzione della catena si occupa della logistica delle ordinazioni,
della disposizione delle merci sugli scaffali, della vendita dei pro-
dotti e della massimizzazione del profitto
Sorgenti del profitto
Le scelte sotto il controllo della direzione della catena si negozi riguardano
Le promozioni comprendono
Pubblicità
Esposizione sugli scaffali
Uno degli obiettivi della direzione è la comrpendione dell'impatto
delle promozioni sulle vendite e, quindi, sui profitti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 17
18. Il data mart delle vendite
Scelta della grana
Per il data mart per il processo delle vendite sono possibili diverse scelte
per la grana
Ad esempio unità di vendita (SKU) per negozio per giorno
La scelta della grana ha influenza
Sulle dimensioni usate nel data mart
Sul tipo di analisi che può essere effettuato
Sull'occupazione di memoria del data mart
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 18
19. Il data mart delle vendite
Scelta delle dimensioni
Fissati il processo e la grana bisogna scegliere le dimensioni. Per alcune
dimensioni la scelta è immediata
Si tratta delle dimensioni primarie che fissano la grana delle misurazioni
e sono tra loro indipendenti poiché le misure relative ai movimenti giornalie-
ri dei prodotti dipendono funzionalmente da queste dimensioni
La scelta di altre dimensioni è meno ovvia
Si tratta delle dimensioni supplementari che dipendono funzionalmente
dalle dimensioni primarie nel senso che per ogni possibile combinazione del-
le dimensioni primarie è univoca la scelta del valore delle dimensioni sup-
plementari
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 19
20. Il data mart delle vendite
Scelta dei fatti
Le misure disponibili relativamente alle vendite giornaliere dei prodotti
sono
Incasso totale in dollari (dollar_sales)
Numero totale di unità vendute (units_sales)
Costo totale in dollari (dollar_cost)
Numero di clienti (customer_count)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 20
21. La dimensione del tempo
La dimensione tempo descrive i giorni di un intervallo tempora-
le di interesse
La dimensione tempo è presente nella maggior parte degli
schemi dimensionali e praticamente in tutti I DW
La realizzazione di una tabella dimensionale per il tempo è semplice
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 21
22. Le dimensioni prodotto, negozio, numero di transazione
e promozione
La dimensione prodotto descrive le unità di vendità (SKU)
della catena di negozi
La dimensione negozio descrive i negozi della catena e rap-
presenta una dimensione essenzialmente geografica
La dimensione numero di transazione rappresenta gli scon-
trini di vendita
Utilizzando anche questa dimensione come dimensione primaria la gra-
na dei dati nella tabella fatti diventa quella di una riga per ciascuna voce
di scontrino di vendita
La dimensione promozione descrive ogni possibile promo-
zione che si applica alla vendita dei prodotti ed è una dimen-
sione causale
Descrive fattori che sono la causa di potenziali cambiamenti (abitudini
dei clienti)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 22
23. SOMMARIO
Il modello dimensionale
Vendite al dettaglio (studio di caso)
Spedizioni (studio di caso)
Catena del valore (studio di caso)
Servizi finanziari (studio di caso)
Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 23
24. Il processo delle spedizioni
Il processo delle spedizioni riguarda il flusso di spedizione dei
prodotti dall'organizzazione al cliente
Il processo delle spedizioni viene analizzato dal punto di vista
del caricamento delle merci sui mezzi di trasporto destinati ai
clienti
I dati conosciuti dall'organizzazione relativamente ad una spedi-
zione non si limitano ai dati mostrati sul documento allegato ma
comprendono anche
Prezzi di listino, costi di produzione, distribuzione e commercializzazio-
ne
Il data mart delle spedizioni è una sorgente informativa molto
potente
Contiene dati relativi a tutti i prodotti, tutti i clienti, e tutti i contratti con
cui l'organizzazione vende prodotti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 24
25. Schema dimensionale per le spedizioni
La grana della tabella fatti rappresenta la linea nel documento di
accompagnamento della spedizione
Tempo e prodotto
Sede destinazione (Cust Ship-to)
Accordo commerciale (Deal)
Sede sorgente (Ship-from)
Modalità di spedizione (Ship-mode)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 25
26. Le dimensioni Cust Ship-to, Deal, Ship-from e Ship-
mode
La dimensione Cust Ship-to descrive le possibili sedi di de-
stinazioni a cui vengono effettuate le spedizioni
La dimensione Deal descrive gli incentivi che sono stati of-
ferti al cliente relativamente alla vendita che ha portato alla
spedizione
La dimensione Ship-from descrive le sedi da cui hanno origi-
ne le spedizioni
La dimensione Ship-mode descrive informazioni relative alla
modalità di spedizione ai clienti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 26
27. Dichiarazione profitti e perdite e soddisfazione del
cliente
Al momento della consegna sono note molte informazioni re-
lative al valore della merce consegnata
una dichiarazione profitti e perdite descrive tutti gli incassi e i costi dal
valore di vendita massimo (senza sconti) al valore effettivo di vendita
(dopo tutti gli sconti, deduzioni e costi)
è corretto associare alla consegna solo i valori direttamente imputabili
ad essa
Al momento della consegna sono noti alcuni fatti che in-
fluenzano la soddisfazione del cliente
Consegna in tempo
Consegna completata
Consegna senza danni
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 27
28. SOMMARIO
Il modello dimensionale
Vendite al dettaglio (studio di caso)
Spedizioni (studio di caso)
Catena del valore (studio di caso)
Servizi finanziari (studio di caso)
Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 28
29. Il processo catena del valore
Lato della domanda: uno scenario tipico legato alla domanda
dei prodotti è rappresentato dai seguenti schemi dimensio-
nali, ordinati dal punto in cui il prodotto ha origine al punto
in cui viene venduto all'utente finale
Magazzino dei prodotti finiti
Tempo, prodotto, magazzino
Spedizione al centro di distribuzione
Tempo, prodotto, magazzino, modalità di consegna
Magazzino del centro di distribuzione
Tempo, prodotto, centro di distribuzione
Spedizione ai negozi di vendita
Tempo, prodotto, negozio
Magazzino dei negozi di vendita
Tempo, prodotto, negozio
Vendita al dettaglio
Tempo, prodotto, negozio, promozione, cliente
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 29
30. Il processo catena del valore
Lato della produzione: il processo di produzione riguarda
l'acquisizione di parti ed il loro montaggio in prodotti finiti
Ordinazione materiali
Tempo, ingrediente, fornitore
Consegna materiali
Tempo, ingrediente, fornitore, stabilimento, modalità di consegna
Magazzino materiali
Tempo, ingrediente, stabilimento
Monitoraggio dei processi produttivi
Tempo, ingrediente, processo, stabilimento
Montaggio
Tempo, ingrediente, prodotto
Inventario prodotti finiti
Tempo, prodotto, magazzino
Programmazione della produzione
Tempo, prodotto
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 30
31. Dimensioni conformi
Una dimensione conforme è una dimensione che ha esattamen-
te lo stesso significato in più schemi dimensionali
Un insieme di schemi dimensionali forma un data mart se è sta-
to costruito attorno ad un insieme coerente e coordinato di di-
mensioni conformi
Esistono diversi tipi di dimensioni conformi
Dimensioni assolutamente identiche
Dimensioni con gli stessi membri e gli stessi identificatori ma attributi
diversi
Dimensioni con dettaglio ridotto
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 31
32. Architettura del DW a Bus
L'idea è quella di definire uno standard aziendale per connette-
re i diversi data mart all'architettura più ampia del DW infatti i
data mart possono essere collegati e cooperare se rispettano
questo standard aziendale
Viceversa, è inaccettabile creare data mart separati che ignora-
no l'aspetto della condivisione dei dati perché di fatto, bloccano
lo sviluppo di un ambiente di DW coerente
L'architettura del DW a bus è basata sulle nozioni di
Dimensioni conformi
Fatti conformi
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 32
33. SOMMARIO
Il modello dimensionale
Vendite al dettaglio (studio di caso)
Spedizioni (studio di caso)
Catena del valore (studio di caso)
Servizi finanziari (studio di caso)
Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 33
34. Il processo dei servizi finanziari
Viene ora considerato il DW per una grande banca
La banca offre diversi servizi finanziari
Ad esempio conti correnti, libretti di risparmio, mutui, investimenti, prestiti
personali, carte di credito, cassette di sicurezza, ...
Vogliamo analizzare tutti i conti gestiti dalla banca, con i relativi titolari
individuali, ma soprattutto le famiglie (residenziali e commerciali) a cui
appartengono
Lo scopo è
Offrire servizi più efficienti
Offrire servizi supplementari
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 34
35. Il processo dei servizi finanziari
Mediante delle interviste sono stati raccolti i seguenti requisiti
Devono essere memorizzati cinque anni di storia per ciascun conto
Ogni tipo di conto ha un saldo primario
Ogni tipo di conto è caratterizzato da attributi e fatti numerici propri
Ogni conto è considerato appartenente ad una famiglia (residenziale o
commerciale)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 35
36. Il data mart dei servizi finanziari
Viene deciso di realizzare un data mart per il processo dei
conti delle famiglie
La progettazione del data mart viene svolta in due passi
Prima viene progettato uno schema dimensionale nucleo (core) relativo a
tutti i conti (ovvero a tutti i tipi di conto)
Successivamente il progetto del data mart verrà completato tenendo in
considerazione le caratteristiche individuali di ciascun tipo di conto
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 36
37. Progettazione della tabella fatti nucleo
La tabella fatti nucleo per il processo dei conti delle famiglie
dipende dalle seguenti dimensioni
Conto (account), famiglia (household), filiale (branch), prodotto (product),
stato (status) e tempo (time)
La grana della tabella fatti è conto per mese
Le dimensioni primarie sono conto e tempo
Le dimensioni famiglia, filiale, prodotto e stato sono dimensioni supplementari
I fatti di interesse sono
Saldo primario (primary balance) e numero di transazioni (transaction count)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 37
38. Attributi delle dimensioni
Conto
Nome primario, nome secondario, indirizzo, zip, stato, città, data
apertura, età primario, sesso primario, stato civile primario
Famiglia
Nome capofamiglia, indirizzo, zip, stato, città, reddito, tipo di famiglia
Filiale
Nome filiale, indirizzo, zip, stato, città, tipo filiale
Prodotto
Descrizione, tipo, categoria
Stato
Descrizione dello stato, ragione, flag nuovo conto, flag coto chiuso
Tempo
Mese, anno, trimestre fiscale
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 38
39. Conti e famiglie
La scelta di trattare separatamente conti e famiglie è legata
principalmente al fatto che la dimensione conto è grande ed
è soggetta a cambiamenti nel tempo
La definizione degli elementi di una famiglia cambia nel tempo
La nozione di conto è fondamentale nella banca
Bisogna evitare di gestire la dimensione conto come di tipo 2 (non sono
interessanti le versioni dei conti)
La corrispondenza tra i conti e famiglie è gestita come fatto nella tabella
fatti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 39
40. Prodotti e stato
La dimensione prodotto contiene solo gli attributi comuni a
tutti i diversi tipi di conto offerti dalla banca
Contiene una gerarchia di attributi elementari (descrizione, tipo e
categoria)
Non contiene nessun attributo proprio di nessun tipo particolare di
conto
Il prodotto è una caratteristica di ciascun conto
La dimensione prodotto è stata mantenuta separata dalla dimensione
conto perché la banca pensa ai prodotti come a una dimensione
fondamentale della banca
La dimensione stato descrive lo stato in cui può trovarsi un
conto
Viene usata anche per tenere traccia dei cambiamenti di stato dei conti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 40
41. Dimensioni sporche
Nello schema dimensionale per i servizi finanziari non è
presente una dimensione cliente
La dimensione più vicina a cliente è conto
Nei servizi finanziari (per ragioni storiche e culturali) l'enfasi è sui conti
e non sui loro titolari
Se fosse presente la dimensione cliente sarebbe una dimensione
sporca
Ovvero una dimensione che contiene molti membri duplicati o non
completamente corretti
La dimensione famiglia è probabilmente una dimensione
sporca (con una accuratezza dell'80% circa)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 41
42. Semi-additività dei saldi
I saldi dei conti sono fatti semi-additivi (come i livelli di
inventario)
Non sono additivi rispetto al tempo
Per combinare un insieme di saldi attraverso un intervallo temporale,
calcolandone la media, bisogna sommare I saldi e dividere per il
numero di periodi dell'intervallo temporale
Le applicazioni che devono calcolare la media di dati semi-
additivi (non additivi rispetto al tempo)
Non devono usare direttamente la funzione AVG di SQL
Devono calcolare in proprio la funzione (virtuale) “media su un
intervallo temporale”
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 42
43. Prodotti eterogenei
La progettazione del data mart dei servizi finanziari deve
considerare anche la presenza di diverse tipologie di prodotti
eterogenei
I prodotti sono eterogenei nel senso che ciascun prodotto è
caratterizzato da un proprio insieme di attributi (descrittivi) e di fatti
(numerici)
Ad esempio
I conti correnti sono caratterizzati da un saldo del conto, saldo minimo,
limite dello scoperto, spese, collegamento a carte di credito, ...
Le carte di credito sono caratterizzate da un saldo, limite del credito, data di
emissione e scadenza
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 43
44. Gestione prodotti eterogenei
Una prima soluzione è quella di estendere la tabella fatti con
i fatti di ciascun tipo di conto e la dimensione prodotto con
gli attributi di ciascun tipo di conto
Tuttavia questi fatti e attributi sarebbero spesso non significativi e vuoti
con notevole spreco di occupazione di memoria e degrado delle
prestazioni
Inoltre l'introduzione di nuovi tipi di prodotto sarebbe difficoltosa
Una soluzione più efficace consiste nell'introduzione di una
nuova tabella fatti e di una nuova dimensione personalizzata
per ciascun tipo di conto
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 44
45. Schema dimensionale dei prodotti eterogenei
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 45
46. Schema dimensionale dei prodotti eterogenei
Il data mart completo dei servizi finanziari comprende
Una tabella fatti e una tabella dimensione nucleo
Una tabella fatti e una tabella dimensione personalizzata per ciascun
tipo di prodotto
Ogni membro della dimensione prodotto nucleo è anche membro di
(esattamente) una dimensione prodotto personalizzata
Ogni record della tabella fatti nucleo descrive un insieme di fatti che è
riportato anche in un record di (esattamente) una tabella fatti
personalizzata
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 46
47. Analisi dei prodotti eterogenei
Le analisi di interesse per una base di dati di prodotti
eterogenei sono di due tipi
Analisi interessate a più tipi di prodotti eterogenei
Sono interessate solo a fatti e attributi comuni a tutti i tipi di prodotto
Analisi interessate ad un solo tipo di prodotto
Sono interessate anche a fatti e attributi propri del particolare tipo di
prodotto
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 47
48. Altre rappresentazioni di prodotti eterogenei
Il data mart dei servizi finanziari è formato dalle istantanee
relative a conti appartenenti ad un certo numero di classi di
prodotti eterogenei
La tabella fatti contiene in questo caso molti fatti
Che cosa sarebbe successo se la grana del data mart fosse
stata quella delle transazioni?
In questo caso l'unico fatto interessante sarebbe stato la quantità
indipendentemente dalla classe di prodotto
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 48
49. Uso di minidimensioni
Le dimensioni conto e famiglia sono grandi e oggette a
cambiamenti lenti nel tempo
In questo caso può essere opportuno evidenziare gli attributi variabili
nel tempo di cui interessa tenere traccia e decomporre le dimensioni
mediante l'introduzione di minidimensioni
Le minidimensioni rappresenterebbero classi predefinite (e sostanzialmente
invarianti nel tempo) di combinazioni degli attributi variabili
Sarebbe poi possibile accedere ai fatti sia sulla base dei valori delle
dimensioni nei periodi relativi ai fatti che dei valori correnti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 49
50. SOMMARIO
Il modello dimensionale
Vendite al dettaglio (studio di caso)
Spedizioni (studio di caso)
Catena del valore (studio di caso)
Servizi finanziari (studio di caso)
Il ciclo di vita
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 50
51. Ciclo di vita dimensionale e sue fasi
Viene ora descritta una metodologia completa di progettazione
e realizzazione di DW
La metodologia è descritta dal ciclo di vita dimensionale dei DW
Fornisce il contesto di riferimento per la progettazione e realizzazione di DW
dimensionali
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 51
52. Pianificazione e gestione progetto
Il ciclo di vita di un DW ha inizio con la pianificazione e per
tutta la sua durata richiede una attività di gestione
La pianificazione riguarda la definizione del progetto di DW e dei suoi
confini
Analisi preliminare dei requisiti e dei confini del progetto
Valutazioni economiche
Identificazione delle risorse
Formazione dei gruppi di lavoro
Definizione del piano di sviluppo
Gestione del progetto
Monitoraggio e controllo
Gestione dei cambiamenti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 52
53. Raccolta e analisi dei requisiti
Comprensione dettagliata dei requisiti del DW
Requisiti raccolti dai responsabili dei processi
Obiettivi dell'organizzazione
Processi dell'organizzazione
Metriche di prestazione dei processi
Dimensioni
Modalità correnti e desiderate di analisi
Requisiti raccolti dai responsabili del sistema informativo
Sorgenti di dati
Modalità correnti di analisi
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 53
54. Progettazione de DW
La progettazione del DW avviene su tre tracce parallele
Progettazione dei dati
Progettazione tecnologica
Progettazione delle applicazioni
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 54
55. Progettazione dimensionale
La progettazione dimensionale è la progettazione logica dei
dati del DW basata sull'architettura a bus
Progettazione dei data mart
Progettazione di un insieme di dimensioni conformi
Progettazione degli schemi dimensionali
Analisi delle sorgenti informative
Piano preliminare delle aggregazioni
Lo schema logico del DW è la pietra angolare della
progettazione dell'intero DW
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 55
56. Progettazione fisica
Definizione delle strutture fisiche adeguate a una rappresen-
tazione efficiente dello schema logico del DW
Definizione dello schema dei dati
Progettazione preliminare delle srategie di
Indicizzazione
Partizionamento dei dati
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 56
57. Progetto e sviluppo della preparazione dei dati
Il processo di preparazione dei dati
Ha tre passi principali
Estrazione
Trasformazione
Caricamento
Deve gestire la qualità dei dati presenti nelle sorgenti informative
Deve essere realizzata in due forme
Preparazione al caricamento iniziale del DW (preparazione statica)
Preparazione ai caricamenti periodici (preparazione incrementale)
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 57
58. Progettazione tecnologica
Progettazione dell'architettura globale del DW (ovvero del
sistema di data warehousing)
Richiede l'integrazione di numerosi sistemi e tecnologie
Selezione e installazione dei prodotti
Scelta degli ambienti hardware e software
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 58
59. Progettazione delle applicazioni
Specifica delle applicazioni utente
Non tutti gli utenti useranno strumenti ad hoc di interrogazione
È quindi necessario sviluppare un insieme di applicazioni per gli utenti
finali
Basata sullo schema logico (dimensionale) dei dati
Sviluppo delle applicazioni
Solitamente basato sull'uso di
Strumenti avanzati di accesso ai dati
Metadati
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 59
60. Installazione e avviamento
Le tracce di progettazione dei dati, tecnologia e delle
applicazioni convergono in questa fase
Il DW viene costruito e reso accessibile agli utenti finali
Installazione delle applicazioni
Formazione degli utenti
Supporto agli utenti
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 60
61. Manutenzione e crescita
La manutenzione comprende
Supporto e formazione continui
Verifica di qualità del DW
Un DW realizzato con il ciclo di vita dimensionale è pronto a
evolvere e crescere
L'evoluzione di un DW è indice di successo, non di fallimento
Solitamente l'evoluzione riguarda il miglioramento dei data mart
esistenti e la realizzazione di nuovi data mart
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 61
62. FINE
GRAZIE PER L'ATTENZIONE
Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 62