SlideShare ist ein Scribd-Unternehmen logo
1 von 62
Downloaden Sie, um offline zu lesen
Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.
    Corso di laurea specialistica in informatica – A.A. 2008/2009

   Corso di basi di dati avanzate e
      tecniche di data mining




  Introduzione al Data Warehousing ed alla
Progettazione di Data Warehouse Dimensionali
          Studenti:                         Professore:
        Andrea Manfucci                    Giorgio Cecconi
        Davide Ciambelli
SOMMARIO


 Il modello dimensionale
 Vendite al dettaglio (studio di caso)
 Spedizioni (studio di caso)
 Catena del valore (studio di caso)
 Servizi finanziari (studio di caso)
 Il ciclo di vita



  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   2
Il modello dimensionale

  La progettazione dei dati del data warehouse (DW) è la
  pietra angolare del progetto dell'intero DW
     Basandosi sul progetto dei dati è possibile
          Pianificare e progettare le applicazioni
          Pianificare l'estrazione e la trasformazione dei dati
          Stimare l'occupazione di memoria complessiva del DW

  La progettazione dei dati in un DW dimensionale
     È basata sulla modellazione dimensionale




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   3
Schemi dimensionali

  La modellazione dimensionale è una tecnica di progettazione
  logica dei dati nel DW
     È orientata alla definizione di schemi relazionali di tipo “dimensionale”
     Uno schema dimensionale (chiamato anche star schema o schema
     a stella) è composto da
          Una tabella dei fatti (fact table)
          Un insieme di tabelle ausiliarie (dimension tables)




          Questo schema modella i dati delle vendite di prodotti in un certo numero di
          negozi nel corso del tempo

  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   4
Scopo di uno schema dimensionale

  In uno schema dimensionale
     Una dimension table serve a rappresentare un insieme di elementi
     chiamati membri
     Una fact table serve a memorizzare un insieme di funzioni numeriche




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   5
Tabelle dimensione

  Una dimension table memorizza una dimensione rispetto alla
  quale è interessante analizzare un processo
     Una dimensione è un insieme di elementi chiamati membri
     Ciascuna riga di una tabella dimensione rappresenta un membro della
     dimensione
     Gli altri campi di una tabella dimensione memorizzano gli attributi dei
     membri




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   6
Tabella fatti

  Una fact table memorizza le misure numeriche di un proces-
  so
      Per fatto si intende una misura relativa ad un processo
      La chiave è normalmente composta da riferimenti alle chiavi delle varie
      tabelle dimensione
      Gli altri campi rappresentano i fatti




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   7
Additività e semi additività dei fatti

  Un fatto è additivo se ha senso sommarlo rispetto ad ogni
  possibile combinazione delle dimensioni
  I fatti possono anche essere:
      Semi additivi se ha senso sommarli rispetto ad alcune dimensioni
      Non additivi se non ha senso sommarli
      Può avere senso combinare fatti anche non completamente additivi me-
      diante operazioni diverse dalla somma




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   8
Attributi e interrogazioni

  Gli attributi delle tabelle dimensione sono il principale stru-
  mento per l'interrogazione del DW
      Gli attributi delle dimensioni vengono usati per
           Selezionare un sottoinsieme dei dati di interesse
           Raggruppare i dati di interesse




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   9
Formato delle interrogazioni

  Le interrogazioni assumono solitamente il seguente formato
  standard




      Possibili anche interrogazioni che effettuano confronti e/o rapporti

   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   10
SOMMARIO


 Il modello dimensionale
 Vendite al dettaglio (studio di caso)
 Spedizioni (studio di caso)
 Catena del valore (studio di caso)
 Servizi finanziari (studio di caso)
 Il ciclo di vita



  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   11
Studi di caso

  Le tecniche di modellazione dimensionale vengono illustrate
  mediante un certo numero di esempi chiamati studi di caso
      Ciascun studio di caso è relativo ad un esempio concreto
      Ciascun studio di caso introduce una o più tecniche di modellazione di-
      mensionale
      Ciascuna tecnica può essere usata in più contesti

  Inizialmente viene introdotta una semplice metodologia per
  la progettazione di uno schema dimensionale
      Uno schema dimensionale è composto da una singola tabella fatti e da
      un insieme di tabelle dimensione

  Bisogna tenere presente che
      Un data mart può essere composto da più schemi dimensionali
      Un DW dimensionale è normalmente composto da più data mart


   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   12
Progettazione di uno schema dimensionale

  La progettazione di uno schema dimensionale richiede lo
  svolgimento di quattro passi
     Scelta   del processo di business da modellare
     Scelta   della grana del processo
     Scelta   delle dimensioni da cui dipende ciascun record della tabella fatti
     Scelta   dei fatti misurabili che popoleranno ogni record della tabella fatti

  Queste scelte devono essere guidate
     Dai requisiti
     Dalle sorgenti informative disponibili




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   13
Progettazione di uno schema dimensionale

  Scelta del processo di business da modellare
     Quale processo stiamo modellando?
     Per processo si intende un processo operazionale, supportato da uno o
     più sistemi operazionali, i cui dati possono essere utilizzati per popolare
     lo schema dimensionale

  Scelta della grana del processo
     Che cosa descrive una singola riga della tabella fatti?
     Per grana si intende il livello di dettaglio atomico che deve essere rap-
     presentato nella tabella fatti per il processo




    Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   14
Progettazione di uno schema dimensionale

  Scelta delle dimensioni da cui dipende ogni record della ta-
  bella fatti
     In che modo sono descritti i dati di interesse per il processo che stiamo
     modellando?
     Una dimensione è un insieme di membri caratterizzati da un certo nu-
     mero di attributi da usare nelle select e nei raggruppamenti

  Scelta dei fatti misurabili che popoleranno ogni record della
  tabella fatti
     Che cosa stiamo misurando?
     I fatti sono misure del processo selezionato




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   15
Il processo delle vendite

  Si consideri il seguente caso di studio, relativo al processo
  delle vendite al dettaglio in una catena di negozi alimentari
      Lavoriamo nella direzione di una grande catena di alimentari
      La catena comprende 500 grandi negozi alimentari, distribuiti in 3 re-
      gioni
      Ogni negozio è un supermercato con diversi reparti
      Nella catena di negozi sono venduti circa 60.000 tipi di prodotti indivi-
      duali (SKU)
      Circa 40.000 SKU vengono da fornitori esterni e su di essi è stampato
      un codice a barre chiamato codice universale del prodotto (UPC)
      Gli altri 20.000 SKU corrispondono a prodotti che non sono confezionati
      o che sono confezionati localmente e non hanno un UPC




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   16
Il processo delle vendite

  Dove vengono raccolti i dati della catena di negozi alimentari?
      I dati relativi alle vendite vengono raccolti in ciascuna cassa mediante dei siste-
      mi POS

  La direzione della catena si occupa della logistica delle ordinazioni,
  della disposizione delle merci sugli scaffali, della vendita dei pro-
  dotti e della massimizzazione del profitto
      Sorgenti del profitto
      Le scelte sotto il controllo della direzione della catena si negozi riguardano

  Le promozioni comprendono
      Pubblicità
      Esposizione sugli scaffali

  Uno degli obiettivi della direzione è la comrpendione dell'impatto
  delle promozioni sulle vendite e, quindi, sui profitti


   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali    17
Il data mart delle vendite

  Scelta della grana
      Per il data mart per il processo delle vendite sono possibili diverse scelte
      per la grana
           Ad esempio unità di vendita (SKU) per negozio per giorno
      La scelta della grana ha influenza
           Sulle dimensioni usate nel data mart
           Sul tipo di analisi che può essere effettuato
           Sull'occupazione di memoria del data mart




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   18
Il data mart delle vendite

  Scelta delle dimensioni
     Fissati il processo e la grana bisogna scegliere le dimensioni. Per alcune
     dimensioni la scelta è immediata
          Si tratta delle dimensioni primarie che fissano la grana delle misurazioni
          e sono tra loro indipendenti poiché le misure relative ai movimenti giornalie-
          ri dei prodotti dipendono funzionalmente da queste dimensioni
     La scelta di altre dimensioni è meno ovvia
          Si tratta delle dimensioni supplementari che dipendono funzionalmente
          dalle dimensioni primarie nel senso che per ogni possibile combinazione del-
          le dimensioni primarie è univoca la scelta del valore delle dimensioni sup-
          plementari




    Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   19
Il data mart delle vendite

  Scelta dei fatti
      Le misure disponibili relativamente alle vendite giornaliere dei prodotti
      sono
           Incasso totale in dollari (dollar_sales)
           Numero totale di unità vendute (units_sales)
           Costo totale in dollari (dollar_cost)
           Numero di clienti (customer_count)




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   20
La dimensione del tempo

  La dimensione tempo descrive i giorni di un intervallo tempora-
  le di interesse
  La dimensione tempo è presente nella maggior parte degli
  schemi dimensionali e praticamente in tutti I DW
     La realizzazione di una tabella dimensionale per il tempo è semplice




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   21
Le dimensioni prodotto, negozio, numero di transazione
e promozione

  La dimensione prodotto descrive le unità di vendità (SKU)
  della catena di negozi

  La dimensione negozio descrive i negozi della catena e rap-
  presenta una dimensione essenzialmente geografica

  La dimensione numero di transazione rappresenta gli scon-
  trini di vendita
      Utilizzando anche questa dimensione come dimensione primaria la gra-
      na dei dati nella tabella fatti diventa quella di una riga per ciascuna voce
      di scontrino di vendita
  La dimensione promozione descrive ogni possibile promo-
  zione che si applica alla vendita dei prodotti ed è una dimen-
  sione causale
      Descrive fattori che sono la causa di potenziali cambiamenti (abitudini
      dei clienti)
   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   22
SOMMARIO


 Il modello dimensionale
 Vendite al dettaglio (studio di caso)
 Spedizioni (studio di caso)
 Catena del valore (studio di caso)
 Servizi finanziari (studio di caso)
 Il ciclo di vita



  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   23
Il processo delle spedizioni

  Il processo delle spedizioni riguarda il flusso di spedizione dei
  prodotti dall'organizzazione al cliente

  Il processo delle spedizioni viene analizzato dal punto di vista
  del caricamento delle merci sui mezzi di trasporto destinati ai
  clienti

  I dati conosciuti dall'organizzazione relativamente ad una spedi-
  zione non si limitano ai dati mostrati sul documento allegato ma
  comprendono anche
      Prezzi di listino, costi di produzione, distribuzione e commercializzazio-
      ne

  Il data mart delle spedizioni è una sorgente informativa molto
  potente
      Contiene dati relativi a tutti i prodotti, tutti i clienti, e tutti i contratti con
      cui l'organizzazione vende prodotti
   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali    24
Schema dimensionale per le spedizioni

  La grana della tabella fatti rappresenta la linea nel documento di
  accompagnamento della spedizione




     Tempo e prodotto
     Sede destinazione (Cust Ship-to)
     Accordo commerciale (Deal)
     Sede sorgente (Ship-from)
     Modalità di spedizione (Ship-mode)
  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   25
Le dimensioni Cust Ship-to, Deal, Ship-from e Ship-
mode

  La dimensione Cust Ship-to descrive le possibili sedi di de-
  stinazioni a cui vengono effettuate le spedizioni

  La dimensione Deal descrive gli incentivi che sono stati of-
  ferti al cliente relativamente alla vendita che ha portato alla
  spedizione

  La dimensione Ship-from descrive le sedi da cui hanno origi-
  ne le spedizioni

  La dimensione Ship-mode descrive informazioni relative alla
  modalità di spedizione ai clienti




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   26
Dichiarazione profitti e perdite e soddisfazione del
cliente

  Al momento della consegna sono note molte informazioni re-
  lative al valore della merce consegnata
      una dichiarazione profitti e perdite descrive tutti gli incassi e i costi dal
      valore di vendita massimo (senza sconti) al valore effettivo di vendita
      (dopo tutti gli sconti, deduzioni e costi)
      è corretto associare alla consegna solo i valori direttamente imputabili
      ad essa

  Al momento della consegna sono noti alcuni fatti che in-
  fluenzano la soddisfazione del cliente
      Consegna in tempo
      Consegna completata
      Consegna senza danni




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   27
SOMMARIO


 Il modello dimensionale
 Vendite al dettaglio (studio di caso)
 Spedizioni (studio di caso)
 Catena del valore (studio di caso)
 Servizi finanziari (studio di caso)
 Il ciclo di vita



  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   28
Il processo catena del valore

  Lato della domanda: uno scenario tipico legato alla domanda
  dei prodotti è rappresentato dai seguenti schemi dimensio-
  nali, ordinati dal punto in cui il prodotto ha origine al punto
  in cui viene venduto all'utente finale
      Magazzino dei prodotti finiti
           Tempo, prodotto, magazzino
      Spedizione al centro di distribuzione
           Tempo, prodotto, magazzino, modalità di consegna
      Magazzino del centro di distribuzione
           Tempo, prodotto, centro di distribuzione
      Spedizione ai negozi di vendita
           Tempo, prodotto, negozio
      Magazzino dei negozi di vendita
           Tempo, prodotto, negozio
      Vendita al dettaglio
           Tempo, prodotto, negozio, promozione, cliente
   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   29
Il processo catena del valore

  Lato della produzione: il processo di produzione riguarda
  l'acquisizione di parti ed il loro montaggio in prodotti finiti
      Ordinazione materiali
           Tempo, ingrediente, fornitore
      Consegna materiali
           Tempo, ingrediente, fornitore, stabilimento, modalità di consegna
      Magazzino materiali
           Tempo, ingrediente, stabilimento
      Monitoraggio dei processi produttivi
           Tempo, ingrediente, processo, stabilimento
      Montaggio
           Tempo, ingrediente, prodotto
      Inventario prodotti finiti
           Tempo, prodotto, magazzino
      Programmazione della produzione
           Tempo, prodotto
   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   30
Dimensioni conformi

  Una dimensione conforme è una dimensione che ha esattamen-
  te lo stesso significato in più schemi dimensionali
  Un insieme di schemi dimensionali forma un data mart se è sta-
  to costruito attorno ad un insieme coerente e coordinato di di-
  mensioni conformi
  Esistono diversi tipi di dimensioni conformi
      Dimensioni assolutamente identiche
      Dimensioni con gli stessi membri e gli stessi identificatori ma attributi
      diversi
      Dimensioni con dettaglio ridotto




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   31
Architettura del DW a Bus

  L'idea è quella di definire uno standard aziendale per connette-
  re i diversi data mart all'architettura più ampia del DW infatti i
  data mart possono essere collegati e cooperare se rispettano
  questo standard aziendale
  Viceversa, è inaccettabile creare data mart separati che ignora-
  no l'aspetto della condivisione dei dati perché di fatto, bloccano
  lo sviluppo di un ambiente di DW coerente
  L'architettura del DW a bus è basata sulle nozioni di
     Dimensioni conformi
     Fatti conformi




    Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   32
SOMMARIO


 Il modello dimensionale
 Vendite al dettaglio (studio di caso)
 Spedizioni (studio di caso)
 Catena del valore (studio di caso)
 Servizi finanziari (studio di caso)
 Il ciclo di vita



  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   33
Il processo dei servizi finanziari

  Viene ora considerato il DW per una grande banca
      La banca offre diversi servizi finanziari
           Ad esempio conti correnti, libretti di risparmio, mutui, investimenti, prestiti
           personali, carte di credito, cassette di sicurezza, ...
      Vogliamo analizzare tutti i conti gestiti dalla banca, con i relativi titolari
      individuali, ma soprattutto le famiglie (residenziali e commerciali) a cui
      appartengono
      Lo scopo è
           Offrire servizi più efficienti
           Offrire servizi supplementari




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali     34
Il processo dei servizi finanziari


Mediante delle interviste sono stati raccolti i seguenti requisiti

      Devono essere memorizzati cinque anni di storia per ciascun conto
      Ogni tipo di conto ha un saldo primario
      Ogni tipo di conto è caratterizzato da attributi e fatti numerici propri
      Ogni conto è considerato appartenente ad una famiglia (residenziale o
      commerciale)




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   35
Il data mart dei servizi finanziari


  Viene deciso di realizzare un data mart per il processo dei
  conti delle famiglie
      La progettazione del data mart viene svolta in due passi
           Prima viene progettato uno schema dimensionale nucleo (core) relativo a
           tutti i conti (ovvero a tutti i tipi di conto)
           Successivamente il progetto del data mart verrà completato tenendo in
           considerazione le caratteristiche individuali di ciascun tipo di conto




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   36
Progettazione della tabella fatti nucleo

  La tabella fatti nucleo per il processo dei conti delle famiglie
  dipende dalle seguenti dimensioni
      Conto (account), famiglia (household), filiale (branch), prodotto (product),
      stato (status) e tempo (time)
      La grana della tabella fatti è conto per mese
           Le dimensioni primarie sono conto e tempo
           Le dimensioni famiglia, filiale, prodotto e stato sono dimensioni supplementari
      I fatti di interesse sono
           Saldo primario (primary balance) e numero di transazioni (transaction count)




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali     37
Attributi delle dimensioni

  Conto
      Nome primario, nome secondario, indirizzo, zip, stato, città, data
      apertura, età primario, sesso primario, stato civile primario
  Famiglia
      Nome capofamiglia, indirizzo, zip, stato, città, reddito, tipo di famiglia
  Filiale
      Nome filiale, indirizzo, zip, stato, città, tipo filiale
  Prodotto
      Descrizione, tipo, categoria
  Stato
      Descrizione dello stato, ragione, flag nuovo conto, flag coto chiuso
  Tempo
      Mese, anno, trimestre fiscale



   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   38
Conti e famiglie

  La scelta di trattare separatamente conti e famiglie è legata
  principalmente al fatto che la dimensione conto è grande ed
  è soggetta a cambiamenti nel tempo
      La definizione degli elementi di una famiglia cambia nel tempo
      La nozione di conto è fondamentale nella banca
           Bisogna evitare di gestire la dimensione conto come di tipo 2 (non sono
           interessanti le versioni dei conti)
  La corrispondenza tra i conti e famiglie è gestita come fatto nella tabella
  fatti




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   39
Prodotti e stato

  La dimensione prodotto contiene solo gli attributi comuni a
  tutti i diversi tipi di conto offerti dalla banca
      Contiene una gerarchia di attributi elementari (descrizione, tipo e
      categoria)
      Non contiene nessun attributo proprio di nessun tipo particolare di
      conto
  Il prodotto è una caratteristica di ciascun conto
      La dimensione prodotto è stata mantenuta separata dalla dimensione
      conto perché la banca pensa ai prodotti come a una dimensione
      fondamentale della banca
  La dimensione stato descrive lo stato in cui può trovarsi un
  conto
      Viene usata anche per tenere traccia dei cambiamenti di stato dei conti




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   40
Dimensioni sporche

  Nello schema dimensionale per i servizi finanziari non è
  presente una dimensione cliente
     La dimensione più vicina a cliente è conto
     Nei servizi finanziari (per ragioni storiche e culturali) l'enfasi è sui conti
     e non sui loro titolari
     Se fosse presente la dimensione cliente sarebbe una dimensione
     sporca
          Ovvero una dimensione che contiene molti membri duplicati o non
          completamente corretti

  La dimensione famiglia è probabilmente una dimensione
  sporca (con una accuratezza dell'80% circa)




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   41
Semi-additività dei saldi

  I saldi dei conti sono fatti semi-additivi (come i livelli di
  inventario)
      Non sono additivi rispetto al tempo
      Per combinare un insieme di saldi attraverso un intervallo temporale,
      calcolandone la media, bisogna sommare I saldi e dividere per il
      numero di periodi dell'intervallo temporale

  Le applicazioni che devono calcolare la media di dati semi-
  additivi (non additivi rispetto al tempo)
      Non devono usare direttamente la funzione AVG di SQL
      Devono calcolare in proprio la funzione (virtuale) “media su un
      intervallo temporale”




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   42
Prodotti eterogenei

  La progettazione del data mart dei servizi finanziari deve
  considerare anche la presenza di diverse tipologie di prodotti
  eterogenei
      I prodotti sono eterogenei nel senso che ciascun prodotto è
      caratterizzato da un proprio insieme di attributi (descrittivi) e di fatti
      (numerici)
      Ad esempio
           I conti correnti sono caratterizzati da un saldo del conto, saldo minimo,
           limite dello scoperto, spese, collegamento a carte di credito, ...
           Le carte di credito sono caratterizzate da un saldo, limite del credito, data di
           emissione e scadenza




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali      43
Gestione prodotti eterogenei

  Una prima soluzione è quella di estendere la tabella fatti con
  i fatti di ciascun tipo di conto e la dimensione prodotto con
  gli attributi di ciascun tipo di conto
     Tuttavia questi fatti e attributi sarebbero spesso non significativi e vuoti
     con notevole spreco di occupazione di memoria e degrado delle
     prestazioni
     Inoltre l'introduzione di nuovi tipi di prodotto sarebbe difficoltosa
  Una soluzione più efficace consiste nell'introduzione di una
  nuova tabella fatti e di una nuova dimensione personalizzata
  per ciascun tipo di conto




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   44
Schema dimensionale dei prodotti eterogenei




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   45
Schema dimensionale dei prodotti eterogenei

  Il data mart completo dei servizi finanziari comprende
     Una tabella fatti e una tabella dimensione nucleo
     Una tabella fatti e una tabella dimensione personalizzata per ciascun
     tipo di prodotto
     Ogni membro della dimensione prodotto nucleo è anche membro di
     (esattamente) una dimensione prodotto personalizzata
     Ogni record della tabella fatti nucleo descrive un insieme di fatti che è
     riportato anche in un record di (esattamente) una tabella fatti
     personalizzata




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   46
Analisi dei prodotti eterogenei

  Le analisi di interesse per una base di dati di prodotti
  eterogenei sono di due tipi
      Analisi interessate a più tipi di prodotti eterogenei
           Sono interessate solo a fatti e attributi comuni a tutti i tipi di prodotto
      Analisi interessate ad un solo tipo di prodotto
           Sono interessate anche a fatti e attributi propri del particolare tipo di
           prodotto




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   47
Altre rappresentazioni di prodotti eterogenei

  Il data mart dei servizi finanziari è formato dalle istantanee
  relative a conti appartenenti ad un certo numero di classi di
  prodotti eterogenei
      La tabella fatti contiene in questo caso molti fatti

  Che cosa sarebbe successo se la grana del data mart fosse
  stata quella delle transazioni?
      In questo caso l'unico fatto interessante sarebbe stato la quantità
      indipendentemente dalla classe di prodotto




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   48
Uso di minidimensioni

  Le dimensioni conto e famiglia sono grandi e oggette a
  cambiamenti lenti nel tempo
     In questo caso può essere opportuno evidenziare gli attributi variabili
     nel tempo di cui interessa tenere traccia e decomporre le dimensioni
     mediante l'introduzione di minidimensioni
          Le minidimensioni rappresenterebbero classi predefinite (e sostanzialmente
          invarianti nel tempo) di combinazioni degli attributi variabili
          Sarebbe poi possibile accedere ai fatti sia sulla base dei valori delle
          dimensioni nei periodi relativi ai fatti che dei valori correnti




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   49
SOMMARIO


 Il modello dimensionale
 Vendite al dettaglio (studio di caso)
 Spedizioni (studio di caso)
 Catena del valore (studio di caso)
 Servizi finanziari (studio di caso)
 Il ciclo di vita



  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   50
Ciclo di vita dimensionale e sue fasi

  Viene ora descritta una metodologia completa di progettazione
  e realizzazione di DW
      La metodologia è descritta dal ciclo di vita dimensionale dei DW
      Fornisce il contesto di riferimento per la progettazione e realizzazione di DW
      dimensionali




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   51
Pianificazione e gestione progetto

  Il ciclo di vita di un DW ha inizio con la pianificazione e per
  tutta la sua durata richiede una attività di gestione
      La pianificazione riguarda la definizione del progetto di DW e dei suoi
      confini
           Analisi preliminare dei requisiti e dei confini del progetto
           Valutazioni economiche
           Identificazione delle risorse
           Formazione dei gruppi di lavoro
           Definizione del piano di sviluppo
      Gestione del progetto
           Monitoraggio e controllo
           Gestione dei cambiamenti




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   52
Raccolta e analisi dei requisiti

  Comprensione dettagliata dei requisiti del DW
      Requisiti raccolti dai responsabili dei processi
           Obiettivi dell'organizzazione
           Processi dell'organizzazione
           Metriche di prestazione dei processi
           Dimensioni
           Modalità correnti e desiderate di analisi
      Requisiti raccolti dai responsabili del sistema informativo
           Sorgenti di dati
           Modalità correnti di analisi




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   53
Progettazione de DW

  La progettazione del DW avviene su tre tracce parallele
     Progettazione dei dati
     Progettazione tecnologica
     Progettazione delle applicazioni




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   54
Progettazione dimensionale

  La progettazione dimensionale è la progettazione logica dei
  dati del DW basata sull'architettura a bus
     Progettazione dei data mart
     Progettazione di un insieme di dimensioni conformi
     Progettazione degli schemi dimensionali
     Analisi delle sorgenti informative
     Piano preliminare delle aggregazioni

  Lo schema logico del DW è la pietra angolare della
  progettazione dell'intero DW




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   55
Progettazione fisica

  Definizione delle strutture fisiche adeguate a una rappresen-
  tazione efficiente dello schema logico del DW
      Definizione dello schema dei dati
      Progettazione preliminare delle srategie di
           Indicizzazione
           Partizionamento dei dati




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   56
Progetto e sviluppo della preparazione dei dati

  Il processo di preparazione dei dati
      Ha tre passi principali
           Estrazione
           Trasformazione
           Caricamento
      Deve gestire la qualità dei dati presenti nelle sorgenti informative
      Deve essere realizzata in due forme
           Preparazione al caricamento iniziale del DW (preparazione statica)
           Preparazione ai caricamenti periodici (preparazione incrementale)




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   57
Progettazione tecnologica

  Progettazione dell'architettura globale del DW (ovvero del
  sistema di data warehousing)
     Richiede l'integrazione di numerosi sistemi e tecnologie
  Selezione e installazione dei prodotti
     Scelta degli ambienti hardware e software




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   58
Progettazione delle applicazioni

  Specifica delle applicazioni utente
      Non tutti gli utenti useranno strumenti ad hoc di interrogazione
      È quindi necessario sviluppare un insieme di applicazioni per gli utenti
      finali
      Basata sullo schema logico (dimensionale) dei dati

  Sviluppo delle applicazioni
      Solitamente basato sull'uso di
           Strumenti avanzati di accesso ai dati
           Metadati




   Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   59
Installazione e avviamento

  Le tracce di progettazione dei dati, tecnologia e delle
  applicazioni convergono in questa fase
     Il DW viene costruito e reso accessibile agli utenti finali
          Installazione delle applicazioni
          Formazione degli utenti
          Supporto agli utenti




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   60
Manutenzione e crescita

  La manutenzione comprende
     Supporto e formazione continui
     Verifica di qualità del DW
  Un DW realizzato con il ciclo di vita dimensionale è pronto a
  evolvere e crescere
     L'evoluzione di un DW è indice di successo, non di fallimento
     Solitamente l'evoluzione riguarda il miglioramento dei data mart
     esistenti e la realizzazione di nuovi data mart




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   61
FINE




       GRAZIE PER L'ATTENZIONE




  Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali   62

Weitere ähnliche Inhalte

Andere mochten auch (6)

Datacube
DatacubeDatacube
Datacube
 
MS SQL SERVER: Olap cubes and data mining
MS SQL SERVER: Olap cubes and data miningMS SQL SERVER: Olap cubes and data mining
MS SQL SERVER: Olap cubes and data mining
 
Data Mining: Data cube computation and data generalization
Data Mining: Data cube computation and data generalizationData Mining: Data cube computation and data generalization
Data Mining: Data cube computation and data generalization
 
Data cubes
Data cubesData cubes
Data cubes
 
Data cube computation
Data cube computationData cube computation
Data cube computation
 
DATA WAREHOUSING
DATA WAREHOUSINGDATA WAREHOUSING
DATA WAREHOUSING
 

Ähnlich wie Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

Testimonianza di Matteo Pozzi mathematics at work
Testimonianza di Matteo Pozzi mathematics at workTestimonianza di Matteo Pozzi mathematics at work
Testimonianza di Matteo Pozzi mathematics at work
laboratoridalbasso
 

Ähnlich wie Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali (20)

Data Mining
Data MiningData Mining
Data Mining
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
2470620 data-warehouse
2470620 data-warehouse2470620 data-warehouse
2470620 data-warehouse
 
Cuore, muscoli e cervello ... il magazzino eccellente - Simco
Cuore, muscoli e cervello ... il magazzino eccellente - SimcoCuore, muscoli e cervello ... il magazzino eccellente - Simco
Cuore, muscoli e cervello ... il magazzino eccellente - Simco
 
QUANDO IL METODO È IMPORTANTE PER UN RISULTATO SICURO: IL PROGETTO DEL MAGAZZINO
QUANDO IL METODO È IMPORTANTE PER UN RISULTATO SICURO: IL PROGETTO DEL MAGAZZINOQUANDO IL METODO È IMPORTANTE PER UN RISULTATO SICURO: IL PROGETTO DEL MAGAZZINO
QUANDO IL METODO È IMPORTANTE PER UN RISULTATO SICURO: IL PROGETTO DEL MAGAZZINO
 
Il percorso delle informazioni
Il percorso delle informazioni Il percorso delle informazioni
Il percorso delle informazioni
 
L'INNOVAZIONE NELLA PROGETTAZIONE DEI MAGAZZINI - SIMCO CONSULTING
L'INNOVAZIONE NELLA PROGETTAZIONE DEI MAGAZZINI - SIMCO CONSULTINGL'INNOVAZIONE NELLA PROGETTAZIONE DEI MAGAZZINI - SIMCO CONSULTING
L'INNOVAZIONE NELLA PROGETTAZIONE DEI MAGAZZINI - SIMCO CONSULTING
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
6 informatica per_azienda
6 informatica per_azienda6 informatica per_azienda
6 informatica per_azienda
 
CASE STUDY: La Riduzione del valore di magazzino – Da vincolo finanziario a o...
CASE STUDY: La Riduzione del valore di magazzino – Da vincolo finanziario a o...CASE STUDY: La Riduzione del valore di magazzino – Da vincolo finanziario a o...
CASE STUDY: La Riduzione del valore di magazzino – Da vincolo finanziario a o...
 
Note di Data Warehouse e Business Intelligence - Le Dimensioni di analisi (pa...
Note di Data Warehouse e Business Intelligence - Le Dimensioni di analisi (pa...Note di Data Warehouse e Business Intelligence - Le Dimensioni di analisi (pa...
Note di Data Warehouse e Business Intelligence - Le Dimensioni di analisi (pa...
 
Testimonianza di Matteo Pozzi mathematics at work
Testimonianza di Matteo Pozzi mathematics at workTestimonianza di Matteo Pozzi mathematics at work
Testimonianza di Matteo Pozzi mathematics at work
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Demand Driven MRP - Come implementarlo con successo in azienda
Demand Driven MRP -  Come implementarlo con successo in aziendaDemand Driven MRP -  Come implementarlo con successo in azienda
Demand Driven MRP - Come implementarlo con successo in azienda
 
Gestione della rete di vendita
Gestione della rete di venditaGestione della rete di vendita
Gestione della rete di vendita
 
Di Salvo Gabriele, Custom Development. Dal dato all’automazione dell’analisi ...
Di Salvo Gabriele, Custom Development. Dal dato all’automazione dell’analisi ...Di Salvo Gabriele, Custom Development. Dal dato all’automazione dell’analisi ...
Di Salvo Gabriele, Custom Development. Dal dato all’automazione dell’analisi ...
 
Introduzione al datamining
Introduzione al dataminingIntroduzione al datamining
Introduzione al datamining
 
Big data e analisi predittiva
Big data e analisi predittivaBig data e analisi predittiva
Big data e analisi predittiva
 
Data modelling for Power BI
Data modelling for Power BIData modelling for Power BI
Data modelling for Power BI
 
Quale smartart?
Quale smartart?Quale smartart?
Quale smartart?
 

Mehr von Davide Ciambelli

Z750 manuale di assemblaggio
Z750 manuale di assemblaggioZ750 manuale di assemblaggio
Z750 manuale di assemblaggio
Davide Ciambelli
 

Mehr von Davide Ciambelli (20)

SEMrush SEO Toolkit Exam
SEMrush SEO Toolkit ExamSEMrush SEO Toolkit Exam
SEMrush SEO Toolkit Exam
 
SEMrush SEO Fundamentals Exam
SEMrush SEO Fundamentals ExamSEMrush SEO Fundamentals Exam
SEMrush SEO Fundamentals Exam
 
Google Analytics for Beginners
Google Analytics for BeginnersGoogle Analytics for Beginners
Google Analytics for Beginners
 
Advanced Google Analytics
Advanced Google Analytics Advanced Google Analytics
Advanced Google Analytics
 
Ecommerce Analytics: From Data to Decision
Ecommerce Analytics: From Data to DecisionEcommerce Analytics: From Data to Decision
Ecommerce Analytics: From Data to Decision
 
Google Tag Manager Fundamentals
Google Tag Manager Fundamentals Google Tag Manager Fundamentals
Google Tag Manager Fundamentals
 
Eccellenze in digitale
Eccellenze in digitaleEccellenze in digitale
Eccellenze in digitale
 
Abilitazione all'utilizzo dei dispositivi DAE
Abilitazione all'utilizzo dei dispositivi DAEAbilitazione all'utilizzo dei dispositivi DAE
Abilitazione all'utilizzo dei dispositivi DAE
 
Google Tag Manager Fundamentals
Google Tag Manager FundamentalsGoogle Tag Manager Fundamentals
Google Tag Manager Fundamentals
 
Certificazione AdWords
Certificazione AdWordsCertificazione AdWords
Certificazione AdWords
 
Un viaggio chiamato LibreUmbria
Un viaggio chiamato LibreUmbriaUn viaggio chiamato LibreUmbria
Un viaggio chiamato LibreUmbria
 
Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO)
Guida introduttiva di Google  all’ottimizzazione per motori di ricerca (SEO)Guida introduttiva di Google  all’ottimizzazione per motori di ricerca (SEO)
Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO)
 
Il codice da lopins
Il codice da lopinsIl codice da lopins
Il codice da lopins
 
Google analytics platform principles certificate
Google analytics platform principles certificateGoogle analytics platform principles certificate
Google analytics platform principles certificate
 
Social Network Analysis for Journalists Using the Twitter API
Social Network Analysis for Journalists Using the Twitter APISocial Network Analysis for Journalists Using the Twitter API
Social Network Analysis for Journalists Using the Twitter API
 
Dharma Initiative pass card
Dharma Initiative pass cardDharma Initiative pass card
Dharma Initiative pass card
 
Dossier Dharma Initiative
Dossier Dharma InitiativeDossier Dharma Initiative
Dossier Dharma Initiative
 
Qnap turbo nas hardware manual
Qnap turbo nas hardware manualQnap turbo nas hardware manual
Qnap turbo nas hardware manual
 
Z750 manuale di assemblaggio
Z750 manuale di assemblaggioZ750 manuale di assemblaggio
Z750 manuale di assemblaggio
 
The 2009 Simulated Car Racing Championship
The 2009 Simulated Car Racing ChampionshipThe 2009 Simulated Car Racing Championship
The 2009 Simulated Car Racing Championship
 

Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali

  • 1. Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN. Corso di laurea specialistica in informatica – A.A. 2008/2009 Corso di basi di dati avanzate e tecniche di data mining Introduzione al Data Warehousing ed alla Progettazione di Data Warehouse Dimensionali Studenti: Professore: Andrea Manfucci Giorgio Cecconi Davide Ciambelli
  • 2. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 2
  • 3. Il modello dimensionale La progettazione dei dati del data warehouse (DW) è la pietra angolare del progetto dell'intero DW Basandosi sul progetto dei dati è possibile Pianificare e progettare le applicazioni Pianificare l'estrazione e la trasformazione dei dati Stimare l'occupazione di memoria complessiva del DW La progettazione dei dati in un DW dimensionale È basata sulla modellazione dimensionale Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 3
  • 4. Schemi dimensionali La modellazione dimensionale è una tecnica di progettazione logica dei dati nel DW È orientata alla definizione di schemi relazionali di tipo “dimensionale” Uno schema dimensionale (chiamato anche star schema o schema a stella) è composto da Una tabella dei fatti (fact table) Un insieme di tabelle ausiliarie (dimension tables) Questo schema modella i dati delle vendite di prodotti in un certo numero di negozi nel corso del tempo Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 4
  • 5. Scopo di uno schema dimensionale In uno schema dimensionale Una dimension table serve a rappresentare un insieme di elementi chiamati membri Una fact table serve a memorizzare un insieme di funzioni numeriche Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 5
  • 6. Tabelle dimensione Una dimension table memorizza una dimensione rispetto alla quale è interessante analizzare un processo Una dimensione è un insieme di elementi chiamati membri Ciascuna riga di una tabella dimensione rappresenta un membro della dimensione Gli altri campi di una tabella dimensione memorizzano gli attributi dei membri Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 6
  • 7. Tabella fatti Una fact table memorizza le misure numeriche di un proces- so Per fatto si intende una misura relativa ad un processo La chiave è normalmente composta da riferimenti alle chiavi delle varie tabelle dimensione Gli altri campi rappresentano i fatti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 7
  • 8. Additività e semi additività dei fatti Un fatto è additivo se ha senso sommarlo rispetto ad ogni possibile combinazione delle dimensioni I fatti possono anche essere: Semi additivi se ha senso sommarli rispetto ad alcune dimensioni Non additivi se non ha senso sommarli Può avere senso combinare fatti anche non completamente additivi me- diante operazioni diverse dalla somma Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 8
  • 9. Attributi e interrogazioni Gli attributi delle tabelle dimensione sono il principale stru- mento per l'interrogazione del DW Gli attributi delle dimensioni vengono usati per Selezionare un sottoinsieme dei dati di interesse Raggruppare i dati di interesse Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 9
  • 10. Formato delle interrogazioni Le interrogazioni assumono solitamente il seguente formato standard Possibili anche interrogazioni che effettuano confronti e/o rapporti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 10
  • 11. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 11
  • 12. Studi di caso Le tecniche di modellazione dimensionale vengono illustrate mediante un certo numero di esempi chiamati studi di caso Ciascun studio di caso è relativo ad un esempio concreto Ciascun studio di caso introduce una o più tecniche di modellazione di- mensionale Ciascuna tecnica può essere usata in più contesti Inizialmente viene introdotta una semplice metodologia per la progettazione di uno schema dimensionale Uno schema dimensionale è composto da una singola tabella fatti e da un insieme di tabelle dimensione Bisogna tenere presente che Un data mart può essere composto da più schemi dimensionali Un DW dimensionale è normalmente composto da più data mart Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 12
  • 13. Progettazione di uno schema dimensionale La progettazione di uno schema dimensionale richiede lo svolgimento di quattro passi Scelta del processo di business da modellare Scelta della grana del processo Scelta delle dimensioni da cui dipende ciascun record della tabella fatti Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti Queste scelte devono essere guidate Dai requisiti Dalle sorgenti informative disponibili Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 13
  • 14. Progettazione di uno schema dimensionale Scelta del processo di business da modellare Quale processo stiamo modellando? Per processo si intende un processo operazionale, supportato da uno o più sistemi operazionali, i cui dati possono essere utilizzati per popolare lo schema dimensionale Scelta della grana del processo Che cosa descrive una singola riga della tabella fatti? Per grana si intende il livello di dettaglio atomico che deve essere rap- presentato nella tabella fatti per il processo Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 14
  • 15. Progettazione di uno schema dimensionale Scelta delle dimensioni da cui dipende ogni record della ta- bella fatti In che modo sono descritti i dati di interesse per il processo che stiamo modellando? Una dimensione è un insieme di membri caratterizzati da un certo nu- mero di attributi da usare nelle select e nei raggruppamenti Scelta dei fatti misurabili che popoleranno ogni record della tabella fatti Che cosa stiamo misurando? I fatti sono misure del processo selezionato Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 15
  • 16. Il processo delle vendite Si consideri il seguente caso di studio, relativo al processo delle vendite al dettaglio in una catena di negozi alimentari Lavoriamo nella direzione di una grande catena di alimentari La catena comprende 500 grandi negozi alimentari, distribuiti in 3 re- gioni Ogni negozio è un supermercato con diversi reparti Nella catena di negozi sono venduti circa 60.000 tipi di prodotti indivi- duali (SKU) Circa 40.000 SKU vengono da fornitori esterni e su di essi è stampato un codice a barre chiamato codice universale del prodotto (UPC) Gli altri 20.000 SKU corrispondono a prodotti che non sono confezionati o che sono confezionati localmente e non hanno un UPC Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 16
  • 17. Il processo delle vendite Dove vengono raccolti i dati della catena di negozi alimentari? I dati relativi alle vendite vengono raccolti in ciascuna cassa mediante dei siste- mi POS La direzione della catena si occupa della logistica delle ordinazioni, della disposizione delle merci sugli scaffali, della vendita dei pro- dotti e della massimizzazione del profitto Sorgenti del profitto Le scelte sotto il controllo della direzione della catena si negozi riguardano Le promozioni comprendono Pubblicità Esposizione sugli scaffali Uno degli obiettivi della direzione è la comrpendione dell'impatto delle promozioni sulle vendite e, quindi, sui profitti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 17
  • 18. Il data mart delle vendite Scelta della grana Per il data mart per il processo delle vendite sono possibili diverse scelte per la grana Ad esempio unità di vendita (SKU) per negozio per giorno La scelta della grana ha influenza Sulle dimensioni usate nel data mart Sul tipo di analisi che può essere effettuato Sull'occupazione di memoria del data mart Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 18
  • 19. Il data mart delle vendite Scelta delle dimensioni Fissati il processo e la grana bisogna scegliere le dimensioni. Per alcune dimensioni la scelta è immediata Si tratta delle dimensioni primarie che fissano la grana delle misurazioni e sono tra loro indipendenti poiché le misure relative ai movimenti giornalie- ri dei prodotti dipendono funzionalmente da queste dimensioni La scelta di altre dimensioni è meno ovvia Si tratta delle dimensioni supplementari che dipendono funzionalmente dalle dimensioni primarie nel senso che per ogni possibile combinazione del- le dimensioni primarie è univoca la scelta del valore delle dimensioni sup- plementari Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 19
  • 20. Il data mart delle vendite Scelta dei fatti Le misure disponibili relativamente alle vendite giornaliere dei prodotti sono Incasso totale in dollari (dollar_sales) Numero totale di unità vendute (units_sales) Costo totale in dollari (dollar_cost) Numero di clienti (customer_count) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 20
  • 21. La dimensione del tempo La dimensione tempo descrive i giorni di un intervallo tempora- le di interesse La dimensione tempo è presente nella maggior parte degli schemi dimensionali e praticamente in tutti I DW La realizzazione di una tabella dimensionale per il tempo è semplice Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 21
  • 22. Le dimensioni prodotto, negozio, numero di transazione e promozione La dimensione prodotto descrive le unità di vendità (SKU) della catena di negozi La dimensione negozio descrive i negozi della catena e rap- presenta una dimensione essenzialmente geografica La dimensione numero di transazione rappresenta gli scon- trini di vendita Utilizzando anche questa dimensione come dimensione primaria la gra- na dei dati nella tabella fatti diventa quella di una riga per ciascuna voce di scontrino di vendita La dimensione promozione descrive ogni possibile promo- zione che si applica alla vendita dei prodotti ed è una dimen- sione causale Descrive fattori che sono la causa di potenziali cambiamenti (abitudini dei clienti) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 22
  • 23. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 23
  • 24. Il processo delle spedizioni Il processo delle spedizioni riguarda il flusso di spedizione dei prodotti dall'organizzazione al cliente Il processo delle spedizioni viene analizzato dal punto di vista del caricamento delle merci sui mezzi di trasporto destinati ai clienti I dati conosciuti dall'organizzazione relativamente ad una spedi- zione non si limitano ai dati mostrati sul documento allegato ma comprendono anche Prezzi di listino, costi di produzione, distribuzione e commercializzazio- ne Il data mart delle spedizioni è una sorgente informativa molto potente Contiene dati relativi a tutti i prodotti, tutti i clienti, e tutti i contratti con cui l'organizzazione vende prodotti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 24
  • 25. Schema dimensionale per le spedizioni La grana della tabella fatti rappresenta la linea nel documento di accompagnamento della spedizione Tempo e prodotto Sede destinazione (Cust Ship-to) Accordo commerciale (Deal) Sede sorgente (Ship-from) Modalità di spedizione (Ship-mode) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 25
  • 26. Le dimensioni Cust Ship-to, Deal, Ship-from e Ship- mode La dimensione Cust Ship-to descrive le possibili sedi di de- stinazioni a cui vengono effettuate le spedizioni La dimensione Deal descrive gli incentivi che sono stati of- ferti al cliente relativamente alla vendita che ha portato alla spedizione La dimensione Ship-from descrive le sedi da cui hanno origi- ne le spedizioni La dimensione Ship-mode descrive informazioni relative alla modalità di spedizione ai clienti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 26
  • 27. Dichiarazione profitti e perdite e soddisfazione del cliente Al momento della consegna sono note molte informazioni re- lative al valore della merce consegnata una dichiarazione profitti e perdite descrive tutti gli incassi e i costi dal valore di vendita massimo (senza sconti) al valore effettivo di vendita (dopo tutti gli sconti, deduzioni e costi) è corretto associare alla consegna solo i valori direttamente imputabili ad essa Al momento della consegna sono noti alcuni fatti che in- fluenzano la soddisfazione del cliente Consegna in tempo Consegna completata Consegna senza danni Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 27
  • 28. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 28
  • 29. Il processo catena del valore Lato della domanda: uno scenario tipico legato alla domanda dei prodotti è rappresentato dai seguenti schemi dimensio- nali, ordinati dal punto in cui il prodotto ha origine al punto in cui viene venduto all'utente finale Magazzino dei prodotti finiti Tempo, prodotto, magazzino Spedizione al centro di distribuzione Tempo, prodotto, magazzino, modalità di consegna Magazzino del centro di distribuzione Tempo, prodotto, centro di distribuzione Spedizione ai negozi di vendita Tempo, prodotto, negozio Magazzino dei negozi di vendita Tempo, prodotto, negozio Vendita al dettaglio Tempo, prodotto, negozio, promozione, cliente Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 29
  • 30. Il processo catena del valore Lato della produzione: il processo di produzione riguarda l'acquisizione di parti ed il loro montaggio in prodotti finiti Ordinazione materiali Tempo, ingrediente, fornitore Consegna materiali Tempo, ingrediente, fornitore, stabilimento, modalità di consegna Magazzino materiali Tempo, ingrediente, stabilimento Monitoraggio dei processi produttivi Tempo, ingrediente, processo, stabilimento Montaggio Tempo, ingrediente, prodotto Inventario prodotti finiti Tempo, prodotto, magazzino Programmazione della produzione Tempo, prodotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 30
  • 31. Dimensioni conformi Una dimensione conforme è una dimensione che ha esattamen- te lo stesso significato in più schemi dimensionali Un insieme di schemi dimensionali forma un data mart se è sta- to costruito attorno ad un insieme coerente e coordinato di di- mensioni conformi Esistono diversi tipi di dimensioni conformi Dimensioni assolutamente identiche Dimensioni con gli stessi membri e gli stessi identificatori ma attributi diversi Dimensioni con dettaglio ridotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 31
  • 32. Architettura del DW a Bus L'idea è quella di definire uno standard aziendale per connette- re i diversi data mart all'architettura più ampia del DW infatti i data mart possono essere collegati e cooperare se rispettano questo standard aziendale Viceversa, è inaccettabile creare data mart separati che ignora- no l'aspetto della condivisione dei dati perché di fatto, bloccano lo sviluppo di un ambiente di DW coerente L'architettura del DW a bus è basata sulle nozioni di Dimensioni conformi Fatti conformi Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 32
  • 33. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 33
  • 34. Il processo dei servizi finanziari Viene ora considerato il DW per una grande banca La banca offre diversi servizi finanziari Ad esempio conti correnti, libretti di risparmio, mutui, investimenti, prestiti personali, carte di credito, cassette di sicurezza, ... Vogliamo analizzare tutti i conti gestiti dalla banca, con i relativi titolari individuali, ma soprattutto le famiglie (residenziali e commerciali) a cui appartengono Lo scopo è Offrire servizi più efficienti Offrire servizi supplementari Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 34
  • 35. Il processo dei servizi finanziari Mediante delle interviste sono stati raccolti i seguenti requisiti Devono essere memorizzati cinque anni di storia per ciascun conto Ogni tipo di conto ha un saldo primario Ogni tipo di conto è caratterizzato da attributi e fatti numerici propri Ogni conto è considerato appartenente ad una famiglia (residenziale o commerciale) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 35
  • 36. Il data mart dei servizi finanziari Viene deciso di realizzare un data mart per il processo dei conti delle famiglie La progettazione del data mart viene svolta in due passi Prima viene progettato uno schema dimensionale nucleo (core) relativo a tutti i conti (ovvero a tutti i tipi di conto) Successivamente il progetto del data mart verrà completato tenendo in considerazione le caratteristiche individuali di ciascun tipo di conto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 36
  • 37. Progettazione della tabella fatti nucleo La tabella fatti nucleo per il processo dei conti delle famiglie dipende dalle seguenti dimensioni Conto (account), famiglia (household), filiale (branch), prodotto (product), stato (status) e tempo (time) La grana della tabella fatti è conto per mese Le dimensioni primarie sono conto e tempo Le dimensioni famiglia, filiale, prodotto e stato sono dimensioni supplementari I fatti di interesse sono Saldo primario (primary balance) e numero di transazioni (transaction count) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 37
  • 38. Attributi delle dimensioni Conto Nome primario, nome secondario, indirizzo, zip, stato, città, data apertura, età primario, sesso primario, stato civile primario Famiglia Nome capofamiglia, indirizzo, zip, stato, città, reddito, tipo di famiglia Filiale Nome filiale, indirizzo, zip, stato, città, tipo filiale Prodotto Descrizione, tipo, categoria Stato Descrizione dello stato, ragione, flag nuovo conto, flag coto chiuso Tempo Mese, anno, trimestre fiscale Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 38
  • 39. Conti e famiglie La scelta di trattare separatamente conti e famiglie è legata principalmente al fatto che la dimensione conto è grande ed è soggetta a cambiamenti nel tempo La definizione degli elementi di una famiglia cambia nel tempo La nozione di conto è fondamentale nella banca Bisogna evitare di gestire la dimensione conto come di tipo 2 (non sono interessanti le versioni dei conti) La corrispondenza tra i conti e famiglie è gestita come fatto nella tabella fatti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 39
  • 40. Prodotti e stato La dimensione prodotto contiene solo gli attributi comuni a tutti i diversi tipi di conto offerti dalla banca Contiene una gerarchia di attributi elementari (descrizione, tipo e categoria) Non contiene nessun attributo proprio di nessun tipo particolare di conto Il prodotto è una caratteristica di ciascun conto La dimensione prodotto è stata mantenuta separata dalla dimensione conto perché la banca pensa ai prodotti come a una dimensione fondamentale della banca La dimensione stato descrive lo stato in cui può trovarsi un conto Viene usata anche per tenere traccia dei cambiamenti di stato dei conti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 40
  • 41. Dimensioni sporche Nello schema dimensionale per i servizi finanziari non è presente una dimensione cliente La dimensione più vicina a cliente è conto Nei servizi finanziari (per ragioni storiche e culturali) l'enfasi è sui conti e non sui loro titolari Se fosse presente la dimensione cliente sarebbe una dimensione sporca Ovvero una dimensione che contiene molti membri duplicati o non completamente corretti La dimensione famiglia è probabilmente una dimensione sporca (con una accuratezza dell'80% circa) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 41
  • 42. Semi-additività dei saldi I saldi dei conti sono fatti semi-additivi (come i livelli di inventario) Non sono additivi rispetto al tempo Per combinare un insieme di saldi attraverso un intervallo temporale, calcolandone la media, bisogna sommare I saldi e dividere per il numero di periodi dell'intervallo temporale Le applicazioni che devono calcolare la media di dati semi- additivi (non additivi rispetto al tempo) Non devono usare direttamente la funzione AVG di SQL Devono calcolare in proprio la funzione (virtuale) “media su un intervallo temporale” Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 42
  • 43. Prodotti eterogenei La progettazione del data mart dei servizi finanziari deve considerare anche la presenza di diverse tipologie di prodotti eterogenei I prodotti sono eterogenei nel senso che ciascun prodotto è caratterizzato da un proprio insieme di attributi (descrittivi) e di fatti (numerici) Ad esempio I conti correnti sono caratterizzati da un saldo del conto, saldo minimo, limite dello scoperto, spese, collegamento a carte di credito, ... Le carte di credito sono caratterizzate da un saldo, limite del credito, data di emissione e scadenza Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 43
  • 44. Gestione prodotti eterogenei Una prima soluzione è quella di estendere la tabella fatti con i fatti di ciascun tipo di conto e la dimensione prodotto con gli attributi di ciascun tipo di conto Tuttavia questi fatti e attributi sarebbero spesso non significativi e vuoti con notevole spreco di occupazione di memoria e degrado delle prestazioni Inoltre l'introduzione di nuovi tipi di prodotto sarebbe difficoltosa Una soluzione più efficace consiste nell'introduzione di una nuova tabella fatti e di una nuova dimensione personalizzata per ciascun tipo di conto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 44
  • 45. Schema dimensionale dei prodotti eterogenei Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 45
  • 46. Schema dimensionale dei prodotti eterogenei Il data mart completo dei servizi finanziari comprende Una tabella fatti e una tabella dimensione nucleo Una tabella fatti e una tabella dimensione personalizzata per ciascun tipo di prodotto Ogni membro della dimensione prodotto nucleo è anche membro di (esattamente) una dimensione prodotto personalizzata Ogni record della tabella fatti nucleo descrive un insieme di fatti che è riportato anche in un record di (esattamente) una tabella fatti personalizzata Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 46
  • 47. Analisi dei prodotti eterogenei Le analisi di interesse per una base di dati di prodotti eterogenei sono di due tipi Analisi interessate a più tipi di prodotti eterogenei Sono interessate solo a fatti e attributi comuni a tutti i tipi di prodotto Analisi interessate ad un solo tipo di prodotto Sono interessate anche a fatti e attributi propri del particolare tipo di prodotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 47
  • 48. Altre rappresentazioni di prodotti eterogenei Il data mart dei servizi finanziari è formato dalle istantanee relative a conti appartenenti ad un certo numero di classi di prodotti eterogenei La tabella fatti contiene in questo caso molti fatti Che cosa sarebbe successo se la grana del data mart fosse stata quella delle transazioni? In questo caso l'unico fatto interessante sarebbe stato la quantità indipendentemente dalla classe di prodotto Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 48
  • 49. Uso di minidimensioni Le dimensioni conto e famiglia sono grandi e oggette a cambiamenti lenti nel tempo In questo caso può essere opportuno evidenziare gli attributi variabili nel tempo di cui interessa tenere traccia e decomporre le dimensioni mediante l'introduzione di minidimensioni Le minidimensioni rappresenterebbero classi predefinite (e sostanzialmente invarianti nel tempo) di combinazioni degli attributi variabili Sarebbe poi possibile accedere ai fatti sia sulla base dei valori delle dimensioni nei periodi relativi ai fatti che dei valori correnti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 49
  • 50. SOMMARIO Il modello dimensionale Vendite al dettaglio (studio di caso) Spedizioni (studio di caso) Catena del valore (studio di caso) Servizi finanziari (studio di caso) Il ciclo di vita Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 50
  • 51. Ciclo di vita dimensionale e sue fasi Viene ora descritta una metodologia completa di progettazione e realizzazione di DW La metodologia è descritta dal ciclo di vita dimensionale dei DW Fornisce il contesto di riferimento per la progettazione e realizzazione di DW dimensionali Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 51
  • 52. Pianificazione e gestione progetto Il ciclo di vita di un DW ha inizio con la pianificazione e per tutta la sua durata richiede una attività di gestione La pianificazione riguarda la definizione del progetto di DW e dei suoi confini Analisi preliminare dei requisiti e dei confini del progetto Valutazioni economiche Identificazione delle risorse Formazione dei gruppi di lavoro Definizione del piano di sviluppo Gestione del progetto Monitoraggio e controllo Gestione dei cambiamenti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 52
  • 53. Raccolta e analisi dei requisiti Comprensione dettagliata dei requisiti del DW Requisiti raccolti dai responsabili dei processi Obiettivi dell'organizzazione Processi dell'organizzazione Metriche di prestazione dei processi Dimensioni Modalità correnti e desiderate di analisi Requisiti raccolti dai responsabili del sistema informativo Sorgenti di dati Modalità correnti di analisi Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 53
  • 54. Progettazione de DW La progettazione del DW avviene su tre tracce parallele Progettazione dei dati Progettazione tecnologica Progettazione delle applicazioni Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 54
  • 55. Progettazione dimensionale La progettazione dimensionale è la progettazione logica dei dati del DW basata sull'architettura a bus Progettazione dei data mart Progettazione di un insieme di dimensioni conformi Progettazione degli schemi dimensionali Analisi delle sorgenti informative Piano preliminare delle aggregazioni Lo schema logico del DW è la pietra angolare della progettazione dell'intero DW Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 55
  • 56. Progettazione fisica Definizione delle strutture fisiche adeguate a una rappresen- tazione efficiente dello schema logico del DW Definizione dello schema dei dati Progettazione preliminare delle srategie di Indicizzazione Partizionamento dei dati Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 56
  • 57. Progetto e sviluppo della preparazione dei dati Il processo di preparazione dei dati Ha tre passi principali Estrazione Trasformazione Caricamento Deve gestire la qualità dei dati presenti nelle sorgenti informative Deve essere realizzata in due forme Preparazione al caricamento iniziale del DW (preparazione statica) Preparazione ai caricamenti periodici (preparazione incrementale) Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 57
  • 58. Progettazione tecnologica Progettazione dell'architettura globale del DW (ovvero del sistema di data warehousing) Richiede l'integrazione di numerosi sistemi e tecnologie Selezione e installazione dei prodotti Scelta degli ambienti hardware e software Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 58
  • 59. Progettazione delle applicazioni Specifica delle applicazioni utente Non tutti gli utenti useranno strumenti ad hoc di interrogazione È quindi necessario sviluppare un insieme di applicazioni per gli utenti finali Basata sullo schema logico (dimensionale) dei dati Sviluppo delle applicazioni Solitamente basato sull'uso di Strumenti avanzati di accesso ai dati Metadati Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 59
  • 60. Installazione e avviamento Le tracce di progettazione dei dati, tecnologia e delle applicazioni convergono in questa fase Il DW viene costruito e reso accessibile agli utenti finali Installazione delle applicazioni Formazione degli utenti Supporto agli utenti Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 60
  • 61. Manutenzione e crescita La manutenzione comprende Supporto e formazione continui Verifica di qualità del DW Un DW realizzato con il ciclo di vita dimensionale è pronto a evolvere e crescere L'evoluzione di un DW è indice di successo, non di fallimento Solitamente l'evoluzione riguarda il miglioramento dei data mart esistenti e la realizzazione di nuovi data mart Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 61
  • 62. FINE GRAZIE PER L'ATTENZIONE Introduzione al Data Warehousing ed alla progettazione di Data Warehouse dimensionali 62