Sam pojam "skladište podataka" (engl. Data Warehouse) podrazumijeva zbirku podataka izoliranih iz operativnih baza i spremljenih u posebne baze odnosno skladišta podataka.
Glavna karakteristika koja određuje skladište podataka odnosi se na njegovu svrhu
Prema definiciji koju je postavio William H. Inmon, skladište podataka predstavlja subjektni usmjeren (subject-oriented), integrirani (integrated), vezan na vrijeme (time-variant) i sadržajno nepromjenjiv (non-volatile) skup podataka, a krajnji cilj mu je pomoć menadžmentu pri donošenju odluka.
1. +
Skladišta podataka
Data WareHouse
By: Krunoslav Ris
CEO @ BetaWare d.o.o. | FlyStartup
2. +
Definicija
Sam pojam "skladište podataka" (engl. Data Warehouse)
podrazumijeva zbirku podataka izoliranih iz operativnih baza i
spremljenih u posebne baze odnosno skladišta podataka.
Glavna karakteristika koja određuje skladište podataka odnosi
se na njegovu svrhu
Prema definiciji koju je postavio William H. Inmon, skladište
podataka predstavlja subjektni usmjeren (subject-oriented),
integrirani (integrated), vezan na vrijeme (time-variant) i
sadržajno nepromjenjiv (non-volatile) skup podataka, a krajnji
cilj mu je pomoć menadžmentu pri donošenju odluka.
3. +
Definicija
Subjektni usmjerenost podataka - znači da se oni organizuju oko
predmeta, na način da daju informacije o točno određenim predmetima u
okviru funkcionalnih područja (npr. u okviru prodaje, nabave.) Umjesto o
tekućim operacijama poduzeća. Suprotno tome operativne baze podataka
organizirane oko poslovnih aplikacija, dakle usmjerene su na tekuće
operacije (npr. obrade narudžbi, isporuka i sl..).
Integriranost - podaci se skupljaju u bazu podataka iz različitih izvora i
pohranjuju uvijek u istom formatu, te su konzistentni i prikazuju se na
dosljedan način.
Vezanost uz vrijeme - svi podaci u skladištu podataka vezani su i
identificiraju se uz određeni vremenski period, što znači da imaju povijesni
karakter. Za razliku od njih, u operativnim bazama podataka pohranjeni su
samo aktualni, najsvježiji podaci. Međutim, s gledišta koncepta poslovne
inteligencije, sveobuhvatno predviđanja budućih događaja nije moguće
provesti bez poznavanja povijesti istih ili nekih drugih događaja. Iz toga
toki da premda podaci u skladištu podataka odražavaju prošlost, njihova
usmjerenost je okrenuta budućnosti.
4. +
Osnove skladištenja podataka
sustavi 70-tih godina su bili monolitni sustavi sa centraliziranim
“mainframe” računalom-naslijedeni sustavi (engl. Legacy
systems)
80-tih godina dolazi do popularizacije osobnih računala
vrhunac sustava za analizu prije pojave skladištenja podataka
bili su sustavi za potporu odlučivanju i izvršni informacijski
sustavi
pojava koncepta Intraneta i korištenja web baziranih aplikacija-
putem Intraneta podaci u skladištu podataka postaju dostupni
svima unutar kompanije
Skladištenje podataka je novi koncept koji se pojavio sredinom
90-tih godina 20. stoljeća
5. +
Značajke skladišta podataka
pristup podacima je najefikasniji ako su ti podaci odvojeni od
podataka pohranjenih u operacijskim sustavima
jedan od razloga za razdvajanje je da podaci u skladište
podataka mogu doći i iz više izvora
Takoder bitan razlog je da se procesi obrade transakcije i
analize podataka bitno razlikuju odnosno da postoji razlika
između transakcijskih (operacijskih) sustava i sustava za
analizu
transakcijski sustav (često se naziva i OLTP – On-Line
Transaction Processing) pridaje najveću važnost raspoloživosti
i brzini obrade i ne smije se dozvoliti da analiza podataka
dovede do degradacija performansi transakcijskog sustava-
ključni razlog razdvajanja
6. +
Značajke skladišta podataka
Razlike između OLTP i skladišta podataka
7. +
Ciljevi skladištenja podataka
Skladište podataka mora omogućiti pristup podacima bitnim za neku
organizaciju ili kompaniju
Podaci u skladištu podataka moraju biti konzistentni
Podaci se u skladištu podataka mogu kombinirati na sve moguće
načine (engl. dice and slice requirement)
Skladište podataka nisu samo podaci, već ono mora sadržavati i skup
alata za postavljanje upita (engl. query tools), alata za analizu i
predstavljanje informacije
Skladište podataka je mjesto gdje se objavljuju korišteni podaci
Kvaliteta podataka u skladištu je pokretač poslovnog restrukturiranja
8. +
Što je to OLAP ?
Izrazom “On-Line Analytical Processing” (OLAP) označena je
kategorija softverske tehnologije koja omogućava korisnicima
(analitičarima, menadžerima) da steknu uvid u podatke kroz
brz, konzistentan, interaktivan pristup različitim mogućim
pogledima na informacije transformirane iz sirovih podataka da
bi odrazile stvarnu dimenzionalnost poslovanja kako ga shvača
korisnik
10. +
Što je to OLAP ?
OLAP je pojam koji izvorno potiče od E.F. Codda, a opisuje
informacijski sustav za brz, konzistentan i interaktivan pristup i
manipulaciju multidimenzionalnim podacima koji dolaze iz različitih
izvora, a spremljeni su u skladištu podataka
Funkcionalnost OLAP-a ostvarena je kroz mogućnost
multidimenzionalnih analiza konsolidiranih korporativnih
podataka koje uključuju: modeliranje korištenjem dimenzija i
hijerarhija podataka, analize trendova kroz određena
vremenska razdoblja, projekciju podataka kroz what-if
scenarije, podskupove podataka, bušenje (drill down) do nižih
nivoa detaljnosti podataka
OLAP je obično implementiran u klijent-server okruženju
11. +
Što je to OLAP ?
OLAP postoji u dva temeljna oblika s obzirom na formu u kojoj
su podaci spremljeni: relacijski (ROLAP-Relational On Line
Analitycal Processing) i multidimenzionalni (MOLAP-
Multidimensional On Line Analitycal Processing), te u
hibridnom obliku (HOLAP-Hybrid On Line Analitycal
Processing) koji za više nivoe sumarizacije koristi
multidimenzionalni oblik, ali omogućuje dril-down do nižih nivoa
sumarizacije koji su smješteni u relacijskoj tablici
U posljednje vrijeme koristi se i izraz FASMI - Fast Analysis of
Shared Multidimenzional Data
13. +
Osnovni modeli skladišta podataka
Prilikom kreiranja skladišta podataka danas u praksi
susrećemo tri osnovna modela ili osnovne arhitekture skladišta
podataka: dvoslojna arhitektura s jednim zajedničkim
skladištem podataka, dvoslojna arhitektura s više nezavisnih
lokalnih spremišta podataka (engl. Data Marts) i troslojna
arhitektura sa zajedničkim skladištem podataka i više
povezanih lokalnih skladišta podataka
Dvoslojna arhitektura s jednim zajedničkim skladištem podataka
Dvoslojna arhitektura s više nezavisnih lokalnih skladišta podataka
Troslojna arhitektura skladišta podataka
14. + Dvoslojna arhitektura s jednim zajedničkim skladištem
podataka
Ovaj model karakterizira jedinstveno, zajedničko centralizirano skladište
podataka.
Podaci se zaprimaju iz različitih izvora unutar organizacije (npr. podaci iz
online sustava za obradu transakcija, podaci iz ranije razvijenih sustava
koji održavaju baze podataka itd..) I vanjskih izvora podataka dostupnih
putem interneta ili nekim drugim načinima.
Karakteristika dvoslojne arhitekture skladišta je da ono služi većem broju
organizacijskih jedinica poduzeća kao i pojedinačnim korisnicima. Takva
skladišta su velikog opsega i vrlo složena, au njima se u pravilu pohranjuje
ogromna količina podataka. Pa i sheme podataka prema kojima se vrši
pohranjivanje podataka trebaju podržavati široku lepezu aplikacijskih
zahtjeva. Iz navedenog je vidljivo da su troškovi održavanja takve
arhitekture visoki i pretpostavljaju znatan angažman i vrijeme određenog
broja i profila stručnjaka.
15. + Dvoslojna arhitektura s više nezavisnih lokalnih
skladišta podataka
Karakteristika ove arhitekture skladišta podataka je postojanje većeg broja
nezavisnih lokalnih spremišta podataka namijenjenih za podržavanje
pojedinačnih aplikacija po organizacijskim jedinicama poduzeća. Rezultat
takve arhitekture je velik broj sustava koji svaki posebno zaprimaju "svoje"
podatke iz različitih transakcijskih baza podataka. Prednost navedenog
modela skladišta podataka je jednostavnija izgradnja i lakše korištenje.
Međutim takav model ima i nedostatke kao što su:
otežana komunikacija među organizacijskim jedinicama poduzeća.
povećanjem broja međusobno neovisnih skladišta podataka, usporedno raste i
opterećenost samih transakcijskih sustava,
data mart-ovi oblikovani su tako da podržavaju samo jednu aplikaciju, pa
naknadno dodavanje novih aplikacija u određeno skladište predstavlja poteškoće,
ograničena skalabilnost platforme i
otežan je uvid u stvarno stanje informacija na razini poduzeća
16. +
Troslojna arhitektura skladišta
podataka
Ovaj model sastoji se od većeg broja lokalnih skladišta podataka i
jednog zajedničkog skladišta podataka koje je smješteno između
skladišta podataka i različitih izvora podataka unutar i izvan
poduzeća. Skladišta podataka oslanjaju se na centralno skladište
podataka koje im isporučuje podatke u obliku koji daje ujednačen
uvid u sve segmente poslovanja poduzeća.
U odnosu na prethodna dva modela prednosti troslojne arhitekture
su veća točnost informacija nevezano s kojeg izvora su
zahvaćene, olakšana je komunikacija među organizacijskim
jedinicama, smanjena je opterećenost informatičara, povećana je
skalabilnost i proširivost platforme za pohranu podataka i na kraju
ova arhitektura pruža mogućnost korištenja vanjskih aplikacija
čime se omogućuje povezivanje svih subjekata u lancu vrijednosti.
17. +
Troslojna arhitektura skladišta
podataka
Istorijski podaci
18. +
Višedimenzionalni prikaz podataka
Skladište podataka, kao što je ranije rečeno, puni se izvorima
podataka unutar organizacije (transakcijske baze) kao i vanjskim
izvorima podataka. Postupcima ekstrakcije, transformacije i
punjenja kojima se zaprimaju podaci iz unutarnjih i vanjskih izvora
dobivaju se osnovni podaci skladišta.
Za vizualni prikaz dimenzionalnog modela podataka koristi se tzv.
zvijezda shema (star shema) jer dijagram ima izgled zvijezde, kao
što je prethodno navedeno - jednu središnju veliku relacijsku
tablicu koja se naziva i tablicom činjenica (engl. fact table) i skup
manjih tablica.
Dimenzione tablice posjeduju određene atribute, odnosno pozicije
dimenzija i predstavljaju mogućnosti koje prikazuju neku pojavu,
npr.. otpremu određenog proizvoda
20. +
Višedimenzionalni prikaz podataka
Centralni dio sheme, tablica činjenica, predstavlja središnji dio
koordinacije, koji uz osnovne podatke o šiframa relacijskih tablica
koje su objedinjene u strukturu, može sadržavati i ostale segmente
informacija.
Višedimenzionalna struktura podataka pruža velike mogućnosti za
otkrivanje mnogih detalja različitim postupcima analitičke obrade
kao što su agregacija i detaljizacija ili svrdlanje (drill up, drill
down, drill through), unakrsno tabeliranje (cross tabulation),
selekcija, isijecanje, izdvajanje i kombiniranje svih dimenzija (slice
and dice requirement), rotacija odnosno isticanje jedne dimenzije
dok su druge u pozadini (pivoting), prognoza, modeliranje, grafički
prikaz (charting), statistike analize (trend, klaster) itd..
21. +
Zaključak
Skladištenje podataka – Data-Warehouse je posebno projektirano tehnološko okruženje koje
omogućuje objedinjavanje srodnih podataka u oblik pogodan za analizu čime se olakšava proces
donošenja odluka i daje novi pristup sustavima za potporu odlučivanju. Ovaj koncept osigurava
fleksibilan, učinkovit način raspolaganja podataka u formatu pogodnom za suvremene poslovne
aplikacije. Postojanje skladišta podataka kao bogato informacijama integrirano okruženje orijentirano
je ka potrebama krajnjih korisnika koji uz pomoć alata za poslovno odlučivanje mogu donositi
pravovremene i kvalitetne poslovne odluke.
Omogućuje stalno pronalaženje novih informacija namijenjenih menadžerima, a služe im
prvenstveno za strateško, taktičko i operativno donošenje odluka. Uvođenjem koncepta skladištenja
podataka, operativne baze prestaju biti opterećene složenim upitima, pa cijeli informacijski sustav
koji se sad sastoji od dva dijela, operativnog i skladišta podataka postaje produktivniji i lakše se
kontrolira i restrukturira.
Metode skladištenja podataka sve više postaju integrirane u softverske pakete temeljnog
informacijskog sustava poduzeća, novije verzije relacijskih baza podataka (kao npr.. Oracle i SQL
server) imaju dio za Data Warehousing integriran u svom paketu kao OLAP. Menadžmentu nije
potreban angažman analitičara za obradu ključnih pokazatelja o stanju poduzeća, već takve podatke
klikom miša mogu dobiti obrađene iz baze podataka, te koristiti kao pomoć u donošenju poslovnih
odluka.
Načela upravljanja prema ciljevima (Management by Objectives) će biti podržana mogućnostima
online pristupa bazama i skladištima podataka, kroz alate poslovne inteligencije. Koncept skladišta
podataka usklađivanjem podataka omogućuje jedinstvenu istinu o poduzeću, što povećava
kredibilitet informacijskog sustava.