SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Odborná snídaně:
Metadatový sklad
Petr Hájek, Patrik Hinca, Ondřej Zýka 16. října 2018
2
Co nás dnes čeká
› Úvod do obecné biologie metadat
a příbuzných druhů
Petr Hájek
› Lokality bohaté na výskyt metadat
a jak se v nich neztratit
Patrik Hinca
› Nástroje a postupy k odchytu
metadat, jejich skladování
a průmyslové využití
Ondřej Zýka
3
Kdo jsme
20 let
na trhu
(od roku 1998)
600 mil.
(Kč) obrat
v roce 2017
Finance
& Telco
významní
zákazníci
450+
zkušených
profesionálů
#3
CAD v ČR
(IDC 2017)
ČR
+ Evropa
4
Naše kompetence
Úvod do
obecné biologie metadat
a příbuzných druhů
6
Metadatový sklad - úvod
› Paralela s počátky budování datových skladů,
Data Intelligence x Business Intelligence
› „Metadata nejsou jen metadata“
– Klasifikace metadat
– Business metadata x technická metadata
– Strukturální metadata x provozní metadata
– Pre-skriptivní metadata x deskriptivní
metadata
› Rozdíl mezi běžným datovým skladem, který je řízen
metadaty a skladem, jehož předmětem jsou metadata
› Role metadatového modelu
7
Business Intelligence? Data Intelligence!
Business Intelligence = rozumět svému businessu
Data Intelligence = rozumět svým datům
… a rozumět si navzájem
8
„Metadata nejsou jen metadata“
Metadata jsou dle definice „data o datech“ (nejjednodušší
příklad: popis, co obsahují řádky a sloupce v tabulce)
Rozšířená definice zahrnuje také:
› data popisující strukturu systému, organizace
(návaznost např. na architekturu)
› provozní a ryze technická data
› v ještě širším smyslu číselníky
› v ještě širším smyslu business
pravidla
Znakem metadat je jejich
strukturovanost.
9
Business metadata vs. technická metadata
Business definice Mapping Vazba na technická
metadata a číselníky
10
Preskriptivní a deskriptivní metadata
Preskriptivní metadata vznikají ve fázi analýzy a designu řešení (systému,
aplikace) a v maximální možné míře strukturovaně popisují ex-ante jeho
komponenty, funkce, rozhraní atd.
Preskriptivní metadata se pak využijí při automatizaci vývoje, testování,
nasazování atd.
Deskriptivní metadata popisují
stejným způsobem totéž řešení,
ale až zpětně, ex-post.
Porovnání pre-skriptivních a de-skriptivních metadat v rámci DWH je
pak analogií např. k porovnání plan vs. actuals v rámci DWH.
11
Datový sklad řízený metadaty
vs. metadatový sklad
Datový sklad
Business
Data
Party
Event
Account
Product
Channel
Location
Service
Treatment
METADATA
Metadatový sklad
Metadata
Table
Column
System
Report
Business term
Process
Organization
Application
META-METADATA
12
Metadatový model
Stejné myšlenky jako u datového modelu:
› Sjednocená sémantika, pojmenování
základních entit a vazeb mezi nimi
› Integrační role
› Postupné rozšiřování (aditivní změny,
krystalický růst)
13
Uživatelé a případy užití
Uživatelé:
› Architekti
› Data governance, IT
Governance
› PMO
› Provoz
› Security, Controlling,
Interní Audit
Některé příklady užití:
› data lineage
› konfigurační databáze
› issue management
system
› orchestrace datových
toků
› automatizace testování
› quality assirance SW
vývoje
Lokality bohaté na
výskyt metadat a jak se
v nich neztratit
Patrik Hinca
15
O metadatech
› S metadaty pracujeme od samotného počátku budování řešení,
aniž bychom si to uvědomovali
› Každý objekt, tabulka, aplikace, proces si sebou nese řadu
popisných informací, které vypovídají o jeho charakteru, účelu
nebo vazby na ostatní objekty
› Množina metadat dohromady tvoří kompletní obraz o architektuře,
provozu a vývoji celého řešení
› Pomáhají odpovídat na základní otázky (kolik máme tabulek
v databázi? Jaký je přírůstek dat za poslední měsíc? Které objekty
jsou použity pro plnění této tabulky?)
› Ale i komplexnější otázky (které procesy způsobují peak CPU
při ranním zpracování? které objekty jsou svázány s posledním
deploymentem? Kdo provedl otestování konkrétního balíku, který
způsobil incident při zpracování)
16
Metadata jsou asset
› Metadata tvoří informační aktivum které definuje BI řešení
v jeho
– reusability – schopnost přepoužitelnosti komponent pro nová řešení
– sustainability – udržitelnost a rozvíjitelnost řešení
– manageability – řiditelnost řešení jako celku nebo i dílčích komponent
– interoperability – schopnost propojit různé komponenty informačního
ekosystému společnosti
› Metadata pomáhají dokumentovat jednotlivé části datového
skladu a tím výrazně zvyšují analytickou sílu
› Typologie a taxonomie metadat se vždy adaptuje na konkrétní
řešení a nejsou univerzálně přenositelná mezi různými
řešeními
17
Příklad taxonomie metadat
Data Quality
Business
Structural
metadata
Technical
› Implementation
Artefacts
› Jobs & Orchestration
› User management
and Security
› Operation and
Process
› Development
Metadata
› System Monitoring
& Operation
› Audit
Metamodel and
meta-glossary
Referentials
Knowledge
base
Methodology
and Policy
Governance
METADATA
Information Base
18
Jak na metadata
› Zdroje metadat jsou variantní a jejich získání nemusí být vždy
jednoduché
› Občas je nutno sáhnout na nestrukturované zdroje a/nebo
vyvinout komplexnější algoritmus pro extrakci požadovaných
informací, nebo i pořídit externí nástroj
› Jednotlivé typy metadat zpravidla nelze (jednoduše) vzájemně
propojit, integrace do jednoho modelu je tak nesnadná nebo
i nemožná
› Potřeba metadat v čase neustále roste a je skoro přímo úměrná
maturitě řešení
› Proto je nutno myslet na metadatovou architekturu již
v začátcích budování datového skladu
19
Meta MartmDWH
Metadata
sources
Architektura metadatových skladů
Standardní DWH řešení
Stage / Data Lake DWH Core Data Mart
Architektura metadatových řešení
Data Load Data Integration Data Usage
Ingest Metadata Organize Metadata Consume Metadata
20
Příklady z praxe
› Modelovací nástroj – PowerDesigner
– modely jsou registrovány do centrálního repozitory, odkud jsou
extrahovány do Metadata DWH, je zde uložen jak AS-IS stav, tak
i plánovaný TO-BE stav
– na základě důkladného dodržování mapování mezi modely lze stejná
metadata použít i pro Data Lineage
› ETL procesy – použita Informatica PwC v kombinaci Push-
down SQL skripty
– Informatica má svoje repozitory, které lze strojově vytěžovat, sledují
se jak definice ETL procesů, tak i vývojový cyklus ETL komponent od
vývoje, přes testy až po nasazení na produkci
– pro rozbor procesů v SQL skriptech se používá Manta
– veškerá metadata se opět ukládají do Metadata DWH, lze tak sledovat
kompletní datovou lineage, přes několik heterogenních prostředí
– repozitory se využívá i pro vytěžování operativních informací o běžících
procesech, jejich stavu i výsledku
21
Příklady z praxe
› Datový sklad – Teradata
– stahují se informace o jednotlivých objektech, lze tak srovnat
modelovaný a skutečný stav a sledovat rozdíly
– sledují se kompletní informace o uživatelích a jejich rolích, metadata
jsou obohacena z HR systému o informace o zaměstnancích,
organizační struktuře, dále z AD o systémových vlastnostech uživatelů,
některá práva tak lze generovat automaticky nebo je i automaticky
odebírat
– z účetního systému se stahují data o nákladových střediscích, lze
propojit uživatele (fyzické i technické) na tyto střediska
– sledují se atributy o provozu Teradaty, vytížení zdrojů a na základě
propojení s ETL procesy lze vysledovat, který proces kolik zdrojů
spotřebovává
– propojením uživatelských a procesních informací lze alokovat přímé
náklady na provoz na jednotlivá nákladová střediska, nepřímé náklady
se rozpočítávají dle alokačních klíčů
22
Příklady z praxe
› Project/Task Management – JIRA/Confluence
– lze extrahovat data pomocí vystavěných API (systém je naprogramován
v JAVA), je ale nutná znalost modelu JIRA a způsobu implementace
v dané společnosti
– extrahují se data o projektech a o projektových teamech, můžou se tak
kontrolovat, zda jsou správně přiřazené projektové role v DWH, stejně
tak se sleduje progres na projektech, kritické tasky, nebo blockery
– ETL nástroj automaticky generuje incidenty do JIRA, sleduje se
zpracování incidentů, zaznamenává se příčina incidentu a vyhodnocuje
se, zda jde o problém, nebo taky se sleduje kvalita dodávek
› Další příklady z praxe
– SLA aplikace
– DQM systém a DQ reporting
23
Obecné principy pro metadata
› Do sběru metadat by měla být ideálně zapojena každá komponenta
datového skladu. Při zapojení nové komponenty dopředu stanovte,
jakým způsobem budou metadata sbírána
› Snažte se definovat a rozvíjet metamodel, včetně metadatové
sémantiky. Vyžadujte, aby se metadata sbírala v souladu s tímto
metamodelem
› Pro zajištění vyšší integrovatelnosti metadat aplikujte pravidla
masteringu metadat. Každá meta-informace musí být unikátně
identifikovatelná uvnitř řešení
› Nezapomeňte sdílet metadata uvnitř i vně BI teamu
› Metadatové řešení musí být dynamicky rozvíjitelné. Připravte se na
nárůst uživatelů, zdrojů, nových typů metadat i sledovaných metrik.
› I na metadata se aplikují pravidla Data Quality
› Metadatové metriky pravidelně monitorujte a vyhodnocujte. Pomůže
to zajistit spolehlivost celého řešení a zvyšovat kvalitu dodávek
Nástroje a postupy
k odchytu metadat, jejich
skladování a průmyslové
využití
Ondřej Zýka
25
Metadata DWH – Profinit approach
› Metadata nástroje
› Systémy zpracovávající metadata
› Přínosy Metadata DWH
› Metadata DWH klíčové body řešení
› Zkušensoti firmy Profinit
Metadatový sklad
Metadata
Table
Column
System
Report
Business term
Process
Organization
Application
META-METADATA
27
HW
SW
OS
Network
DB
Datovéstruktury
Datovétoky
Aplikačnímoduly
Aplikace
Prostředí
Technickývlastník
Byznysvlastník
Byznysfunkce
Byznysproces
Organizačníprocesy
Organizačnístruktura
Lokalita
Konfigurační databáze * * * * * * * * * * * *
Dohledové systémy * * * * * * * * * * * *
Project managemnt * * * * *
Vývoj * * * * * * * *
IT architektura * * * * * * * * * * * *
Byznys architektura * * * * * * * * * *
Předpisy, pracovní postupy * * * * * * *
Byznys slovník * * * *
Metadata v DWH * * * * * * *
Security, Compliance * * * * * * * * * *
Issue Tracking systems * * *
28
Datový potravní řetězec
Sklady
Fakturace
Výroba
Finance
CRM
Prodej
Strategický
reporting
Operativní
reporting
Analýzy
Byznys, technologická a provozní metadata
Datová
kvalita
MDM Integrace
DWH
Jednotný model
Kompletní historie
Integrovaná data
Governance – pravidla, organizační struktura, procesy
29
Meta datový potravní řetězec
Dohledové
systémy
PM
nástroje
Model
repository
Architektury
Přepisy,
slovník
Konfigurační
databáze
Reporting
Analýzy
Datová
kvalita
MDM Integrace
DWH
Jednotný model
Kompletní historie
Integrovaná data
Governance – pravidla, organizační struktura, procesy
30
Přínosy skladu metadat
Stejné jako u datových skladů:
› Udržování a čištění hlavních entit
› Zvýšení datové kvality
› Meta data model
› Historizace
› Globální reporting
› Globální analýzy
› Byznys pohled na detail
31
Metadata DWH
Klíčové body řešení:
› Jak definovat požadavky
› Jaká data spravovat v datovém skladu
› Kdo to zaplatí
› Jaký bude governance model pro datový sklad
› Jaký bude model meta dat
32
“Univerzální” datový model
33
Konceptuální model
Processing
DQ
Exec
SLA
Check Exec
Capacity
Check Exec
Change management
Organisation
Requirements
Operation
Process
Incident
management
Security
Location HW
Network ENV Type
Environment
Data Application
Transformation Functions
Product
34
Fyzický model
35
Zkušenosti firmy Profinit
› Neexistují univerzální nástroje a řešení
– Výsledek musí být na míru zákazníka – technologie, procesy i obsah.
– Řešení musí být vlastněno zákazníkem.
› Máme zkušenosti s modelováním metadat
– Manta, data_frame, projekty u zákazníků
– Archimate jako referenční model, z kterého se dá vycházet. Máme
certifikované konzultanty.
› Budujeme datové sklady
– Máme metodiku model driven přístupu na generování hlavních
komponent
– Máme zkušené analytiky i vývojáře
Profinit EU, s.r.o.
Tychonova 2, 160 00 Praha 6 | Telefon + 420 224 316 016
Web
www.profinit.eu
LinkedIn
linkedin.com/company/profinit
Twitter
twitter.com/Profinit_EU
Facebook
facebook.com/Profinit.EU
Youtube
Profinit EU
Děkujeme
za pozornost

Weitere ähnliche Inhalte

Ähnlich wie Matedatový sklad

Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planUstredni knihovna VUT
 
BI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BIBI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BIOKsystem
 
Data Governance a datová kvalita v roce 2017. Příprava na GDPR.
Data Governance a datová kvalita v roce 2017. Příprava na GDPR.Data Governance a datová kvalita v roce 2017. Příprava na GDPR.
Data Governance a datová kvalita v roce 2017. Příprava na GDPR.Profinit
 
Caleum firemni profil
Caleum firemni profilCaleum firemni profil
Caleum firemni profilJosef Ladra
 
8 tipu jak delat lepe webovou analytiku
8 tipu jak delat lepe webovou analytiku8 tipu jak delat lepe webovou analytiku
8 tipu jak delat lepe webovou analytikuJiri Maly
 
Závěrečná práce z kurzu práce s informacemi
Závěrečná práce z kurzu práce s informacemiZávěrečná práce z kurzu práce s informacemi
Závěrečná práce z kurzu práce s informacemiJiří Němec
 
Jak úspěšně zavést do firmy webovou analytiku
Jak úspěšně zavést do firmy webovou analytikuJak úspěšně zavést do firmy webovou analytiku
Jak úspěšně zavést do firmy webovou analytikuAkce Dobrého webu
 
Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Taste Medio
 
Prezentace - Business intelligence
Prezentace - Business intelligence Prezentace - Business intelligence
Prezentace - Business intelligence PsaniPraci.cz
 
Prague data management meetup 2018-04-17
Prague data management meetup 2018-04-17Prague data management meetup 2018-04-17
Prague data management meetup 2018-04-17Martin Bém
 
Web Analytics pro ČVUT
Web Analytics pro ČVUTWeb Analytics pro ČVUT
Web Analytics pro ČVUTLukáš Čech
 
Profinit: Prezentace snídaně integrace aplikací 2016
Profinit: Prezentace snídaně integrace aplikací 2016Profinit: Prezentace snídaně integrace aplikací 2016
Profinit: Prezentace snídaně integrace aplikací 2016Profinit
 
ITSM - Jira Service Desk a spřátelené aplikace z rodiny Atlassian
ITSM - Jira Service Desk a spřátelené aplikace z rodiny AtlassianITSM - Jira Service Desk a spřátelené aplikace z rodiny Atlassian
ITSM - Jira Service Desk a spřátelené aplikace z rodiny AtlassianOnlio
 
Pracovní snídaně: Zavádíme integrační platformu v 75 minutách
Pracovní snídaně: Zavádíme integrační platformu v 75 minutáchPracovní snídaně: Zavádíme integrační platformu v 75 minutách
Pracovní snídaně: Zavádíme integrační platformu v 75 minutáchProfinit
 
Základní funkce MetaCentra a jejich využití
Základní funkce MetaCentra a jejich využitíZákladní funkce MetaCentra a jejich využití
Základní funkce MetaCentra a jejich využitíCESNET
 
OKbase - moderní IT nástroj pro HR
OKbase - moderní IT nástroj pro HROKbase - moderní IT nástroj pro HR
OKbase - moderní IT nástroj pro HROKsystem
 

Ähnlich wie Matedatový sklad (20)

Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
SAS® Visual Analytics
SAS® Visual AnalyticsSAS® Visual Analytics
SAS® Visual Analytics
 
BI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BIBI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BI
 
Data Governance a datová kvalita v roce 2017. Příprava na GDPR.
Data Governance a datová kvalita v roce 2017. Příprava na GDPR.Data Governance a datová kvalita v roce 2017. Příprava na GDPR.
Data Governance a datová kvalita v roce 2017. Příprava na GDPR.
 
Caleum firemni profil
Caleum firemni profilCaleum firemni profil
Caleum firemni profil
 
ORM
ORMORM
ORM
 
8 tipu jak delat lepe webovou analytiku
8 tipu jak delat lepe webovou analytiku8 tipu jak delat lepe webovou analytiku
8 tipu jak delat lepe webovou analytiku
 
Závěrečná práce z kurzu práce s informacemi
Závěrečná práce z kurzu práce s informacemiZávěrečná práce z kurzu práce s informacemi
Závěrečná práce z kurzu práce s informacemi
 
Jak úspěšně zavést do firmy webovou analytiku
Jak úspěšně zavést do firmy webovou analytikuJak úspěšně zavést do firmy webovou analytiku
Jak úspěšně zavést do firmy webovou analytiku
 
Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)
 
Prezentace - Business intelligence
Prezentace - Business intelligence Prezentace - Business intelligence
Prezentace - Business intelligence
 
Prague data management meetup 2018-04-17
Prague data management meetup 2018-04-17Prague data management meetup 2018-04-17
Prague data management meetup 2018-04-17
 
Web Analytics pro ČVUT
Web Analytics pro ČVUTWeb Analytics pro ČVUT
Web Analytics pro ČVUT
 
Profinit: Prezentace snídaně integrace aplikací 2016
Profinit: Prezentace snídaně integrace aplikací 2016Profinit: Prezentace snídaně integrace aplikací 2016
Profinit: Prezentace snídaně integrace aplikací 2016
 
ITSM - Jira Service Desk a spřátelené aplikace z rodiny Atlassian
ITSM - Jira Service Desk a spřátelené aplikace z rodiny AtlassianITSM - Jira Service Desk a spřátelené aplikace z rodiny Atlassian
ITSM - Jira Service Desk a spřátelené aplikace z rodiny Atlassian
 
Pracovní snídaně: Zavádíme integrační platformu v 75 minutách
Pracovní snídaně: Zavádíme integrační platformu v 75 minutáchPracovní snídaně: Zavádíme integrační platformu v 75 minutách
Pracovní snídaně: Zavádíme integrační platformu v 75 minutách
 
Adobe je dobré
Adobe je dobréAdobe je dobré
Adobe je dobré
 
Základní funkce MetaCentra a jejich využití
Základní funkce MetaCentra a jejich využitíZákladní funkce MetaCentra a jejich využití
Základní funkce MetaCentra a jejich využití
 
Data management
Data managementData management
Data management
 
OKbase - moderní IT nástroj pro HR
OKbase - moderní IT nástroj pro HROKbase - moderní IT nástroj pro HR
OKbase - moderní IT nástroj pro HR
 

Mehr von Profinit

Reference Data Management
Reference Data ManagementReference Data Management
Reference Data ManagementProfinit
 
Cloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloudCloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloudProfinit
 
Building big data pipelines—lessons learned
Building big data pipelines—lessons learnedBuilding big data pipelines—lessons learned
Building big data pipelines—lessons learnedProfinit
 
Understand your data dependencies – Key enabler to efficient modernisation
 Understand your data dependencies – Key enabler to efficient modernisation  Understand your data dependencies – Key enabler to efficient modernisation
Understand your data dependencies – Key enabler to efficient modernisation Profinit
 
Propensity Modelling for Banks
Propensity Modelling for BanksPropensity Modelling for Banks
Propensity Modelling for BanksProfinit
 
Legacy systems modernisation
Legacy systems modernisationLegacy systems modernisation
Legacy systems modernisationProfinit
 
Automating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data StoresAutomating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data StoresProfinit
 
4 Steps Towards Data Transparency
4 Steps Towards Data Transparency4 Steps Towards Data Transparency
4 Steps Towards Data TransparencyProfinit
 
Software systems modernisation
Software systems modernisationSoftware systems modernisation
Software systems modernisationProfinit
 
Data Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduData Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduProfinit
 
Detekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléDetekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléProfinit
 
Výsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluVýsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluProfinit
 
Propensitní modelování
Propensitní modelováníPropensitní modelování
Propensitní modelováníProfinit
 
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit
 
Profinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit
 
2019 09-23-snidane qa-public
2019 09-23-snidane qa-public2019 09-23-snidane qa-public
2019 09-23-snidane qa-publicProfinit
 
2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-fullProfinit
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyneProfinit
 
Projekt Bitcoinová burza Coinmate
Projekt Bitcoinová burza CoinmateProjekt Bitcoinová burza Coinmate
Projekt Bitcoinová burza CoinmateProfinit
 

Mehr von Profinit (20)

Reference Data Management
Reference Data ManagementReference Data Management
Reference Data Management
 
Cloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloudCloud in examples—(how to) benefit from modern technologies in the cloud
Cloud in examples—(how to) benefit from modern technologies in the cloud
 
Building big data pipelines—lessons learned
Building big data pipelines—lessons learnedBuilding big data pipelines—lessons learned
Building big data pipelines—lessons learned
 
Understand your data dependencies – Key enabler to efficient modernisation
 Understand your data dependencies – Key enabler to efficient modernisation  Understand your data dependencies – Key enabler to efficient modernisation
Understand your data dependencies – Key enabler to efficient modernisation
 
Propensity Modelling for Banks
Propensity Modelling for BanksPropensity Modelling for Banks
Propensity Modelling for Banks
 
Legacy systems modernisation
Legacy systems modernisationLegacy systems modernisation
Legacy systems modernisation
 
Automating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data StoresAutomating Data Lakes, Data Warehouses and Data Stores
Automating Data Lakes, Data Warehouses and Data Stores
 
4 Steps Towards Data Transparency
4 Steps Towards Data Transparency4 Steps Towards Data Transparency
4 Steps Towards Data Transparency
 
Software systems modernisation
Software systems modernisationSoftware systems modernisation
Software systems modernisation
 
Data Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí clouduData Science a MLOps v prostředí cloudu
Data Science a MLOps v prostředí cloudu
 
Detekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přáteléDetekce sociálních vazeb: domácnosti a přátelé
Detekce sociálních vazeb: domácnosti a přátelé
 
Výsledky backtestu propensitního modelu
Výsledky backtestu propensitního modeluVýsledky backtestu propensitního modelu
Výsledky backtestu propensitního modelu
 
Propensitní modelování
Propensitní modelováníPropensitní modelování
Propensitní modelování
 
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
Profinit Webinar: Benefits of Software Systems Modernization over their Repla...
 
Profinit webinar: Instalment Detector
Profinit webinar: Instalment DetectorProfinit webinar: Instalment Detector
Profinit webinar: Instalment Detector
 
Profinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publishProfinit_snidane_DWH_22_10_2019_publish
Profinit_snidane_DWH_22_10_2019_publish
 
2019 09-23-snidane qa-public
2019 09-23-snidane qa-public2019 09-23-snidane qa-public
2019 09-23-snidane qa-public
 
2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full2019 03-20 snidane-serie-kuchyne-full
2019 03-20 snidane-serie-kuchyne-full
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne
 
Projekt Bitcoinová burza Coinmate
Projekt Bitcoinová burza CoinmateProjekt Bitcoinová burza Coinmate
Projekt Bitcoinová burza Coinmate
 

Matedatový sklad

  • 1. Odborná snídaně: Metadatový sklad Petr Hájek, Patrik Hinca, Ondřej Zýka 16. října 2018
  • 2. 2 Co nás dnes čeká › Úvod do obecné biologie metadat a příbuzných druhů Petr Hájek › Lokality bohaté na výskyt metadat a jak se v nich neztratit Patrik Hinca › Nástroje a postupy k odchytu metadat, jejich skladování a průmyslové využití Ondřej Zýka
  • 3. 3 Kdo jsme 20 let na trhu (od roku 1998) 600 mil. (Kč) obrat v roce 2017 Finance & Telco významní zákazníci 450+ zkušených profesionálů #3 CAD v ČR (IDC 2017) ČR + Evropa
  • 5. Úvod do obecné biologie metadat a příbuzných druhů
  • 6. 6 Metadatový sklad - úvod › Paralela s počátky budování datových skladů, Data Intelligence x Business Intelligence › „Metadata nejsou jen metadata“ – Klasifikace metadat – Business metadata x technická metadata – Strukturální metadata x provozní metadata – Pre-skriptivní metadata x deskriptivní metadata › Rozdíl mezi běžným datovým skladem, který je řízen metadaty a skladem, jehož předmětem jsou metadata › Role metadatového modelu
  • 7. 7 Business Intelligence? Data Intelligence! Business Intelligence = rozumět svému businessu Data Intelligence = rozumět svým datům … a rozumět si navzájem
  • 8. 8 „Metadata nejsou jen metadata“ Metadata jsou dle definice „data o datech“ (nejjednodušší příklad: popis, co obsahují řádky a sloupce v tabulce) Rozšířená definice zahrnuje také: › data popisující strukturu systému, organizace (návaznost např. na architekturu) › provozní a ryze technická data › v ještě širším smyslu číselníky › v ještě širším smyslu business pravidla Znakem metadat je jejich strukturovanost.
  • 9. 9 Business metadata vs. technická metadata Business definice Mapping Vazba na technická metadata a číselníky
  • 10. 10 Preskriptivní a deskriptivní metadata Preskriptivní metadata vznikají ve fázi analýzy a designu řešení (systému, aplikace) a v maximální možné míře strukturovaně popisují ex-ante jeho komponenty, funkce, rozhraní atd. Preskriptivní metadata se pak využijí při automatizaci vývoje, testování, nasazování atd. Deskriptivní metadata popisují stejným způsobem totéž řešení, ale až zpětně, ex-post. Porovnání pre-skriptivních a de-skriptivních metadat v rámci DWH je pak analogií např. k porovnání plan vs. actuals v rámci DWH.
  • 11. 11 Datový sklad řízený metadaty vs. metadatový sklad Datový sklad Business Data Party Event Account Product Channel Location Service Treatment METADATA Metadatový sklad Metadata Table Column System Report Business term Process Organization Application META-METADATA
  • 12. 12 Metadatový model Stejné myšlenky jako u datového modelu: › Sjednocená sémantika, pojmenování základních entit a vazeb mezi nimi › Integrační role › Postupné rozšiřování (aditivní změny, krystalický růst)
  • 13. 13 Uživatelé a případy užití Uživatelé: › Architekti › Data governance, IT Governance › PMO › Provoz › Security, Controlling, Interní Audit Některé příklady užití: › data lineage › konfigurační databáze › issue management system › orchestrace datových toků › automatizace testování › quality assirance SW vývoje
  • 14. Lokality bohaté na výskyt metadat a jak se v nich neztratit Patrik Hinca
  • 15. 15 O metadatech › S metadaty pracujeme od samotného počátku budování řešení, aniž bychom si to uvědomovali › Každý objekt, tabulka, aplikace, proces si sebou nese řadu popisných informací, které vypovídají o jeho charakteru, účelu nebo vazby na ostatní objekty › Množina metadat dohromady tvoří kompletní obraz o architektuře, provozu a vývoji celého řešení › Pomáhají odpovídat na základní otázky (kolik máme tabulek v databázi? Jaký je přírůstek dat za poslední měsíc? Které objekty jsou použity pro plnění této tabulky?) › Ale i komplexnější otázky (které procesy způsobují peak CPU při ranním zpracování? které objekty jsou svázány s posledním deploymentem? Kdo provedl otestování konkrétního balíku, který způsobil incident při zpracování)
  • 16. 16 Metadata jsou asset › Metadata tvoří informační aktivum které definuje BI řešení v jeho – reusability – schopnost přepoužitelnosti komponent pro nová řešení – sustainability – udržitelnost a rozvíjitelnost řešení – manageability – řiditelnost řešení jako celku nebo i dílčích komponent – interoperability – schopnost propojit různé komponenty informačního ekosystému společnosti › Metadata pomáhají dokumentovat jednotlivé části datového skladu a tím výrazně zvyšují analytickou sílu › Typologie a taxonomie metadat se vždy adaptuje na konkrétní řešení a nejsou univerzálně přenositelná mezi různými řešeními
  • 17. 17 Příklad taxonomie metadat Data Quality Business Structural metadata Technical › Implementation Artefacts › Jobs & Orchestration › User management and Security › Operation and Process › Development Metadata › System Monitoring & Operation › Audit Metamodel and meta-glossary Referentials Knowledge base Methodology and Policy Governance METADATA Information Base
  • 18. 18 Jak na metadata › Zdroje metadat jsou variantní a jejich získání nemusí být vždy jednoduché › Občas je nutno sáhnout na nestrukturované zdroje a/nebo vyvinout komplexnější algoritmus pro extrakci požadovaných informací, nebo i pořídit externí nástroj › Jednotlivé typy metadat zpravidla nelze (jednoduše) vzájemně propojit, integrace do jednoho modelu je tak nesnadná nebo i nemožná › Potřeba metadat v čase neustále roste a je skoro přímo úměrná maturitě řešení › Proto je nutno myslet na metadatovou architekturu již v začátcích budování datového skladu
  • 19. 19 Meta MartmDWH Metadata sources Architektura metadatových skladů Standardní DWH řešení Stage / Data Lake DWH Core Data Mart Architektura metadatových řešení Data Load Data Integration Data Usage Ingest Metadata Organize Metadata Consume Metadata
  • 20. 20 Příklady z praxe › Modelovací nástroj – PowerDesigner – modely jsou registrovány do centrálního repozitory, odkud jsou extrahovány do Metadata DWH, je zde uložen jak AS-IS stav, tak i plánovaný TO-BE stav – na základě důkladného dodržování mapování mezi modely lze stejná metadata použít i pro Data Lineage › ETL procesy – použita Informatica PwC v kombinaci Push- down SQL skripty – Informatica má svoje repozitory, které lze strojově vytěžovat, sledují se jak definice ETL procesů, tak i vývojový cyklus ETL komponent od vývoje, přes testy až po nasazení na produkci – pro rozbor procesů v SQL skriptech se používá Manta – veškerá metadata se opět ukládají do Metadata DWH, lze tak sledovat kompletní datovou lineage, přes několik heterogenních prostředí – repozitory se využívá i pro vytěžování operativních informací o běžících procesech, jejich stavu i výsledku
  • 21. 21 Příklady z praxe › Datový sklad – Teradata – stahují se informace o jednotlivých objektech, lze tak srovnat modelovaný a skutečný stav a sledovat rozdíly – sledují se kompletní informace o uživatelích a jejich rolích, metadata jsou obohacena z HR systému o informace o zaměstnancích, organizační struktuře, dále z AD o systémových vlastnostech uživatelů, některá práva tak lze generovat automaticky nebo je i automaticky odebírat – z účetního systému se stahují data o nákladových střediscích, lze propojit uživatele (fyzické i technické) na tyto střediska – sledují se atributy o provozu Teradaty, vytížení zdrojů a na základě propojení s ETL procesy lze vysledovat, který proces kolik zdrojů spotřebovává – propojením uživatelských a procesních informací lze alokovat přímé náklady na provoz na jednotlivá nákladová střediska, nepřímé náklady se rozpočítávají dle alokačních klíčů
  • 22. 22 Příklady z praxe › Project/Task Management – JIRA/Confluence – lze extrahovat data pomocí vystavěných API (systém je naprogramován v JAVA), je ale nutná znalost modelu JIRA a způsobu implementace v dané společnosti – extrahují se data o projektech a o projektových teamech, můžou se tak kontrolovat, zda jsou správně přiřazené projektové role v DWH, stejně tak se sleduje progres na projektech, kritické tasky, nebo blockery – ETL nástroj automaticky generuje incidenty do JIRA, sleduje se zpracování incidentů, zaznamenává se příčina incidentu a vyhodnocuje se, zda jde o problém, nebo taky se sleduje kvalita dodávek › Další příklady z praxe – SLA aplikace – DQM systém a DQ reporting
  • 23. 23 Obecné principy pro metadata › Do sběru metadat by měla být ideálně zapojena každá komponenta datového skladu. Při zapojení nové komponenty dopředu stanovte, jakým způsobem budou metadata sbírána › Snažte se definovat a rozvíjet metamodel, včetně metadatové sémantiky. Vyžadujte, aby se metadata sbírala v souladu s tímto metamodelem › Pro zajištění vyšší integrovatelnosti metadat aplikujte pravidla masteringu metadat. Každá meta-informace musí být unikátně identifikovatelná uvnitř řešení › Nezapomeňte sdílet metadata uvnitř i vně BI teamu › Metadatové řešení musí být dynamicky rozvíjitelné. Připravte se na nárůst uživatelů, zdrojů, nových typů metadat i sledovaných metrik. › I na metadata se aplikují pravidla Data Quality › Metadatové metriky pravidelně monitorujte a vyhodnocujte. Pomůže to zajistit spolehlivost celého řešení a zvyšovat kvalitu dodávek
  • 24. Nástroje a postupy k odchytu metadat, jejich skladování a průmyslové využití Ondřej Zýka
  • 25. 25 Metadata DWH – Profinit approach › Metadata nástroje › Systémy zpracovávající metadata › Přínosy Metadata DWH › Metadata DWH klíčové body řešení › Zkušensoti firmy Profinit Metadatový sklad Metadata Table Column System Report Business term Process Organization Application META-METADATA
  • 26.
  • 27. 27 HW SW OS Network DB Datovéstruktury Datovétoky Aplikačnímoduly Aplikace Prostředí Technickývlastník Byznysvlastník Byznysfunkce Byznysproces Organizačníprocesy Organizačnístruktura Lokalita Konfigurační databáze * * * * * * * * * * * * Dohledové systémy * * * * * * * * * * * * Project managemnt * * * * * Vývoj * * * * * * * * IT architektura * * * * * * * * * * * * Byznys architektura * * * * * * * * * * Předpisy, pracovní postupy * * * * * * * Byznys slovník * * * * Metadata v DWH * * * * * * * Security, Compliance * * * * * * * * * * Issue Tracking systems * * *
  • 28. 28 Datový potravní řetězec Sklady Fakturace Výroba Finance CRM Prodej Strategický reporting Operativní reporting Analýzy Byznys, technologická a provozní metadata Datová kvalita MDM Integrace DWH Jednotný model Kompletní historie Integrovaná data Governance – pravidla, organizační struktura, procesy
  • 29. 29 Meta datový potravní řetězec Dohledové systémy PM nástroje Model repository Architektury Přepisy, slovník Konfigurační databáze Reporting Analýzy Datová kvalita MDM Integrace DWH Jednotný model Kompletní historie Integrovaná data Governance – pravidla, organizační struktura, procesy
  • 30. 30 Přínosy skladu metadat Stejné jako u datových skladů: › Udržování a čištění hlavních entit › Zvýšení datové kvality › Meta data model › Historizace › Globální reporting › Globální analýzy › Byznys pohled na detail
  • 31. 31 Metadata DWH Klíčové body řešení: › Jak definovat požadavky › Jaká data spravovat v datovém skladu › Kdo to zaplatí › Jaký bude governance model pro datový sklad › Jaký bude model meta dat
  • 33. 33 Konceptuální model Processing DQ Exec SLA Check Exec Capacity Check Exec Change management Organisation Requirements Operation Process Incident management Security Location HW Network ENV Type Environment Data Application Transformation Functions Product
  • 35. 35 Zkušenosti firmy Profinit › Neexistují univerzální nástroje a řešení – Výsledek musí být na míru zákazníka – technologie, procesy i obsah. – Řešení musí být vlastněno zákazníkem. › Máme zkušenosti s modelováním metadat – Manta, data_frame, projekty u zákazníků – Archimate jako referenční model, z kterého se dá vycházet. Máme certifikované konzultanty. › Budujeme datové sklady – Máme metodiku model driven přístupu na generování hlavních komponent – Máme zkušené analytiky i vývojáře
  • 36. Profinit EU, s.r.o. Tychonova 2, 160 00 Praha 6 | Telefon + 420 224 316 016 Web www.profinit.eu LinkedIn linkedin.com/company/profinit Twitter twitter.com/Profinit_EU Facebook facebook.com/Profinit.EU Youtube Profinit EU Děkujeme za pozornost