2. 2
Co nás dnes čeká
› Úvod do obecné biologie metadat
a příbuzných druhů
Petr Hájek
› Lokality bohaté na výskyt metadat
a jak se v nich neztratit
Patrik Hinca
› Nástroje a postupy k odchytu
metadat, jejich skladování
a průmyslové využití
Ondřej Zýka
3. 3
Kdo jsme
20 let
na trhu
(od roku 1998)
600 mil.
(Kč) obrat
v roce 2017
Finance
& Telco
významní
zákazníci
450+
zkušených
profesionálů
#3
CAD v ČR
(IDC 2017)
ČR
+ Evropa
6. 6
Metadatový sklad - úvod
› Paralela s počátky budování datových skladů,
Data Intelligence x Business Intelligence
› „Metadata nejsou jen metadata“
– Klasifikace metadat
– Business metadata x technická metadata
– Strukturální metadata x provozní metadata
– Pre-skriptivní metadata x deskriptivní
metadata
› Rozdíl mezi běžným datovým skladem, který je řízen
metadaty a skladem, jehož předmětem jsou metadata
› Role metadatového modelu
7. 7
Business Intelligence? Data Intelligence!
Business Intelligence = rozumět svému businessu
Data Intelligence = rozumět svým datům
… a rozumět si navzájem
8. 8
„Metadata nejsou jen metadata“
Metadata jsou dle definice „data o datech“ (nejjednodušší
příklad: popis, co obsahují řádky a sloupce v tabulce)
Rozšířená definice zahrnuje také:
› data popisující strukturu systému, organizace
(návaznost např. na architekturu)
› provozní a ryze technická data
› v ještě širším smyslu číselníky
› v ještě širším smyslu business
pravidla
Znakem metadat je jejich
strukturovanost.
9. 9
Business metadata vs. technická metadata
Business definice Mapping Vazba na technická
metadata a číselníky
10. 10
Preskriptivní a deskriptivní metadata
Preskriptivní metadata vznikají ve fázi analýzy a designu řešení (systému,
aplikace) a v maximální možné míře strukturovaně popisují ex-ante jeho
komponenty, funkce, rozhraní atd.
Preskriptivní metadata se pak využijí při automatizaci vývoje, testování,
nasazování atd.
Deskriptivní metadata popisují
stejným způsobem totéž řešení,
ale až zpětně, ex-post.
Porovnání pre-skriptivních a de-skriptivních metadat v rámci DWH je
pak analogií např. k porovnání plan vs. actuals v rámci DWH.
11. 11
Datový sklad řízený metadaty
vs. metadatový sklad
Datový sklad
Business
Data
Party
Event
Account
Product
Channel
Location
Service
Treatment
METADATA
Metadatový sklad
Metadata
Table
Column
System
Report
Business term
Process
Organization
Application
META-METADATA
12. 12
Metadatový model
Stejné myšlenky jako u datového modelu:
› Sjednocená sémantika, pojmenování
základních entit a vazeb mezi nimi
› Integrační role
› Postupné rozšiřování (aditivní změny,
krystalický růst)
13. 13
Uživatelé a případy užití
Uživatelé:
› Architekti
› Data governance, IT
Governance
› PMO
› Provoz
› Security, Controlling,
Interní Audit
Některé příklady užití:
› data lineage
› konfigurační databáze
› issue management
system
› orchestrace datových
toků
› automatizace testování
› quality assirance SW
vývoje
15. 15
O metadatech
› S metadaty pracujeme od samotného počátku budování řešení,
aniž bychom si to uvědomovali
› Každý objekt, tabulka, aplikace, proces si sebou nese řadu
popisných informací, které vypovídají o jeho charakteru, účelu
nebo vazby na ostatní objekty
› Množina metadat dohromady tvoří kompletní obraz o architektuře,
provozu a vývoji celého řešení
› Pomáhají odpovídat na základní otázky (kolik máme tabulek
v databázi? Jaký je přírůstek dat za poslední měsíc? Které objekty
jsou použity pro plnění této tabulky?)
› Ale i komplexnější otázky (které procesy způsobují peak CPU
při ranním zpracování? které objekty jsou svázány s posledním
deploymentem? Kdo provedl otestování konkrétního balíku, který
způsobil incident při zpracování)
16. 16
Metadata jsou asset
› Metadata tvoří informační aktivum které definuje BI řešení
v jeho
– reusability – schopnost přepoužitelnosti komponent pro nová řešení
– sustainability – udržitelnost a rozvíjitelnost řešení
– manageability – řiditelnost řešení jako celku nebo i dílčích komponent
– interoperability – schopnost propojit různé komponenty informačního
ekosystému společnosti
› Metadata pomáhají dokumentovat jednotlivé části datového
skladu a tím výrazně zvyšují analytickou sílu
› Typologie a taxonomie metadat se vždy adaptuje na konkrétní
řešení a nejsou univerzálně přenositelná mezi různými
řešeními
17. 17
Příklad taxonomie metadat
Data Quality
Business
Structural
metadata
Technical
› Implementation
Artefacts
› Jobs & Orchestration
› User management
and Security
› Operation and
Process
› Development
Metadata
› System Monitoring
& Operation
› Audit
Metamodel and
meta-glossary
Referentials
Knowledge
base
Methodology
and Policy
Governance
METADATA
Information Base
18. 18
Jak na metadata
› Zdroje metadat jsou variantní a jejich získání nemusí být vždy
jednoduché
› Občas je nutno sáhnout na nestrukturované zdroje a/nebo
vyvinout komplexnější algoritmus pro extrakci požadovaných
informací, nebo i pořídit externí nástroj
› Jednotlivé typy metadat zpravidla nelze (jednoduše) vzájemně
propojit, integrace do jednoho modelu je tak nesnadná nebo
i nemožná
› Potřeba metadat v čase neustále roste a je skoro přímo úměrná
maturitě řešení
› Proto je nutno myslet na metadatovou architekturu již
v začátcích budování datového skladu
19. 19
Meta MartmDWH
Metadata
sources
Architektura metadatových skladů
Standardní DWH řešení
Stage / Data Lake DWH Core Data Mart
Architektura metadatových řešení
Data Load Data Integration Data Usage
Ingest Metadata Organize Metadata Consume Metadata
20. 20
Příklady z praxe
› Modelovací nástroj – PowerDesigner
– modely jsou registrovány do centrálního repozitory, odkud jsou
extrahovány do Metadata DWH, je zde uložen jak AS-IS stav, tak
i plánovaný TO-BE stav
– na základě důkladného dodržování mapování mezi modely lze stejná
metadata použít i pro Data Lineage
› ETL procesy – použita Informatica PwC v kombinaci Push-
down SQL skripty
– Informatica má svoje repozitory, které lze strojově vytěžovat, sledují
se jak definice ETL procesů, tak i vývojový cyklus ETL komponent od
vývoje, přes testy až po nasazení na produkci
– pro rozbor procesů v SQL skriptech se používá Manta
– veškerá metadata se opět ukládají do Metadata DWH, lze tak sledovat
kompletní datovou lineage, přes několik heterogenních prostředí
– repozitory se využívá i pro vytěžování operativních informací o běžících
procesech, jejich stavu i výsledku
21. 21
Příklady z praxe
› Datový sklad – Teradata
– stahují se informace o jednotlivých objektech, lze tak srovnat
modelovaný a skutečný stav a sledovat rozdíly
– sledují se kompletní informace o uživatelích a jejich rolích, metadata
jsou obohacena z HR systému o informace o zaměstnancích,
organizační struktuře, dále z AD o systémových vlastnostech uživatelů,
některá práva tak lze generovat automaticky nebo je i automaticky
odebírat
– z účetního systému se stahují data o nákladových střediscích, lze
propojit uživatele (fyzické i technické) na tyto střediska
– sledují se atributy o provozu Teradaty, vytížení zdrojů a na základě
propojení s ETL procesy lze vysledovat, který proces kolik zdrojů
spotřebovává
– propojením uživatelských a procesních informací lze alokovat přímé
náklady na provoz na jednotlivá nákladová střediska, nepřímé náklady
se rozpočítávají dle alokačních klíčů
22. 22
Příklady z praxe
› Project/Task Management – JIRA/Confluence
– lze extrahovat data pomocí vystavěných API (systém je naprogramován
v JAVA), je ale nutná znalost modelu JIRA a způsobu implementace
v dané společnosti
– extrahují se data o projektech a o projektových teamech, můžou se tak
kontrolovat, zda jsou správně přiřazené projektové role v DWH, stejně
tak se sleduje progres na projektech, kritické tasky, nebo blockery
– ETL nástroj automaticky generuje incidenty do JIRA, sleduje se
zpracování incidentů, zaznamenává se příčina incidentu a vyhodnocuje
se, zda jde o problém, nebo taky se sleduje kvalita dodávek
› Další příklady z praxe
– SLA aplikace
– DQM systém a DQ reporting
23. 23
Obecné principy pro metadata
› Do sběru metadat by měla být ideálně zapojena každá komponenta
datového skladu. Při zapojení nové komponenty dopředu stanovte,
jakým způsobem budou metadata sbírána
› Snažte se definovat a rozvíjet metamodel, včetně metadatové
sémantiky. Vyžadujte, aby se metadata sbírala v souladu s tímto
metamodelem
› Pro zajištění vyšší integrovatelnosti metadat aplikujte pravidla
masteringu metadat. Každá meta-informace musí být unikátně
identifikovatelná uvnitř řešení
› Nezapomeňte sdílet metadata uvnitř i vně BI teamu
› Metadatové řešení musí být dynamicky rozvíjitelné. Připravte se na
nárůst uživatelů, zdrojů, nových typů metadat i sledovaných metrik.
› I na metadata se aplikují pravidla Data Quality
› Metadatové metriky pravidelně monitorujte a vyhodnocujte. Pomůže
to zajistit spolehlivost celého řešení a zvyšovat kvalitu dodávek
24. Nástroje a postupy
k odchytu metadat, jejich
skladování a průmyslové
využití
Ondřej Zýka
25. 25
Metadata DWH – Profinit approach
› Metadata nástroje
› Systémy zpracovávající metadata
› Přínosy Metadata DWH
› Metadata DWH klíčové body řešení
› Zkušensoti firmy Profinit
Metadatový sklad
Metadata
Table
Column
System
Report
Business term
Process
Organization
Application
META-METADATA
29. 29
Meta datový potravní řetězec
Dohledové
systémy
PM
nástroje
Model
repository
Architektury
Přepisy,
slovník
Konfigurační
databáze
Reporting
Analýzy
Datová
kvalita
MDM Integrace
DWH
Jednotný model
Kompletní historie
Integrovaná data
Governance – pravidla, organizační struktura, procesy
30. 30
Přínosy skladu metadat
Stejné jako u datových skladů:
› Udržování a čištění hlavních entit
› Zvýšení datové kvality
› Meta data model
› Historizace
› Globální reporting
› Globální analýzy
› Byznys pohled na detail
31. 31
Metadata DWH
Klíčové body řešení:
› Jak definovat požadavky
› Jaká data spravovat v datovém skladu
› Kdo to zaplatí
› Jaký bude governance model pro datový sklad
› Jaký bude model meta dat
35. 35
Zkušenosti firmy Profinit
› Neexistují univerzální nástroje a řešení
– Výsledek musí být na míru zákazníka – technologie, procesy i obsah.
– Řešení musí být vlastněno zákazníkem.
› Máme zkušenosti s modelováním metadat
– Manta, data_frame, projekty u zákazníků
– Archimate jako referenční model, z kterého se dá vycházet. Máme
certifikované konzultanty.
› Budujeme datové sklady
– Máme metodiku model driven přístupu na generování hlavních
komponent
– Máme zkušené analytiky i vývojáře
36. Profinit EU, s.r.o.
Tychonova 2, 160 00 Praha 6 | Telefon + 420 224 316 016
Web
www.profinit.eu
LinkedIn
linkedin.com/company/profinit
Twitter
twitter.com/Profinit_EU
Facebook
facebook.com/Profinit.EU
Youtube
Profinit EU
Děkujeme
za pozornost