1. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
TURKISH ORACLE USER GROUP
Gürcan ORHAN
DM & DWH & BI & Information Architect
Wipro Technologies – Türkiye
http://gurcanorhan.wordpress.com
http://www.twitter.com/gurcan_orhan
http://tr.linkedin.com/in/gurcanorhan
2. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
BEN KİMİM ?
Uludağ Üniversitesi Endüstri Mühendisliği 1992 - 2000
İlk DWH projesi Altınyıldız DWH - 2003
Önemli DWH projeleri ;
Aktif iş hayatı - 1994
AVEA DWH Yeniden Yapılandırma Projesi
Tekstilbank DWH ve Siebel CRM Marketing Automation
Turkcell NODI (Network Operations Data Infrastructure)
Oracle Bilgisayar Programı Kullanıcılar Derneği Genel Sekreteri
NODI projesinin Customer Snapshot’ı Oracle.com’da yayınlandı
ODI ile ilgili videolar Oracle Media Network’de yayınlandı
DWH ile ilgili makaleler OTech Magazine, SearchSoftwareQuality.com, OTN
3. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
NERELERDEYDİM ?
Önemli sunumlar ;
Oracle Open World 2010, 2011, 2012, 2013, 2014 – San Francisco, ABD🌟
UKOUG Technology & E-Business Suite Conference – Birmingham, İngiltere
ODTUG KScope 2011, 2013, 2015 – Long Beach, New Orleans, Miami, ABD
OPN – BI Day – LinkPlus, Eylül 2011
Oracle Day ’11 / ‘13 – İstanbul, Kasım 2011 – Kasım 2013
Fırat Üniversitesi Geleceğine Yön Ver – Elazığ, Aralık 2011
Sakarya Üniversitesi Bilişim ve Teknoloji Şöleni – Sakarya, Mart 2011
OUGF Harmony 2014 – Haltia, Finlandiya
Latin Amerika OTN Tour 2014
Panama, Kosta Rika, Meksika, El Salvador, Guatemala, Kolombiya, Ekvador
OTN Yathra Tour 2015 – Hindistan
Mumbai, Pune, Hyderabad, Bangalore
OUGN 2015 – Oslo, Norveç
OUG-Ire 2015 – Dublin, İrlanda
Kocaeli Üniversitesi PI-TEK – Kocaeli, Aralık 2011
TROUG @ Ankara – Ankara, Aralık 2014
http://gurcanorhan.wordpress.com/about/appearances
4. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
NELER YAPTIM ?
http://www.oracle.com/oraclemagazine
http://www.oracle.com/technetwork/issue-archive/2012/12-jan/index.html
5. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
NE KULLANIRIM ?
Oracle
Microsoft SQL Server
Veri tabanı yönetim sistemleri
Sybase ASE
Sybase IQ
MySQL
Oracle Data Integrator
Oracle Warehouse Builder
ETL
Informatica
Business Objects Data Integrator
Sybase Power Designer
CA ERWIN
Model Tasarım
Oracle Business Intelligence
Cognos
İş Zekası
Business Objects
Microstrategy
Herhangi bir ANSI database
SQL Developer Data Modeler
6. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
GLOSSARY
• DWH : Datawarehouse – Veri Ambarı
• DM : Data Mart – Veri Kümeleri
• BI : Business Intelligence – İş Zekası
• ETL : Extract – Transform – Load
• IK : Incremental Update – Artımsal Güncelleme
• SCD : Slowly Changing Dimension – Yavaş Değişen Boyutlar
• CDC : Change Data Capture – Değişen Veriyi Yakala
• OLTP : Online Transactional Processing – Operasyonel Sistemler
• OLAP : Online Analytical Processing – Küpler
• SA : Subject Area – Konu Alanı
• STG : Staging Area – Kademe Alanı
• DQ : Data Quality – Veri Kalitesi
• FACT : Fact (TRX) – Gerçekleşen (Hareket)
• DIM : Dimension – Boyut
8. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH & OLTP farkı nedir?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
DWH & DM farkı nedir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
GÜNÜN AJANDASI
9. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
DATAWAREHOUSE (DWH) NEDİR ?
DWH tarihi
• EIS (Enterprise Information Systems)
• DSS (Decision Support Systems)
• Data Warehousing and Business Intelligence (DWH / BI)
Bir veri ambarı; yönetim kararlarını destekleyici, konu yönelimli, entegre,
uçucu olmayan ve zaman değişkenli veri kümesidir. (Bill Inmon - 1990)
Teknik Avantajları
• Paralel kullanımı (Parallelism)
• Veri Kümelemesi (Partitioning)
• Veri Sıkıştırması (Compressing)
İş Zekası, verinin bilgiye dönüşümü işlemidir. (Gartner Group)
DATA
INFORMATION
KNOWLEDGE
DECISION
10. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
DWH & DM farkı nedir?
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
GÜNÜN AJANDASI
11. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
DATAMART (DM) NEDİR ?
Datamartlar
• Konu yönelimli
• Tümleşik
• Genellikle tek kaynak sistemden beslenir
ÖZELİK DATA WAREHOUSE DATAMART
İçerik Kurumsal Departmansal
Konu Çok Tek özne, iş birimi odaklı
Veri Kaynağı Çoğul Tekil
Implementasyon Ay – Yıl Ay
Bağımlı veya bağımsız olabilirler.
• Bağımlı DM : DWH’tan beslenen, kolay ETL, kurumsal planın parçası
• Bağımsız DM : Ayrık, operasyonel maliyeti yüksek, harici veri
kaynaklarından beslenen, analitik ihtiyaçlara yönelik hazırlanan
12. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
DWH & OLTP farkı nedir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
13. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
DWH & OLTP
ÖZELİK OPERASYONEL SİSTEM DATA WAREHOUSE
Yanıt Süresi Milisaniye / Saniye Saniye / Saat
Operasyon DML (Data Manipulation
Language)
Öncelikli olarak salt-okunur
Veri doğası 30 – 60 gün Zamansal enstantane
Veri Organizasyonu Uygulama Öznel, zamansal
Veri Miktarı Küçük / Büyük Büyük / Çok Büyük
Veri Kaynağı Operasyonel, Dahili Operasyonel, Dahili, Harici
Aktiviteler Proses bazlı Analiz Bazlı
14. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
15. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
DATAWAREHOUSE BİLEŞENLERİ
OPERASYONEL
KAYITLAR
ARŞİV KAYITLARI
DOSYALAR
OPERATIONAL
DATA STORE
(ODS)
DWH DM
METADATA REPOSITORY
KAYNAK
SİSTEMLER
STAGING
KATMAN
KURUMSAL
KATMAN
SUNUM
KATMANI
DWH Yazılım Yaklaşımları
• Bing Bang Yaklaşımı
• Artımsal Yaklaşım
• Yukarıdan aşağıya artımsal (top-down incremental)
• Aşağıdan yukarıya artımsal (bottom-up incremental)
16. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
17. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
ETL NE DEMEKTİR?
E-T-L (Extract – Transform – Load)
Extraction
• Farklı kaynak sistemden, veri tabanından farklı formatlarla elde edilir.
• Kaynak sistemlerin canlı, arşiv, dahili ve harici verilerine erişebilir.
Transform
• Veri hataları düzeltilir.
• Genellikle staging area (remote/on site) kullanılır
• Veri entegrasyonu sağlanır
• İş kuralları verilere uygulanarak veri doğrulaması gerçekleştirilir
• Veriler onaylanır
• Verilere zaman entegre edilir
Load
• Elde edilen temizlenmiş veri DWH ortamına yazılır
18. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
19. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
ETL ÇEŞİTLERİ
Incremental Update
• Kaynak sistemden elde edilen birincil anahtarlar (Primary Key)
yardımı ile «yeni geleni ekle, mevcut olanı güncelle, silineni işaretle»
yaklaşımı.
• Change Data Capture (CDC)
Slowly Changing Dimensions Type II (SCD)
Truncate & Load
• Kaynak sistemden elde edilen verilerin tümünün silinerek yeniden
yapılandırılması.
• Kaynak sistemden elde edilen veriler tarihsel olarak saklanarak hiçbir
veri silinmez. Tarihsel yaklaşım.
20. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
ETL PROBLEMLERİ
• Kaynak sistemdeki tablonun unusable olması
• Kaynak sistemdeki dosyaya erişilememe
• Yetersiz metadata
• Zayıf veya yetersiz analiz süreci
• Yetersiz yer (storage) planlama
• Kaynak sistemde yapısal değişiklikler
• Yetersiz veri validasyonu
• Hatalı mantıksal / fiziksel model dizaynı
• Veri tipi uyumsuzlukları
21. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
22. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
MODELLEME
İş modelinin oluşturulması (Business Model)
• Strateji analizinin yapılması
• İş birimi tanımlarının ve kurallarının belirlenmesi
• İş ihtiyaçlarının belirlenmesi
Mantıksal modelin oluşturulması (Logical Model)
• İlişki ve ilişki tiplerinin belirlenmesi
• Fact ve Dimension’ların tespit edilmesi
• Sonuçların mantıksal olarak üretilerek konu alanlarının tespit edilmesi
• Nesnelerin isim ve renk standartlarının belirlenmesi
Fiziksel modelin oluşturulması (Physical Model)
• Donanım ihtiyaçlarının tespit edilmesi
• Tablo ve index için disk kapasitesi ihtiyacının belirlenmesi
• Partition stratejisinin belirlenmesi
• Güvenlik stratejisinin belirlenmesi
23. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
MODELLEME
Third Normal Form (3NF)
26. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
27. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
VERİ KALİTESİ NEDİR?
• Beklenen veri, beklenen yerde, beklenen şekilde bulunmaz ise veri
kalitesi problemi ortaya çıkar.
• Farklı anlama gelen data
• Eksik bilgi, verinin farklı alanda olması
• Veri tipi farklılığı
• Veri boyutu farklılığı
• Veri doğrulama kurallarının olmaması
• Drill-Down olmaması
• İlişkisel bütünlüğün olmaması, öksüz kayıtların varlığı
• Veri duplikasyonu
28. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
Veri Ambarı nedir, ne demektir?
Veri Kalitesi nedir, nasıl sağlanır?
DWH bileşenleri nelerdir?
ETL ne demektir?
ETL tipleri nelerdir?
Modelleme nedir, nasıl yapılmalıdır?
Veri Tabanı fiziksel yaklaşımları nelerdir?
DWH & OLTP farkı nedir?
DWH & DM farkı nedir?
GÜNÜN AJANDASI
29. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
FİZİKSEL ORTAM
Fact tablo karakteristikleri
• İş birimlerinin kullanacağı nümerik metrik değerleri içerir
• Büyük miktarda veri içerir
• Çabuk büyür, çok hızlı genişler
• Stabil, Türetilmiş veya Özetlenmiş veri içerir
• Genellikle ekleme yapılır
• Genellikle dimension tablolarla foreign key ile ilişkilidir
Dimension tablo karakteristikleri
• İş birimlerinin görmek istedikleri metin tipteki veriyi içerirler
• Genellikle statik veri içerirler
• Boyutları küçüktür
• Truncate Load mekanizmasına uygundur
Slowly Changing Dimensions tablo karakteristikleri
• Genellikle link tablolarıdır (Fact – Dimension linki)
• Fact üzerindeki dimension’ın tarihçe bilgilerini tutarlar
30. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
FİZİKSEL ORTAM
Partitioning
• Range Partition
• Hash Partition
• List Partition
• Index Partition
• Composite Partition
Indexing
• B-Tree Index
• Bitmap Index
• Function Based Index
• Partitioned Index
Star
• Genellikle link tablolarıdır (Fact – Dimension linki)
• Fact üzerindeki dimension’ın tarihçe bilgilerini tutarlar
Materialized View
• Fiziksel yer kaplayan, istendiği zaman refresh edilebilen view yapısı
32. 16.04.2015 – Bilişim Günleri @ Haliç Üniversitesi
TEŞEKKÜRLER
Gürcan ORHAN
http://gurcanorhan.wordpress.com
http://www.twitter.com/gurcan_orhan
http://tr.linkedin.com/in/gurcanorhan