1. TUGAS KELOMPOK
DATA MINING DAN DATA WAREHOUSE
“DATA DIMENSIONAL”
Oleh :
- Akbar Aswad (1031098)
- Pingky Hermanto (1131092)
- Yulianto (1031102)
- Lintang A. R. (1031080)
- Ogi Riwandi (1031115)
JURUSAN SISTEM INFORMASI
FAKULTAS ILMU KOMPUTER
UNIVERSITAS INTERNASIONAL BATAM
2012
1
2. Daftar Isi ............................................................ Error! Bookmark not defined.
Definisi Data Warehouse ........................................................................ 3
I.1. Pengertian Data, Informasi dan Database ................................................... 3
I.2. Pengertian Data Warehouse ..................................................................... 3
I.3. Store-store data yang berhubungan dengan data warehouse .......................... 4
I.4. Istilah-istilah yang berhubungan dengan data warehouse .............................. 5
I.5. Karakteristik Data Warehouse .................................................................. 6
Data Operasional ......................................................................................... 6
Data Warehouse .......................................................................................... 6
Data Dimensional ......................................................................................... 7
1. Pengertian ......................................................................................... 7
2. Konsep Modeling Data Dimensional ................................................. 9
2.1. Tabel Fakta (the fact table) .................................................................10
2.2. Dimensi Data Model .............................................................................11
3. Membangun Sebuah Model Data Dimensional ...............................13
3.1. Memilih Sebuah Proses Bisnis ................................................................ 14
3.2. Merangkum Dari Proses Bisnis...............................................................14
3.3. Menentukan Ringkasan Dari Tabel Fakta ................................................15
3.4. Indentifikasi Dimensi dan Hirarki ...........................................................16
3.4. Memilih dan Menetukan Tabel Fakta ......................................................17
3.5. Resisting Normalisasi ............................................................................18
3.6. Memilih Atribut Tabel Dimensi ..........................................................19
4. Menangani Masalah umum Data Dimensional ...............................20
4.1. Meminalisir Jumlah Atribut ..................................................................20
4.2. Penanganan Dimensi Yang Berubah........................................................21
4.3. Menggunakan Skema Snowflake ............................................................22
Daftar Pustaka ..........................................................................................24
2
3. Definisi Data Warehouse
I.1. Pengertian Data, Informasi dan Database
Sebelum membahas tentang data warehouse, hal yang harus dipahami terlebih dahulu
yaitu pengertian tentang data,informasi dan database yaitu :
1. Steven Alter, data merupakan fakta,gambar atau suara yang mungkin atau tidak
berhubungan atau berguna bagi tugas tertentu.
2. McLeod, data terdiri dari fakta-fakta dan angka yang secara relatif tidak berarti bagi
pemakai. Sedangkan informasi adalah data yang sudah diproses atau data yang memiliki arti.
Jadi dapat diartikan bahwa data merupakan suatu bentuk keterangan-keterangan yang
belum diolah atau dimanipulasi sehingga belum begitu berarti bagi sebagian pemakai.
Sedangkan informasi merupakan data yang sudah di olah sehingga memiliki arti.
Menurut James A. O’Brien Database adalah suatu koleksi terintegrasi dimana secara
logika berhubungan dengan record dari file.
Jadi Database adalah tempat penyimpanan data yang saling berhubungan secara logika,
sehingga bisa digunakan untuk mendapatkan suatu informasi yang diperlukan oleh suatu
organisasi atau perusahaan.
Sedangkan data yang diperoleh suatu organisasi atau perusahaan umumnya didapat dari
kegiatan operasional sehari-hari atau hasil dari transaksi. Sehingga dari perkembangan model
database, dapat disebut juga dengan data warehouse.
I.2. Pengertian Data Warehouse
Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama,
seperti pendapat beberapa ahli berikut ini :
3
4. 1. W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai
sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam
mendukung proses pengambilan keputusan management.
2. Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only
yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang
DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data
warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda.
Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data
warehouse normalisasi bukanlah cara yang terbaik.
Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah
database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat
orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para
pengambil keputusan.
I.3. Store-store data yang berhubungan dengan data warehouse
Data warehouse
Sebuah database yang dioptimalkan untuk pengambilan data. Data tidak disimpan pada
tingkat transaksi, beberapa tingkat data diringkas. Tidak seperti database OLTP
tradisional, yang mengotomatisasi sehari-hari operasi, data warehouse menyediakan
lingkungan pendukung keputusan di mana Anda dapat mengevaluasi kinerja seluruh
perusahaan dari waktu ke waktu. Biasanya, Anda menggunakan model data relasional
untuk membangun data warehouse.
Data mart
Sebuah subset dari data warehouse yang disimpan dalam database yang lebih kecil dan
yang berorientasi pada tujuan tertentu atau subjek data daripada untuk enterprise-wide
perencanaan strategis. Sebuah data mart dapat berisi data operasional, data diringkas,
data spasial, atau metadata. Biasanya, Anda menggunakan model data dimensi untuk
membangun data mart.
Operational data store
4
5. Sebuah sistem subjek berorientasi yang dioptimalkan untuk mencari satu atau dua
catatan pada suatu waktu untuk pengambilan keputusan. Sebuah toko data operasional
adalah bentuk hibrida data warehouse yang berisi tepat waktu, saat ini, informasi yang
terintegrasi. Data biasanya adalah granularity tingkat lebih tinggi dari transaksi. Anda
dapat menggunakan menyimpan data operasional untuk administrasi pengambilan
keputusan, sehari-hari membuat. Data ini dapat berfungsi sebagai sumber umum dari
data untuk gudang data.
Repository
Sebuah repositori menggabungkan sumber data ke dalam satu database dinormalisasi.
Catatan dalam repositori sering diperbarui. Data operasional, bukan sejarah. Anda
mungkin menggunakan repositori untuk spesifik pendukung keputusan query,
tergantung pada persyaratan sistem tertentu. Sebuah repositori sesuai dengan kebutuhan
perusahaan yang memerlukan, terpadu enterprise-wide sumber data untuk pengolahan
operasional.
I.4. Istilah-istilah yang berhubungan dengan data warehouse
Istilah-istilah yang berkaitan dengan data warehouse :
1. On-Line Analytical Processing(OLAP)
Merupakan suatu pemrosesan database yang menggunakan tabel fakta dan dimensi
untuk dapat menampilkan berbagai macam bentuk laporan, analisis, query dari data
yang berukuran besar.
2. On-Line Transaction Processing(OLTP)
Merupakan suatu pemrosesan yang menyimpan data mengenai kegiatan operasional
transaksi sehari-hari.
3. Dimension Table
Tabel yang berisikan kategori dengan ringkasan data detail yang dapat dilaporkan.
Seperti laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang
berupa perbulan, perkwartal dan pertahun).
4. Fact Table
Merupakan tabel yang umumnya mengandung angka dan data history dimana key
(kunci) yang dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci
asing) yang merupakan primary key (kunci utama) dari beberapa dimension table yang
berhubungan.
5. DSS
5
6. Merupkan sistem yang menyediakan informasi kepada pengguna yang menjelaskan
bagaimana sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang
baik.
I.5. Karakteristik Data Warehouse
Karakteristik data warehouse menurut Inmon, yaitu :
1. Subject Oriented (Berorientasi subject)
Data warehouse berorientasi subject artinya data warehouse didesain untuk
menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada
proses atau fungsi aplikasi tertentu.
Data Operasional Data Warehouse
Dirancang berorientasi hanya pada Dirancang berdasar pada subjek-subjek
aplikasi dan fungsi tertentu tertentu(utama)
Focusnya pada desain database dan proses Focusnya pada pemodelan data dan desain
data
Berisi rincian atau detail data Berisi data-data history yang akan dipakai
dalam proses analisis
Relasi antar table berdasar aturan Banyak aturan bisnis dapat tersaji antara
terkini(selalu mengikuti rule(aturan) tabel-tabel
terbaru)
2. Integrated (Terintegrasi)
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang
terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan
lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada
merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu
sendiri.
3. Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu
tertentu.
4. Non-Volatile
6
7. Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada
data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional
secara reguler.
Data Dimensional
1. Pengertian
Data dimensional merupakan rancangan logikal yang bertujuan
untukmenampilkan data dalam bentuk standar dan intuitif yang memperbolehkan akses
dengan performa yang tinggi. Model dimensional menggunakan konsep model
hubungan antar entity (ER) dengan beberapa batasan yang penting. Setiap model
dimensi terdiri dari sebuah tabel dengan sebuah komposit primary key, disebut dengan
table fakta, dan satu set table yang lebih kecil disebut table dimensi. Setiap table
dimensi memiliki sebuah simple primary key yang merespon tepat pada satu komponen
primary key pada tabel fakta. Dengan kata lain primary key pada table fakta terdiri dari
dua atau lebih foreign key. Struktur karakteristik ini disebut dengan skema bintang atau
join bintang.
Database relasional tradisional diorganisir diantara daftar catatan. Setiap record
berisi informasi terkait yang diatur dalam atribut (field). Tabel pelanggan dari database
demonstrasi stores_demo, yang mencakup kolom untuk nama, perusahaan, alamat,
telepon, dan sebagainya, adalah contoh yang khas. Sementara tabel ini memiliki
beberapa bidang informasi, setiap baris dalam tabel berkaitan dengan hanya satu
pelanggan. Jika Anda ingin membuat sebuah matriks dua dimensi dengan nama
pelanggan dan bidang lain (misalnya, nomor telepon), Anda akan menyadari bahwa
hanya ada korespondensi satu-ke-satu. Tabel 8 menunjukkan meja dengan bidang yang
hanya memiliki korespondensi satu-ke-satu.
Table 8. A Table with a One-To-One Correspondences Between Fields
Customer Phone number --->
Ludwig Pauli 408-789-8075 ---------------- ----------------
Carole Sadler ---------------- 415-822-1289 ----------------
Philip Currie ---------------- ---------------- 414-328-4543
7
8. Anda bisa menempatkan setiap kombinasi dari bidang dari tabel pelanggan
sebelumnya dalam matriks ini, tetapi Anda selalu akan berakhir dengan korespondensi
satu-ke-satu, yang menunjukkan bahwa tabel ini tidak multidimensi dan tidak akan
cocok untuk database dimensi.
Namun, pertimbangkan meja relasional yang berisi lebih dari korespondensi
satu-ke-satu antara bidang meja. Misalkan Anda membuat tabel yang berisi data
penjualan untuk produk yang dijual di setiap wilayah negara. Untuk mempermudah,
misalkan perusahaan memiliki tiga produk yang dijual di tiga wilayah. Tabel 9 shows
bagaimana Anda dapat menyimpan data ini dalam tabel relasional.
Table 9. A Simple Relational Table
Product Region Unit Sales
Football East 2300
Football West 4000
Football Central 5600
Tennis racket East 5500
Tennis racket West 8000
Tennis racket Central 2300
Baseball East 10000
Baseball West 22000
Baseball Central 34000
Tabel dalam Tabel 9 cocok untuk representasi multidimensi karena memiliki
lebih dari satu produk per wilayah dan lebih dari satu wilayah per produk. Tabel 10
menunjukkan matriks dua dimensi yang lebih baik merupakan hubungan banyak-ke-
banyak data produk dan wilayah.
Table 10. A Simple Two-Dimensional Example
Product Region Central East West
Football 5600 2300 4000
Tennis Racket 2300 5500 8000
Baseball 34000 10000 22000
Meskipun data ini dapat dipaksa ke dalam tabel tiga bidang relasional dari Tabel
9, data cocok lebih alami ke dalam matriks dua dimensi dari Tabel 10.
8
9. Keunggulan kinerja dari tabel dimensi di atas meja relasional tradisional dapat
menjadi besar. Pendekatan dimensi menyederhanakan akses ke data yang ingin Anda
meringkas atau membandingkan. Misalnya, jika Anda menggunakan tabel dimensi
untuk query jumlah produk yang dijual di Barat, database server menemukan kolom
Barat dan menghitung total untuk semua nilai baris dalam kolom tersebut. Untuk
melakukan query yang sama di meja relasional, database server harus mencari dan
mengambil setiap baris di mana kolom Daerah sama barat dan kemudian agregat data.
Dalam pertanyaan semacam ini, tabel dimensi dapat total semua nilai kolom thewest di
sebagian kecil dari waktu yang dibutuhkan tabel relasional untuk menemukan semua
catatan Barat.
2. Konsep Modeling Data Dimensional
Untuk membangun sebuah database dimensi, Anda mulai dengan model data
dimensi. Model Data dimensi menyediakan metode untuk membuat database sederhana
dan mudah dipahami. Anda dapat membayangkan database dimensi sebagai kubus
database tiga atau empat dimensi di mana pengguna dapat mengakses sepotong
database bersama salah satu dimensi. Untuk membuat database dimensi, Anda
membutuhkan model yang memungkinkan Anda memvisualisasikan data.
Misalkan bisnis Anda menjual produk di pasar yang berbeda dan mengevaluasi
kinerja dari waktu ke waktu. Sangat mudah untuk memahami proses bisnis sebagai
kubus data, yang berisi dimensi waktu, produk, dan pasar. Gambar 35 menunjukkan
model dimensi. Persimpangan berbagai sepanjang baris kubus akan berisi langkah-
langkah bisnis. Langkah-langkah sesuai dengan kombinasi tertentu dari data produk,
pasar, dan waktu.
Figure 35. A Dimensional Model of a Business That Has Time, Product, and
Market Dimensions
Nama lain untuk model dimensi adalah skema bintang-bergabung. Para desainer
database menggunakan nama ini karena diagram untuk model ini tampak seperti
bintang dengan satu meja sentral di mana satu set meja lainnya akan ditampilkan. Tabel
utama adalah tabel hanya dalam skema dengan beberapa join menghubungkannya ke
9
10. semua tabel lainnya. Ini meja tengah disebut tabel fakta dan tabel lain yang disebut
tabel dimensi. Tabel dimensi semua hanya memiliki join tunggal yang menempel
mereka ke tabel fakta, terlepas dari query.Gambat 36 menunjukkan model dimensi
sederhana dari sebuah bisnis yang menjual produk di pasar yang berbeda dan
mengevaluasi kinerja bisnis dari waktu ke waktu.
Gambar 36. A Typical Dimensional Model
2.1. Tabel Fakta (the fact table)
Tabel fakta menyimpan ukuran bisnis dan menunjuk ke nilai kunci pada tingkat
terendah dari masing-masing tabel dimensi. Langkah-langkah adalah data kuantitatif
atau faktual tentang subjek. Langkah-langkah umumnya numerik dan sesuai dengan
seberapa jauh atau seberapa banyak aspek dari pertanyaan. Contoh tindakan adalah
harga, penjualan produk, persediaan produk, pendapatan, dan sebagainya. Sebuah
ukuran dapat didasarkan pada sebuah kolom dalam sebuah tabel atau dapat dihitung.
Tabel 11 menunjukkan tabel fakta yang tindakannya merupakan jumlah dari unit yang
terjual, pendapatan, dan keuntungan untuk penjualan produk tersebut ke akun bahwa
pada hari itu.
Table 11. A Fact Table with Sample Records
Product
Account Code Day Code Units Sold Revenue Profit
Code
1 5 32104 1 82.12 27.12
3 17 33111 2 171.12 66.00
10
11. Table 11. A Fact Table with Sample Records
Product
Account Code Day Code Units Sold Revenue Profit
Code
1 13 32567 1 82.12 27.12
Sebelum Anda merancang tabel fakta, Anda harus menentukan rincian
(granularity) dari tabel fakta. Granularity sesuai dengan bagaimana Anda
mendefinisikan catatan rendah tingkat individu dalam tabel fakta. Granularity mungkin
transaksi individual, snapshot harian, atau snapshot bulanan. Tabel fakta dalam Tabel
11 berisi satu baris untuk setiap produk yang dijual untuk setiap account setiap hari.
Dengan demikian, granularity dari tabel fakta yang diungkapkan oleh asproduct akun
demi hari.
2.2. Dimensi Data Model
Sebuah dimensi merupakan satu set objek atau peristiwa di dunia nyata. Setiap
dimensi yang Anda mengidentifikasi untuk model data akan diimplementasikan sebagai
tabel dimensi. Dimensi adalah kualifikasi yang membuat ukuran tabel fakta bermakna,
karena mereka menjawab apa, kapan, dan di mana aspek pertanyaan. Sebagai contoh,
perhatikan pertanyaan-pertanyaan berikut ini bisnis, dimana dimensi yang dicetak
miring:
• Apakah penyebab menghasilkan pendapatan tertinggi tahun lalu?
• Apa keuntungan kita oleh vendor?
• Berapa banyak unit yang terjual untuk setiap produk?
Pada set sebelumnya pertanyaan, pendapatan, laba, dan unit yang dijual adalah
ukuran (tidak dimensi), karena masing-masing merupakan data kuantitatif atau faktual.
Dimension Elements
Sebuah dimensi dapat menentukan elemen dimensi ganda untuk berbagai
tingkat penjumlahan. Sebagai contoh, semua elemen yang berhubungan dengan struktur
organisasi penjualan mungkin terdiri dari satu dimensi. Gambar 37 menunjukkan
elemen dimensi bahwa dimensi rekening mendefinisikan.
Gambar 37. Dimension Elements in the Accounts Dimension
11
12. Dimensi terdiri dari hierarki elemen terkait. Karena aspek hirarkis dimensi,
pengguna dapat membangun query yang mengakses data pada tingkat yang lebih tinggi
(sampai roll) atau tingkat yang lebih rendah (drill down) dari tingkat sebelumnya detail.
Gambar 37 menunjukkan hubungan hirarki dari elemen dimensi: rekening gulung
hingga wilayah, dan wilayah menggulung ke daerah. Pengguna dapat query pada
tingkat yang berbeda dari dimensi, tergantung pada data yang mereka ingin mengambil.
Misalnya, pengguna mungkin melakukan query terhadap semua wilayah dan kemudian
menelusuri ke tingkat wilayah atau account untuk informasi rinci.
Dimensi elemen biasanya disimpan dalam database sebagai kode numerik atau
string karakter pendek untuk memfasilitasi bergabung ke meja lainnya. Setiap elemen
dimensi dapat menentukan atribut dimensi ganda, dengan cara yang sama dimensi
dapat menentukan elemen dimensi ganda.
Dimension Attributes
Sebuah atribut dimensi adalah kolom dalam tabel dimensi. Setiap atribut
menggambarkan tingkat ringkasan dalam hirarki dimensi. Unsur-unsur dimensi
menentukan hubungan hirarkis dalam tabel dimensi, atribut menggambarkan unsur-
unsur dimensi dalam hal yang akrab bagi pengguna. Gambar 38 menunjukkan unsur-
unsur dimensi dan atribut yang sesuai dari dimensi akun.
Figure 38. Attributes That Correspond to the Dimension Elements
Karena atribut dimensi menggambarkan item dalam dimensi, mereka yang
paling berguna ketika mereka teks.
Tip:
Kadang-kadang selama proses desain, tidak jelas apakah bidang data numerik dari
sumber data produksi adalah fakta terukur atau atribut. Umumnya, jika bidang data
numerik adalah pengukuran yang mengubah setiap kali kita sampel itu, itu adalah fakta.
Jika itu adalah deskripsi discretely terhormat sesuatu yang lebih atau kurang konstan,
itu adalah atribut dimensi.
12
13. Dimension Tables
Sebuah tabel dimensi adalah tabel yang menyimpan deskripsi tekstual dari
dimensi bisnis. Sebuah tabel dimensi berisi elemen dan atribut, jika sesuai, untuk setiap
tingkat dalam hirarki. Tingkat terendah detail yang diperlukan untuk analisis data
menentukan tingkat terendah dalam hirarki. Lebih tinggi dari ini data base tingkat toko
berlebihan Levels. Tabel ini denormalized mengurangi jumlah gabungan yang
diperlukan untuk query dan membuat lebih mudah bagi pengguna untuk query pada
tingkat yang lebih tinggi dan kemudian menelusuri ke tingkat yang lebih rendah dari
detail. Pengeboran Istilah turun berarti menambahkan header baris dari tabel dimensi
query.Table Anda 12 menunjukkan contoh tabel dimensi yang didasarkan pada dimensi
akun.
Table 12. An Example of a Dimension Table
Region Region
Acct Code Account Name Territory Salesman Region
Size Manager
1 Jane's Mfg. 101 B. Adams Midwest Over 50 T. Sent
2 TBD Sales 101 B. Adams Midwest Over 50 T. Sent
3 Molly's Wares 101 B. Adams Midwest Over 50 T. Sent
4 The Golf Co. 201 T. Scott Midwest Over 50 T. Sent
3. Membangun Sebuah Model Data Dimensional
Untuk membangun sebuah model data dimensi, Anda memerlukan metodologi
yang menguraikan keputusan yang Anda butuhkan untuk membuat untuk melengkapi
desain database. Metodologi ini menggunakan pendekatan top-down karena pertama
mengidentifikasi proses utama dalam organisasi Anda di mana data dikumpulkan.
Sebuah tugas penting dari desainer database untuk memulai dengan sumber data yang
ada organisasi Anda menggunakan. Setelah proses diidentifikasi, satu atau lebih tabel
fakta yang dibangun dari setiap proses bisnis. Langkah-langkah berikut ini menjelaskan
metodologi yang Anda gunakan untuk membangun model data.
Untuk membangun sebuah database dimensi
a) Pilih proses bisnis yang ingin Anda gunakan untuk menganalisis subyek yang akan
dimodelkan.
b) Tentukan granularity dari tabel fakta.
c) Mengidentifikasi dimensi dan hirarki untuk setiap tabel fakta.
d) Mengidentifikasi langkah-langkah untuk tabel fakta.
e) Tentukan atribut untuk setiap tabel dimensi.
f) Dapatkan pengguna untuk memverifikasi model data.
13
14. Meskipun database dimensi dapat didasarkan pada proses bisnis dan dapat berisi
beberapa tabel fakta banyak, model data yang bagian ini menjelaskan didasarkan pada
proses bisnis tunggal dan memiliki satu tabel fakta.
3.1. Memilih Sebuah Proses Bisnis
Sebuah proses bisnis adalah operasi penting dalam organisasi Anda bahwa
beberapa sistem warisan mendukung. Anda mengumpulkan data dari sistem ini untuk
digunakan dalam database dimensi Anda. Proses bisnis mengidentifikasi apa yang
pengguna akhir lakukan dengan data mereka, di mana data berasal dari, dan bagaimana
mengubah data tersebut untuk membuatnya bermakna. Informasi dapat diperoleh dari
berbagai sumber, termasuk keuangan, analisis penjualan, analisis pasar, profil
pelanggan. Daftar berikut ini menunjukkan proses bisnis yang berbeda mungkin Anda
gunakan untuk menentukan data apa untuk memasukkan dalam database dimensi Anda:
• Penjualan
• Pengiriman
• Inventarisasi
• Pesanan
• Faktur
3.2. Merangkum Dari Proses Bisnis
Misalkan organisasi Anda ingin menganalisis tren pelanggan membeli dengan
lini produk dan wilayah sehingga Anda dapat mengembangkan strategi pemasaran yang
lebih efektif. Dalam skenario ini, area subyek untuk model data Anda adalah penjualan.
Setelah banyak wawancara dan analisis mendalam dari proses bisnis penjualan Anda,
misalkan organisasi Anda mengumpulkan informasi berikut:
• Pelanggan-basis informasi telah berubah.
Sebelumnya, penjualan kabupaten dibagi kota. Sekarang basis pelanggan sesuai dengan
dua daerah: Wilayah 1 untuk California dan Wilayah 2 untuk semua negara-negara lain.
• Laporan berikut yang paling penting untuk pemasaran:
o Bulanan pendapatan, biaya, laba bersih per lini produk vendor yang
Pendapatan
o dan unit dijual oleh produk, menurut wilayah, berdasarkan bulan
o Pendapatan Bulanan pelanggan
o Triwulan pendapatan per penjual
• Analisis Kebanyakan penjualan didasarkan pada hasil bulanan, tetapi Anda dapat
memilih untuk menganalisis penjualan minggu atau periode akuntansi (di kemudian
hari).
• Sebuah sistem entry data ada dalam database relasional.
Untuk mengembangkan model data bekerja, Anda dapat mengasumsikan bahwa
database relasional informasi penjualan memiliki sifat sebagai berikut:
o Database stores_demo menyediakan banyak data pendapatan bahwa
departemen pemasaran menggunakan.
o kode produk yang digunakan analis disimpan dalam tabel katalog sebagai
nomor katalog.
o Kode lini produk disimpan dalam tabel saham sebagai nomor saham. Nama
produk disimpan sebagai deskripsi.
o hirarki produk yang agak rumit. Setiap lini produk memiliki banyak produk,
dan produsen masing-masing memiliki banyak produk.
14
15. • Semua data biaya untuk setiap produk disimpan dalam flat file bernama costs.lst pada
sistem pembelian yang berbeda.
• Data Pelanggan disimpan dalam database stores_demo.
3.3. Menentukan Ringkasan Dari Tabel Fakta
Setelah Anda mengumpulkan semua informasi yang relevan tentang daerah
subjek, langkah berikutnya dalam proses desain adalah untuk menentukan granularity
dari tabel fakta. Untuk melakukan ini, Anda harus memutuskan apa catatan tingkat
rendah individu dalam tabel fakta harus berisi. Komponen yang membentuk granularity
dari tabel fakta berhubungan langsung dengan dimensi dari model data. Jadi, ketika
Anda menentukan granularity dari tabel fakta, Anda mengidentifikasi dimensi dari
model data. Bagaimana Granularity Mempengaruhi Ukuran Database Granularity dari
tabel fakta juga menentukan berapa banyak ruang penyimpanan database
membutuhkan. Sebagai contoh, mempertimbangkan kemungkinan granularities berikut
untuk tabel fakta:
Produk demi hari menurut wilayah
Produk berdasarkan bulan menurut wilayah
Ukuran database yang memiliki granularity produk demi hari menurut wilayah
akan jauh lebih besar daripada database dengan granularity produk per bulan menurut
wilayah karena database berisi catatan untuk setiap transaksi dibuat setiap hari sebagai
lawan penjumlahan bulanan transaksi. Anda harus hati-hati menentukan granularity
dari tabel fakta Anda karena terlalu halus granularity bisa mengakibatkan database
astronomis besar. Sebaliknya, terlalu kasar granularity bisa berarti data tidak cukup
rinci bagi pengguna untuk melakukan query bermakna terhadap database.
Menggunakan Proses Bisnis Menentukan Granularity tersebut
Sebuah tinjauan seksama informasi yang dikumpulkan dari proses bisnis harus
menyediakan apa yang Anda butuhkan untuk menentukan granularity dari tabel fakta.
Untuk meringkas, organisasi Anda ingin menganalisis pelanggan membeli tren dengan
lini produk dan wilayah sehingga Anda dapat mengembangkan strategi pemasaran yang
lebih efektif.
Pelanggan dengan Produk
Granularity dari tabel fakta selalu merupakan tingkat terendah untuk setiap
dimensi yang sesuai. Ketika Anda meninjau informasi dari proses bisnis, granularity
untuk dimensi pelanggan dan produk dari tabel fakta yang jelas. Pelanggan dan produk
tidak dapat cukup dikurangi lebih jauh: mereka sudah mengungkapkan tingkat terendah
dari catatan individu untuk tabel fakta. (Dalam beberapa kasus, produk mungkin
kemudian dikurangi ke tingkat komponen produk karena produk bisa terdiri dari
beberapa komponen.)
Pelanggan dengan Produk dari district
Karena pelanggan yang membeli tren organisasi Anda ingin menganalisis
memasukkan komponen geografis, Anda masih perlu memutuskan tingkat terendah
untuk informasi daerah. Proses bisnis menunjukkan bahwa di masa lalu, penjualan
kabupaten dibagi kota, tapi sekarang organisasi Anda membedakan antara dua wilayah
untuk basis pelanggan: Wilayah 1 untuk California dan Wilayah 2 untuk semua negara-
negara lain. Meskipun demikian, pada tingkat terendah, organisasi Anda masih
termasuk data penjualan kabupaten, sehingga kabupaten merupakan tingkat terendah
untuk informasi geografis dan menyediakan komponen ketiga untuk lebih menentukan
granularity dari tabel fakta.
15
16. Pelanggan dengan Produk dari district perhari
Pelanggan-beli tren selalu terjadi dari waktu ke waktu, sehingga granularity dari
tabel fakta harus menyertakan komponen waktu. Misalkan organisasi Anda
memutuskan untuk membuat laporan minggu, periode akuntansi, bulan, kuartal tahun,
atau. Pada tingkat terendah, Anda mungkin ingin memilih granularity dasar hari.
Granularity ini memungkinkan bisnis Anda untuk membandingkan penjualan pada hari
Selasa dengan penjualan pada hari Jumat, bandingkan penjualan untuk hari pertama
setiap bulan, dan sebagainya. Granularity dari tabel fakta sekarang lengkap.
3.4. Indentifikasi Dimensi dan Hirarki
Setelah Anda menentukan granularity (ringkasan) dari tabel fakta, mudah untuk
mengidentifikasi dimensi utama untuk model data karena setiap komponen yang
mendefinisikan granularity sesuai dengan dimensi. Gambar 39 menunjukkan hubungan
antara granularity dari tabel fakta dan dimensi dari model data.
Figure 39. The Granularity of the Fact Table Corresponds to the Dimensions of
the Data Model
Dengan dimensi (pelanggan, produk, geografi, waktu) untuk model data di
tempat, diagram skema mulai terbentuk.Sekarang Anda dapat memetakan elemen
dimensi dan hirarki untuk setiap dimensi. Gambar 40 menunjukkan hubungan antara
dimensi, dimensi elemen, dan hirarki yang melekat.
Figure 40. The Relationships Between Dimensions, Dimension Elements, and
the Inherent Hierarchies
16
17. Dalam kebanyakan kasus, elemen dimensi perlu mengekspresikan granularity
terendah yang bisa setiap dimensi, bukan karena permintaan perlu mengakses individu
tingkat rendah catatan, tetapi karena permintaan perlu memotong melalui database
dengan cara yang tepat. Dengan kata lain, meskipun pertanyaan bahwa lingkungan data
warehouse pose biasanya luas, pertanyaan-pertanyaan ini masih tergantung pada tingkat
terendah detail produk.
3.4. Memilih dan Menetukan Tabel Fakta
Langkah-langkah untuk model data tidak hanya mencakup data itu sendiri,
tetapi juga nilai-nilai baru yang Anda menghitung dari data yang ada. Ketika Anda
memeriksa langkah-langkah, Anda mungkin menemukan bahwa Anda perlu membuat
penyesuaian baik dalam granularity dari tabel fakta atau jumlah dimensi.
Keputusan penting lainnya yang harus Anda lakukan ketika Anda merancang
model data adalah apakah untuk menyimpan hasil perhitungan pada tabel fakta atau
untuk mendapatkan nilai-nilai ini pada saat runtime.
Pertanyaan untuk menjawab adalah, "Apa langkah-langkah yang digunakan
untuk menganalisis bisnis?" Ingatlah bahwa tindakan adalah data kuantitatif atau
faktual yang memberitahu berapa banyak atau berapa banyak. Informasi yang Anda
kumpulkan dari analisis bisnis penjualan hasil proses dalam daftar berikut langkah-
langkah:
• Pendapatan
• Biaya
• Unit dijual
• Laba bersih
Gunakan langkah-langkah untuk menyelesaikan tabel fakta pada Gambar 41.
Figure 41. The Sales Fact Table References Each Dimension Table
17
18. Menggunakan Kunci Bergabung dengan Tabel Fakta dengan Tabel Dimensi.
Asumsikan, untuk saat ini, bahwa skema dari Gambar 41 menunjukkan baik desain
logis dan fisik dari database. Database berisi lima tabel berikut:
• Penjualan tabel fakta
• Produk dimensi meja
• Waktu dimensi meja
• Pelanggan dimensi meja
• Geografi dimensi meja
Setiap tabel dimensi termasuk kunci primer (produk, time_code, pelanggan,
district_code), dan kolom yang sesuai dalam tabel fakta adalah kunci asing. Tabel fakta
juga memiliki kunci (komposit) primer yang merupakan kombinasi dari empat kunci
asing. Sebagai aturan, masing-masing kunci asing dari tabel fakta harus memiliki rekan
dalam tabel dimensi. Selanjutnya, setiap tabel dalam database dimensi yang memiliki
kunci komposit harus menjadi tabel fakta, yang berarti bahwa setiap tabel dalam
database dimensi yang mengungkapkan hubungan banyak-ke-banyak adalah tabel
fakta.
3.5. Resisting Normalisasi
Jika keempat kunci asing dari tabel fakta secara ketat diberikan bilangan bulat
berturut-turut, Anda bisa memesan sesedikit 16 byte untuk semua empat kunci (4 byte
setiap waktu, produk, pelanggan, dan geografi) dari tabel fakta. Jika keempat langkah
di tabel fakta masing-masing 4-byte integer kolom, Anda akan perlu untuk memesan
hanya lain 16 byte. Dengan demikian, setiap record dari tabel fakta akan menjadi hanya
18
19. 32 byte. Bahkan tabel fakta miliar-baris akan membutuhkan hanya sekitar 32 gigabyte
ruang data primer.
3.6. Memilih Atribut Tabel Dimensi
Setelah Anda menyelesaikan tabel fakta, Anda dapat memutuskan atribut
dimensi untuk setiap tabel dimensi. Untuk menggambarkan bagaimana memilih atribut,
mempertimbangkan dimensi waktu. Model data untuk proses bisnis penjualan
mendefinisikan granularity hari yang sesuai dengan dimensi waktu, sehingga setiap
record dalam tabel dimensi waktu merupakan hari. Perlu diingat bahwa setiap bidang
tabel didefinisikan oleh hari tertentu catatan mewakili.
Analisis proses bisnis penjualan juga menunjukkan bahwa departemen
pemasaran kebutuhan bulanan, laporan triwulanan, dan tahunan, sehingga dimensi
waktu mencakup unsur-unsur: hari, bulan, triwulan, dan tahun. Setiap elemen diberikan
atribut yang menggambarkan elemen dan atribut kode (untuk menghindari nilai-nilai
kolom yang mengandung karakter string panjang). Tabel 13 menunjukkan atribut untuk
tabel dimensi waktu dan nilai-nilai sampel untuk setiap bidang meja.
Table 13. Attributes for the Time Dimension
quarter
time code order date month code month quarter year
code
35276 07/31/1999 7 july 3 third q 1999
35277 08/01/1999 8 aug 3 third q 1999
35278 08/02/1999 8 aug 3 third q 1999
Tabel 13 menunjukkan bahwa nama atribut Anda harus menetapkan istilah
bisnis akrab yang membuatnya mudah bagi pengguna akhir untuk membentuk query
pada database. Gambar 42 menunjukkan model data yang lengkap untuk proses bisnis
penjualan dengan semua atribut yang didefinisikan untuk setiap tabel dimensi.
Figure 42. The Completed Dimensional Data Model for the Sales Business
Process
19
20. 4. Menangani Masalah umum Data Dimensional
Model dimensi yang bagian sebelumnya menjelaskan hanya menggambarkan
konsep yang paling dasar dan teknik pemodelan data dimensi. Model data yang Anda
membangun untuk mengatasi kebutuhan bisnis perusahaan Anda biasanya
melibatkan masalah tambahan dan kesulitan yang harus diselesaikan untuk mencapai
kinerja query terbaik dari database Anda. Bagian ini menjelaskan berbagai metode
yang dapat Anda gunakan untuk menyelesaikan beberapa masalah yang paling umum
yang muncul ketika Anda membangun sebuah model data dimensi.
4.1. Meminalisir Jumlah Atribut
Dimensi tabel yang berisi informasi pelanggan atau produk dengan mudah
mungkin memiliki 50 sampai 100 atribut dan jutaan baris. Namun, dimensi tabel
dengan atribut terlalu banyak dapat menyebabkan baris berlebihan luas dan kinerja
yang buruk. Untuk alasan ini, Anda mungkin ingin memisahkan kelompok tertentu dari
atribut dari tabel dimensi dan menempatkan mereka dalam tabel terpisah yang disebut
tabel minidimension. Sebuah meja minidimension terdiri dari sekelompok kecil atribut
yang dipisahkan dari tabel dimensi yang lebih besar. Anda mungkin memilih untuk
20
21. membuat tabel minidimension untuk atribut yang memiliki salah satu dari karakteristik
berikut:
• Bidang jarang digunakan sebagai kendala dalam query.
• Bidang sering dibandingkan bersama-sama.
Gambar 43 menunjukkan tabel minidimension untuk informasi demografis yang
dipisahkan dari customertable.
Gambar 43. A Minidimension Table for Demographics Information
4.2. Penanganan Dimensi Yang Berubah
Dalam tabel demografi, Anda dapat menyimpan demografi kunci sebagai kunci
asing di kedua tabel fakta dan tabel pelanggan, yang memungkinkan Anda untuk
bergabung tabel demografi langsung ke tabel fakta. Anda juga dapat menggunakan
tombol demografi langsung dengan tabel pelanggan untuk menelusuri atribut
demografis.
Gambar 44. A Dimension That Changes
21
22. Anda dapat menggunakan tiga cara untuk menangani perubahan yang terjadi
pada dimensi:
• Mengubah nilai yang disimpan dalam kolom dimensi. Pada Gambar 44, rekor Bill
Adams dalam tabel dimensi pelanggan diperbarui untuk menunjukkan alamat baru
Arlington Heights. Semua sejarah penjualan sebelumnya ini pelanggan kini dikaitkan
dengan distrik Arlington Heights bukannya Des Plaines.
• Membuat data dimensi kedua dengan nilai baru dan kunci umum.
Pendekatan ini efektif partisi sejarah. Tabel dimensi pelanggan sekarang akan berisi
dua catatan untuk Bill Adams. Rekor lama dengan kunci 101 tetap, dan catatan dalam
tabel fakta masih terkait dengannya. Sebuah rekor baru juga ditambahkan ke tabel
dimensi pelanggan untuk Bill Adams, dengan kunci baru yang mungkin terdiri dari
kunci tua ditambah beberapa digit versi (101,01, misalnya). Semua catatan berikutnya
yang ditambahkan ke tabel fakta untuk Bill Adams yang terkait dengan kunci baru.
• Tambahkan sebuah bidang baru dalam tabel dimensi pelanggan untuk atribut yang
terkena dampak dan mengubah nama atribut lama.
Pendekatan ini jarang digunakan kecuali jika Anda perlu untuk melacak sejarah tua
dalam hal nilai baru dan sebaliknya. Tabel dimensi pelanggan mendapatkan atribut baru
bernama alamat sekarang, dan atribut lama berganti nama alamat asli. Catatan yang
berisi informasi mengenai Bill Adams termasuk nilai-nilai untuk kedua alamat asli dan
saat ini.
4.3. Menggunakan Skema Snowflake
Skema snowflake adalah variasi pada skema bintang, di mana tabel dimensi
yang sangat besar dinormalisasi menjadi beberapa tabel. Dimensi dengan hirarki dapat
diuraikan menjadi struktur salju ketika Anda ingin menghindari bergabung ke tabel
dimensi besar ketika Anda menggunakan agregat dari tabel fakta. Misalnya, jika Anda
memiliki informasi merek yang Anda ingin memisahkan dari tabel dimensi produk,
Anda dapat membuat salju merek yang terdiri dari satu baris untuk setiap merek dan
yang berisi baris secara signifikan lebih sedikit daripada tabel dimensi produk. Gambar
45 menunjukkan struktur kepingan salju untuk merek dan elemen lini produk dan tabel
agregat brand_agg.
gambar 45. An Example of a Snowflake Schema
22
23. Jika dalam membuat agregat, brand_agg, yang terdiri dari kode merek dan pendapatan
total per merek, Anda dapat menggunakan skema kepingan salju untuk menghindari
bergabung dengan jauh lebih besar sales table, Pada pernyataan berikut
brand danbrand_agg tables Tampilkan:
SELECT brand.brand_name, brand_agg.total_revenue
FROM brand, brand_agg
WHERE brand.brand_code = brand_agg.brand_code
AND brand.brand_name = 'Anza'
23
24. Daftar Pustaka
http://en.wikipedia.org/wiki/Decision_support_system
http://publib.boulder.ibm.com/infocenter/idshelp/v10/index.jsp?topic=/com.ibm.ddi.d
oc/ddi221.htm
Conolly,Thomas dan Begg Carolyn(2002). Database systems – A Practical Approach to
Design, Implementation and Management, edisi-3. Addison Wesley Longman.Inc., USA
Fatansyah(2002). Buku Teks Ilmu Komputer – Basis Data, cetakan-4. Informatika
Inmon, W.H.(2002). Building the Data Warehouse,edisi-3. Wiley Computer Publishing.
Kimball,R.,Merz, R (1998). The Data Warehouse Lifecycle Toolkit. Expert Methods for
Designing, Developing and Deploying Data Warehouses. Wiley Computer Publishing,
Canada.
Mcleod,Raymond(1996). Sistem Informasi Manajemen, Jilid-1. Terjemahan Teguh,H. PT.
Prenhallindo, Jakarta.
Nolan,Sean And Huguelet, Tom(2000).Microsoft SQL Server 7.0 Data Warehousing Training
Kit. Microsoft Prees, USA
Poe, Vidette(1998). Building Data Warehouse for Decision Support, edisi-2. Prentice Hall.
24