2. ❑Mengapa melakukan data mining?
❑ Apa itu data mining?
❑ Pahami Kecerdasan Buatan dalam organisasi modern
❑ Pahami struktur, komponen, dan proses Kecerdasan
Buatan
3. Mengapa data mining?
❖Masalah ledakan Data
Alat pengumpulan data otomatis dan teknologi basis
data yang matang menghasilkan data dalam jumlah besar
yang disimpan dalam basis data, gudang data, dan
repositori informasi lainnya.
❖Tenggelam dalam data, tetapi kelaparan karena
pengetahuan!
4. Data mining adalah studi yang mengumpulkan, membersihkan,
mengolah, menganalisis, dan memperoleh manfaat wawasan dari
data. Variasi yang luas ada dalam hal domain masalah, aplikasi,
formulasi, dan representasi data yang ditemukan dalam aplikasi
nyata.
Karena itu, "Data mining" adalah istilah umum yang digunakan untuk
menggambarkan berbagai aspek pengolahan data. Di zaman modern,
hampir semua sistem otomatis menghasilkan beberapa bentuk data
untuk tujuan diagnostik atau analisis. Ini telah menghasilkan banjir
data, yang telah terjadi mencapai urutan petabytes atau exabytes.
5. Beberapa contoh dari berbagai jenis data adalah sebagai berikut:
• World Wide Web: Jumlah dokumen di Web yang diindeks sekarang
dalam urutan miliaran, dan Web yang tak terlihat jauh lebih besar.
Pengguna mengakses dokumen-dokumen tersebut membuat log akses
Web di server dan profil perilaku pelanggan di situs komersial.
• Interaksi keuangan: Transaksi paling umum dalam kehidupan sehari-
hari, seperti menggunakan kartu ATM atau kartu kredit otomatis, dapat
membuat data secara otomatis. Transaksi semacam itu dapat ditambang
untuk banyak wawasan bermanfaat seperti penipuan atau aktivitas tidak
biasa lainnya.
6. • Interaksi pengguna: Banyak bentuk interaksi pengguna menghasilkan
volume data yang besar.
Misalnya, penggunaan telepon biasanya membuat catatan di telekomunikasi
perusahaan dengan perincian tentang durasi dan tujuan panggilan. Banyak
telepon perusahaan secara rutin menganalisis data tersebut untuk
menentukan pola perilaku yang relevan yang dapat digunakan untuk
membuat keputusan tentang kapasitas jaringan, promosi, harga, atau
penargetan pelanggan.
• Teknologi sensor dan Internet of Things: Tren terbaru adalah
perkembangan sensor yang dapat dikenakan biaya rendah, smartphone, dan
perangkat pintar lainnya yang dapat berkomunikasi satu sama lain.
7. Banjir data adalah akibat langsung dari kemajuan teknologi dan
komputerisasi setiap aspek kehidupan modern. Tantangan besar telah
dibuat dalam beberapa tahun terakhir karena meningkatnya volume
data.
Alur kerja aplikasi penambangan data biasanya berisi yang berikut ini
fase:
1. Pengumpulan data
2. Ekstraksi fitur dan pembersihan data
3. Pemrosesan analitik dan algoritma
8. Data Mining:
❖Ekstraksi pengetahuan yang menarik (aturan,
keteraturan, pola, kendala) dari data dalam basis data
besar .
❖Analisis sejumlah besar data yang disimpan di
computer.
❖Knowledge Discovery in Databases (KDD), ekstraksi
pengetahuan, data arkeologi, pengambilan informasi,
intelijen bisnis, dll.
10. Evolusi Teknologi Database
1960
Pengumpulan
Data, pembuatan
basis data,
jaringan DBMS
Model Model
data relasional,
implementasi
DBMS relasional
1970
Pengumpulan Data,
pembuatan basis
data, jaringan DBMS
Model Model data
relasional,
implementasi DBMS
relasional
1980
DBRDBMS, model
data lanjutan
(extended-
relational, OO, dll.)
Dan DBMS
berorientasi
aplikasi (spasial,
ilmiah, teknik, dll.)
1990
Mining Data
mining dan
pergudangan
data, database
multimedia, dan
teknologi Web
11. Teknik Data Mining
1. Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,
Logistic Regression, etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
12. 1. Estimation (Estimasi):
❖ Secara alami didefinisikan untuk klasifikasi biner numerik data. Masalah
kelas biner dapat digeneralisasi ke kasus multiclass dengan menggunakan
varietas trik.
❖ Variabel fitur kategorikal juga bias ditangani dengan mengubah atribut
kategorikal ke data biner dengan binarisasi pendekatan.
❖ Diasumsikan bahwa label kelas diambil dari {−1, 1}. Seperti semua model
linier, SVM menggunakan hyperplanes yang memisahkan sebagai batas
keputusan antara kedua kelas. Di dalam kasus SVM, masalah optimisasi
untuk menentukan pesawat hiper ini sudah diaturdengan gagasan margin.
❖ Secara intuitif, hyperplane margin maksimum adalah yang bersih
memisahkan dua kelas, dan yang wilayah (atau margin) besar ada di setiap
sisi batas tanpa poin data pelatihan di dalamnya. Untuk memahami
konsep ini, sangat special kasus di mana data dapat dipisahkan secara
linear akan dibahas terlebih dahulu.
A. Support vector Machines (SVM)
13. ❑ (Jaringan saraf) adalah model simulasi sistem saraf manusia. Manusia gelisah sistem
terdiri dari sel-sel, yang disebut sebagai neuron. Neuron biologis terhubung dengan
satu lain pada titik kontak, yang disebut sebagai sinapsis.
❑ Belajar dilakukan dalam kehidupan organisme dengan mengubah kekuatan koneksi
sinaptik antar neuron. Biasanya, itu kekuatan koneksi ini berubah sebagai respons
terhadap rangsangan eksternal. Jaringan saraf bias dianggap sebagai simulasi dari
proses biologis ini. Seperti dalam kasus jaringan biologis, node individu dalam jaringan
saraf tiruan disebut sebagai neuron.
❑ Neuron ini adalah unit perhitungan yang menerima input dari beberapa neuron lain,
membuat perhitungan pada input ini, dan memasukkannya ke yang lain neuron.
B. Neural Networks
2. Prediction/Forecasting (Prediksi/Peramalan):
15. Memprediksi nilai dari suatu variabel kontinyu yang diberikan berdasarkan nilai
dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan
linier atau nonlinier.
Teknik ini banyak dipelajari dalam statistika, bidang jaringan syaraf tiruan (neural
network).
Contoh aplikasinya:
✓ Memprediksi jumlah penjualan produk baru berdasarkan pada belanja
promosi/iklan
✓ Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban,
tekanan udara, dsb.
✓ Time series prediction dari indeks stock market
16. 3. Klasifikasi (classification)
Klasifikasi adalah menentukan sebuah record data baru ke salah satu
dari beberapa kategori (atau klas) yang telah didefinisikan sebelumnya.
Disebut juga dengan “supervised learning”.
Beberapa aplikasi dari klasifikasi:
1. Penjualan langsung (direct marketing)
Tujuan: mengurangi cost surat menyurat dengan menentukan
(targeting) satu set konsumen yang mempunyai kesamaan dalam
membeli produk telepon seluler baru.
17. Pendekatan:
❖ Gunakan data penjualan untuk suatu produk telepon seluler
❖ Kita mengetahui pelanggan yang memutuskan untuk membeli
dan yang memutuskan untuk tidak membeli. Keputusan {buy,
don’t buy} membentuk class attribute
❖ Himpun bermacam demografi, gaya hidup, dan company-
interaction sehubungan dengan informasi mengenai
pelanggan tertentu, misalkan tipe bisnis, dimana mereka
tinggal, berapa banyak mereka membayar, dll
❖ Gunakan informasi tersebut sebagai atribut input untuk
mempelajari suatu model klasifikasi
18. 2. Fraud Detection
Tujuan: Memprediksi kasus-kasus transaksi curang dengan
menggunakan kartu kredit.
Pendekatan:
✓ Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit
sebagai attribute. Misalnya: kapan seorang pelanggan membeli, apa yang
dibeli, apa selalu membayar tepat waktu, dsb.
✓ Beri label transaksi-transaksi sebelumnya sebagai transaksi “fraud” atau
“fair” dan bentuk ini menjadi class attribute
✓ Pelajari satu model untuk class transaksi tersebut
✓ Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi
transaksi kartu kredit tiap account
19. 3. Customer Attrition/Churn
Tujuan: Memprediksi pelanggan mana yang akan berpindah
ke competitor kita
Pendekatan:
• Gunakan record transaksi dengan pelanggan yang lalu maupun yang
sekarang untuk mendapatkan atribut, seperti: seberapa sering pelanggan
menghubungi, dimana dia menghubungi, pada hari apa dia paling sering
menghubungi, status keuangannya, status perkawinannya, dsb.
• Beri label pelanggan sebagai “setia” atau “tidak setia”
• Temukan suatu model untuk “loyalty”
20. 4. Klasterisasi (clustering)
Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian
rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set
properti yang di share bersama, dengan tingkat similaritas yang tinggi dalam
satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut
juga dengan “unsupervised learning”
Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah
atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan
klaster-klaster sedemikian hingga:
• Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar
• Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang
kecil
21. Ukuran similaritas yang digunakan:
▪ Euclidean distance jika atributnya kontinyu
▪Permasalahan lain – ukuran tertentu
Aplikasi dari klasterisasi diantaranya:
1. Market Segmentation
Tujuan: Membagi pasar kedalam sub-set pelanggan yang berbeda,
dimana suatu sub-set mungkin dapat dipilih sebagai target pasar
yang dicapai dengan satu kombinasi pemasaran yang berbeda.
22. Pendekatan:
• Kumpulkan atribut dari pelanggan yang berbeda
berdasarkan pada informasi tempat tinggal dan gaya
hidup
• Tentukan klaster dari pelanggan-pelanggan yang sama
• Hitung kualitas klaster dengan mengobservasi pola daya
beli pelanggan pada
klaster yang sama versus dari klaster yang berbeda
2. Document clustering:
Tujuan: Untuk mendapatkan kelompok dokumen yang
mempunyai kesamaan berdasarkan pernyataan atau kata-
kata penting yang muncul dalam dokumen tersebut
23. Pendekatan:
Untuk mengenali kata-kata yang sering muncul dalam tiap
dokumen. Dari suatu pengukuran similaritas yang didasarkan
pada frekuensi term yang berbeda. Gunakan pengukuran ini
untuk membentuk klaster-klaster.
Pencapaian:
Information retrieval dapat dimanfaatkan untuk menghubungkan
suatu dokumen baru atau mencari term ke dokumen-dokumen
yang diklaster
2. Document clustering:
24. 5. Association (Asosiasi):
Asosiasi pola penambangan awalnya diusulkan dalam konteks
aturan asosiasi pertambangan, di mana langkah tambahan
dimasukkan berdasarkan ukuran yang dikenal sebagai
kepercayaan aturan. Misalnya, pertimbangkan dua set item A dan
B.
Keyakinan aturan
❑ A ⇒ B didefinisikan sebagai fraksi transaksi yang mengandung
A, yang juga mengandung B.
❑ Dengan kata lain, kepercayaan diperoleh dengan membagi
dukungan pola A∪B dengan dukungan pola A.
❑ Kombinasi dukungan dan kepercayaan diri digunakan untuk
mendefinisikan hubungan aturan
25. Tiga contoh sampel asosiasi yang bervariasi kompleksitas di bawah ini:
1. Solusi sederhana adalah dengan menggunakan aturan asosiasi
penambangan di tingkat dukungan tertentu dankepercayaan. Untuk pelanggan
tertentu, aturan yang relevan adalah aturan yang mengatur semua item di sisi
kiri sebelumnya dibeli oleh pelanggan ini. Item yang muncul sering di sisi kanan
peraturan yang relevan dilaporkan.
2. Solusi sebelumnya tidak menggunakan kesamaan di berbagai pelanggan
untuk membuat rekomendasi. Solusi kedua adalah menentukan baris yang
paling mirip dengan target pelanggan, dan kemudian merekomendasikan
barang paling umum yang terjadi dan serupa.
3. Solusi terakhir adalah dengan menggunakan pengelompokan untuk
membuat segmen pelanggan yang serupa. Dalam setiap segmen yang serupa,
penambangan pola asosiasi dapat digunakan untuk membuat rekomendasi.
27. ▪Penambangan data menemukan keteraturan dari sejarah,
tetapi sejarah tidak sama dengan masa depan.
▪Asosiasi tidak menentukan tren atau hubungan sebab
akibat.
▪Beberapa data yang abnormal dapat disebabkan oleh
manusia.
Penambangan Data
28. Kecerdasan Bisnis adalah bidang yang luas dan dipandang berbeda oleh orang
yang berbeda.
Agreement Perjanjian umum tentang komponen utama:
❑Gudang data yang terpusat dan gudang data
❑Serangkaian alat pengguna akhir untuk membuat laporan dan pertanyaan
dari data dan informasi dan untuk menganalisis data, informasi, dan laporan,
analitik bisnis
❑Untuk menemukan hubungan yang tidak jelas antara sejumlah besar data
>>data mining, untuk teks >>text mining, untuk web >>web mining
❑Manajemen Kecerdasan Bisnis untuk menetapkan tujuan sebagai metrik dan
standar dan memantau dan mengukur kinerja dengan menggunakan
metodologi Kecerdasan Bisnis .
Pandangan lain tentang Kecerdasan Bisnis
29. ❑Organisasi dipaksa untuk menangkap, memahami, dan
memanfaatkan data mereka untuk mendukung pengambilan
keputusan untuk meningkatkan operasi bisnis
❑Waktu siklus bisnis sekarang sangat terkompresi; Karena itu,
pengambilan keputusan yang lebih cepat, lebih banyak
informasi, dan lebih baik merupakan keharusan kompetitif
❑Manajer memerlukan informasi yang tepat pada waktu yang
tepat dan di tempat yang tepat
Drivers Kecerdasan Bisnis
31. Fungsi Data Mining
1. Asosiasi
❑ Dari asosiasi, korelasi, hingga kausalitas
❑ Menemukan aturan seperti A -> B
2. Klasifikasi dan Prediksi
❑Klasifikasi data berdasarkan nilai-nilai dalam atribut klasifikasi
❑Memprediksi beberapa nilai atribut yang tidak diketahui atau hilang
berdasarkan informasi yang lain
3. Analisis cluster
Kelompokkan data untuk membentuk kelas baru, mis Rumah cluster untuk
menemukan pola distribusi
4.Analisis data outlier dan pengecualian
5. Analisis deret waktu (tren dan penyimpangan)
Analisis tren dan deviasi: regresi, pola sekuensial, urutan serupa mis. Analisis
stok
32. Mandat Undang-Undang Sarbanes-Oxley tahun 2002
Mendorong satu perusahaan untuk menerapkan sistem
manajemen kinerja keuangan baru, yang mampu memenuhi
persyaratan baru untuk:
✓Melakukan analisis sempurna dan kompilasi ribuan transaksi
dan entri jurnal.
✓Seimbangkan lebih banyak akses ke data dengan kebutuhan
untuk mengontrol akses ke informasi orang dalam yang sensitif.
✓ Kirim laporan ke SEC dalam waktu yang tepat.
33. Lanjutan …
Di dalam sasaran menyeluruh untuk mencapai kepatuhan
pelaporan keuangan, sasaran-sasaran ini meliputi:
✓ Dapatkan lebih banyak perhatian pada data dan KPI dan
membangun kontrol keamanan yang ketat
✓ Menyediakan laporan langsung yang memungkinkan orang
untuk menelusuri hingga ke tingkat terendah detail transaksi
Menjelajahi basis data keuangan untuk mencari anomali secara
proaktif, menggunakan pemicu varians
34. ✓Kumpulkan semua data keuangan ke dalam basis data
yang kohesif
✓ Melengkapi aplikasi akuntansi dan penganggaran untuk
pelaporan yang fleksibel, investigasi bentuk bebas, dan
analisis data otomatis.
✓Kecerdasan Bisnis dapat secara proaktif memperingatkan
individu tertentu kapan saja
36. Langkah-langkah proses KDD
➢Mempelajari domain aplikasi:
pengetahuan dan tujuan aplikasi yang relevan sebelumnya
Membuat set data target: pemilihan data
➢Pembersihan dan pemrosesan data: (mungkin membutuhkan
60% usaha!) Reduction Pengurangan dan proyeksi data:
➢Temukan fitur yang berguna, pengurangan dimensi / variabel,
representasi invarian.
37. ➢Memilih fungsi penambangan data
summarization, classification, regression, association, clustering
➢Memilih algoritma penambangan Mining Penambangan data:
mencari pola yang menarik
➢Interpretasi: analisis hasil.
visualisasi, transformasi, menghilangkan pola berlebihan, dll.
➢ Penggunaan pengetahuan yang ditemukan
40. ➢Data Warehouse (Gudang data)
Aliran data dari sistem operasional (mis., CRM, ERP) ke DW, yang
merupakan basis data khusus atau tempat penyimpanan data yang telah
disiapkan untuk mendukung aplikasi pengambilan keputusan mulai dari
yang untuk pelaporan dan kueri sederhana hingga pengoptimalan yang
kompleks
➢Analisis Bisnis / OLAP
Tools Alat perangkat lunak yang memungkinkan pengguna untuk
membuat laporan dan permintaan berdasarkan permintaan dan untuk
melakukan analisis data
Struktur dan Komponen Kecerdasan Bisnis
41. ➢Data Mining
Data Mining adalah kelas informasi basis data analisis yang
mencari pola tersembunyi dalam kelompok data yang dapat
digunakan untuk memprediksi tingkah laku masa depan
Digunakan untuk menggantikan atau meningkatkan kecerdasan
manusia dengan memindai melalui gudang besar data untuk
menemukan korelasi baru yang bermakna, pola, dan tren,
dengan menggunakan pola teknologi pengenalan dan statistik
canggih
42. ➢Manajemen Kinerja Bisnis (BPM)
Berdasarkan metodologi balanced scorecard suatu kerangka
kerja untuk mendefinisikan, mengimplementasikan, dan
mengelola strategi bisnis perusahaan dengan mengaitkan
tujuan dengan tindakan faktual
➢Dashboards
Presentasi visual dari data penting untuk dilihat oleh
eksekutif. Ini memungkinkan eksekutif untuk melihat hot spot
dalam hitungan detik dan menjelajahi situasi
43. ❖Laporan analis industri terbaru menunjukkan hal itu di masa
mendatang tahun, jutaan orang akan menggunakan alat visual
Kecerdasan Bisnis dan analitik setiap hari .
❖Kecerdasan Bisnis memanfaatkan yang sudah dikembangkan dan
diinstal komponen teknologi TI, membantu perusahaan memanfaatkan
investasi IT mereka saat ini dan menggunakan yang berharga data
disimpan dalam sistem warisan dan transaksional.
❖Beberapa Masalah Kecerdasan Bisnis :
1. Menambang informasi dari bermacam database dan global sistem
Informasi
2. Menangani relasional dan type data yang kompleks
3. Efisiensi dan skalabilitas dari algoritma data mining
Kecerdasan Bisnis: Today and Tommorow
44. BukuReferensi:
1.Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques, Morgan Kaufmann, 2001.
2.Efraim Turban et al., Decision Support and Business
Intelligence Systems, Pearson, 2007.
3.David Olson and Yong Shi, Introduction to Business Data
Mining, McGraw-Hill, 2007.
4.Charu C. Aggarwal, Data Mining: The Textbook, 2015