Arsitektur dan model data mining

Universitas Bina Darma Palembang
Universitas Bina Darma PalembangManager (association football) um Universitas Bina Darma Palembang
PERTEMUAN 3 
ARSITEKTUR & MODEL DATA MINING 
28 September 2005 Arsitektur dan Model Data Mining 1
Arsitektur : Sistm Data Mining 
Graphical User Interface (GUI) 
Pattern evaluation 
Data Mining Engine 
Database or data warehouse 
server 
Knowledge-base 
Data clening & data integration Filtering 
Data base Data warehouse 
28 September 2005 Arsitektur dan Model Data Mining 2
Keterangan : 
1. Data cleaning (Pembersihan Data) : untuk membuang data 
yang tidak konsisten dan noise) 
2. Data integration : penggabungan data dari beberapa sumber 
3. Data Mining Engine : Mentranformasikan data menjadi 
bentuk yang sesuai untuk di mining 
4. Pattern evaluation : untuk menemukan yang bernilai melalui 
knowledge base 
5. Graphical User Interface (GUI) : untuk end user 
Semua tahap bersifat interaktif di mana user terlibat langsung 
atau dengan perantaraan knowledge base 
28 September 2005 Arsitektur dan Model Data Mining 3
Model Data Mining 
•Prediction Methods 
–Menggunakan beberapa variabel untuk 
memprediksi sesuatu atau suatu nilai yang 
akan datang. 
•Description Methods 
– Mendapatkan pola penafsiran (human-interpretable 
patterns) untuk menjelaskan 
data. 
28 September 2005 Arsitektur dan Model Data Mining 4
Prediktif 
Data Mining 
Deskriptif 
Klasifikasi 
Decision tree 
Analisis Time series 
Regresi 
Prediksi 
Jaringan syaraf tiruan 
Klastering 
Summarization 
Aturan Asosiasi 
(Assosiation Rule) 
Sequence Discovery 
28 September 2005 Arsitektur dan Model Data Mining 5
Klasifikasi 
 Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan 
konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu 
objek yang labelnya tidak diketahui 
 Contoh : Mendeteksi Penipuan 
 Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit. 
– Pendekatan : 
• Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut 
account holder 
– Kapan cutomer melakukan pembelian, Dengan cara apa customer 
membayar, sebarapa sering customer membayar secara tepat waktu, 
dll 
• Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang 
curang atau yang baik. Ini sebagai atribut klass ( the class attribute.) 
• Pelajari model untuk class transaksi 
• Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi 
kartu kredit pada account. 
28 September 2005 Arsitektur dan Model Data Mining 6
Regression 
 Digunakan untuk memetakan data dengan prediksi atribut 
bernilai real 
 Contoh: 
– Memprediksi jumlah penjualan produk baru pada 
advertising expenditure. 
– Memprediksi kecepatan memutar (wind velocities) pada 
fungsi temperatur, tekanan udara , dll 
28 September 2005 Arsitektur dan Model Data Mining 7
Decision tree (Pohon keputusan) 
 Salah satu model klasifikasi yang mudah di interpretasikan 
 Contoh : identifikasi pembeli komputer ( dari decision tree di bawah 
ini ternyata salah satu kelompok yang potensial adalah orang yang 
berusia < 30 dan pelajar 
age 
<=30 31-40 >40 
yes 
studen Credit rating 
no yes excelent fair 
no yes no yes 
28 September 2005 Arsitektur dan Model Data Mining 8
Prediksi 
28 September 2005 Arsitektur dan Model Data Mining 9
Neural Network (Jaringan syaraf tiruan) 
 Jaringan syaraf buatan di mulai dengan layer input, dimana tiap 
simpul berkorespondensi dengan variabel prediktor. 
 Simpul- simpul input ini terhubung kebeberapa simpul dalam 
hidden layer. 
 Dan simpul dalam hidden layer dapat terhubung ke simpul lain 
dalam hidden layer atau ke output layer. 
 Output layer terdiri dari satu atau beberapa variable respon 
1 
2 
3 
4 
5 
6 
input 
Hidden layer 
output 
28 September 2005 Arsitektur dan Model Data Mining 10
 Telekomunikasi 
Data mining digunakan untuk melihat jutaan transaksi yang 
masuk dengan tujuan menambah layanan otomatis 
 Keuangan 
Data mining digunakan untuk mendeteksi transaksi-transaksi 
keuangan yang mencurigakan dimana akan 
susah dilakukan jika menggunakan analisis standar. 
 Asuransi 
Australian Health Insurance Commision menggunakan data 
mining untuk mengidentifikasi layanan kesehatan dan 
berhasil menghemat satu juta dollar pertahun 
28 September 2005 Arsitektur dan Model Data Mining 11
 Olah raga 
IBM Advanced Scout menggunakan data mining untuk 
menganalisis statistik permainan NBA dalam rangka competitive 
advantage untuk tim New York Knicks 
 Astronomi 
Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar 
Observatory menemukan 22 quasar dengan bantuan data 
mining. 
 Internet Web Surf-Aid 
IBM Surf-Aid menggunakan algoritma data mining untuk mendata 
akses halaman Web khususnya berkaitan dengan pemasaran melalui 
web. 
28 September 2005 Arsitektur dan Model Data Mining 12
Tools Data Mining 
 Karateristik-karateristik penting dari tool data mining meliputi : 
– Data preparation facilities 
– Selection of data mining operation (algorithms) 
– Product scalability and performance 
– Facilities for visualization of result 
 Data mining tool, meliputi : 
– Integral Solution Ltd’s Clementine 
– DataMind Corp’s Data Crusher 
– IBM’s Intelligent Miner 
– Silicon Graphics Inc.’s MineSet 
– Informations Discovery Inc.’s Data Mining Suite 
– SAS Institute Inc.’s SAS System and Right Information 
System’Thought. 
28 September 2005 Arsitektur dan Model Data Mining 13
Evolusi Database 
 Th 1960 
– Pengumpulan data, pembuatan data, IMS dan network DBMS 
 Th 1970 
– Model data relasional, Implementasi DBMS relasional 
 Th 1980 
– RDBMS, Model data lanjutan (extended-relational, OO, deductive) 
 Th 1990 
– Data mining, data warehouse, database multimedia, dan Web 
database. 
 Th 2000 
– Stream data managemen dan mining 
– Data mining dengan berbagai variasi aplikasi 
– Teknologi web dan sistem informasi global 
28 September 2005 Arsitektur dan Model Data Mining 14
Teknik – teknik Database 
Searching 
 Searching dilakukan untuk memeriksa serangkaian item yang memiliki sifat-sifat 
yang diinginkan. 
 Tindakan untuk menemukan suatu item tertentu baik yang diketahui 
keberadaannya maupun tidak. 
 Memasukkan kata dalam suatu program komputer untuk membandingkan 
dengan informasi yang ada dalam database. 
Indexing 
 Indexing adalah struktur-struktur akses yang digunakan untuk mempercepat 
respon dalam mendapatkan record-record pada kondisi-kondisi pencarian 
tertentu. 
 Indexing field adalah suatu struktur akses index yang biasanya menjelaskan 
field tunggal dari suatu file. 
 Indexing organization memberikan efisiensi akses ke record-record secara 
berurut atau random. 
28 September 2005 Arsitektur dan Model Data Mining 15
Data Reduction 
 Data reduction adalah transformasi suatu masalah ke masalah 
lain dan dapat digunakan untuk mendefinisikan serangkaian 
masalah yang kompleks. 
 Data reduction merupakan teknik yang digunakan untuk 
mentransformasi dari data mentah ke bentuk format data yang 
lebih berguna. Sebagai contoh groupping, summing dan 
averaging data. 
 Data reduction dilakukan untuk mengatasi ukuran data yang 
terlalu besar. Ukuran data yang terlalu besar dapat menimbulkan 
ketidakefisienan proses dan peningkatan biaya pemrosesan. 
 Data reduction dilakukan dalam tahap data preprocessing pada 
rangkaian proses Knowledge Discovery Databases (KDD) 
sebelum data mining dengan tujuan mengurangi ukuran data 
yang besar. 
28 September 2005 Arsitektur dan Model Data Mining 16
OLAP (On-line analytical processing) 
 OLAP adalah suatu sistem atau teknologi yang dirancang untuk 
mendukung proses analisis kompleks dalam rangka mengungkapkan 
kecenderungan pasar dan faktor-faktor penting dalam bisnis 
 OLAP ditandai dengan kemampuannya menaikkan atau menurunkan 
dimensi data sehingga kita dapat menggali data sampai pada level yang 
sangat detail dan memperoleh pandangan yang lebih luas mengenai 
objek yang sedang kita analisis. 
 OLAP secara khusus memfokuskan pada pembuatan data agar dapat 
diakses pada saat pendefinisian kembali dimensi. 
 OLAP dapat digunakan membuat rangkuman dari multidimensi data 
yang berbeda, rangkuman baru dan mendapatkan respon secara online, 
dan memberikan view dua dimensi pada data cube multidimensi secara 
interaktif. 
28 September 2005 Arsitektur dan Model Data Mining 17
Data Warehouse 
Definisi : 
 Data Warehouse adalah Pusat repositori informasi yang mampu 
memberikan database berorientasi subyek untuk informasi yang 
bersifat historis yang mendukung DSS (Decision Suport System) 
dan EIS (Executive Information System). 
 Salinan dari transaksi data yang terstruktur secara spesifik pada 
query dan analisa. 
 Salinan dari transaksi data yang terstruktur spesifik untuk query 
dan laporan 
Tujuan : 
 Meningkatkan kualitas dan akurasi informasi bisnis dan 
mengirimkan informasi ke pemakai dalam bentuk yang 
dimengerti dan dapat diakses dengan mudah. 
28 September 2005 Arsitektur dan Model Data Mining 18
Ciri-ciri Data Warehouse 
Terdapat 4 karateristik data warehouse 
• Subject oriented 
– Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan 
decision support. 
– Database yang semua informasi yang tersimpan di kelompokkan berdasarkan 
subyek tertentu misalnya: pelanggan, gudang, pasar, dsb. 
– Semua Informasi tersebut disimpan dalam suatu sistem data warehouse. 
– Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : periode 
waktu, produk, wilayah, dsb, sehingga dapat memberikan nilai sejarah untuk 
bahan analisa. 
• Integrated 
– Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan 
operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data 
warehouse maka coding akan diasumsikan sama seperti lazimnya. 
• Time-variant 
– Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, 
data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui. 
• Non volatile 
– Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat. 
28 September 2005 Arsitektur dan Model Data Mining 19
Masalah-masalah dalam menerapkan Data warehouse : 
• Dokumentasi dan pengelolaan metadata dari data 
warehouse. 
• Penentuan aturan dalam proses transformasi untuk 
memetakan berbagai sumber legacy data yang akan 
dimasukkan ke dalam data warehouse. 
• Pencapaian proses pengembangan yang handal, baik 
dalam membangun, mempimplementasikan, maupun 
memelihara data warehouse. 
28 September 2005 Arsitektur dan Model Data Mining 20
Data Preprocessing 
 Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data 
mentah untuk mempersiapkan proses prosedur yang lainnya. 
 Dalam data mining menstrasformasi data ke suatu format yang prosesnya 
lebih mudah dan efektif untuk kebutuhan pemakai, contohnya Neural 
Network. 
 Terdapat beberapa alat dan metode yang berbeda yang digunakan untuk 
preprocessing seperti : 
– Sampling : menyeleksi subset representatif dari populasi data yang 
besar. 
– Transformation : memanipulasi data mentah untuk menghasilkan 
input tunggal. 
– Denoising : menghilangkan noise dari data 
– Normalization : mengorganisasi data untuk pengaksesan yang lebih 
spesifik 
– Feature extration : membuka spesifikasi data yang signifikan dalam 
konteks tertentu. 
28 September 2005 Arsitektur dan Model Data Mining 21
Knowledge Discovery In Database (KDD) 
 KDD berhubungan dengan teknik integrasi dan penemuan 
ilmiah, interprestasi dan visualisasi dari pola-pola 
sejumlah kumpulan data. 
 Knowledge discovery in databases (KDD) adalah 
keseluruhan proses non-trivial untuk mencari dan 
mengidentifikasi pola (pattern) dalam data, dimana pola 
yang ditemukan bersifat sah, baru, dapat bermanfaat dan 
dapat dimengerti. 
28 September 2005 Arsitektur dan Model Data Mining 22
Gambar. 1. Tahapan KDD 
28 September 2005 Arsitektur dan Model Data Mining 23
Tahapan Proses KDD 
3. Data Selection 
– Menciptakan himpunan data target , pemilihan 
himpunan data, atau memfokuskan pada subset variabel 
atau sampel data, dimana penemuan (discovery) akan 
dilakukan. 
– Pemilihan (seleksi) data dari sekumpulan data 
operasional perlu dilakukan sebelum tahap penggalian 
informasi dalam KDD dimulai. Data hasil seleksi yang 
akan digunakan untuk proses data mining, disimpan 
dalam suatu berkas, terpisah dari basis data operasional. 
28 September 2005 Arsitektur dan Model Data Mining 24
2. Pre-processing/ Cleaning 
– Pemprosesan pendahuluan dan pembersihan data merupakan 
operasi dasar seperti penghapusan noise dilakukan. 
– Sebelum proses data mining dapat dilaksanakan, perlu 
dilakukan proses cleaning pada data yang menjadi fokus 
KDD. 
– Proses cleaning mencakup antara lain membuang duplikasi 
data, memeriksa data yang inkonsisten, dan memperbaiki 
kesalahan pada data, seperti kesalahan cetak (tipografi). 
– Dilakukan proses enrichment, yaitu proses “memperkaya” 
data yang sudah ada dengan data atau informasi lain yang 
relevan dan diperlukan untuk KDD, seperti data atau 
informasi eksternal. 
28 September 2005 Arsitektur dan Model Data Mining 25
2. Transformation 
– Pencarian fitur-fitur yang berguna untuk 
mempresentasikan data bergantung kepada goal yang 
ingin dicapai. 
– Merupakan proses transformasi pada data yang telah 
dipilih, sehingga data tersebut sesuai untuk proses data 
mining. Proses ini merupakan proses kreatif dan sangat 
tergantung pada jenis atau pola informasi yang akan 
dicari dalam basis data 
28 September 2005 Arsitektur dan Model Data Mining 26
2. Data mining 
– Pemilihan tugas data mining; pemilihan goal dari proses 
KDD misalnya klasifikasi, regresi, clustering, dll. 
– Pemilihan algoritma data mining untuk pencarian 
(searching) 
– Proses Data mining yaitu proses mencari pola atau 
informasi menarik dalam data terpilih dengan 
menggunakan teknik atau metode tertentu. Teknik, 
metode, atau algoritma dalam data mining sangat 
bervariasi. Pemilihan metode atau algoritma yang tepat 
sangat bergantung pada tujuan dan proses KDD secara 
keseluruhan. 
28 September 2005 Arsitektur dan Model Data Mining 27
5. Interpretation/ Evaluation 
– Penerjemahan pola-pola yang dihasilkan dari data 
mining. 
– Pola informasi yang dihasilkan dari proses data mining 
perlu ditampilkan dalam bentuk yang mudah dimengerti 
oleh pihak yang berkepentingan. 
– Tahap ini merupakan bagian dari proses KDD yang 
mencakup pemeriksaan apakah pola atau informasi 
yang ditemukan bertentangan dengan fakta atau 
hipotesa yang ada sebelumnya. 
28 September 2005 Arsitektur dan Model Data Mining 28
1 von 28

Recomendados

Proses Data Mining von
Proses Data MiningProses Data Mining
Proses Data Miningdedidarwis
24.3K views178 Folien
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi von
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi InformasiMetodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi InformasiAlbaar Rubhasy
43.5K views194 Folien
Algoritma Apriori von
Algoritma AprioriAlgoritma Apriori
Algoritma Aprioridedidarwis
13.6K views24 Folien
Data Mining - Naive Bayes von
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayesdedidarwis
17.6K views14 Folien
Tugas 2 individu tentang dbms von
Tugas 2 individu tentang dbmsTugas 2 individu tentang dbms
Tugas 2 individu tentang dbmsElma Fiana
8.1K views6 Folien
Sistem pakar von
Sistem pakarSistem pakar
Sistem pakarUniversitas Kuningan
38.9K views269 Folien

Más contenido relacionado

Was ist angesagt?

Algoritma penjadwalan proses von
Algoritma penjadwalan prosesAlgoritma penjadwalan proses
Algoritma penjadwalan prosesRakhmi Khalida, M.M.S.I
79.4K views47 Folien
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma von
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
1.2K views47 Folien
Matematika Diskrit - 11 kompleksitas algoritma - 03 von
Matematika Diskrit - 11 kompleksitas algoritma - 03Matematika Diskrit - 11 kompleksitas algoritma - 03
Matematika Diskrit - 11 kompleksitas algoritma - 03KuliahKita
25K views26 Folien
Konsep Data Mining von
Konsep Data MiningKonsep Data Mining
Konsep Data Miningdedidarwis
15.6K views58 Folien
Pengantar database von
Pengantar databasePengantar database
Pengantar databaseUniversitas Bina Darma Palembang
1.5K views22 Folien
Sistem kontrol, pengendalian & keamanan sistem von
Sistem kontrol, pengendalian & keamanan sistemSistem kontrol, pengendalian & keamanan sistem
Sistem kontrol, pengendalian & keamanan sistemFery Anugra
18.6K views48 Folien

Was ist angesagt?(20)

8 modul 8-dts-fitur dan cleaning data-univ-gunadarma von ArdianDwiPraba
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
ArdianDwiPraba1.2K views
Matematika Diskrit - 11 kompleksitas algoritma - 03 von KuliahKita
Matematika Diskrit - 11 kompleksitas algoritma - 03Matematika Diskrit - 11 kompleksitas algoritma - 03
Matematika Diskrit - 11 kompleksitas algoritma - 03
KuliahKita25K views
Konsep Data Mining von dedidarwis
Konsep Data MiningKonsep Data Mining
Konsep Data Mining
dedidarwis15.6K views
Sistem kontrol, pengendalian & keamanan sistem von Fery Anugra
Sistem kontrol, pengendalian & keamanan sistemSistem kontrol, pengendalian & keamanan sistem
Sistem kontrol, pengendalian & keamanan sistem
Fery Anugra18.6K views
Project Charter Sistem Informasi Posko Keamanan von PutriAprilliandini
Project Charter Sistem Informasi Posko KeamananProject Charter Sistem Informasi Posko Keamanan
Project Charter Sistem Informasi Posko Keamanan
PutriAprilliandini13.3K views
Langkah - Langkah Perencanaan Sistem von Retrina Deskara
Langkah - Langkah Perencanaan SistemLangkah - Langkah Perencanaan Sistem
Langkah - Langkah Perencanaan Sistem
Retrina Deskara17.4K views
Data Quality von dedidarwis
Data QualityData Quality
Data Quality
dedidarwis16.2K views
Analisis kebutuhan perangkat lunak von Hanum Dinda
Analisis kebutuhan perangkat lunakAnalisis kebutuhan perangkat lunak
Analisis kebutuhan perangkat lunak
Hanum Dinda10.7K views
OPERASI INPUT OUTPUT di Linux von Ibrahim Naki
OPERASI INPUT OUTPUT di LinuxOPERASI INPUT OUTPUT di Linux
OPERASI INPUT OUTPUT di Linux
Ibrahim Naki13.5K views
Tugas imk von Fha Dewi
Tugas imkTugas imk
Tugas imk
Fha Dewi4.2K views
Pembuatan uml pada toko belanja online von andiseprianto
Pembuatan uml pada toko belanja onlinePembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja online
andiseprianto80.4K views
Sistem informasi pemasaran von Indra Diputra
Sistem informasi pemasaranSistem informasi pemasaran
Sistem informasi pemasaran
Indra Diputra18.6K views

Similar a Arsitektur dan model data mining

Kecerdasan bisnis- Sistem Penunjang Keputusan von
Kecerdasan bisnis- Sistem Penunjang KeputusanKecerdasan bisnis- Sistem Penunjang Keputusan
Kecerdasan bisnis- Sistem Penunjang KeputusanDasufianti
566 views20 Folien
Kecerdasan bisnis von
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnisHehePangibulan2
2.1K views20 Folien
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx von
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxSuraClips
23 views31 Folien
pendahuluan dan proses kdd von
pendahuluan dan proses kddpendahuluan dan proses kdd
pendahuluan dan proses kddUniversitas Bina Darma Palembang
741 views28 Folien
Data Mining Diskusi 3.pdf von
Data Mining Diskusi 3.pdfData Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdfHendroGunawan8
3 views3 Folien
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... von
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
2.2K views6 Folien

Similar a Arsitektur dan model data mining(20)

Kecerdasan bisnis- Sistem Penunjang Keputusan von Dasufianti
Kecerdasan bisnis- Sistem Penunjang KeputusanKecerdasan bisnis- Sistem Penunjang Keputusan
Kecerdasan bisnis- Sistem Penunjang Keputusan
Dasufianti566 views
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx von SuraClips
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
SuraClips23 views
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... von butest
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
butest2.2K views
Chapter 11 Data Management von Hani Novita
Chapter 11   Data ManagementChapter 11   Data Management
Chapter 11 Data Management
Hani Novita484 views
Big Data - Python for Data Science (Bahas Indonesia) von ArianDerida
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)
ArianDerida118 views
Sd pertemuan 1 & 2 von muissyahril
Sd   pertemuan 1 & 2Sd   pertemuan 1 & 2
Sd pertemuan 1 & 2
muissyahril224 views
Sd pertemuan 1 & 2 von kejolo
Sd   pertemuan 1 & 2Sd   pertemuan 1 & 2
Sd pertemuan 1 & 2
kejolo98 views
Sd pertemuan 1 & 2 von muissyahril
Sd   pertemuan 1 & 2Sd   pertemuan 1 & 2
Sd pertemuan 1 & 2
muissyahril194 views
Struktur data pertemuan 1 & 2 von biedoen
Struktur data   pertemuan 1 & 2Struktur data   pertemuan 1 & 2
Struktur data pertemuan 1 & 2
biedoen388 views
STRUKTUR DATA von kejolo
STRUKTUR DATASTRUKTUR DATA
STRUKTUR DATA
kejolo183 views
Sd pertemuan 1 & 2 von biedoen
Sd   pertemuan 1 & 2Sd   pertemuan 1 & 2
Sd pertemuan 1 & 2
biedoen360 views
Essential sql server 2008 bi sql server indonesia group - data mining von Charlez Dbc
Essential sql server 2008 bi sql server indonesia group - data miningEssential sql server 2008 bi sql server indonesia group - data mining
Essential sql server 2008 bi sql server indonesia group - data mining
Charlez Dbc1.9K views
Topik 24 Processing Data dan Visualisasi.pptx.ppt von widisalendra1
Topik 24 Processing Data dan Visualisasi.pptx.pptTopik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.ppt
widisalendra186 views

Más de Universitas Bina Darma Palembang

30448 pertemuan1 von
30448 pertemuan130448 pertemuan1
30448 pertemuan1Universitas Bina Darma Palembang
741 views3 Folien
29510 pertemuan18(form method-get-post-dan-session(1)) von
29510 pertemuan18(form method-get-post-dan-session(1))29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))Universitas Bina Darma Palembang
563 views11 Folien
28501 pertemuan14(php) von
28501 pertemuan14(php)28501 pertemuan14(php)
28501 pertemuan14(php)Universitas Bina Darma Palembang
379 views8 Folien
28500 pertemuan22(header dokumen html dgn tag title) von
28500 pertemuan22(header dokumen html dgn tag title)28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)Universitas Bina Darma Palembang
377 views10 Folien
25437 pertemuan25(hitcounter) von
25437 pertemuan25(hitcounter)25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)Universitas Bina Darma Palembang
340 views3 Folien
23921 pertemuan 3 von
23921 pertemuan 323921 pertemuan 3
23921 pertemuan 3Universitas Bina Darma Palembang
345 views6 Folien

Más de Universitas Bina Darma Palembang(20)

Arsitektur dan model data mining

  • 1. PERTEMUAN 3 ARSITEKTUR & MODEL DATA MINING 28 September 2005 Arsitektur dan Model Data Mining 1
  • 2. Arsitektur : Sistm Data Mining Graphical User Interface (GUI) Pattern evaluation Data Mining Engine Database or data warehouse server Knowledge-base Data clening & data integration Filtering Data base Data warehouse 28 September 2005 Arsitektur dan Model Data Mining 2
  • 3. Keterangan : 1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise) 2. Data integration : penggabungan data dari beberapa sumber 3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining 4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base 5. Graphical User Interface (GUI) : untuk end user Semua tahap bersifat interaktif di mana user terlibat langsung atau dengan perantaraan knowledge base 28 September 2005 Arsitektur dan Model Data Mining 3
  • 4. Model Data Mining •Prediction Methods –Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang. •Description Methods – Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan data. 28 September 2005 Arsitektur dan Model Data Mining 4
  • 5. Prediktif Data Mining Deskriptif Klasifikasi Decision tree Analisis Time series Regresi Prediksi Jaringan syaraf tiruan Klastering Summarization Aturan Asosiasi (Assosiation Rule) Sequence Discovery 28 September 2005 Arsitektur dan Model Data Mining 5
  • 6. Klasifikasi  Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak diketahui  Contoh : Mendeteksi Penipuan  Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit. – Pendekatan : • Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut account holder – Kapan cutomer melakukan pembelian, Dengan cara apa customer membayar, sebarapa sering customer membayar secara tepat waktu, dll • Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang curang atau yang baik. Ini sebagai atribut klass ( the class attribute.) • Pelajari model untuk class transaksi • Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi kartu kredit pada account. 28 September 2005 Arsitektur dan Model Data Mining 6
  • 7. Regression  Digunakan untuk memetakan data dengan prediksi atribut bernilai real  Contoh: – Memprediksi jumlah penjualan produk baru pada advertising expenditure. – Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll 28 September 2005 Arsitektur dan Model Data Mining 7
  • 8. Decision tree (Pohon keputusan)  Salah satu model klasifikasi yang mudah di interpretasikan  Contoh : identifikasi pembeli komputer ( dari decision tree di bawah ini ternyata salah satu kelompok yang potensial adalah orang yang berusia < 30 dan pelajar age <=30 31-40 >40 yes studen Credit rating no yes excelent fair no yes no yes 28 September 2005 Arsitektur dan Model Data Mining 8
  • 9. Prediksi 28 September 2005 Arsitektur dan Model Data Mining 9
  • 10. Neural Network (Jaringan syaraf tiruan)  Jaringan syaraf buatan di mulai dengan layer input, dimana tiap simpul berkorespondensi dengan variabel prediktor.  Simpul- simpul input ini terhubung kebeberapa simpul dalam hidden layer.  Dan simpul dalam hidden layer dapat terhubung ke simpul lain dalam hidden layer atau ke output layer.  Output layer terdiri dari satu atau beberapa variable respon 1 2 3 4 5 6 input Hidden layer output 28 September 2005 Arsitektur dan Model Data Mining 10
  • 11.  Telekomunikasi Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis  Keuangan Data mining digunakan untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar.  Asuransi Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan dan berhasil menghemat satu juta dollar pertahun 28 September 2005 Arsitektur dan Model Data Mining 11
  • 12.  Olah raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks  Astronomi Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining.  Internet Web Surf-Aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan dengan pemasaran melalui web. 28 September 2005 Arsitektur dan Model Data Mining 12
  • 13. Tools Data Mining  Karateristik-karateristik penting dari tool data mining meliputi : – Data preparation facilities – Selection of data mining operation (algorithms) – Product scalability and performance – Facilities for visualization of result  Data mining tool, meliputi : – Integral Solution Ltd’s Clementine – DataMind Corp’s Data Crusher – IBM’s Intelligent Miner – Silicon Graphics Inc.’s MineSet – Informations Discovery Inc.’s Data Mining Suite – SAS Institute Inc.’s SAS System and Right Information System’Thought. 28 September 2005 Arsitektur dan Model Data Mining 13
  • 14. Evolusi Database  Th 1960 – Pengumpulan data, pembuatan data, IMS dan network DBMS  Th 1970 – Model data relasional, Implementasi DBMS relasional  Th 1980 – RDBMS, Model data lanjutan (extended-relational, OO, deductive)  Th 1990 – Data mining, data warehouse, database multimedia, dan Web database.  Th 2000 – Stream data managemen dan mining – Data mining dengan berbagai variasi aplikasi – Teknologi web dan sistem informasi global 28 September 2005 Arsitektur dan Model Data Mining 14
  • 15. Teknik – teknik Database Searching  Searching dilakukan untuk memeriksa serangkaian item yang memiliki sifat-sifat yang diinginkan.  Tindakan untuk menemukan suatu item tertentu baik yang diketahui keberadaannya maupun tidak.  Memasukkan kata dalam suatu program komputer untuk membandingkan dengan informasi yang ada dalam database. Indexing  Indexing adalah struktur-struktur akses yang digunakan untuk mempercepat respon dalam mendapatkan record-record pada kondisi-kondisi pencarian tertentu.  Indexing field adalah suatu struktur akses index yang biasanya menjelaskan field tunggal dari suatu file.  Indexing organization memberikan efisiensi akses ke record-record secara berurut atau random. 28 September 2005 Arsitektur dan Model Data Mining 15
  • 16. Data Reduction  Data reduction adalah transformasi suatu masalah ke masalah lain dan dapat digunakan untuk mendefinisikan serangkaian masalah yang kompleks.  Data reduction merupakan teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, summing dan averaging data.  Data reduction dilakukan untuk mengatasi ukuran data yang terlalu besar. Ukuran data yang terlalu besar dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan.  Data reduction dilakukan dalam tahap data preprocessing pada rangkaian proses Knowledge Discovery Databases (KDD) sebelum data mining dengan tujuan mengurangi ukuran data yang besar. 28 September 2005 Arsitektur dan Model Data Mining 16
  • 17. OLAP (On-line analytical processing)  OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis kompleks dalam rangka mengungkapkan kecenderungan pasar dan faktor-faktor penting dalam bisnis  OLAP ditandai dengan kemampuannya menaikkan atau menurunkan dimensi data sehingga kita dapat menggali data sampai pada level yang sangat detail dan memperoleh pandangan yang lebih luas mengenai objek yang sedang kita analisis.  OLAP secara khusus memfokuskan pada pembuatan data agar dapat diakses pada saat pendefinisian kembali dimensi.  OLAP dapat digunakan membuat rangkuman dari multidimensi data yang berbeda, rangkuman baru dan mendapatkan respon secara online, dan memberikan view dua dimensi pada data cube multidimensi secara interaktif. 28 September 2005 Arsitektur dan Model Data Mining 17
  • 18. Data Warehouse Definisi :  Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision Suport System) dan EIS (Executive Information System).  Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa.  Salinan dari transaksi data yang terstruktur spesifik untuk query dan laporan Tujuan :  Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah. 28 September 2005 Arsitektur dan Model Data Mining 18
  • 19. Ciri-ciri Data Warehouse Terdapat 4 karateristik data warehouse • Subject oriented – Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support. – Database yang semua informasi yang tersimpan di kelompokkan berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb. – Semua Informasi tersebut disimpan dalam suatu sistem data warehouse. – Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : periode waktu, produk, wilayah, dsb, sehingga dapat memberikan nilai sejarah untuk bahan analisa. • Integrated – Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya. • Time-variant – Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui. • Non volatile – Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat. 28 September 2005 Arsitektur dan Model Data Mining 19
  • 20. Masalah-masalah dalam menerapkan Data warehouse : • Dokumentasi dan pengelolaan metadata dari data warehouse. • Penentuan aturan dalam proses transformasi untuk memetakan berbagai sumber legacy data yang akan dimasukkan ke dalam data warehouse. • Pencapaian proses pengembangan yang handal, baik dalam membangun, mempimplementasikan, maupun memelihara data warehouse. 28 September 2005 Arsitektur dan Model Data Mining 20
  • 21. Data Preprocessing  Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya.  Dalam data mining menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, contohnya Neural Network.  Terdapat beberapa alat dan metode yang berbeda yang digunakan untuk preprocessing seperti : – Sampling : menyeleksi subset representatif dari populasi data yang besar. – Transformation : memanipulasi data mentah untuk menghasilkan input tunggal. – Denoising : menghilangkan noise dari data – Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik – Feature extration : membuka spesifikasi data yang signifikan dalam konteks tertentu. 28 September 2005 Arsitektur dan Model Data Mining 21
  • 22. Knowledge Discovery In Database (KDD)  KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data.  Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. 28 September 2005 Arsitektur dan Model Data Mining 22
  • 23. Gambar. 1. Tahapan KDD 28 September 2005 Arsitektur dan Model Data Mining 23
  • 24. Tahapan Proses KDD 3. Data Selection – Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. – Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. 28 September 2005 Arsitektur dan Model Data Mining 24
  • 25. 2. Pre-processing/ Cleaning – Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. – Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. – Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). – Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 28 September 2005 Arsitektur dan Model Data Mining 25
  • 26. 2. Transformation – Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai. – Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data 28 September 2005 Arsitektur dan Model Data Mining 26
  • 27. 2. Data mining – Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. – Pemilihan algoritma data mining untuk pencarian (searching) – Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 28 September 2005 Arsitektur dan Model Data Mining 27
  • 28. 5. Interpretation/ Evaluation – Penerjemahan pola-pola yang dihasilkan dari data mining. – Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. – Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. 28 September 2005 Arsitektur dan Model Data Mining 28