Slide persentasi seminar tanggal 9 Mei 2016. Visualisasi Data Interaktif Data Terbuka Pemerintah Provinsi DKI Jakarta Topik Ekonomi dan Keuangan Daerah
Seminar: Visualisasi Data Interaktif Data Terbuka Pemerintah Provinsi DKI Jakarta Topik Ekonomi dan Keuangan Daerah
1. Visualisasi Data Interaktif Data Terbuka
Pemerintah Provinsi DKI Jakarta
Topik Ekonomi dan Keuangan Daerah
Adam Mukharil Bachtiar, S.Kom., M.T
NIP. 41277006024
Nadiar Ahmad Syaripul
NIM. 10111121
2. Fenomena
Lisensi:
1. Open Data Commons Open Database License (ODbL)
2. Creative Commons Attribution
Repositori Koleksi Dataset Format Data
http://data.go.id 1082 (31 Maret 2015) csv, xls/xlsx, json
http://data.jakarta.go.id 696 (31 Maret 2015) csv, xls/xlsx, json
http://data.bandung.go.id 350 (31 Maret 2015) csv
3. Keterangan Lisensi
Creative Commons Attribution1 Open Data Commons Open
Database License2
Free to Share √ √
Free to Create √ √
Free to Adapt √ √
Must Attribute √ √
Must Share-Alikie √
Must Keep Open √
[1] https://creativecommons.org/licenses/by-nc-sa/4.0/
[2] http://opendatacommons.org/licenses/odbl/
4. Latar Belakang
Sulit mengambil informasi umum
Survey
Demand visualisasi data
Survey
100 % Perlu
Early Adapter User
Ibu Sri Dewi Anggadini, SE., M.Si
5. Maksud dan Tujuan
Maksud dari penelitian ini adalah memvisualisasikan dataset ekonomi
dan keuangan Pemerintah Provinsi DKI Jakarta. Adapun tujuan yang
penelitian ini adalah sebagai berikut:
Membuat visualisasi dari dataset yang diberikan berdasarkan analisis
statistika/algoritma.
Memudahkan pelaku ekonomi mikro dan makro melihat informasi umum dengan cara
visualisasi.
6. Batasan Masalah
• Dataset utama yang digunakan adalah dataset keuangan daerah dan
perekonomian yang didapatkan dari repositori open data Pemerintah
Provinsi DKI Jakarta.
• Segmentasi pengguna produk dari penelitian ini adalah pelaku ekonomi
makro dan pelaku ekonomi mikro.
• Sistem hanya menampilkan informasi visual, tidak menerima konten dari
pengguna (data store).
• Pendekatan analisis perangkat lunak menggunakan OOAD.
7. Metodologi Penelitian
C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
Data Science
Process
8. Data Science
“…we thought it would be useful to propose one
possible taxonomy… of what a data scientist
does, in roughly chronological order: Obtain,
Scrub, Explore, Model, and interpret…. Data
science is clearly a blend of the hackers, arts…
statistics and machine learning… and the
expertise in mathematics and the domain of
the data for the analysis to be interpretable… It
requires creative decisions and open-
mindedness in a scientific context.”
Hilary Mason and Chris Wiggins write in http://www.dataists.com/2010/09/a-taxonomy-of-data-science/
C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
9. Teori Umum
“Any fool can make something complicated. It takes a genius
to make it simple”
― Woody Guthrie
10. Apa itu Visualisasi Data?
Cara efektif melakukan analisis, mempermudah
menyimpulkan data, dan membuat data yang
kompleks menjadi lebih mudah untuk dimengerti.
F. Frankel, Visualizing Data, vol. 92, no. 2. 2004.
11. Bagaimana Proses Visualisasi Data?
Data Collection Mining the Data
(Optional)
Visualize the Data Make it Interactive
(Optional)
- F. Frankel, Visualizing Data, vol. 92, no. 2. 2004.
- C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
12. Analisis
“Discovery is no longer limited by the collection and processing
of data, but rather management, analysis, and visualization.”
― Damian Mingle
13. Analisis Sumber Data (1)
Ketenaga
Kerjaan
Ikhtisar
Statistik
Besar
UMP
Laju
Pertumbuhan
Ekonomi Tingkat
Inflasi
Pendapatan
Perkapita Komponen
Inflasi
Inflasi
Bulanan Struktur
Ekonomi
Perekonoxamian
Realisasi
APBD 2015
APBD
Harga Pangan
Tingkat
Konsumen
Harga Grosir
di Pasar Induk
Komoditas
Volume &
Nilai Ekspor
Ekspor-
Impor
Nilai Impor
Menurut
Golongan
Ekspor-Impor
2 Kategori
3 Kategori
2
6
3
2
14. Analisis Sumber Data (2) – Dataset Ekonomi
Data Atribut Keterangan
Tabel III-1 Ikhtisar Statistik antar
Kerja DKI Jakarta
tahun, indikator, rincian_indikator,
jumlah
Tabel III-2 Besar Upan Minimum DKI
Jakarta
tahun, ump, kenaikan_ump, inflasi Ump dalam rupiah, kenaikan_ump
dan inflasi dalam persen
Tabel III-3 Laju Pertumbuhan
Ekonomi Jakarta dan Nasional
tahun, persen_tumbuh_jakarta,
persen_tumbuh_nasional
Tabel III-4 Tingkat Inflasi Jakarta dan
Nasional
tahun, inflasi_jakarta,
inflasi_nasional
Inflasi Jakarta dan Nasional dalam
persen
Tabel III-5 Pendapatan Perkapita
Jakarta dan Nasional
tahun, perkapita_jakarta,
perkapita_nasional
Pendapatan perkapita dalam juta
rupiah
Tabel III-6 Komponen Inflasi Jakarta komponen_inflasi, bulan,
persen_inflasi
15. Analisis Sumber Data (3) – Dataset Ekonomi
Data Atribut Keterangan
Tabel III-7 Ekspor Impor DKI Jakarta tahun, ekspor_melalui_jakarta,
ekspor_produk_jakarta,
impor_melalui_jakarta
Ekspor dan impor dalam juta USD
Tabel III-8 Struktur Ekonomi Jakarta
Berdasarkan Sektor
tahun, jenis_sektor,
persen_kontribusi
Tabel III-9 Inflasi Bulanan di Jakarta
dan Indonesia
bulan, tahun, inflasi_jakarta,
inflasi_indonesia
Inflasi dalam persen
16. Analisis Sumber Data (4) – Dataset Keuangan Daerah
Data Atribut Keterangan
Tabel III-10 Realisasi Belanja 2015
DKI Jakarta
unit_kerna, nama_unit_kerja,
urusan, nama_urusan, ...
Tabel III-11 Volume dan Nilai Ekspor
DKI Jakarta
tahun, hs, jenis_komoditas, volume,
nilai
Tabel III-12 Nilai Impor Produk
Menurut Golongan
tahun, bulan, golongan, nilai_fob,
satuan
nilai_fob dalam juta USD
Tabel III-13 Harga Pangan Tingkat
Konsumen DKI Jakarta
wilayah, komoditi,
harga_per_satuan, satuan
Harga dalam rupiah, satuan dalam
kg
Tabel III-14 Perkembangan Harga
Grosir di Pasar Induk
tanggal, komoditas, harga Harga dalam rupiah per kg
17. Analisis Segmentasi Pengguna
Pelaku Ekonomi Makro
- Perusahaan Komersil (Business)
- Pemerintah (Government)
- Departemen Keuangan
(Financial)
Pelaku Ekonomi Mikro
- Rumah Tangga (Households)
- UKM (Business Firms)
18. Analisis Kebutuhan Informasi
Makro
• Seberapa besar sumber daya
telah dimanfaatkan di dalam
kegiatan ekonomi.
• Bagaimana trend variabel-variabel
ekonomi mengalami pergerakan.
Mikro
• Bagaimana distribusi harga suatu
komoditas.
• Seberapa besar permintaan dan
penawaran terhadap komoditas.
20. Analisis Algoritma (2)
No. Segmentasi
Pengguna
Kebutuhan Informasi Dataset Statistika/
Algoritma
1. Makro:
- Business
- Government
Seberapa besar sumber daya telah dimanfaatkan di
dalam kegiatan ekonomi.
Tabel III-1
Tabel III-6
Tabel III-8
Tabel III-10
Statistika
2. Makro
- Business
- Government
- Financial
Bagaimana tren variabel-variabel ekonomi mengalami
pergerakan.
Tabel III-2
Tabel III-3
Tabel III-4
Tabel III-5
Tabel III-8
Tabel III-9
Regresi linear
21. Analisis Algoritma (3)
No. Segmentasi
Pengguna
Kebutuhan Informasi Dataset Statistika/
Algoritma
3. Mikro
- Business Firms
- Households
Bagaimana distribusi harga suatu komoditas. Tabel III-12
Tabel III-13
Tabel III-14
Statistika
4. Mikro
- Business Firms
- Households
Seberapa besar permintaan dan penawaran
terhadap komoditas.
Tabel III-7
Tabel III-11
Tabel III-12
Statistika
k-Means
22. Kebutuhan Informasi 1
Makro: Government
“Seberapa besar sumber daya telah
dimanfaatkan di dalam kegiatan ekonomi?”
Analisis Algoritma – Statistika
Contoh: Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
23. Sampel Data:
Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
tahun rincian_indikator jumlah
2009 Pencari kerja yang belum ditempatkan diawal tahun 66445
2009 Pencari kerja yang terdaftar 41794
2009 Pencari kerja yang ditempatkan 12903
2009 Pencari kerja yang dihapus 0
… … …
2013 Lowongan yang belum dipenuhi 612
2013 Lowongan yang terdaftar 43551
2013 Lowongan yang dipenuhi 16721
2013 Lowongan yang dihapus 24868
2013 Lowongan yang ada (Gol I dan Gol II) 0
24. Statistik:
Buat Atribut Persentasi untuk Pie Chart
Psudo Code
> Subset tiap tabel menurut tahun
> Untuk setiap subset tahun {
> Buat atribut baru bernama ’persen’
> Isi kolom atribut ’persen’ dengan NA value
> Subset tabel menurut kategori
> Untuk setiap subset kategori {
> Untuk setiap row di kolom ‘persen’ {
> persen = 100 * jumlah / sum(jumlah)
> }
> }
> }
R Code
> …
> df_2009 <- filter(df, df$tahun == '2009-01-01')
> df_2009$persen <- c(NA)
> df_2009$kategori[1:4] <- 'Pencari’
> vec <- round((df_2009$jumlah /
sum(filter(df_2009, df_2009$kategori ==
'Pencari')$jumlah)) * 100, 2)
> df_2009$persen[1:4] <- vec[1:4]
> df_2009$kategori[5:9] <- 'Lowongan’
> vec <- round((df_2009$jumlah /
sum(filter(df_2009, df_2009$kategori ==
'Lowongan')$jumlah)) * 100, 2)
> df_2009$persen[5:9] <- vec[5:9]
> …
25. Sampel Data: Hasil
Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
tahun rincian_indikator jumlah persen
2009 Pencari kerja yang belum ditempatkan diawal tahun 66445 54.85 %
2009 Pencari kerja yang terdaftar 41794 34.50 %
2009 Pencari kerja yang ditempatkan 12903 10.65 %
2009 Pencari kerja yang dihapus 0 0.00 %
… … … …
2013 Lowongan yang belum dipenuhi 612 0.71 %
2013 Lowongan yang terdaftar 43551 50.79 %
2013 Lowongan yang dipenuhi 16721 19.50 %
2013 Lowongan yang dihapus 24868 29.00 %
2013 Lowongan yang ada (Gol I dan Gol II) 0 0.00 %
28. Kebutuhan Informasi 2
Makro: Business, Government, & Financial
“Bagaimana tren variabel-variabel ekonomi
mengalami pergerakan?”
Analisis Algoritma – Regresi Linear
Contoh: Tabel III-2 Besar Upah Minimum DKI Jakarta
29. What is Economic Variables?
Indicators, provide quantitative data
about the state of an economy
1. GDP
2. Unemployment Rate
3. Inflation Rate
4. Interest rate
5. Level of the stock market
6. Exchange rate
https://web.stanford.edu/class/msande247s/econVariables.ppt
http://www.auburn.edu/~gadzeat/macro-variables.htm
30. What is Linear Regression?
Linear regression attempts to model the relationship between two
variables by fitting a linear equation to observed data. One
variable is considered to be an explanatory variable, and the other
is considered to be a dependent variable.
http://www.stat.yale.edu/Courses/1997-98/101/linreg.htm
32. Sampel Data:
Tabel III-2 Besar Upah Minimum DKI Jakarta
tahun ump kenaikan_ump Inflasi %
1997 Rp 172.500,- 0.00 % 11.07
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
33. Variabel Apa yang Akan Diproyeksikan? (1)
tahun ump kenaikan_ump inflasi
1997 Rp 172.500,- 0.00 % 11.07
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
> Apa dependent variable?
> Bukan ordinal variabel
> Bukan categorical variabel
> Berubah karena variabel lain
> Apa explanatory variable?
> Bukan ordinal variabel
> Bukan categorical variabel
> Tidak dipengaruhi variabel lain
34. Variabel Apa yang Akan Diproyeksikan? (2)
tahun ump kenaikan_ump inflasi
1997 Rp 172.500,- 0.00 % 11.07
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
variabel Dependent (y) Explanatory (x)
tahun X X
ump √ X
kenaikan_ump √ X
inflasi X √
Jadi ump atau kenaikan_ump?
kenaikan_ump
35. 1. Analisis Outlier (1) – Apa itu Outlier?
Outlier is an observation that is
"sufficiently different" from the
rest of data
1. An extreme or relatively extreme value
2. A containment, that is, an observation from some
other (possibly unknown) distribution
3. A legitimate, but surprising/unexpected data value
4. A data value that was measured or recorded
incorrectly
Samuels, M. L. (1989). The Design and Analysis of Spatial Data Structures. Addison-Wesley
Knorr, Edwin. (2002), Outliers and Data Mining: Finding Exceptions in Data. University of British Columbia
36. 1. Analisis Outlier (2) – Apa itu Outlier?
Outlier:
Kenaikan UMP/Inflasi < 0.5
Inflasi ≠ 0
37. 1. Analisis Outlier (3)
tahun ump ump inflasi
1997 Rp 172.500,- 0.00 % 11.07 %
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
38. 1. Analisis Outlier (4)
tahun ump ump inflasi rasio
1997 Rp 172.500,- 0.00 % 11.07 % 0
1998 Rp 198.500,- 15.07 % 74.42 % 0.2025
1999 Rp 231.000,- 16.37 % 1.7 % 9.2486
... ... ... ... …
2004 Rp 671.550,- 6.33 % 5.87 % 1.0784
2005 Rp 819.100,- 6.00 % 16.06 % 0.3736
2006 Rp 900.560,- 15.07 % 6.03 % 2.4991
... ... ... ... …
2014 Rp 2.441.000,- 10.96 % 6.15 % 1.7821
40. 2. Analisis Model Prediction (2)
Mencari Nilai 𝛽1
𝛽1 didapatkan dengan cara fungsi minimasi dari kuadrat jumlah selisih sumbu y dengan
titik residual “residual sum of squares” (RSS), dinotasikan dengan 𝑅𝑆𝑆 𝛽 = 𝛴𝑖(𝑦𝑖 − 𝛽𝑥𝑖)2
.
Fungsi minimasi 𝑅𝑆𝑆(𝛽) adalah turunan pertama dari 𝑹𝑺𝑺 𝜷 . Dengan kalkulus dan
aljabar, persamaan untuk gradien 𝑓(𝑥) yaitu:
𝛽1 =
(𝑥 𝑖− 𝑥)(𝑦 𝑖− 𝑦)
(𝑥 𝑖− 𝑥)2 = 𝑟
𝑆𝐸 𝑦
𝑆𝐸 𝑥
S. Weisberg, “Simple linear regression,” Appl. Linear Regression, Third Ed., no. 1994, pp. 19–46, 1985
46. 3. Analisis Confident Interval (2)
Contoh: Berapa % kenaikan ump jika inflasi tahun ini 7%?
𝑦 = 1,835𝑥 + 6,637
𝑦 = 1,835(7) + 6,637
𝑦 = 19.482 %
Proyeksi kenaikan ump jika inflasi tahun ini 7% adalah 19.482 %.
Bagaimana error-nya (95% confident interval)?
47. 3. Analisis Confident Interval (3)
Let’s Do the Math (Again)!
• 𝑦 = 𝑦 ± 𝑡 𝛼/2 𝑆𝐸𝑟𝑒𝑠
1
𝑁
+
(𝑥− 𝑥)2
𝑆𝑆 𝑥
• 𝑆𝐸𝑟𝑒𝑠 =
𝑆𝑆 𝑦−𝑆𝑆 𝑦
𝑁−2
• 𝑡 𝛼/2 didapatkan dari t-table
𝑈𝑝𝑝𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 19.482 + 2.16 ∗ 13.4
1
15
+
7−6.41 2
120.83
= 27.115
𝐿𝑜𝑤𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 19.482 − 2.16 ∗ 13.4
1
15
+
7−6.41 2
120.83
= 11.845
Sehingga didapatkan, rentang 95% confident interval untuk inflasi
sebesar 7% adalah sebagai berikut:
11.845 ≤ 𝑦 ≤ 27.115
48. 3. Analisis Confident Interval (4)
Jika proyeksi dipetakan ke dalam grafis, di mana x = {0, …, n} maka:
Garis merah =
Linear Model =
y = 1.835x + 6.637
Area Warna Abu:
95% Confident Interval
Black Dots:
Plot antara Inflasi dan Kenaikan UMP
49. Kebutuhan Informasi 3
Mikro: Households, Business Firms
“Bagaimana distribusi harga suatu komoditas?”
Analisis Algoritma – Distribusi Statistik
Contoh: Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta
50. Sampel Data:
Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta
Wilayah Komoditi Harga Satuan Tanggal
Jakarta Utara Beras Kualitas Sedang Rp 11.335,- Kg 2015-03-01
Jakarta Selatan Beras Kualitas Sedang Rp 10.450,- Kg 2015-03-01
Jakarta Barat Beras Kualitas Sedang Rp 11.393,- Kg 2015-03-01
... ... ... ... ...
Jakarta Pusat Telur Rp 21.400,- Kg 2015-09-01
51. Number of Bins and Width
Sturges' formula1 Scott's normal reference rule2
Scott's normal reference rule is optimal for random
samples, in the sense that it minimizes the
integrated mean squared error of the density
estimate.
Sturges’s formula is derived from a binomial
distribution and implicitly assumes an
approximately normal distribution.
[1] Sturges, H. A. (1926). "The choice of a class interval". Journal of the American Statistical Association: 65–66.
[2] Scott, David W. (1979). "On optimal and data-based histograms". Biometrika 66 (3): 605–610
55. Kebutuhan Informasi 4
Mikro: Business Firms
“Seberapa besar permintaan dan
penawaran terhadap komoditas?”
Analisis Algoritma – k-Means, Statistika
Contoh: Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta
56. Sampel Data:
Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta
tahun hs komoditas
Volume
(ton)
Nilai
(juta USD)
2011 1 Binatang Hidup 94..69 2017.79
2011 2 Daging Hewan 541.72 2240.81
2011 3 Ikan dan Udang 215824.40 634642.96
... ... ... ... …
2012 98
Kendaraan Bermotor/Komponen,
Terbongkar
260.31 1753.77
57. The Problems with the Data
tahun hs komoditas
Volume
(Ton)
Nilai
(Juta USD)
2011 1 Binatang Hidup 94..69 2017.79
2011 2 Daging Hewan 541.72 2240.81
2011 3 Ikan dan Udang 215824.40 634642.96
... ... ... ... …
2012 98
Kendaraan
Bermotor/Komponen,
Terbongkar
260.31 1753.77
1. Too Much Details
2. Sulit Dibaca
3. No Insight
How do we answer:
“Seberapa besar permintaan dan
penawaran terhadap komoditas?”
58. What is Clustering?
Cluster analysis or simply clustering is the process of
partitioning a set of data objects (or observations) into subsets.
Each subset is a cluster, such that objects in a cluster are similar
to one another, yet dissimilar to objects in other clusters.
J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
59. Why Clustering?
Clustering is useful in that it can lead to the discovery of previously unknown groups
within the data. Cluster analysis can be used as a standalone tool to gain insight into the
distribution of data, to observe the characteristics of each cluster, and to focus on a
particular set of clusters for further analysis.
Alternatively, it may serve as a preprocessing step for other algorithms, such as
characterization, attribute subset selection, and classification, which would then operate on
the detected clusters and the selected attributes or features.
J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
60. Algoritma k-Means
1. Secara acak, pilih k-centroid (titik yang akan mencadi titik tengah
cluster) pada ruang d dimensi.
2. Kelompokan setiap titik ke dalam k-set centroid paling dekat.
3. Perbaharui k-centroid dengan rata-rata titik k-set atau titik-titik yang
sudah dikelompokan sebelumnya.
4. Ulang langkah ke-2 dan ke-3 sampai pengelompokan divergen.
J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
64. Analisis Algoritma – k-Means (1)
1. Secara acak, pilih k-centroid (titik
yang akan mencadi titik tengah
cluster) pada ruang d dimensi.
2. Kelompokan setiap titik ke dalam k-
set centroid paling dekat.
k1 sebanyak 96 observasi (49.4845 %);
k2 sebanyak 86 observasi (44.329 %);
k3 sebanyak 12 observasi (6.1855 %).
65. Analisis Algoritma – k-Means (2)
3. Perbaharui k-centroid dengan
rata-rata titik k-set atau titik-titik
yang sudah dikelompokan
sebelumnya.
4. Divergent?
5. No. Ulangi Langkah 2
k1 sebanyak 163, observasi (84.0206 %);
k2 sebanyak 15 observasi (7.7320 %);
k3 sebanyak 12 observasi (6.1855 %).
66. Analisis Algoritma – k-Means (3)
2. Kelompokan setiap titik ke dalam
k-set centroid paling dekat.
4. Divergent?
5. No. Ulangi Langkah 2
3. Perbaharui k-centroid
k1 sebanyak 165, observasi (85.0516 %);
k2 sebanyak 17 observasi (8.7628 %);
k3 sebanyak 12 observasi (6.1855 %) .
67. Analisis Algoritma – k-Means (4)
2. Kelompokan setiap titik ke dalam
k-set centroid paling dekat.
4. Divergent?
5. Yes. Stop.
3. Perbaharui k-centroid
k1 sebanyak 165, observasi (85.0516 %);
k2 sebanyak 17 observasi (8.7628 %);
k3 sebanyak 12 observasi (6.1855 %).
69. Cluster Analysis (1)
Tahun Hs Komoditas Volume Nilai k
2011 1 Binatang Hidup 94..69 2017.79 k1
2011 2 Daging Hewan 541.72 2240.81 k1
2011 3 Ikan dan Udang 215824.40 634642.96 k1
... ... ... ... … …
2011 15 Lemak & Minyak Hewan 717915.80 774358.91 k2
2011 39 Plastik dan Barang dari Plastik 989192.08 1934443.29 k2
2011 40 Karet dan Barang dari Karet 500288.98 2140778.92 k2
... … … … … …
2012 84 Mesin-mesin/Pesawat Mekanik 454058.15 4146812.82 k3
2012 85 Mesin/Peralatan Listrik 454658.75 7120360.60 k3
2012 87 Kendaraan dan Bagiannya 434593.14 4247565.77 k3
70. Cluster Analysis (2)
k1 memiliki harga per komoditas paling rendah dibandingkan k2 dan k3.
k2 memiliki harga per komoditas lebih tinggi dari k1 dan lebih rendah dari k3.
k3 memiliki harga per komoditas paling tinggi dibandingkan k1 dan k2
Why Three Clusters ?!
71. Knowledge - Karakteristik Cluster
Berdasarkan jenis komoditas dan kesamaan tiap kelompok,
jika diberikan karakteristik, k1 dapat diberikan karakteristik
“barang mentah”, k2 karakteristik “barang setengah jadi”, dan
k3 karakteristik “barang jadi”.
72. Hasil Clustering
Tahun Hs Komoditas Volume Nilai k
2011 1 Binatang Hidup 94..69 2017.79 k1
2011 2 Daging Hewan 541.72 2240.81 k1
2011 3 Ikan dan Udang 215824.40 634642.96 k1
... ... ... ... … …
2011 15 Lemak & Minyak Hewan 717915.80 774358.91 k2
2011 39 Plastik dan Barang dari Plastik 989192.08 1934443.29 k2
2011 40 Karet dan Barang dari Karet 500288.98 2140778.92 k2
... … … … … …
2012 84 Mesin-mesin/Pesawat Mekanik 454058.15 4146812.82 k3
2012 85 Mesin/Peralatan Listrik 454658.75 7120360.60 k3
2012 87 Kendaraan dan Bagiannya 434593.14 4247565.77 k3
73. So,
is that just a coincident ?!
I don’t think so
1. Clustering lead to
discovery of previously
unknown groups
2. Gain insight into the data
3. Observe the characteristics
of each cluster
4. Focus on a particular set of
clusters for further analysis
74. Insight of the Data
• k1 memiliki harga per komoditas paling
rendah dibandingkan k2 dan k3,.
• k2 memiliki harga per komoditas lebih
tinggi dari k1 dan lebih rendah dari k3.
• k3 memiliki harga per komoditas paling
tinggi dibandingkan k1 dan k3.
75. Pemetaan Visualisasi Data
“The greatest value of a picture is when it forces us to notice
what we never expected to see.”
― John Tukey
76. Pemetaan Visualisasi Data
Time-Series Data Statistical
Distributions
Maps Herarchies Networks
Indeks Chart Stem-and-Leaf Plot Flow Map Node-link Diagram Force-directed Layout
Stacked Graph Scatter Plot Chorpleth Map Adcacency Diagram Arc Diagram
Small Multiples Parallel Coordinate Graduated Symbol Map Enclosure Diagram Matrix View
Horizon Graph Q-Q Plot Cartogram
J. Heer, M. Bostock, and V. Ogievetsky, “VIISUALIZATION A Tour through the Visualization Zoo A survey of powerful visualization techniques , from the
obvious to the obscure,” Commun. ACM, vol. 53, no. 5, pp. 59–67, 2010.