SlideShare ist ein Scribd-Unternehmen logo
1 von 97
Visualisasi Data Interaktif Data Terbuka
Pemerintah Provinsi DKI Jakarta
Topik Ekonomi dan Keuangan Daerah
Adam Mukharil Bachtiar, S.Kom., M.T
NIP. 41277006024
Nadiar Ahmad Syaripul
NIM. 10111121
Fenomena
Lisensi:
1. Open Data Commons Open Database License (ODbL)
2. Creative Commons Attribution
Repositori Koleksi Dataset Format Data
http://data.go.id 1082 (31 Maret 2015) csv, xls/xlsx, json
http://data.jakarta.go.id 696 (31 Maret 2015) csv, xls/xlsx, json
http://data.bandung.go.id 350 (31 Maret 2015) csv
Keterangan Lisensi
Creative Commons Attribution1 Open Data Commons Open
Database License2
Free to Share √ √
Free to Create √ √
Free to Adapt √ √
Must Attribute √ √
Must Share-Alikie √
Must Keep Open √
[1] https://creativecommons.org/licenses/by-nc-sa/4.0/
[2] http://opendatacommons.org/licenses/odbl/
Latar Belakang
Sulit mengambil informasi umum
Survey
Demand visualisasi data
Survey
100 % Perlu
Early Adapter User
Ibu Sri Dewi Anggadini, SE., M.Si
Maksud dan Tujuan
 Maksud dari penelitian ini adalah memvisualisasikan dataset ekonomi
dan keuangan Pemerintah Provinsi DKI Jakarta. Adapun tujuan yang
penelitian ini adalah sebagai berikut:
Membuat visualisasi dari dataset yang diberikan berdasarkan analisis
statistika/algoritma.
Memudahkan pelaku ekonomi mikro dan makro melihat informasi umum dengan cara
visualisasi.
Batasan Masalah
• Dataset utama yang digunakan adalah dataset keuangan daerah dan
perekonomian yang didapatkan dari repositori open data Pemerintah
Provinsi DKI Jakarta.
• Segmentasi pengguna produk dari penelitian ini adalah pelaku ekonomi
makro dan pelaku ekonomi mikro.
• Sistem hanya menampilkan informasi visual, tidak menerima konten dari
pengguna (data store).
• Pendekatan analisis perangkat lunak menggunakan OOAD.
Metodologi Penelitian
C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
Data Science
Process
Data Science
“…we thought it would be useful to propose one
possible taxonomy… of what a data scientist
does, in roughly chronological order: Obtain,
Scrub, Explore, Model, and interpret…. Data
science is clearly a blend of the hackers, arts…
statistics and machine learning… and the
expertise in mathematics and the domain of
the data for the analysis to be interpretable… It
requires creative decisions and open-
mindedness in a scientific context.”
Hilary Mason and Chris Wiggins write in http://www.dataists.com/2010/09/a-taxonomy-of-data-science/
C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
Teori Umum
“Any fool can make something complicated. It takes a genius
to make it simple”
― Woody Guthrie
Apa itu Visualisasi Data?
Cara efektif melakukan analisis, mempermudah
menyimpulkan data, dan membuat data yang
kompleks menjadi lebih mudah untuk dimengerti.
F. Frankel, Visualizing Data, vol. 92, no. 2. 2004.
Bagaimana Proses Visualisasi Data?
Data Collection Mining the Data
(Optional)
Visualize the Data Make it Interactive
(Optional)
- F. Frankel, Visualizing Data, vol. 92, no. 2. 2004.
- C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
Analisis
“Discovery is no longer limited by the collection and processing
of data, but rather management, analysis, and visualization.”
― Damian Mingle
Analisis Sumber Data (1)
Ketenaga
Kerjaan
Ikhtisar
Statistik
Besar
UMP
Laju
Pertumbuhan
Ekonomi Tingkat
Inflasi
Pendapatan
Perkapita Komponen
Inflasi
Inflasi
Bulanan Struktur
Ekonomi
Perekonoxamian
Realisasi
APBD 2015
APBD
Harga Pangan
Tingkat
Konsumen
Harga Grosir
di Pasar Induk
Komoditas
Volume &
Nilai Ekspor
Ekspor-
Impor
Nilai Impor
Menurut
Golongan
Ekspor-Impor
2 Kategori
3 Kategori
2
6
3
2
Analisis Sumber Data (2) – Dataset Ekonomi
Data Atribut Keterangan
Tabel III-1 Ikhtisar Statistik antar
Kerja DKI Jakarta
tahun, indikator, rincian_indikator,
jumlah
Tabel III-2 Besar Upan Minimum DKI
Jakarta
tahun, ump, kenaikan_ump, inflasi Ump dalam rupiah, kenaikan_ump
dan inflasi dalam persen
Tabel III-3 Laju Pertumbuhan
Ekonomi Jakarta dan Nasional
tahun, persen_tumbuh_jakarta,
persen_tumbuh_nasional
Tabel III-4 Tingkat Inflasi Jakarta dan
Nasional
tahun, inflasi_jakarta,
inflasi_nasional
Inflasi Jakarta dan Nasional dalam
persen
Tabel III-5 Pendapatan Perkapita
Jakarta dan Nasional
tahun, perkapita_jakarta,
perkapita_nasional
Pendapatan perkapita dalam juta
rupiah
Tabel III-6 Komponen Inflasi Jakarta komponen_inflasi, bulan,
persen_inflasi
Analisis Sumber Data (3) – Dataset Ekonomi
Data Atribut Keterangan
Tabel III-7 Ekspor Impor DKI Jakarta tahun, ekspor_melalui_jakarta,
ekspor_produk_jakarta,
impor_melalui_jakarta
Ekspor dan impor dalam juta USD
Tabel III-8 Struktur Ekonomi Jakarta
Berdasarkan Sektor
tahun, jenis_sektor,
persen_kontribusi
Tabel III-9 Inflasi Bulanan di Jakarta
dan Indonesia
bulan, tahun, inflasi_jakarta,
inflasi_indonesia
Inflasi dalam persen
Analisis Sumber Data (4) – Dataset Keuangan Daerah
Data Atribut Keterangan
Tabel III-10 Realisasi Belanja 2015
DKI Jakarta
unit_kerna, nama_unit_kerja,
urusan, nama_urusan, ...
Tabel III-11 Volume dan Nilai Ekspor
DKI Jakarta
tahun, hs, jenis_komoditas, volume,
nilai
Tabel III-12 Nilai Impor Produk
Menurut Golongan
tahun, bulan, golongan, nilai_fob,
satuan
nilai_fob dalam juta USD
Tabel III-13 Harga Pangan Tingkat
Konsumen DKI Jakarta
wilayah, komoditi,
harga_per_satuan, satuan
Harga dalam rupiah, satuan dalam
kg
Tabel III-14 Perkembangan Harga
Grosir di Pasar Induk
tanggal, komoditas, harga Harga dalam rupiah per kg
Analisis Segmentasi Pengguna
Pelaku Ekonomi Makro
- Perusahaan Komersil (Business)
- Pemerintah (Government)
- Departemen Keuangan
(Financial)
Pelaku Ekonomi Mikro
- Rumah Tangga (Households)
- UKM (Business Firms)
Analisis Kebutuhan Informasi
Makro
• Seberapa besar sumber daya
telah dimanfaatkan di dalam
kegiatan ekonomi.
• Bagaimana trend variabel-variabel
ekonomi mengalami pergerakan.
Mikro
• Bagaimana distribusi harga suatu
komoditas.
• Seberapa besar permintaan dan
penawaran terhadap komoditas.
Analisis Algoritma (1)
Analisis Algoritma (2)
No. Segmentasi
Pengguna
Kebutuhan Informasi Dataset Statistika/
Algoritma
1. Makro:
- Business
- Government
Seberapa besar sumber daya telah dimanfaatkan di
dalam kegiatan ekonomi.
Tabel III-1
Tabel III-6
Tabel III-8
Tabel III-10
Statistika
2. Makro
- Business
- Government
- Financial
Bagaimana tren variabel-variabel ekonomi mengalami
pergerakan.
Tabel III-2
Tabel III-3
Tabel III-4
Tabel III-5
Tabel III-8
Tabel III-9
Regresi linear
Analisis Algoritma (3)
No. Segmentasi
Pengguna
Kebutuhan Informasi Dataset Statistika/
Algoritma
3. Mikro
- Business Firms
- Households
Bagaimana distribusi harga suatu komoditas. Tabel III-12
Tabel III-13
Tabel III-14
Statistika
4. Mikro
- Business Firms
- Households
Seberapa besar permintaan dan penawaran
terhadap komoditas.
Tabel III-7
Tabel III-11
Tabel III-12
Statistika
k-Means
Kebutuhan Informasi 1
Makro: Government
“Seberapa besar sumber daya telah
dimanfaatkan di dalam kegiatan ekonomi?”
Analisis Algoritma – Statistika
Contoh: Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
Sampel Data:
Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
tahun rincian_indikator jumlah
2009 Pencari kerja yang belum ditempatkan diawal tahun 66445
2009 Pencari kerja yang terdaftar 41794
2009 Pencari kerja yang ditempatkan 12903
2009 Pencari kerja yang dihapus 0
… … …
2013 Lowongan yang belum dipenuhi 612
2013 Lowongan yang terdaftar 43551
2013 Lowongan yang dipenuhi 16721
2013 Lowongan yang dihapus 24868
2013 Lowongan yang ada (Gol I dan Gol II) 0
Statistik:
Buat Atribut Persentasi untuk Pie Chart
Psudo Code
> Subset tiap tabel menurut tahun
> Untuk setiap subset tahun {
> Buat atribut baru bernama ’persen’
> Isi kolom atribut ’persen’ dengan NA value
> Subset tabel menurut kategori
> Untuk setiap subset kategori {
> Untuk setiap row di kolom ‘persen’ {
> persen = 100 * jumlah / sum(jumlah)
> }
> }
> }
R Code
> …
> df_2009 <- filter(df, df$tahun == '2009-01-01')
> df_2009$persen <- c(NA)
> df_2009$kategori[1:4] <- 'Pencari’
> vec <- round((df_2009$jumlah /
sum(filter(df_2009, df_2009$kategori ==
'Pencari')$jumlah)) * 100, 2)
> df_2009$persen[1:4] <- vec[1:4]
> df_2009$kategori[5:9] <- 'Lowongan’
> vec <- round((df_2009$jumlah /
sum(filter(df_2009, df_2009$kategori ==
'Lowongan')$jumlah)) * 100, 2)
> df_2009$persen[5:9] <- vec[5:9]
> …
Sampel Data: Hasil
Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
tahun rincian_indikator jumlah persen
2009 Pencari kerja yang belum ditempatkan diawal tahun 66445 54.85 %
2009 Pencari kerja yang terdaftar 41794 34.50 %
2009 Pencari kerja yang ditempatkan 12903 10.65 %
2009 Pencari kerja yang dihapus 0 0.00 %
… … … …
2013 Lowongan yang belum dipenuhi 612 0.71 %
2013 Lowongan yang terdaftar 43551 50.79 %
2013 Lowongan yang dipenuhi 16721 19.50 %
2013 Lowongan yang dihapus 24868 29.00 %
2013 Lowongan yang ada (Gol I dan Gol II) 0 0.00 %
Small Multiple Enclosure Diagram:
Persentasi Ikhtisar Statistik DKI Jakarta Tahun 2009-2013
Line Chart:
Ikhtisar Statistik DKI Jakarta Tahun 2009-2013
Kebutuhan Informasi 2
Makro: Business, Government, & Financial
“Bagaimana tren variabel-variabel ekonomi
mengalami pergerakan?”
Analisis Algoritma – Regresi Linear
Contoh: Tabel III-2 Besar Upah Minimum DKI Jakarta
What is Economic Variables?
Indicators, provide quantitative data
about the state of an economy
1. GDP
2. Unemployment Rate
3. Inflation Rate
4. Interest rate
5. Level of the stock market
6. Exchange rate
https://web.stanford.edu/class/msande247s/econVariables.ppt
http://www.auburn.edu/~gadzeat/macro-variables.htm
What is Linear Regression?
Linear regression attempts to model the relationship between two
variables by fitting a linear equation to observed data. One
variable is considered to be an explanatory variable, and the other
is considered to be a dependent variable.
http://www.stat.yale.edu/Courses/1997-98/101/linreg.htm
Tahapan-Tahapan
Regresi Linear
1. Analisis Outlier
2. Analisis Model Prediction
3. Analisis Confident Interval
Sampel Data:
Tabel III-2 Besar Upah Minimum DKI Jakarta
tahun ump kenaikan_ump Inflasi %
1997 Rp 172.500,- 0.00 % 11.07
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
Variabel Apa yang Akan Diproyeksikan? (1)
tahun ump kenaikan_ump inflasi
1997 Rp 172.500,- 0.00 % 11.07
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
> Apa dependent variable?
> Bukan ordinal variabel
> Bukan categorical variabel
> Berubah karena variabel lain
> Apa explanatory variable?
> Bukan ordinal variabel
> Bukan categorical variabel
> Tidak dipengaruhi variabel lain
Variabel Apa yang Akan Diproyeksikan? (2)
tahun ump kenaikan_ump inflasi
1997 Rp 172.500,- 0.00 % 11.07
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
variabel Dependent (y) Explanatory (x)
tahun X X
ump √ X
kenaikan_ump √ X
inflasi X √
Jadi ump atau kenaikan_ump?
kenaikan_ump
1. Analisis Outlier (1) – Apa itu Outlier?
Outlier is an observation that is
"sufficiently different" from the
rest of data
1. An extreme or relatively extreme value
2. A containment, that is, an observation from some
other (possibly unknown) distribution
3. A legitimate, but surprising/unexpected data value
4. A data value that was measured or recorded
incorrectly
Samuels, M. L. (1989). The Design and Analysis of Spatial Data Structures. Addison-Wesley
Knorr, Edwin. (2002), Outliers and Data Mining: Finding Exceptions in Data. University of British Columbia
1. Analisis Outlier (2) – Apa itu Outlier?
Outlier:
Kenaikan UMP/Inflasi < 0.5
Inflasi ≠ 0
1. Analisis Outlier (3)
tahun ump ump inflasi
1997 Rp 172.500,- 0.00 % 11.07 %
1998 Rp 198.500,- 15.07 % 74.42 %
1999 Rp 231.000,- 16.37 % 1.7 %
... ... ... ...
2004 Rp 671.550,- 6.33 % 5.87 %
2005 Rp 819.100,- 6.00 % 16.06 %
2006 Rp 900.560,- 15.07 % 6.03 %
... ... ... ...
2014 Rp 2.441.000,- 10.96 % 6.15 %
1. Analisis Outlier (4)
tahun ump ump inflasi rasio
1997 Rp 172.500,- 0.00 % 11.07 % 0
1998 Rp 198.500,- 15.07 % 74.42 % 0.2025
1999 Rp 231.000,- 16.37 % 1.7 % 9.2486
... ... ... ... …
2004 Rp 671.550,- 6.33 % 5.87 % 1.0784
2005 Rp 819.100,- 6.00 % 16.06 % 0.3736
2006 Rp 900.560,- 15.07 % 6.03 % 2.4991
... ... ... ... …
2014 Rp 2.441.000,- 10.96 % 6.15 % 1.7821
2. Analisis Model Prediction (1)
Model:
𝑦 = 𝑓 𝑥 = 𝛽1 𝑥 + 𝛽0
𝑥 = Inflasi (%)
𝑦 = Kenaikan UMP (%)
2. Analisis Model Prediction (2)
Mencari Nilai 𝛽1
𝛽1 didapatkan dengan cara fungsi minimasi dari kuadrat jumlah selisih sumbu y dengan
titik residual “residual sum of squares” (RSS), dinotasikan dengan 𝑅𝑆𝑆 𝛽 = 𝛴𝑖(𝑦𝑖 − 𝛽𝑥𝑖)2
.
Fungsi minimasi 𝑅𝑆𝑆(𝛽) adalah turunan pertama dari 𝑹𝑺𝑺 𝜷 . Dengan kalkulus dan
aljabar, persamaan untuk gradien 𝑓(𝑥) yaitu:
𝛽1 =
(𝑥 𝑖− 𝑥)(𝑦 𝑖− 𝑦)
(𝑥 𝑖− 𝑥)2 = 𝑟
𝑆𝐸 𝑦
𝑆𝐸 𝑥
S. Weisberg, “Simple linear regression,” Appl. Linear Regression, Third Ed., no. 1994, pp. 19–46, 1985
2. Analisis Model Prediction (3)
Residual Sum of Squares (RSS)
2. Analisis Model Prediction (4)
Let’s Do the Math!
𝑆𝐸 𝑦 =
(𝑦 − 𝑦)2
𝑛 − 1
𝑆𝐸 𝑦 =
2740.49
14
𝑆𝐸 𝑦 = 13.99
r in excel = PERSON(array x, array y)
r in R = cor(vector x, vector y)
r = 0.3853
Sehingga:
𝑆𝐸 𝑥 =
(y − y)2
n − 1
𝑆𝐸 𝑥 =
120.83
14
𝑆𝐸 𝑥 = 2.94
𝛽1 = 𝑟
𝑆𝐸 𝑦
𝑆𝐸 𝑥
𝛽1 = 0.3853 ∗
13.99
2.94
𝛽1 = 1.835
2. Analisis Model Prediction (5)
Mencari Nilai 𝛽0
𝑦 = 𝑓 𝑥 = 𝛽1 𝑥 + 𝛽0
𝛽1 = 1.835
𝛽0 = y − 𝛽1 𝑥
𝛽0 = 𝑦 − 𝛽1 𝑥
𝛽0 = 18.4053 − 1.835 ∗ 6.412
𝛽0 = 6.637
Sehingga, model prediction adalah:
y = 1.835x + 6.637
2. Analisis Model Prediction (6)
𝑦=1,835𝑥+6,637
3. Analisis Confident Interval (1)
𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑡 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙 = 𝑦 ± 𝑡 𝛼/2 𝑆𝐸𝑟𝑒𝑠
1
𝑁
+
(𝑥 − 𝑥)2
𝑆𝐸 𝑥
𝑆𝐸𝑟𝑒𝑠 =
𝑆𝑆 𝑦 − 𝑆𝑆 𝑦
𝑁 − 2
=
7821.8348 − 5488.2807
13
= 13.4
3. Analisis Confident Interval (2)
Contoh: Berapa % kenaikan ump jika inflasi tahun ini 7%?
𝑦 = 1,835𝑥 + 6,637
𝑦 = 1,835(7) + 6,637
𝑦 = 19.482 %
Proyeksi kenaikan ump jika inflasi tahun ini 7% adalah 19.482 %.
Bagaimana error-nya (95% confident interval)?
3. Analisis Confident Interval (3)
Let’s Do the Math (Again)!
• 𝑦 = 𝑦 ± 𝑡 𝛼/2 𝑆𝐸𝑟𝑒𝑠
1
𝑁
+
(𝑥− 𝑥)2
𝑆𝑆 𝑥
• 𝑆𝐸𝑟𝑒𝑠 =
𝑆𝑆 𝑦−𝑆𝑆 𝑦
𝑁−2
• 𝑡 𝛼/2 didapatkan dari t-table
𝑈𝑝𝑝𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 19.482 + 2.16 ∗ 13.4
1
15
+
7−6.41 2
120.83
= 27.115
𝐿𝑜𝑤𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 19.482 − 2.16 ∗ 13.4
1
15
+
7−6.41 2
120.83
= 11.845
Sehingga didapatkan, rentang 95% confident interval untuk inflasi
sebesar 7% adalah sebagai berikut:
11.845 ≤ 𝑦 ≤ 27.115
3. Analisis Confident Interval (4)
Jika proyeksi dipetakan ke dalam grafis, di mana x = {0, …, n} maka:
Garis merah =
Linear Model =
y = 1.835x + 6.637
Area Warna Abu:
95% Confident Interval
Black Dots:
Plot antara Inflasi dan Kenaikan UMP
Kebutuhan Informasi 3
Mikro: Households, Business Firms
“Bagaimana distribusi harga suatu komoditas?”
Analisis Algoritma – Distribusi Statistik
Contoh: Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta
Sampel Data:
Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta
Wilayah Komoditi Harga Satuan Tanggal
Jakarta Utara Beras Kualitas Sedang Rp 11.335,- Kg 2015-03-01
Jakarta Selatan Beras Kualitas Sedang Rp 10.450,- Kg 2015-03-01
Jakarta Barat Beras Kualitas Sedang Rp 11.393,- Kg 2015-03-01
... ... ... ... ...
Jakarta Pusat Telur Rp 21.400,- Kg 2015-09-01
Number of Bins and Width
Sturges' formula1 Scott's normal reference rule2
Scott's normal reference rule is optimal for random
samples, in the sense that it minimizes the
integrated mean squared error of the density
estimate.
Sturges’s formula is derived from a binomial
distribution and implicitly assumes an
approximately normal distribution.
[1] Sturges, H. A. (1926). "The choice of a class interval". Journal of the American Statistical Association: 65–66.
[2] Scott, David W. (1979). "On optimal and data-based histograms". Biometrika 66 (3): 605–610
Tabel Distribusi
ℎ =
3.5𝜎
𝑛
1
3
ℎ =
3.5 ∗ 33183.71
280
1
3
ℎ = 17753.08
Kelas Interval Frekuensi
Frekuensi
Relatif
Kumulatif
Frekuensi
Kumulatif
Frekuensi
Relatif
0 - 17753.08 105 0.375 105 0.375
17753.09 - 35506.17 123 0.4393 228 0.8143
35506.18 - 53259.26 17 0.0607 245 0.875
53259.27 - 71012.35 0 0 245 0.875
71012.36 - 88765.44 0 0 245 0.875
88765.45 - 106518.50 7 0.025 252 0.9
106518.51 - 124271.60 21 0.075 273 0.975
124271.60 - 142024.70 7 0.025 280 1
Visualisasi Distribusi Statistik (1)
Visualisasi Distribusi Statistik (2)
Kebutuhan Informasi 4
Mikro: Business Firms
“Seberapa besar permintaan dan
penawaran terhadap komoditas?”
Analisis Algoritma – k-Means, Statistika
Contoh: Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta
Sampel Data:
Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta
tahun hs komoditas
Volume
(ton)
Nilai
(juta USD)
2011 1 Binatang Hidup 94..69 2017.79
2011 2 Daging Hewan 541.72 2240.81
2011 3 Ikan dan Udang 215824.40 634642.96
... ... ... ... …
2012 98
Kendaraan Bermotor/Komponen,
Terbongkar
260.31 1753.77
The Problems with the Data
tahun hs komoditas
Volume
(Ton)
Nilai
(Juta USD)
2011 1 Binatang Hidup 94..69 2017.79
2011 2 Daging Hewan 541.72 2240.81
2011 3 Ikan dan Udang 215824.40 634642.96
... ... ... ... …
2012 98
Kendaraan
Bermotor/Komponen,
Terbongkar
260.31 1753.77
1. Too Much Details
2. Sulit Dibaca
3. No Insight
How do we answer:
“Seberapa besar permintaan dan
penawaran terhadap komoditas?”
What is Clustering?
Cluster analysis or simply clustering is the process of
partitioning a set of data objects (or observations) into subsets.
Each subset is a cluster, such that objects in a cluster are similar
to one another, yet dissimilar to objects in other clusters.
J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
Why Clustering?
Clustering is useful in that it can lead to the discovery of previously unknown groups
within the data. Cluster analysis can be used as a standalone tool to gain insight into the
distribution of data, to observe the characteristics of each cluster, and to focus on a
particular set of clusters for further analysis.
Alternatively, it may serve as a preprocessing step for other algorithms, such as
characterization, attribute subset selection, and classification, which would then operate on
the detected clusters and the selected attributes or features.
J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
Algoritma k-Means
1. Secara acak, pilih k-centroid (titik yang akan mencadi titik tengah
cluster) pada ruang d dimensi.
2. Kelompokan setiap titik ke dalam k-set centroid paling dekat.
3. Perbaharui k-centroid dengan rata-rata titik k-set atau titik-titik yang
sudah dikelompokan sebelumnya.
4. Ulang langkah ke-2 dan ke-3 sampai pengelompokan divergen.
J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
Convergent vs. Divergent
http://www.thestudentroom.co.uk/showpost.php?p=23242870&postcount=9
k-Means: Plot Data
194 Observasi
Features:
1. Volume
2. Nilai
Kenapa Tiga Cluster?
Let’s walks through it, We’ll find the answer.
Analisis Algoritma – k-Means (1)
1. Secara acak, pilih k-centroid (titik
yang akan mencadi titik tengah
cluster) pada ruang d dimensi.
2. Kelompokan setiap titik ke dalam k-
set centroid paling dekat.
k1 sebanyak 96 observasi (49.4845 %);
k2 sebanyak 86 observasi (44.329 %);
k3 sebanyak 12 observasi (6.1855 %).
Analisis Algoritma – k-Means (2)
3. Perbaharui k-centroid dengan
rata-rata titik k-set atau titik-titik
yang sudah dikelompokan
sebelumnya.
4. Divergent?
5. No. Ulangi Langkah 2
k1 sebanyak 163, observasi (84.0206 %);
k2 sebanyak 15 observasi (7.7320 %);
k3 sebanyak 12 observasi (6.1855 %).
Analisis Algoritma – k-Means (3)
2. Kelompokan setiap titik ke dalam
k-set centroid paling dekat.
4. Divergent?
5. No. Ulangi Langkah 2
3. Perbaharui k-centroid
k1 sebanyak 165, observasi (85.0516 %);
k2 sebanyak 17 observasi (8.7628 %);
k3 sebanyak 12 observasi (6.1855 %) .
Analisis Algoritma – k-Means (4)
2. Kelompokan setiap titik ke dalam
k-set centroid paling dekat.
4. Divergent?
5. Yes. Stop.
3. Perbaharui k-centroid
k1 sebanyak 165, observasi (85.0516 %);
k2 sebanyak 17 observasi (8.7628 %);
k3 sebanyak 12 observasi (6.1855 %).
Analisis Algoritma – k-Means (5)
Final result:
k1(Merah) = 165 (85.05 %)
k2(Hijau) = 17 (8.76 %)
k3(Biru) = 12 (6.19 %)
Cluster Analysis (1)
Tahun Hs Komoditas Volume Nilai k
2011 1 Binatang Hidup 94..69 2017.79 k1
2011 2 Daging Hewan 541.72 2240.81 k1
2011 3 Ikan dan Udang 215824.40 634642.96 k1
... ... ... ... … …
2011 15 Lemak & Minyak Hewan 717915.80 774358.91 k2
2011 39 Plastik dan Barang dari Plastik 989192.08 1934443.29 k2
2011 40 Karet dan Barang dari Karet 500288.98 2140778.92 k2
... … … … … …
2012 84 Mesin-mesin/Pesawat Mekanik 454058.15 4146812.82 k3
2012 85 Mesin/Peralatan Listrik 454658.75 7120360.60 k3
2012 87 Kendaraan dan Bagiannya 434593.14 4247565.77 k3
Cluster Analysis (2)
k1 memiliki harga per komoditas paling rendah dibandingkan k2 dan k3.
k2 memiliki harga per komoditas lebih tinggi dari k1 dan lebih rendah dari k3.
k3 memiliki harga per komoditas paling tinggi dibandingkan k1 dan k2
Why Three Clusters ?!
Knowledge - Karakteristik Cluster
Berdasarkan jenis komoditas dan kesamaan tiap kelompok,
jika diberikan karakteristik, k1 dapat diberikan karakteristik
“barang mentah”, k2 karakteristik “barang setengah jadi”, dan
k3 karakteristik “barang jadi”.
Hasil Clustering
Tahun Hs Komoditas Volume Nilai k
2011 1 Binatang Hidup 94..69 2017.79 k1
2011 2 Daging Hewan 541.72 2240.81 k1
2011 3 Ikan dan Udang 215824.40 634642.96 k1
... ... ... ... … …
2011 15 Lemak & Minyak Hewan 717915.80 774358.91 k2
2011 39 Plastik dan Barang dari Plastik 989192.08 1934443.29 k2
2011 40 Karet dan Barang dari Karet 500288.98 2140778.92 k2
... … … … … …
2012 84 Mesin-mesin/Pesawat Mekanik 454058.15 4146812.82 k3
2012 85 Mesin/Peralatan Listrik 454658.75 7120360.60 k3
2012 87 Kendaraan dan Bagiannya 434593.14 4247565.77 k3
So,
is that just a coincident ?!
I don’t think so
1. Clustering lead to
discovery of previously
unknown groups
2. Gain insight into the data
3. Observe the characteristics
of each cluster
4. Focus on a particular set of
clusters for further analysis
Insight of the Data
• k1 memiliki harga per komoditas paling
rendah dibandingkan k2 dan k3,.
• k2 memiliki harga per komoditas lebih
tinggi dari k1 dan lebih rendah dari k3.
• k3 memiliki harga per komoditas paling
tinggi dibandingkan k1 dan k3.
Pemetaan Visualisasi Data
“The greatest value of a picture is when it forces us to notice
what we never expected to see.”
― John Tukey
Pemetaan Visualisasi Data
Time-Series Data Statistical
Distributions
Maps Herarchies Networks
Indeks Chart Stem-and-Leaf Plot Flow Map Node-link Diagram Force-directed Layout
Stacked Graph Scatter Plot Chorpleth Map Adcacency Diagram Arc Diagram
Small Multiples Parallel Coordinate Graduated Symbol Map Enclosure Diagram Matrix View
Horizon Graph Q-Q Plot Cartogram
J. Heer, M. Bostock, and V. Ogievetsky, “VIISUALIZATION A Tour through the Visualization Zoo A survey of powerful visualization techniques , from the
obvious to the obscure,” Commun. ACM, vol. 53, no. 5, pp. 59–67, 2010.
Time Series Visualization (1)
Time Series Visualization (2)
Time Series Visualization (3)
Time Series Visualization (4)
Small Multiple Time Series Visualization
Time Series Visualization (5)
Enclosure Diagram
Small Multiple Pie Chart
Enclosure Diagram: Stacked Graph
Enclosure Diagram: Pie Chart
Steam and Leaf:
Small Multiple Distribution Chart (1)
Steam and Leaf:
Small Multiple Distribution Chart (2)
Steam and Leaf: Distribution Chart
Scatter Plot: Linear Model (1)
Scatter Plot: Linear Model (2)
Scatter Plot: Linear Model (3)
One more thing…
Arsitektur Sistem (1): General
Arsitektur Sistem (2): Abstrak
http://sumitjaju.in/ionic-overall-architecture
Arsitektur Sistem (3): Detail
https://blog.codecentric.de/en/2014/11/ionic-angularjs-framework-on-the-rise/
Any Questions?
Thank You :)

Weitere ähnliche Inhalte

Ähnlich wie Seminar: Visualisasi Data Interaktif Data Terbuka Pemerintah Provinsi DKI Jakarta Topik Ekonomi dan Keuangan Daerah

2015 kompilasi inovasi bps
2015 kompilasi inovasi bps2015 kompilasi inovasi bps
2015 kompilasi inovasi bpsZaki Rahman
 
STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)
STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)
STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)Yusrina Fitriani Ns
 
Metadata Kegiatan_Bidang_1_Data_Indonesia.pptx
Metadata Kegiatan_Bidang_1_Data_Indonesia.pptxMetadata Kegiatan_Bidang_1_Data_Indonesia.pptx
Metadata Kegiatan_Bidang_1_Data_Indonesia.pptxbediloke2
 
Manajemen Database (Portal Katalog MP3EI versi 2.0)
Manajemen Database (Portal Katalog MP3EI versi 2.0)Manajemen Database (Portal Katalog MP3EI versi 2.0)
Manajemen Database (Portal Katalog MP3EI versi 2.0)Randy Wrihatnolo
 
Penyajian data perbaikan
Penyajian data perbaikanPenyajian data perbaikan
Penyajian data perbaikanLyfia Silitonga
 
Penyajian data perbaikan
Penyajian data perbaikanPenyajian data perbaikan
Penyajian data perbaikanLyfia Silitonga
 
Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB
Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB
Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB IKHSAN MAHRURI
 
pengantar statistik
 pengantar statistik pengantar statistik
pengantar statistikAsep suryadi
 
Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017
Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017
Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017Agus Supriyono
 
04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...
04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...
04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...LaOdeMuhammadElwan
 
Makalah Statistika, Ekonomi dan Bisnis II
Makalah Statistika, Ekonomi dan Bisnis IIMakalah Statistika, Ekonomi dan Bisnis II
Makalah Statistika, Ekonomi dan Bisnis IIWidia Ratnasari Samosir
 
Modul Quantum GIS 1.8 Pusdata Kementerian PU
Modul Quantum GIS 1.8 Pusdata Kementerian PUModul Quantum GIS 1.8 Pusdata Kementerian PU
Modul Quantum GIS 1.8 Pusdata Kementerian PUbramantiyo marjuki
 
Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017
Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017
Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017Agus Supriyono
 
anavida_roadmap.pdf
anavida_roadmap.pdfanavida_roadmap.pdf
anavida_roadmap.pdfssuser07c34d
 
Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...
Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...
Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...Fitri Indra Wardhono
 

Ähnlich wie Seminar: Visualisasi Data Interaktif Data Terbuka Pemerintah Provinsi DKI Jakarta Topik Ekonomi dan Keuangan Daerah (20)

2015 kompilasi inovasi bps
2015 kompilasi inovasi bps2015 kompilasi inovasi bps
2015 kompilasi inovasi bps
 
Bab IV proptek
Bab IV proptekBab IV proptek
Bab IV proptek
 
STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)
STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)
STATISTIKA DASAR (CARA PENYAJIAN DATA STATISTIKA)
 
Statistika data tunggal
Statistika data tunggalStatistika data tunggal
Statistika data tunggal
 
Metadata Kegiatan_Bidang_1_Data_Indonesia.pptx
Metadata Kegiatan_Bidang_1_Data_Indonesia.pptxMetadata Kegiatan_Bidang_1_Data_Indonesia.pptx
Metadata Kegiatan_Bidang_1_Data_Indonesia.pptx
 
Makalah statistik
Makalah statistikMakalah statistik
Makalah statistik
 
Manajemen Database (Portal Katalog MP3EI versi 2.0)
Manajemen Database (Portal Katalog MP3EI versi 2.0)Manajemen Database (Portal Katalog MP3EI versi 2.0)
Manajemen Database (Portal Katalog MP3EI versi 2.0)
 
Penyajian data perbaikan
Penyajian data perbaikanPenyajian data perbaikan
Penyajian data perbaikan
 
Penyajian data perbaikan
Penyajian data perbaikanPenyajian data perbaikan
Penyajian data perbaikan
 
Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB
Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB
Bab I Rancang Bangun Sistem Informasi Pelayanan Kantor Desa Saketi Berbasis WEB
 
pengantar statistik
 pengantar statistik pengantar statistik
pengantar statistik
 
Budgeting
BudgetingBudgeting
Budgeting
 
Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017
Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017
Agus supriyono, hapzi ali, sistem informasi eksekutif, ut, 2017
 
04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...
04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...
04 DETERMINAN DAYA DUKUNG SISTEM INFORMASI PENGADAAN BARANG DAN JASA PADA PEM...
 
Makalah Statistika, Ekonomi dan Bisnis II
Makalah Statistika, Ekonomi dan Bisnis IIMakalah Statistika, Ekonomi dan Bisnis II
Makalah Statistika, Ekonomi dan Bisnis II
 
PENGENALAN STATISTIK
PENGENALAN STATISTIKPENGENALAN STATISTIK
PENGENALAN STATISTIK
 
Modul Quantum GIS 1.8 Pusdata Kementerian PU
Modul Quantum GIS 1.8 Pusdata Kementerian PUModul Quantum GIS 1.8 Pusdata Kementerian PU
Modul Quantum GIS 1.8 Pusdata Kementerian PU
 
Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017
Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017
Agus supriyono, hapzi ali, sistem informasi kependudukan, ut, 2017
 
anavida_roadmap.pdf
anavida_roadmap.pdfanavida_roadmap.pdf
anavida_roadmap.pdf
 
Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...
Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...
Metodologi Penyusunan Rencana Pengembangan Kawasan Dalam Mendukung Pengembang...
 

Kürzlich hochgeladen

UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxzidanlbs25
 
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxAdrimanMulya
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksdanzztzy405
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfjeffrisovana999
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Shary Armonitha
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptxAbidinMaulana
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningSamFChaerul
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANDevonneDillaElFachri
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesiasdn4mangkujayan
 

Kürzlich hochgeladen (11)

UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
 
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data mining
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesia
 

Seminar: Visualisasi Data Interaktif Data Terbuka Pemerintah Provinsi DKI Jakarta Topik Ekonomi dan Keuangan Daerah

  • 1. Visualisasi Data Interaktif Data Terbuka Pemerintah Provinsi DKI Jakarta Topik Ekonomi dan Keuangan Daerah Adam Mukharil Bachtiar, S.Kom., M.T NIP. 41277006024 Nadiar Ahmad Syaripul NIM. 10111121
  • 2. Fenomena Lisensi: 1. Open Data Commons Open Database License (ODbL) 2. Creative Commons Attribution Repositori Koleksi Dataset Format Data http://data.go.id 1082 (31 Maret 2015) csv, xls/xlsx, json http://data.jakarta.go.id 696 (31 Maret 2015) csv, xls/xlsx, json http://data.bandung.go.id 350 (31 Maret 2015) csv
  • 3. Keterangan Lisensi Creative Commons Attribution1 Open Data Commons Open Database License2 Free to Share √ √ Free to Create √ √ Free to Adapt √ √ Must Attribute √ √ Must Share-Alikie √ Must Keep Open √ [1] https://creativecommons.org/licenses/by-nc-sa/4.0/ [2] http://opendatacommons.org/licenses/odbl/
  • 4. Latar Belakang Sulit mengambil informasi umum Survey Demand visualisasi data Survey 100 % Perlu Early Adapter User Ibu Sri Dewi Anggadini, SE., M.Si
  • 5. Maksud dan Tujuan  Maksud dari penelitian ini adalah memvisualisasikan dataset ekonomi dan keuangan Pemerintah Provinsi DKI Jakarta. Adapun tujuan yang penelitian ini adalah sebagai berikut: Membuat visualisasi dari dataset yang diberikan berdasarkan analisis statistika/algoritma. Memudahkan pelaku ekonomi mikro dan makro melihat informasi umum dengan cara visualisasi.
  • 6. Batasan Masalah • Dataset utama yang digunakan adalah dataset keuangan daerah dan perekonomian yang didapatkan dari repositori open data Pemerintah Provinsi DKI Jakarta. • Segmentasi pengguna produk dari penelitian ini adalah pelaku ekonomi makro dan pelaku ekonomi mikro. • Sistem hanya menampilkan informasi visual, tidak menerima konten dari pengguna (data store). • Pendekatan analisis perangkat lunak menggunakan OOAD.
  • 7. Metodologi Penelitian C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013. Data Science Process
  • 8. Data Science “…we thought it would be useful to propose one possible taxonomy… of what a data scientist does, in roughly chronological order: Obtain, Scrub, Explore, Model, and interpret…. Data science is clearly a blend of the hackers, arts… statistics and machine learning… and the expertise in mathematics and the domain of the data for the analysis to be interpretable… It requires creative decisions and open- mindedness in a scientific context.” Hilary Mason and Chris Wiggins write in http://www.dataists.com/2010/09/a-taxonomy-of-data-science/ C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
  • 9. Teori Umum “Any fool can make something complicated. It takes a genius to make it simple” ― Woody Guthrie
  • 10. Apa itu Visualisasi Data? Cara efektif melakukan analisis, mempermudah menyimpulkan data, dan membuat data yang kompleks menjadi lebih mudah untuk dimengerti. F. Frankel, Visualizing Data, vol. 92, no. 2. 2004.
  • 11. Bagaimana Proses Visualisasi Data? Data Collection Mining the Data (Optional) Visualize the Data Make it Interactive (Optional) - F. Frankel, Visualizing Data, vol. 92, no. 2. 2004. - C. O’Neil and R. Schutt, Doing Data Science: Straight Talk from the Frontline. 2013.
  • 12. Analisis “Discovery is no longer limited by the collection and processing of data, but rather management, analysis, and visualization.” ― Damian Mingle
  • 13. Analisis Sumber Data (1) Ketenaga Kerjaan Ikhtisar Statistik Besar UMP Laju Pertumbuhan Ekonomi Tingkat Inflasi Pendapatan Perkapita Komponen Inflasi Inflasi Bulanan Struktur Ekonomi Perekonoxamian Realisasi APBD 2015 APBD Harga Pangan Tingkat Konsumen Harga Grosir di Pasar Induk Komoditas Volume & Nilai Ekspor Ekspor- Impor Nilai Impor Menurut Golongan Ekspor-Impor 2 Kategori 3 Kategori 2 6 3 2
  • 14. Analisis Sumber Data (2) – Dataset Ekonomi Data Atribut Keterangan Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta tahun, indikator, rincian_indikator, jumlah Tabel III-2 Besar Upan Minimum DKI Jakarta tahun, ump, kenaikan_ump, inflasi Ump dalam rupiah, kenaikan_ump dan inflasi dalam persen Tabel III-3 Laju Pertumbuhan Ekonomi Jakarta dan Nasional tahun, persen_tumbuh_jakarta, persen_tumbuh_nasional Tabel III-4 Tingkat Inflasi Jakarta dan Nasional tahun, inflasi_jakarta, inflasi_nasional Inflasi Jakarta dan Nasional dalam persen Tabel III-5 Pendapatan Perkapita Jakarta dan Nasional tahun, perkapita_jakarta, perkapita_nasional Pendapatan perkapita dalam juta rupiah Tabel III-6 Komponen Inflasi Jakarta komponen_inflasi, bulan, persen_inflasi
  • 15. Analisis Sumber Data (3) – Dataset Ekonomi Data Atribut Keterangan Tabel III-7 Ekspor Impor DKI Jakarta tahun, ekspor_melalui_jakarta, ekspor_produk_jakarta, impor_melalui_jakarta Ekspor dan impor dalam juta USD Tabel III-8 Struktur Ekonomi Jakarta Berdasarkan Sektor tahun, jenis_sektor, persen_kontribusi Tabel III-9 Inflasi Bulanan di Jakarta dan Indonesia bulan, tahun, inflasi_jakarta, inflasi_indonesia Inflasi dalam persen
  • 16. Analisis Sumber Data (4) – Dataset Keuangan Daerah Data Atribut Keterangan Tabel III-10 Realisasi Belanja 2015 DKI Jakarta unit_kerna, nama_unit_kerja, urusan, nama_urusan, ... Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta tahun, hs, jenis_komoditas, volume, nilai Tabel III-12 Nilai Impor Produk Menurut Golongan tahun, bulan, golongan, nilai_fob, satuan nilai_fob dalam juta USD Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta wilayah, komoditi, harga_per_satuan, satuan Harga dalam rupiah, satuan dalam kg Tabel III-14 Perkembangan Harga Grosir di Pasar Induk tanggal, komoditas, harga Harga dalam rupiah per kg
  • 17. Analisis Segmentasi Pengguna Pelaku Ekonomi Makro - Perusahaan Komersil (Business) - Pemerintah (Government) - Departemen Keuangan (Financial) Pelaku Ekonomi Mikro - Rumah Tangga (Households) - UKM (Business Firms)
  • 18. Analisis Kebutuhan Informasi Makro • Seberapa besar sumber daya telah dimanfaatkan di dalam kegiatan ekonomi. • Bagaimana trend variabel-variabel ekonomi mengalami pergerakan. Mikro • Bagaimana distribusi harga suatu komoditas. • Seberapa besar permintaan dan penawaran terhadap komoditas.
  • 20. Analisis Algoritma (2) No. Segmentasi Pengguna Kebutuhan Informasi Dataset Statistika/ Algoritma 1. Makro: - Business - Government Seberapa besar sumber daya telah dimanfaatkan di dalam kegiatan ekonomi. Tabel III-1 Tabel III-6 Tabel III-8 Tabel III-10 Statistika 2. Makro - Business - Government - Financial Bagaimana tren variabel-variabel ekonomi mengalami pergerakan. Tabel III-2 Tabel III-3 Tabel III-4 Tabel III-5 Tabel III-8 Tabel III-9 Regresi linear
  • 21. Analisis Algoritma (3) No. Segmentasi Pengguna Kebutuhan Informasi Dataset Statistika/ Algoritma 3. Mikro - Business Firms - Households Bagaimana distribusi harga suatu komoditas. Tabel III-12 Tabel III-13 Tabel III-14 Statistika 4. Mikro - Business Firms - Households Seberapa besar permintaan dan penawaran terhadap komoditas. Tabel III-7 Tabel III-11 Tabel III-12 Statistika k-Means
  • 22. Kebutuhan Informasi 1 Makro: Government “Seberapa besar sumber daya telah dimanfaatkan di dalam kegiatan ekonomi?” Analisis Algoritma – Statistika Contoh: Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta
  • 23. Sampel Data: Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta tahun rincian_indikator jumlah 2009 Pencari kerja yang belum ditempatkan diawal tahun 66445 2009 Pencari kerja yang terdaftar 41794 2009 Pencari kerja yang ditempatkan 12903 2009 Pencari kerja yang dihapus 0 … … … 2013 Lowongan yang belum dipenuhi 612 2013 Lowongan yang terdaftar 43551 2013 Lowongan yang dipenuhi 16721 2013 Lowongan yang dihapus 24868 2013 Lowongan yang ada (Gol I dan Gol II) 0
  • 24. Statistik: Buat Atribut Persentasi untuk Pie Chart Psudo Code > Subset tiap tabel menurut tahun > Untuk setiap subset tahun { > Buat atribut baru bernama ’persen’ > Isi kolom atribut ’persen’ dengan NA value > Subset tabel menurut kategori > Untuk setiap subset kategori { > Untuk setiap row di kolom ‘persen’ { > persen = 100 * jumlah / sum(jumlah) > } > } > } R Code > … > df_2009 <- filter(df, df$tahun == '2009-01-01') > df_2009$persen <- c(NA) > df_2009$kategori[1:4] <- 'Pencari’ > vec <- round((df_2009$jumlah / sum(filter(df_2009, df_2009$kategori == 'Pencari')$jumlah)) * 100, 2) > df_2009$persen[1:4] <- vec[1:4] > df_2009$kategori[5:9] <- 'Lowongan’ > vec <- round((df_2009$jumlah / sum(filter(df_2009, df_2009$kategori == 'Lowongan')$jumlah)) * 100, 2) > df_2009$persen[5:9] <- vec[5:9] > …
  • 25. Sampel Data: Hasil Tabel III-1 Ikhtisar Statistik antar Kerja DKI Jakarta tahun rincian_indikator jumlah persen 2009 Pencari kerja yang belum ditempatkan diawal tahun 66445 54.85 % 2009 Pencari kerja yang terdaftar 41794 34.50 % 2009 Pencari kerja yang ditempatkan 12903 10.65 % 2009 Pencari kerja yang dihapus 0 0.00 % … … … … 2013 Lowongan yang belum dipenuhi 612 0.71 % 2013 Lowongan yang terdaftar 43551 50.79 % 2013 Lowongan yang dipenuhi 16721 19.50 % 2013 Lowongan yang dihapus 24868 29.00 % 2013 Lowongan yang ada (Gol I dan Gol II) 0 0.00 %
  • 26. Small Multiple Enclosure Diagram: Persentasi Ikhtisar Statistik DKI Jakarta Tahun 2009-2013
  • 27. Line Chart: Ikhtisar Statistik DKI Jakarta Tahun 2009-2013
  • 28. Kebutuhan Informasi 2 Makro: Business, Government, & Financial “Bagaimana tren variabel-variabel ekonomi mengalami pergerakan?” Analisis Algoritma – Regresi Linear Contoh: Tabel III-2 Besar Upah Minimum DKI Jakarta
  • 29. What is Economic Variables? Indicators, provide quantitative data about the state of an economy 1. GDP 2. Unemployment Rate 3. Inflation Rate 4. Interest rate 5. Level of the stock market 6. Exchange rate https://web.stanford.edu/class/msande247s/econVariables.ppt http://www.auburn.edu/~gadzeat/macro-variables.htm
  • 30. What is Linear Regression? Linear regression attempts to model the relationship between two variables by fitting a linear equation to observed data. One variable is considered to be an explanatory variable, and the other is considered to be a dependent variable. http://www.stat.yale.edu/Courses/1997-98/101/linreg.htm
  • 31. Tahapan-Tahapan Regresi Linear 1. Analisis Outlier 2. Analisis Model Prediction 3. Analisis Confident Interval
  • 32. Sampel Data: Tabel III-2 Besar Upah Minimum DKI Jakarta tahun ump kenaikan_ump Inflasi % 1997 Rp 172.500,- 0.00 % 11.07 1998 Rp 198.500,- 15.07 % 74.42 % 1999 Rp 231.000,- 16.37 % 1.7 % ... ... ... ... 2004 Rp 671.550,- 6.33 % 5.87 % 2005 Rp 819.100,- 6.00 % 16.06 % 2006 Rp 900.560,- 15.07 % 6.03 % ... ... ... ... 2014 Rp 2.441.000,- 10.96 % 6.15 %
  • 33. Variabel Apa yang Akan Diproyeksikan? (1) tahun ump kenaikan_ump inflasi 1997 Rp 172.500,- 0.00 % 11.07 1998 Rp 198.500,- 15.07 % 74.42 % 1999 Rp 231.000,- 16.37 % 1.7 % ... ... ... ... 2004 Rp 671.550,- 6.33 % 5.87 % 2005 Rp 819.100,- 6.00 % 16.06 % 2006 Rp 900.560,- 15.07 % 6.03 % ... ... ... ... 2014 Rp 2.441.000,- 10.96 % 6.15 % > Apa dependent variable? > Bukan ordinal variabel > Bukan categorical variabel > Berubah karena variabel lain > Apa explanatory variable? > Bukan ordinal variabel > Bukan categorical variabel > Tidak dipengaruhi variabel lain
  • 34. Variabel Apa yang Akan Diproyeksikan? (2) tahun ump kenaikan_ump inflasi 1997 Rp 172.500,- 0.00 % 11.07 1998 Rp 198.500,- 15.07 % 74.42 % 1999 Rp 231.000,- 16.37 % 1.7 % ... ... ... ... 2004 Rp 671.550,- 6.33 % 5.87 % 2005 Rp 819.100,- 6.00 % 16.06 % 2006 Rp 900.560,- 15.07 % 6.03 % ... ... ... ... 2014 Rp 2.441.000,- 10.96 % 6.15 % variabel Dependent (y) Explanatory (x) tahun X X ump √ X kenaikan_ump √ X inflasi X √ Jadi ump atau kenaikan_ump? kenaikan_ump
  • 35. 1. Analisis Outlier (1) – Apa itu Outlier? Outlier is an observation that is "sufficiently different" from the rest of data 1. An extreme or relatively extreme value 2. A containment, that is, an observation from some other (possibly unknown) distribution 3. A legitimate, but surprising/unexpected data value 4. A data value that was measured or recorded incorrectly Samuels, M. L. (1989). The Design and Analysis of Spatial Data Structures. Addison-Wesley Knorr, Edwin. (2002), Outliers and Data Mining: Finding Exceptions in Data. University of British Columbia
  • 36. 1. Analisis Outlier (2) – Apa itu Outlier? Outlier: Kenaikan UMP/Inflasi < 0.5 Inflasi ≠ 0
  • 37. 1. Analisis Outlier (3) tahun ump ump inflasi 1997 Rp 172.500,- 0.00 % 11.07 % 1998 Rp 198.500,- 15.07 % 74.42 % 1999 Rp 231.000,- 16.37 % 1.7 % ... ... ... ... 2004 Rp 671.550,- 6.33 % 5.87 % 2005 Rp 819.100,- 6.00 % 16.06 % 2006 Rp 900.560,- 15.07 % 6.03 % ... ... ... ... 2014 Rp 2.441.000,- 10.96 % 6.15 %
  • 38. 1. Analisis Outlier (4) tahun ump ump inflasi rasio 1997 Rp 172.500,- 0.00 % 11.07 % 0 1998 Rp 198.500,- 15.07 % 74.42 % 0.2025 1999 Rp 231.000,- 16.37 % 1.7 % 9.2486 ... ... ... ... … 2004 Rp 671.550,- 6.33 % 5.87 % 1.0784 2005 Rp 819.100,- 6.00 % 16.06 % 0.3736 2006 Rp 900.560,- 15.07 % 6.03 % 2.4991 ... ... ... ... … 2014 Rp 2.441.000,- 10.96 % 6.15 % 1.7821
  • 39. 2. Analisis Model Prediction (1) Model: 𝑦 = 𝑓 𝑥 = 𝛽1 𝑥 + 𝛽0 𝑥 = Inflasi (%) 𝑦 = Kenaikan UMP (%)
  • 40. 2. Analisis Model Prediction (2) Mencari Nilai 𝛽1 𝛽1 didapatkan dengan cara fungsi minimasi dari kuadrat jumlah selisih sumbu y dengan titik residual “residual sum of squares” (RSS), dinotasikan dengan 𝑅𝑆𝑆 𝛽 = 𝛴𝑖(𝑦𝑖 − 𝛽𝑥𝑖)2 . Fungsi minimasi 𝑅𝑆𝑆(𝛽) adalah turunan pertama dari 𝑹𝑺𝑺 𝜷 . Dengan kalkulus dan aljabar, persamaan untuk gradien 𝑓(𝑥) yaitu: 𝛽1 = (𝑥 𝑖− 𝑥)(𝑦 𝑖− 𝑦) (𝑥 𝑖− 𝑥)2 = 𝑟 𝑆𝐸 𝑦 𝑆𝐸 𝑥 S. Weisberg, “Simple linear regression,” Appl. Linear Regression, Third Ed., no. 1994, pp. 19–46, 1985
  • 41. 2. Analisis Model Prediction (3) Residual Sum of Squares (RSS)
  • 42. 2. Analisis Model Prediction (4) Let’s Do the Math! 𝑆𝐸 𝑦 = (𝑦 − 𝑦)2 𝑛 − 1 𝑆𝐸 𝑦 = 2740.49 14 𝑆𝐸 𝑦 = 13.99 r in excel = PERSON(array x, array y) r in R = cor(vector x, vector y) r = 0.3853 Sehingga: 𝑆𝐸 𝑥 = (y − y)2 n − 1 𝑆𝐸 𝑥 = 120.83 14 𝑆𝐸 𝑥 = 2.94 𝛽1 = 𝑟 𝑆𝐸 𝑦 𝑆𝐸 𝑥 𝛽1 = 0.3853 ∗ 13.99 2.94 𝛽1 = 1.835
  • 43. 2. Analisis Model Prediction (5) Mencari Nilai 𝛽0 𝑦 = 𝑓 𝑥 = 𝛽1 𝑥 + 𝛽0 𝛽1 = 1.835 𝛽0 = y − 𝛽1 𝑥 𝛽0 = 𝑦 − 𝛽1 𝑥 𝛽0 = 18.4053 − 1.835 ∗ 6.412 𝛽0 = 6.637 Sehingga, model prediction adalah: y = 1.835x + 6.637
  • 44. 2. Analisis Model Prediction (6) 𝑦=1,835𝑥+6,637
  • 45. 3. Analisis Confident Interval (1) 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑡 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙 = 𝑦 ± 𝑡 𝛼/2 𝑆𝐸𝑟𝑒𝑠 1 𝑁 + (𝑥 − 𝑥)2 𝑆𝐸 𝑥 𝑆𝐸𝑟𝑒𝑠 = 𝑆𝑆 𝑦 − 𝑆𝑆 𝑦 𝑁 − 2 = 7821.8348 − 5488.2807 13 = 13.4
  • 46. 3. Analisis Confident Interval (2) Contoh: Berapa % kenaikan ump jika inflasi tahun ini 7%? 𝑦 = 1,835𝑥 + 6,637 𝑦 = 1,835(7) + 6,637 𝑦 = 19.482 % Proyeksi kenaikan ump jika inflasi tahun ini 7% adalah 19.482 %. Bagaimana error-nya (95% confident interval)?
  • 47. 3. Analisis Confident Interval (3) Let’s Do the Math (Again)! • 𝑦 = 𝑦 ± 𝑡 𝛼/2 𝑆𝐸𝑟𝑒𝑠 1 𝑁 + (𝑥− 𝑥)2 𝑆𝑆 𝑥 • 𝑆𝐸𝑟𝑒𝑠 = 𝑆𝑆 𝑦−𝑆𝑆 𝑦 𝑁−2 • 𝑡 𝛼/2 didapatkan dari t-table 𝑈𝑝𝑝𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 19.482 + 2.16 ∗ 13.4 1 15 + 7−6.41 2 120.83 = 27.115 𝐿𝑜𝑤𝑒𝑟 𝐿𝑖𝑚𝑖𝑡 = 19.482 − 2.16 ∗ 13.4 1 15 + 7−6.41 2 120.83 = 11.845 Sehingga didapatkan, rentang 95% confident interval untuk inflasi sebesar 7% adalah sebagai berikut: 11.845 ≤ 𝑦 ≤ 27.115
  • 48. 3. Analisis Confident Interval (4) Jika proyeksi dipetakan ke dalam grafis, di mana x = {0, …, n} maka: Garis merah = Linear Model = y = 1.835x + 6.637 Area Warna Abu: 95% Confident Interval Black Dots: Plot antara Inflasi dan Kenaikan UMP
  • 49. Kebutuhan Informasi 3 Mikro: Households, Business Firms “Bagaimana distribusi harga suatu komoditas?” Analisis Algoritma – Distribusi Statistik Contoh: Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta
  • 50. Sampel Data: Tabel III-13 Harga Pangan Tingkat Konsumen DKI Jakarta Wilayah Komoditi Harga Satuan Tanggal Jakarta Utara Beras Kualitas Sedang Rp 11.335,- Kg 2015-03-01 Jakarta Selatan Beras Kualitas Sedang Rp 10.450,- Kg 2015-03-01 Jakarta Barat Beras Kualitas Sedang Rp 11.393,- Kg 2015-03-01 ... ... ... ... ... Jakarta Pusat Telur Rp 21.400,- Kg 2015-09-01
  • 51. Number of Bins and Width Sturges' formula1 Scott's normal reference rule2 Scott's normal reference rule is optimal for random samples, in the sense that it minimizes the integrated mean squared error of the density estimate. Sturges’s formula is derived from a binomial distribution and implicitly assumes an approximately normal distribution. [1] Sturges, H. A. (1926). "The choice of a class interval". Journal of the American Statistical Association: 65–66. [2] Scott, David W. (1979). "On optimal and data-based histograms". Biometrika 66 (3): 605–610
  • 52. Tabel Distribusi ℎ = 3.5𝜎 𝑛 1 3 ℎ = 3.5 ∗ 33183.71 280 1 3 ℎ = 17753.08 Kelas Interval Frekuensi Frekuensi Relatif Kumulatif Frekuensi Kumulatif Frekuensi Relatif 0 - 17753.08 105 0.375 105 0.375 17753.09 - 35506.17 123 0.4393 228 0.8143 35506.18 - 53259.26 17 0.0607 245 0.875 53259.27 - 71012.35 0 0 245 0.875 71012.36 - 88765.44 0 0 245 0.875 88765.45 - 106518.50 7 0.025 252 0.9 106518.51 - 124271.60 21 0.075 273 0.975 124271.60 - 142024.70 7 0.025 280 1
  • 55. Kebutuhan Informasi 4 Mikro: Business Firms “Seberapa besar permintaan dan penawaran terhadap komoditas?” Analisis Algoritma – k-Means, Statistika Contoh: Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta
  • 56. Sampel Data: Tabel III-11 Volume dan Nilai Ekspor DKI Jakarta tahun hs komoditas Volume (ton) Nilai (juta USD) 2011 1 Binatang Hidup 94..69 2017.79 2011 2 Daging Hewan 541.72 2240.81 2011 3 Ikan dan Udang 215824.40 634642.96 ... ... ... ... … 2012 98 Kendaraan Bermotor/Komponen, Terbongkar 260.31 1753.77
  • 57. The Problems with the Data tahun hs komoditas Volume (Ton) Nilai (Juta USD) 2011 1 Binatang Hidup 94..69 2017.79 2011 2 Daging Hewan 541.72 2240.81 2011 3 Ikan dan Udang 215824.40 634642.96 ... ... ... ... … 2012 98 Kendaraan Bermotor/Komponen, Terbongkar 260.31 1753.77 1. Too Much Details 2. Sulit Dibaca 3. No Insight How do we answer: “Seberapa besar permintaan dan penawaran terhadap komoditas?”
  • 58. What is Clustering? Cluster analysis or simply clustering is the process of partitioning a set of data objects (or observations) into subsets. Each subset is a cluster, such that objects in a cluster are similar to one another, yet dissimilar to objects in other clusters. J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
  • 59. Why Clustering? Clustering is useful in that it can lead to the discovery of previously unknown groups within the data. Cluster analysis can be used as a standalone tool to gain insight into the distribution of data, to observe the characteristics of each cluster, and to focus on a particular set of clusters for further analysis. Alternatively, it may serve as a preprocessing step for other algorithms, such as characterization, attribute subset selection, and classification, which would then operate on the detected clusters and the selected attributes or features. J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
  • 60. Algoritma k-Means 1. Secara acak, pilih k-centroid (titik yang akan mencadi titik tengah cluster) pada ruang d dimensi. 2. Kelompokan setiap titik ke dalam k-set centroid paling dekat. 3. Perbaharui k-centroid dengan rata-rata titik k-set atau titik-titik yang sudah dikelompokan sebelumnya. 4. Ulang langkah ke-2 dan ke-3 sampai pengelompokan divergen. J. Han, M. Kamber, and J. Pei, “Data Mining: Concepts and Techniques, Third Edition,” Morgan Kaufmann Publishers. p. 444-445, 2012.
  • 62. k-Means: Plot Data 194 Observasi Features: 1. Volume 2. Nilai
  • 63. Kenapa Tiga Cluster? Let’s walks through it, We’ll find the answer.
  • 64. Analisis Algoritma – k-Means (1) 1. Secara acak, pilih k-centroid (titik yang akan mencadi titik tengah cluster) pada ruang d dimensi. 2. Kelompokan setiap titik ke dalam k- set centroid paling dekat. k1 sebanyak 96 observasi (49.4845 %); k2 sebanyak 86 observasi (44.329 %); k3 sebanyak 12 observasi (6.1855 %).
  • 65. Analisis Algoritma – k-Means (2) 3. Perbaharui k-centroid dengan rata-rata titik k-set atau titik-titik yang sudah dikelompokan sebelumnya. 4. Divergent? 5. No. Ulangi Langkah 2 k1 sebanyak 163, observasi (84.0206 %); k2 sebanyak 15 observasi (7.7320 %); k3 sebanyak 12 observasi (6.1855 %).
  • 66. Analisis Algoritma – k-Means (3) 2. Kelompokan setiap titik ke dalam k-set centroid paling dekat. 4. Divergent? 5. No. Ulangi Langkah 2 3. Perbaharui k-centroid k1 sebanyak 165, observasi (85.0516 %); k2 sebanyak 17 observasi (8.7628 %); k3 sebanyak 12 observasi (6.1855 %) .
  • 67. Analisis Algoritma – k-Means (4) 2. Kelompokan setiap titik ke dalam k-set centroid paling dekat. 4. Divergent? 5. Yes. Stop. 3. Perbaharui k-centroid k1 sebanyak 165, observasi (85.0516 %); k2 sebanyak 17 observasi (8.7628 %); k3 sebanyak 12 observasi (6.1855 %).
  • 68. Analisis Algoritma – k-Means (5) Final result: k1(Merah) = 165 (85.05 %) k2(Hijau) = 17 (8.76 %) k3(Biru) = 12 (6.19 %)
  • 69. Cluster Analysis (1) Tahun Hs Komoditas Volume Nilai k 2011 1 Binatang Hidup 94..69 2017.79 k1 2011 2 Daging Hewan 541.72 2240.81 k1 2011 3 Ikan dan Udang 215824.40 634642.96 k1 ... ... ... ... … … 2011 15 Lemak & Minyak Hewan 717915.80 774358.91 k2 2011 39 Plastik dan Barang dari Plastik 989192.08 1934443.29 k2 2011 40 Karet dan Barang dari Karet 500288.98 2140778.92 k2 ... … … … … … 2012 84 Mesin-mesin/Pesawat Mekanik 454058.15 4146812.82 k3 2012 85 Mesin/Peralatan Listrik 454658.75 7120360.60 k3 2012 87 Kendaraan dan Bagiannya 434593.14 4247565.77 k3
  • 70. Cluster Analysis (2) k1 memiliki harga per komoditas paling rendah dibandingkan k2 dan k3. k2 memiliki harga per komoditas lebih tinggi dari k1 dan lebih rendah dari k3. k3 memiliki harga per komoditas paling tinggi dibandingkan k1 dan k2 Why Three Clusters ?!
  • 71. Knowledge - Karakteristik Cluster Berdasarkan jenis komoditas dan kesamaan tiap kelompok, jika diberikan karakteristik, k1 dapat diberikan karakteristik “barang mentah”, k2 karakteristik “barang setengah jadi”, dan k3 karakteristik “barang jadi”.
  • 72. Hasil Clustering Tahun Hs Komoditas Volume Nilai k 2011 1 Binatang Hidup 94..69 2017.79 k1 2011 2 Daging Hewan 541.72 2240.81 k1 2011 3 Ikan dan Udang 215824.40 634642.96 k1 ... ... ... ... … … 2011 15 Lemak & Minyak Hewan 717915.80 774358.91 k2 2011 39 Plastik dan Barang dari Plastik 989192.08 1934443.29 k2 2011 40 Karet dan Barang dari Karet 500288.98 2140778.92 k2 ... … … … … … 2012 84 Mesin-mesin/Pesawat Mekanik 454058.15 4146812.82 k3 2012 85 Mesin/Peralatan Listrik 454658.75 7120360.60 k3 2012 87 Kendaraan dan Bagiannya 434593.14 4247565.77 k3
  • 73. So, is that just a coincident ?! I don’t think so 1. Clustering lead to discovery of previously unknown groups 2. Gain insight into the data 3. Observe the characteristics of each cluster 4. Focus on a particular set of clusters for further analysis
  • 74. Insight of the Data • k1 memiliki harga per komoditas paling rendah dibandingkan k2 dan k3,. • k2 memiliki harga per komoditas lebih tinggi dari k1 dan lebih rendah dari k3. • k3 memiliki harga per komoditas paling tinggi dibandingkan k1 dan k3.
  • 75. Pemetaan Visualisasi Data “The greatest value of a picture is when it forces us to notice what we never expected to see.” ― John Tukey
  • 76. Pemetaan Visualisasi Data Time-Series Data Statistical Distributions Maps Herarchies Networks Indeks Chart Stem-and-Leaf Plot Flow Map Node-link Diagram Force-directed Layout Stacked Graph Scatter Plot Chorpleth Map Adcacency Diagram Arc Diagram Small Multiples Parallel Coordinate Graduated Symbol Map Enclosure Diagram Matrix View Horizon Graph Q-Q Plot Cartogram J. Heer, M. Bostock, and V. Ogievetsky, “VIISUALIZATION A Tour through the Visualization Zoo A survey of powerful visualization techniques , from the obvious to the obscure,” Commun. ACM, vol. 53, no. 5, pp. 59–67, 2010.
  • 81. Small Multiple Time Series Visualization
  • 86. Steam and Leaf: Small Multiple Distribution Chart (1)
  • 87. Steam and Leaf: Small Multiple Distribution Chart (2)
  • 88. Steam and Leaf: Distribution Chart
  • 89. Scatter Plot: Linear Model (1)
  • 90. Scatter Plot: Linear Model (2)
  • 91. Scatter Plot: Linear Model (3)
  • 94. Arsitektur Sistem (2): Abstrak http://sumitjaju.in/ionic-overall-architecture
  • 95. Arsitektur Sistem (3): Detail https://blog.codecentric.de/en/2014/11/ionic-angularjs-framework-on-the-rise/