SlideShare ist ein Scribd-Unternehmen logo
1 von 8
Downloaden Sie, um offline zu lesen
Perbandingan Teknik Classification Machine Learning dalam
Melakukan Identifikasi Bahasa
Mgs. Muhammad Thoyib Antarnusa1
1
NPM: 1406577392. Fakultas Ilmu Komputer, Universitas Indonesia.
Abstract
Machine learning merupakan suatu tipe kecerdasan buatan yang memberikan komputer suatu kemampuan untuk belajar.
Machine learning fokus pada pengembangan program yang dapat mengajarkan dirinya sendiri untuk berkembang dan
berubah ketika menemui data baru. Dengan memanfaatkan machine learning, program dapat mengidentifikasi suatu kata
termasuk ke dalam bahasa apa. Terdapat beberapa algoritma yang dapat digunakan dalam machine learning.
Perbandingan ini akan melakukan percobaan terhadap algoritma decision tree, neural network, dan naïve bayes untuk
melihat algoritma mana yang dapat melakukan identifikasi bahasa yang paling akurat. Hasil akhirnya diketahui bahwa
naïve bayes melakukan identifikasi yang paling baik dibandingkan dengan kedua algoritma lain.
Kata kunci: classification, identifikasi, bahasa, machine learning, decision tree, neural network, naïve bayes
1. Pendahuluan
Bahasa menurut Harun Rasyid, Mansyur & Suratno (2009: 126) merupakan struktur dan makna yang bebas
dari penggunanya, sebagai tanda yang menyimpulkan suatu tujuan. Machine learning, dalam hal ini, akan
mencoba untuk mengidentifikasi berbagai artikel dan mengelompokkan tiap kata-kata yang ada dalam artikel
tersebut ke dalam bahasa apa. Terdapat beberapa algoritma machine learning yang dapat dilakukan untuk
melakukan klasifikasi tersebut. Dalam percobaan ini, akan diuji perbandingan keberhasilan antara algoritma
decision tree, neural network, serta naïve bayes dalam mengidentifikasi suatu artikel masuk ke dalam bahasa
apa.
2. Latar Belakang
Terdapat tiga algoritma yang akan diuji dalam percobaan berikut yaitu decision tree, neural network, dan
naïve bayes.
2.1. Decision Tree
Decision Tree adalah suatu metode learning yang supervised yang digunakan untuk classification dan
regression. Decision Tree membuat suatu model yang memprediksi nilai dari suatu target peubah dengan cara
mempelajari aturan decision sederhana yang di-infer dari fitur-fitur data.
Algoritma ini menggunakan decision tree sebagai representasinya dengan setiap internal node menguji
suatu atribut, setiap branch berkorespondensi dengan nilai atribut, dan setiap leaf node sebagai label
klasifikasinya.
2 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016)
Fig. 1. Decision Tree
2.2. Neural Network
Neural Network terinspirasi pada jaringan otak manusia yang saling terhubung antara satu neuron dengan
yang lain. Pada neural network, neuron direpresentasikan menjadi suatu unit yang disebut dengan perceptron.
Perceptron akan mengambil beberapa input biner yang kemudian akan menghasilkan sebuah output biner.
Fig. 2. Perceptron
Dengan menggunakan perceptron untuk membuat sebuah output, maka dapat dibuat suatu representasi
jaringan otak manusia yang menghubungkan banyak perceptron untuk melakukan proses berbagai macam
input dan menghasilkan suatu output.
Mgs M Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) 3
Fig. 3. Neural Network
Pada jaringan yang ditunjukkan pada fig. 3, kolom perceptron pertama membuat tiga keputusan sederhana
dengan menghitung weight dari bukti input. Perceptron pada layer kedua membuat keputusan dengan
menghitung weight hail dari output pada layer pertama. Dengan begitu, perceptron pada layer kedua dapat
membuat keputusan yang lebih kompleks dan abstrak dibandingkan layer pertama. Demikian pula dengan
layer ketiga yang akan membuat keputusan lebih kompleks lagi sehingga perceptron dapat membuat suatu
keputusan yang dapat dikatakan tepat.
2.3. Naïve Bayes
Algoritma Naïve Bayes berdasarkan dari conditional probabilities. Naïve Bayes menggunakan teorema
Bayes, suatu rumus yang melakukan kalkulasi probabilitas dengan menghitung banyak kemunculan suatu
nilan dan kombinasi nilai dalam riwayat data yang sudah diketahui sebelumnya.
Pada algoritma ini, suatu fitur saling independen dengan fitur yang lain sehingga hasil perhitungan
probabilitasnya tidak akan terpengaruhi maupun mempengaruhi hasil probabiltas dari fitur yang lain.
2.4. Cross Validation
Cross Validation merupakan suatu metode evaluasi model dengan gagasan untuk tidak menggunakan
seluruh data ketika sedang melakukan training pada learner. Beberapa data dihilangkan sebelum training
dimulai. Kemudian setelah training selesai, data yang dihilangkan tersebut dapat digunakan untuk melakukan
pengujian (test) tingkat kebaikan dari learned model pada data yang “baru”.
3. Representasi Masalah
Diberikan sebuah file XML yang berisikan sejumlah artikel-artikel dengan empat macam bahasa yaitu
Inggris, Prancis, Indonesia, dan Spanyol. Dari file XML tersebut, ingin menguji algoritma machine learning
untuk mengidentifikasi suatu artikel menggunakan bahasa apa.
Langkah pertama yang dilakukan adalah melakukan ekstraksi kalimat dari tiap artikel yang ada pada file
XML tersebut. Untuk melakukannya, saya membuat suatu program ekstraktor kalimat dengan menggunakan
python. Algoritma dari program tersebut sangat sederhana. Pertama program mengambil nilai dari tiap node
dengan tag content. Kemudian lakukan stripping pada string content tersebut. Setelah itu pisahkan tiap
kalimat dan simpan ke dalam array. Tandai tiap kalimat dalam array tersebut dengan nama bahasa yang
digunakannya yaitu dengan cara mengambil nilai node dari tag bahasa dan meng-append-nya ke kalimat
tersebut. Setelah semuanya terkumpul, looping semua kalimat tersebut sambil meng-prepend-nya dengan
angka yang terus inkrementasi dan simpan ke dalam file Sentence.txt.
Setelah didapat, jalankan program FeatureGenerator.java yang sudah disedikan. Pilih fitur yang ingin di-
generate. Terdapat fitur n-gram dan boolean/frekuensi pada program tersebut. Setelah dijalankan, maka akan
membuat file Feature.txt yang berisi fitur dari artikel pada file XML tersebut.
Konversi file Feature.txt yang merupakan file csv ke dalam format arff dengan cara membukanya di
aplikasi Weka kemudian menyimpannya ke dalam bentuk arff. Terbentuklah file arff yang siap dijalankan
pada aplikasi Weka untuk melakukan classification.
4 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016)
Fig. 3. Alur proses ekstraksi fitur dari file Combination.xml hingga siap dijalankan pada aplikasi Weka
4. Uji Coba dan Analisis
4.1. Eksperimen 1
Eksperimen 1 melakukan uji coba terhadap ketiga algoritma machine learning di atas, yaitu decision tree,
neural network, dan naïve bayes dengan ekstraksi fitur berupa boolean 1-gram.
Berikut adalah hasil eksperimennya:
Fig. 4. Hasil eksperimen menggunakan Decision Tree
Mgs M Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) 5
Fig. 5. Hasil eksperimen menggunakan Naïve Bayes
6 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016)
Fig. 6. Hasil eksperimen menggunakan Neural Network
Dari hasil eksperimen tersebut, dapat dilihat decision tree dapat mengklasifikasi sekitar 74% dengan benar,
naïve bayes sekitar 84%, sedangkan neural network sekitar 72%. Dengan begitu, saya menyimpulkan bahwa
penggunaan naïve bayes lebih baik dibanding yang lain.
4.2. Eksperimen 2
Pada eksperimen 2 akan dibandingkan antara fitur boolean dengan fitur frekuensi menggunakan algoritma
terbaik pada eksperimen 1 yaitu naïve bayes.
Fig. 7. Hasil eksperimen menggunakan fitur frekuensi
Dibandingkan dengan fitur boolean pada fig. 5, penggunaan fitur frekuensi menghasilkan akurasi sekitar
84.4% sedangkan fitur boolean sekitar 83.7%. Dengan begitu, penggunaan fitur frekuensi di sini lebih baik
dibandingkan dengan fitur boolean.
4.3. Eksperimen 3
Pada eksperimen 3 akan dibandingkan antar tiap fitur n-gram menggunakan algoritma terbaik pada
eksperimen 1 yaitu naïve bayes serta fitur frekuensi pada eksperimen 2.
Mgs M Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) 7
Fig. 8. Perbandingan hasil eksperimen untuk tiap n-gram
Dari fig.8, dapat dilihat bahwa fitur 1-gram menghasilkan akurasi paling baik di antara yang lain. Nilai 1-
gram dapat memberikan yang terbaik karena dari satu kalimat hanya mengekstrak satu kata saja yang
kemudian akan dihitung tiap kemunculannya pada setiap artikel. Sedangkan jika n sudah melebihi satu, maka
akan menghitung frasa yang jika dicari kemunculannya pada tiap artikel akan sulit karena kemungkinan dua
atau lebih kata saling selalu berdampingan itu kecil.
4.4. Eksperimen 4
Pada eksperimen 4 akan dibandingkan antara penggunaa feature selection dengan menggunakan algoritma
terbaik pada eksperimen 1 yaitu naïve bayes serta fitur frekuensi 1-gram.
Fig. 9. Hasil eksperimen dengan menerapkan feature selection
Dalam eksperimen, saya menggunakan attribute selection dengan evaluator CsfSubsetEval dan search
menggunakan BestFirst. Hasilnya tidak lebih baik dengan yang tidak menggunakan feature selection.
4.5. Eksperimen 5
Pada eksperimen 5, melakukan uji coba dengan menggunakan data artikel yang dibuat sendiri. Data artikel
saya dapatkan dengan cara melakukan pencarian berita di Google dalam berbagai bahasa, kemudian menuju
berita lain yang direkomendasikan pada laman berita yang saya ambil hingga cukup mendapat 100 kalimat
untuk satu bahasa.
8 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016)
Setelah melakukan eksperimen, didapatkan hasil yang tanpa feature selection sebesar 88.9%, sedangkan
yang dengan feature selection sebesar 87.7% sehingga lebih baik yang tidak menggunakan feature selection.
Kesimpulan
Dari hasil eksperimen yang saya lakukan dapat disimpulkan kalau penggunaan algoritma naïve bayes
dengan fitur frekuensi 1-gram akan menghasilkan identifikasi bahasa yang cukup akurat dibandingkan dengan
algoritma decision tree, neural network, dan dengan fitur yang lainnya. Selain itu tanpa penggunaan feature
selection
References
Chen, Berlin. “Decision Tree Learning.” Department of Computer Science & Information Engineering National Taiwan Normal
University, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.711.8860&rep=rep1&type=pdf
Nielsen, Michael. “Using Neural Nets to Recognize Handwritten Digits.” Neural Networks and Deep Learning, Jan 2016,
http://neuralnetworksanddeeplearning.com/chap1.html.
Rouse, Margaret. “What is machine learning?” WhatIs.com, Feb. 2016, http://whatis.techtarget.com/definition/machine-learning.
Rusyanti, Hetty. “Pengertian Bahasa Menurut Ahli?” KajianTeori.com, 22 Mar. 2013, http://www.kajianteori.com/2013/03/pengertian-
bahasa-menurut-ahli.html.
Schneider, Jeff. “Cross Validation.” No Title, 7 Feb. 1997, https://www.cs.cmu.edu/~schneide/tut5/node42.html.
“Decision Trees.” scikit learn, 2016, http://scikit-learn.org/stable/modules/tree.html.
“Naïve Bayes.” Oracle Help Center, 2016, https://docs.oracle.com/cd/B28359_01/datamine.111/b28129/algo_nb.htm

Weitere ähnliche Inhalte

Andere mochten auch

Konsepkeperawatan powerpoin1 22
Konsepkeperawatan powerpoin1 22Konsepkeperawatan powerpoin1 22
Konsepkeperawatan powerpoin1 22fajartriantoni
 
Yosef Abdalsalam CV
Yosef Abdalsalam CVYosef Abdalsalam CV
Yosef Abdalsalam CVCVnew
 
Практические шаги к цифровому предприятию
Практические шаги к цифровому предприятиюПрактические шаги к цифровому предприятию
Практические шаги к цифровому предприятиюМаксим Смирнов
 
FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...
FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...
FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...soeswono
 
Penggunaan algoritma genetika kusumoputro dan irwanto
Penggunaan algoritma genetika kusumoputro dan irwantoPenggunaan algoritma genetika kusumoputro dan irwanto
Penggunaan algoritma genetika kusumoputro dan irwantosagitarius912
 
Creencias sobre empatía histórica en un docente de secundaria
Creencias sobre empatía histórica en un docente de secundariaCreencias sobre empatía histórica en un docente de secundaria
Creencias sobre empatía histórica en un docente de secundariaKatia Obando Velazco
 
CARTILE LUI DAN TIPURITA - GENETICA INGERILOR
CARTILE LUI DAN TIPURITA - GENETICA INGERILORCARTILE LUI DAN TIPURITA - GENETICA INGERILOR
CARTILE LUI DAN TIPURITA - GENETICA INGERILORIBGTV
 
Apa Itu Komunikasi??
Apa Itu Komunikasi??Apa Itu Komunikasi??
Apa Itu Komunikasi??tonen91
 
Definisi & konsep komunikasi
Definisi & konsep komunikasiDefinisi & konsep komunikasi
Definisi & konsep komunikasizasbaruden
 

Andere mochten auch (10)

Konsepkeperawatan powerpoin1 22
Konsepkeperawatan powerpoin1 22Konsepkeperawatan powerpoin1 22
Konsepkeperawatan powerpoin1 22
 
Identificadores graficos
Identificadores graficosIdentificadores graficos
Identificadores graficos
 
Yosef Abdalsalam CV
Yosef Abdalsalam CVYosef Abdalsalam CV
Yosef Abdalsalam CV
 
Практические шаги к цифровому предприятию
Практические шаги к цифровому предприятиюПрактические шаги к цифровому предприятию
Практические шаги к цифровому предприятию
 
FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...
FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...
FRANCHISE, MLM, ECO PRENEUR, TECHNO PRENEUR, CREATIVE PRENEUR DAN DIGITAL PRE...
 
Penggunaan algoritma genetika kusumoputro dan irwanto
Penggunaan algoritma genetika kusumoputro dan irwantoPenggunaan algoritma genetika kusumoputro dan irwanto
Penggunaan algoritma genetika kusumoputro dan irwanto
 
Creencias sobre empatía histórica en un docente de secundaria
Creencias sobre empatía histórica en un docente de secundariaCreencias sobre empatía histórica en un docente de secundaria
Creencias sobre empatía histórica en un docente de secundaria
 
CARTILE LUI DAN TIPURITA - GENETICA INGERILOR
CARTILE LUI DAN TIPURITA - GENETICA INGERILORCARTILE LUI DAN TIPURITA - GENETICA INGERILOR
CARTILE LUI DAN TIPURITA - GENETICA INGERILOR
 
Apa Itu Komunikasi??
Apa Itu Komunikasi??Apa Itu Komunikasi??
Apa Itu Komunikasi??
 
Definisi & konsep komunikasi
Definisi & konsep komunikasiDefinisi & konsep komunikasi
Definisi & konsep komunikasi
 

Ähnlich wie Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa

PRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptxPRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptxEdiSum1
 
Kecerdasan buatan
Kecerdasan buatanKecerdasan buatan
Kecerdasan buatancorcrash
 
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket JaringanOptimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket JaringanIgun
 
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...Namira Jasmine
 
Dw 7-intelijensi buatan
Dw 7-intelijensi buatanDw 7-intelijensi buatan
Dw 7-intelijensi buatanDian Sari
 
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803Alvian yudha Prawira
 
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESSISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESHaris Pramudia
 
Dasar Algoritma
Dasar Algoritma Dasar Algoritma
Dasar Algoritma casnadi
 
Chatbot with Sequence to Sequence
Chatbot with Sequence to SequenceChatbot with Sequence to Sequence
Chatbot with Sequence to SequenceRon Ashrovy
 
RPP PEMROGRAMAN DASAR GANJIL.pdf
RPP PEMROGRAMAN DASAR GANJIL.pdfRPP PEMROGRAMAN DASAR GANJIL.pdf
RPP PEMROGRAMAN DASAR GANJIL.pdfIndoAve1
 
perbandingan analisis data mining klasifikasi sentiment berita indonesia
perbandingan analisis data mining klasifikasi sentiment berita indonesiaperbandingan analisis data mining klasifikasi sentiment berita indonesia
perbandingan analisis data mining klasifikasi sentiment berita indonesiaBoyMorenaAllzytoroto
 
Artificial intelligence
Artificial intelligenceArtificial intelligence
Artificial intelligenceNico Nandika
 
Presentasi Seminar Proposal
Presentasi Seminar ProposalPresentasi Seminar Proposal
Presentasi Seminar ProposalDaryan Ramadhany
 

Ähnlich wie Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (20)

Seminar Proposal.pptx
Seminar Proposal.pptxSeminar Proposal.pptx
Seminar Proposal.pptx
 
Tugas sistem pakar
Tugas sistem pakarTugas sistem pakar
Tugas sistem pakar
 
PRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptxPRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptx
 
Kecerdasan buatan
Kecerdasan buatanKecerdasan buatan
Kecerdasan buatan
 
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket JaringanOptimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
 
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...
SIM, Namira Nur Jasmine, Hapzi Ali, Sistem Kecerdasan Buatan, Universitas Mer...
 
Dw 7-intelijensi buatan
Dw 7-intelijensi buatanDw 7-intelijensi buatan
Dw 7-intelijensi buatan
 
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
 
Perbedaan deep learn
Perbedaan deep learnPerbedaan deep learn
Perbedaan deep learn
 
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESSISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
 
Machine learning dan data mining
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data mining
 
Pengulangan dan Seleksi
Pengulangan dan SeleksiPengulangan dan Seleksi
Pengulangan dan Seleksi
 
Dasar Algoritma
Dasar Algoritma Dasar Algoritma
Dasar Algoritma
 
JURNAL
JURNALJURNAL
JURNAL
 
Chatbot with Sequence to Sequence
Chatbot with Sequence to SequenceChatbot with Sequence to Sequence
Chatbot with Sequence to Sequence
 
RPP PEMROGRAMAN DASAR GANJIL.pdf
RPP PEMROGRAMAN DASAR GANJIL.pdfRPP PEMROGRAMAN DASAR GANJIL.pdf
RPP PEMROGRAMAN DASAR GANJIL.pdf
 
perbandingan analisis data mining klasifikasi sentiment berita indonesia
perbandingan analisis data mining klasifikasi sentiment berita indonesiaperbandingan analisis data mining klasifikasi sentiment berita indonesia
perbandingan analisis data mining klasifikasi sentiment berita indonesia
 
Artificial intelligence
Artificial intelligenceArtificial intelligence
Artificial intelligence
 
Presentasi Seminar Proposal
Presentasi Seminar ProposalPresentasi Seminar Proposal
Presentasi Seminar Proposal
 
Apsi 2
Apsi 2Apsi 2
Apsi 2
 

Mehr von Thoyib Antarnusa

Praktikum Kimia - Uji Protein
Praktikum Kimia - Uji ProteinPraktikum Kimia - Uji Protein
Praktikum Kimia - Uji ProteinThoyib Antarnusa
 
6 Soal UN Bahasa Indonesia Beserta Pembahasan
6 Soal UN Bahasa Indonesia Beserta Pembahasan6 Soal UN Bahasa Indonesia Beserta Pembahasan
6 Soal UN Bahasa Indonesia Beserta PembahasanThoyib Antarnusa
 
Kumpulan Soal Kimia Kelas XII - Kimia Unsur
Kumpulan Soal Kimia Kelas XII - Kimia UnsurKumpulan Soal Kimia Kelas XII - Kimia Unsur
Kumpulan Soal Kimia Kelas XII - Kimia UnsurThoyib Antarnusa
 
Perang Dingin (Cold War) - Demokratis-Kapitalis vs. Komunis
Perang Dingin (Cold War) - Demokratis-Kapitalis vs. KomunisPerang Dingin (Cold War) - Demokratis-Kapitalis vs. Komunis
Perang Dingin (Cold War) - Demokratis-Kapitalis vs. KomunisThoyib Antarnusa
 
Nasionalisme Dunia Pada Akhir Perang Dunia II
Nasionalisme Dunia Pada Akhir Perang Dunia IINasionalisme Dunia Pada Akhir Perang Dunia II
Nasionalisme Dunia Pada Akhir Perang Dunia IIThoyib Antarnusa
 
Larutan Penyangga dan Hidrolisis Garam
Larutan Penyangga dan Hidrolisis GaramLarutan Penyangga dan Hidrolisis Garam
Larutan Penyangga dan Hidrolisis GaramThoyib Antarnusa
 

Mehr von Thoyib Antarnusa (7)

Praktikum Kimia - Uji Protein
Praktikum Kimia - Uji ProteinPraktikum Kimia - Uji Protein
Praktikum Kimia - Uji Protein
 
6 Soal UN Bahasa Indonesia Beserta Pembahasan
6 Soal UN Bahasa Indonesia Beserta Pembahasan6 Soal UN Bahasa Indonesia Beserta Pembahasan
6 Soal UN Bahasa Indonesia Beserta Pembahasan
 
Kumpulan Soal Kimia Kelas XII - Kimia Unsur
Kumpulan Soal Kimia Kelas XII - Kimia UnsurKumpulan Soal Kimia Kelas XII - Kimia Unsur
Kumpulan Soal Kimia Kelas XII - Kimia Unsur
 
Perang Dingin (Cold War) - Demokratis-Kapitalis vs. Komunis
Perang Dingin (Cold War) - Demokratis-Kapitalis vs. KomunisPerang Dingin (Cold War) - Demokratis-Kapitalis vs. Komunis
Perang Dingin (Cold War) - Demokratis-Kapitalis vs. Komunis
 
Nasionalisme Dunia Pada Akhir Perang Dunia II
Nasionalisme Dunia Pada Akhir Perang Dunia IINasionalisme Dunia Pada Akhir Perang Dunia II
Nasionalisme Dunia Pada Akhir Perang Dunia II
 
Larutan Penyangga dan Hidrolisis Garam
Larutan Penyangga dan Hidrolisis GaramLarutan Penyangga dan Hidrolisis Garam
Larutan Penyangga dan Hidrolisis Garam
 
Kesetimbangan Kimia
Kesetimbangan KimiaKesetimbangan Kimia
Kesetimbangan Kimia
 

Kürzlich hochgeladen

CASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptx
CASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptxCASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptx
CASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptxresidentcardio13usk
 
R6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptx
R6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptxR6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptx
R6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptxmagfira271100
 
LKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipa
LKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipaLKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipa
LKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipaBtsDaily
 
TEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptx
TEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptxTEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptx
TEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptxSyabilAfandi
 
Modul ajar IPAS Kls 4 materi wujud benda dan perubahannya
Modul ajar IPAS Kls 4 materi wujud benda dan perubahannyaModul ajar IPAS Kls 4 materi wujud benda dan perubahannya
Modul ajar IPAS Kls 4 materi wujud benda dan perubahannyaAnggrianiTulle
 
Materi Makna alinea pembukaaan UUD .pptx
Materi Makna alinea pembukaaan UUD .pptxMateri Makna alinea pembukaaan UUD .pptx
Materi Makna alinea pembukaaan UUD .pptxIKLASSENJAYA
 
Dampak Bioteknologi di Bidang Pertanian.pdf
Dampak Bioteknologi di Bidang Pertanian.pdfDampak Bioteknologi di Bidang Pertanian.pdf
Dampak Bioteknologi di Bidang Pertanian.pdfssuser4743df
 
Sistem Bilangan Riil (Pertidaksamaan linier)
Sistem Bilangan Riil (Pertidaksamaan linier)Sistem Bilangan Riil (Pertidaksamaan linier)
Sistem Bilangan Riil (Pertidaksamaan linier)ratnawijayanti31
 
materi+kuliah-ko2-senyawa+aldehid+dan+keton.pdf
materi+kuliah-ko2-senyawa+aldehid+dan+keton.pdfmateri+kuliah-ko2-senyawa+aldehid+dan+keton.pdf
materi+kuliah-ko2-senyawa+aldehid+dan+keton.pdfkaramitha
 
Konsep Agribisnis adalah suatu kesatuan kegiatan meliputi salah satu atau ...
Konsep	Agribisnis	adalah	suatu	kesatuan	kegiatan  meliputi		salah	satu	atau		...Konsep	Agribisnis	adalah	suatu	kesatuan	kegiatan  meliputi		salah	satu	atau		...
Konsep Agribisnis adalah suatu kesatuan kegiatan meliputi salah satu atau ...laila16682
 
kekeruhan tss, kecerahan warna sgh pada laboratprium
kekeruhan tss, kecerahan warna sgh pada laboratpriumkekeruhan tss, kecerahan warna sgh pada laboratprium
kekeruhan tss, kecerahan warna sgh pada laboratpriumfebrie2
 

Kürzlich hochgeladen (11)

CASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptx
CASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptxCASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptx
CASE REPORT ACUTE DECOMPENSATED HEART FAILURE 31 Desember 23.pptx
 
R6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptx
R6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptxR6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptx
R6C-Kelompok 2-Sistem Rangka Pada Amphibi dan Aves.pptx
 
LKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipa
LKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipaLKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipa
LKPD SUHU dan KALOR KEL4.pdf strategi pembelajaran ipa
 
TEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptx
TEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptxTEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptx
TEMA 9 SUBTEMA 1 PEMBELAJARAN 1 KELAS 6.pptx
 
Modul ajar IPAS Kls 4 materi wujud benda dan perubahannya
Modul ajar IPAS Kls 4 materi wujud benda dan perubahannyaModul ajar IPAS Kls 4 materi wujud benda dan perubahannya
Modul ajar IPAS Kls 4 materi wujud benda dan perubahannya
 
Materi Makna alinea pembukaaan UUD .pptx
Materi Makna alinea pembukaaan UUD .pptxMateri Makna alinea pembukaaan UUD .pptx
Materi Makna alinea pembukaaan UUD .pptx
 
Dampak Bioteknologi di Bidang Pertanian.pdf
Dampak Bioteknologi di Bidang Pertanian.pdfDampak Bioteknologi di Bidang Pertanian.pdf
Dampak Bioteknologi di Bidang Pertanian.pdf
 
Sistem Bilangan Riil (Pertidaksamaan linier)
Sistem Bilangan Riil (Pertidaksamaan linier)Sistem Bilangan Riil (Pertidaksamaan linier)
Sistem Bilangan Riil (Pertidaksamaan linier)
 
materi+kuliah-ko2-senyawa+aldehid+dan+keton.pdf
materi+kuliah-ko2-senyawa+aldehid+dan+keton.pdfmateri+kuliah-ko2-senyawa+aldehid+dan+keton.pdf
materi+kuliah-ko2-senyawa+aldehid+dan+keton.pdf
 
Konsep Agribisnis adalah suatu kesatuan kegiatan meliputi salah satu atau ...
Konsep	Agribisnis	adalah	suatu	kesatuan	kegiatan  meliputi		salah	satu	atau		...Konsep	Agribisnis	adalah	suatu	kesatuan	kegiatan  meliputi		salah	satu	atau		...
Konsep Agribisnis adalah suatu kesatuan kegiatan meliputi salah satu atau ...
 
kekeruhan tss, kecerahan warna sgh pada laboratprium
kekeruhan tss, kecerahan warna sgh pada laboratpriumkekeruhan tss, kecerahan warna sgh pada laboratprium
kekeruhan tss, kecerahan warna sgh pada laboratprium
 

Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa

  • 1. Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa Mgs. Muhammad Thoyib Antarnusa1 1 NPM: 1406577392. Fakultas Ilmu Komputer, Universitas Indonesia. Abstract Machine learning merupakan suatu tipe kecerdasan buatan yang memberikan komputer suatu kemampuan untuk belajar. Machine learning fokus pada pengembangan program yang dapat mengajarkan dirinya sendiri untuk berkembang dan berubah ketika menemui data baru. Dengan memanfaatkan machine learning, program dapat mengidentifikasi suatu kata termasuk ke dalam bahasa apa. Terdapat beberapa algoritma yang dapat digunakan dalam machine learning. Perbandingan ini akan melakukan percobaan terhadap algoritma decision tree, neural network, dan naïve bayes untuk melihat algoritma mana yang dapat melakukan identifikasi bahasa yang paling akurat. Hasil akhirnya diketahui bahwa naïve bayes melakukan identifikasi yang paling baik dibandingkan dengan kedua algoritma lain. Kata kunci: classification, identifikasi, bahasa, machine learning, decision tree, neural network, naïve bayes 1. Pendahuluan Bahasa menurut Harun Rasyid, Mansyur & Suratno (2009: 126) merupakan struktur dan makna yang bebas dari penggunanya, sebagai tanda yang menyimpulkan suatu tujuan. Machine learning, dalam hal ini, akan mencoba untuk mengidentifikasi berbagai artikel dan mengelompokkan tiap kata-kata yang ada dalam artikel tersebut ke dalam bahasa apa. Terdapat beberapa algoritma machine learning yang dapat dilakukan untuk melakukan klasifikasi tersebut. Dalam percobaan ini, akan diuji perbandingan keberhasilan antara algoritma decision tree, neural network, serta naïve bayes dalam mengidentifikasi suatu artikel masuk ke dalam bahasa apa. 2. Latar Belakang Terdapat tiga algoritma yang akan diuji dalam percobaan berikut yaitu decision tree, neural network, dan naïve bayes. 2.1. Decision Tree Decision Tree adalah suatu metode learning yang supervised yang digunakan untuk classification dan regression. Decision Tree membuat suatu model yang memprediksi nilai dari suatu target peubah dengan cara mempelajari aturan decision sederhana yang di-infer dari fitur-fitur data. Algoritma ini menggunakan decision tree sebagai representasinya dengan setiap internal node menguji suatu atribut, setiap branch berkorespondensi dengan nilai atribut, dan setiap leaf node sebagai label klasifikasinya.
  • 2. 2 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) Fig. 1. Decision Tree 2.2. Neural Network Neural Network terinspirasi pada jaringan otak manusia yang saling terhubung antara satu neuron dengan yang lain. Pada neural network, neuron direpresentasikan menjadi suatu unit yang disebut dengan perceptron. Perceptron akan mengambil beberapa input biner yang kemudian akan menghasilkan sebuah output biner. Fig. 2. Perceptron Dengan menggunakan perceptron untuk membuat sebuah output, maka dapat dibuat suatu representasi jaringan otak manusia yang menghubungkan banyak perceptron untuk melakukan proses berbagai macam input dan menghasilkan suatu output.
  • 3. Mgs M Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) 3 Fig. 3. Neural Network Pada jaringan yang ditunjukkan pada fig. 3, kolom perceptron pertama membuat tiga keputusan sederhana dengan menghitung weight dari bukti input. Perceptron pada layer kedua membuat keputusan dengan menghitung weight hail dari output pada layer pertama. Dengan begitu, perceptron pada layer kedua dapat membuat keputusan yang lebih kompleks dan abstrak dibandingkan layer pertama. Demikian pula dengan layer ketiga yang akan membuat keputusan lebih kompleks lagi sehingga perceptron dapat membuat suatu keputusan yang dapat dikatakan tepat. 2.3. Naïve Bayes Algoritma Naïve Bayes berdasarkan dari conditional probabilities. Naïve Bayes menggunakan teorema Bayes, suatu rumus yang melakukan kalkulasi probabilitas dengan menghitung banyak kemunculan suatu nilan dan kombinasi nilai dalam riwayat data yang sudah diketahui sebelumnya. Pada algoritma ini, suatu fitur saling independen dengan fitur yang lain sehingga hasil perhitungan probabilitasnya tidak akan terpengaruhi maupun mempengaruhi hasil probabiltas dari fitur yang lain. 2.4. Cross Validation Cross Validation merupakan suatu metode evaluasi model dengan gagasan untuk tidak menggunakan seluruh data ketika sedang melakukan training pada learner. Beberapa data dihilangkan sebelum training dimulai. Kemudian setelah training selesai, data yang dihilangkan tersebut dapat digunakan untuk melakukan pengujian (test) tingkat kebaikan dari learned model pada data yang “baru”. 3. Representasi Masalah Diberikan sebuah file XML yang berisikan sejumlah artikel-artikel dengan empat macam bahasa yaitu Inggris, Prancis, Indonesia, dan Spanyol. Dari file XML tersebut, ingin menguji algoritma machine learning untuk mengidentifikasi suatu artikel menggunakan bahasa apa. Langkah pertama yang dilakukan adalah melakukan ekstraksi kalimat dari tiap artikel yang ada pada file XML tersebut. Untuk melakukannya, saya membuat suatu program ekstraktor kalimat dengan menggunakan python. Algoritma dari program tersebut sangat sederhana. Pertama program mengambil nilai dari tiap node dengan tag content. Kemudian lakukan stripping pada string content tersebut. Setelah itu pisahkan tiap kalimat dan simpan ke dalam array. Tandai tiap kalimat dalam array tersebut dengan nama bahasa yang digunakannya yaitu dengan cara mengambil nilai node dari tag bahasa dan meng-append-nya ke kalimat tersebut. Setelah semuanya terkumpul, looping semua kalimat tersebut sambil meng-prepend-nya dengan angka yang terus inkrementasi dan simpan ke dalam file Sentence.txt. Setelah didapat, jalankan program FeatureGenerator.java yang sudah disedikan. Pilih fitur yang ingin di- generate. Terdapat fitur n-gram dan boolean/frekuensi pada program tersebut. Setelah dijalankan, maka akan membuat file Feature.txt yang berisi fitur dari artikel pada file XML tersebut. Konversi file Feature.txt yang merupakan file csv ke dalam format arff dengan cara membukanya di aplikasi Weka kemudian menyimpannya ke dalam bentuk arff. Terbentuklah file arff yang siap dijalankan pada aplikasi Weka untuk melakukan classification.
  • 4. 4 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) Fig. 3. Alur proses ekstraksi fitur dari file Combination.xml hingga siap dijalankan pada aplikasi Weka 4. Uji Coba dan Analisis 4.1. Eksperimen 1 Eksperimen 1 melakukan uji coba terhadap ketiga algoritma machine learning di atas, yaitu decision tree, neural network, dan naïve bayes dengan ekstraksi fitur berupa boolean 1-gram. Berikut adalah hasil eksperimennya: Fig. 4. Hasil eksperimen menggunakan Decision Tree
  • 5. Mgs M Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) 5 Fig. 5. Hasil eksperimen menggunakan Naïve Bayes
  • 6. 6 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) Fig. 6. Hasil eksperimen menggunakan Neural Network Dari hasil eksperimen tersebut, dapat dilihat decision tree dapat mengklasifikasi sekitar 74% dengan benar, naïve bayes sekitar 84%, sedangkan neural network sekitar 72%. Dengan begitu, saya menyimpulkan bahwa penggunaan naïve bayes lebih baik dibanding yang lain. 4.2. Eksperimen 2 Pada eksperimen 2 akan dibandingkan antara fitur boolean dengan fitur frekuensi menggunakan algoritma terbaik pada eksperimen 1 yaitu naïve bayes. Fig. 7. Hasil eksperimen menggunakan fitur frekuensi Dibandingkan dengan fitur boolean pada fig. 5, penggunaan fitur frekuensi menghasilkan akurasi sekitar 84.4% sedangkan fitur boolean sekitar 83.7%. Dengan begitu, penggunaan fitur frekuensi di sini lebih baik dibandingkan dengan fitur boolean. 4.3. Eksperimen 3 Pada eksperimen 3 akan dibandingkan antar tiap fitur n-gram menggunakan algoritma terbaik pada eksperimen 1 yaitu naïve bayes serta fitur frekuensi pada eksperimen 2.
  • 7. Mgs M Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) 7 Fig. 8. Perbandingan hasil eksperimen untuk tiap n-gram Dari fig.8, dapat dilihat bahwa fitur 1-gram menghasilkan akurasi paling baik di antara yang lain. Nilai 1- gram dapat memberikan yang terbaik karena dari satu kalimat hanya mengekstrak satu kata saja yang kemudian akan dihitung tiap kemunculannya pada setiap artikel. Sedangkan jika n sudah melebihi satu, maka akan menghitung frasa yang jika dicari kemunculannya pada tiap artikel akan sulit karena kemungkinan dua atau lebih kata saling selalu berdampingan itu kecil. 4.4. Eksperimen 4 Pada eksperimen 4 akan dibandingkan antara penggunaa feature selection dengan menggunakan algoritma terbaik pada eksperimen 1 yaitu naïve bayes serta fitur frekuensi 1-gram. Fig. 9. Hasil eksperimen dengan menerapkan feature selection Dalam eksperimen, saya menggunakan attribute selection dengan evaluator CsfSubsetEval dan search menggunakan BestFirst. Hasilnya tidak lebih baik dengan yang tidak menggunakan feature selection. 4.5. Eksperimen 5 Pada eksperimen 5, melakukan uji coba dengan menggunakan data artikel yang dibuat sendiri. Data artikel saya dapatkan dengan cara melakukan pencarian berita di Google dalam berbagai bahasa, kemudian menuju berita lain yang direkomendasikan pada laman berita yang saya ambil hingga cukup mendapat 100 kalimat untuk satu bahasa.
  • 8. 8 Mgs. M. Thoyib Antarnusa / Perbandingan Teknik Classification Machine Learning dalam Melakukan Identifikasi Bahasa (2016) Setelah melakukan eksperimen, didapatkan hasil yang tanpa feature selection sebesar 88.9%, sedangkan yang dengan feature selection sebesar 87.7% sehingga lebih baik yang tidak menggunakan feature selection. Kesimpulan Dari hasil eksperimen yang saya lakukan dapat disimpulkan kalau penggunaan algoritma naïve bayes dengan fitur frekuensi 1-gram akan menghasilkan identifikasi bahasa yang cukup akurat dibandingkan dengan algoritma decision tree, neural network, dan dengan fitur yang lainnya. Selain itu tanpa penggunaan feature selection References Chen, Berlin. “Decision Tree Learning.” Department of Computer Science & Information Engineering National Taiwan Normal University, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.711.8860&rep=rep1&type=pdf Nielsen, Michael. “Using Neural Nets to Recognize Handwritten Digits.” Neural Networks and Deep Learning, Jan 2016, http://neuralnetworksanddeeplearning.com/chap1.html. Rouse, Margaret. “What is machine learning?” WhatIs.com, Feb. 2016, http://whatis.techtarget.com/definition/machine-learning. Rusyanti, Hetty. “Pengertian Bahasa Menurut Ahli?” KajianTeori.com, 22 Mar. 2013, http://www.kajianteori.com/2013/03/pengertian- bahasa-menurut-ahli.html. Schneider, Jeff. “Cross Validation.” No Title, 7 Feb. 1997, https://www.cs.cmu.edu/~schneide/tut5/node42.html. “Decision Trees.” scikit learn, 2016, http://scikit-learn.org/stable/modules/tree.html. “Naïve Bayes.” Oracle Help Center, 2016, https://docs.oracle.com/cd/B28359_01/datamine.111/b28129/algo_nb.htm