1. SISTEM PENGELOMPOKAN ENTITAS PADA
PESAN TWITTER MENGGUNAKAN EKSPRESI
REGULAR DAN NAÏVE BAYES
Oleh:
Ahmad Thoriq Abdul Aziz (G64090008)
Pembimbing:
Ahmad Ridha, SKom, MS
Departemen Ilmu Komputer
Institut Pertanian Bogor
2013
2. Latar Belakang
Penggunaan media sosial sebagai sarana komunikasi
yang kian meningkat.
Contoh: twitter, facebook, linked in, youtube.
Keingintahuan untuk menangkap dan
mengelompokan informasi yang beredar di media
social terutama twitter.
2
3. Tujuan
Ekstraksi Entitas (Mengetahui
entitas apa yang sedang
dibicarakan di media sosial).
Ex: Indosat, Telkomsel, dsb.
Analisis Sentimen (Mengetahui
persepsi dari suatu entitas di
media sosial).
3
4. Metode Penelitian
4
Penggantian dengan
Kata Baku.
Penghilangan
Karakter Berulang.
Step 3
Normalisasi Teks
Mengetahui entitas
yang sedang
dibicarakan di Twitter.
Menggunakan
Ekspresi Regular.
Step 2
Ekstraksi Entitas
Data berasal dari
media sosial di
internet (twitter).
Data yang sudah
terklasifikasi.
Step 1
Pengumpulan Data
Next
5. Metode Penelitian (lanjutan)
5
Evaluasi hasil
klasifikasi Naïve
Bayes.
Step 6
Evaluasi
Metode
klasifikasi
dokumen
berbentuk teks.
Step 5
Klasifikasi Naïve
Bayes
Evaluasi hasil
normalisasi teks.
Pengambilan
sampel.
Step 4
Evaluasi
Previous
6. Hasil dan Pembahasan
• Data tweet sudah terklasifikasi terdiri 56 atribut.
• Pengambilan atribut tertentu : id, tone, keyword, post_message,
author_screen_name, customer_alias, customer_name
• Pembuatan Kamus Produk (Keyword) : 131 data
• Konkatenasi antara pengguna twitter (author_screen_name) dan
tweet (post_message)
Contoh kasus
Post_message : RT @sabrinabadawi: Now singing what makes you beautiful
with Umar while Izzah tgah cerita dekat pakcik makcik fasal kahwin dia .
Author_screen_name : firdaus_yaris
6
7. Hasil dan Pembahasan
• Kasus 1 : agree, career, ttwa, ttng, ttd, mmg.
• Kasus 2 : prncanaan, diizinin.
• Pengambilan 1000 sampel secara acak
• Evaluasi secara manual
• Hasil akurasi : 89.9% (899 dari 1000 sampel)
Penggantian dengan Kata
Baku
Penghilangan
Karakter Berulang
Penggantian dengan Kata
Baku
7
8. Hasil dan Pembahasan
• Pembagian data latih dan data uji -> 3:1
• Total data latih 41 574, data uji 12 045
Model Multinomial
• Perhitungan peluang menggunakan frekuensi kemunculan kata
• Total data latih kelas positif 3795, kelas negatif 1651, kelas netral 69
004
• Total Vocab 81 111
Model Bernoulli
• Menggunakan jumlah dokumen
8
9. Hasil dan Pembahasan
9
Positif Negatif Netral
Positif 340 2 97
Negatif 27 17 88
Netral 113 7 11354
Positif Negatif Netral
Positif 333 106 0
Negatif 2 130 0
Netral 146 8055 3273
Dugaan
Hasil
Tabel Confusion Matrix Model Multinomial
• Total hasil klasifikasi yang salah
sebesar 334 dari 12 045
• Tingkat akurasi 97.23 %
Dugaan
Hasil
• Total hasil klasifikasi yang salah
sebesar 8309 dari 12 045
• Tingkat akurasi 31.02 %
Tabel Confusion Matrix Model Bernoulli
10. Simpulan & Saran
Simpulan
• Ekspresi Regular sangat cocok untuk proses ekstraksi entitas karena dapat
menangkap beragam bahasa dengan menggunakan pola.
• Proses normalisasi teks menggunakan fungsi penggantian kata baku menghasilkan
akurasi yang cukup baik, yaitu sebesar 89.9 % (899 dari 1000 sampel data). Selain
itu, proses normalisasi teks dengan penggantian kata baku ini juga membutuhkan
waktu yang lebih cepat dibandingkan dengan menggunakan fungsi jarak
levenshtein.
• Sistem pengklasifikasian tweet menggunakan Naïve Bayes model multinomial
memberikan hasil yang sangat baik pada dokumen yang pendek seperti tweet. Hal
ini terlihat dari akurasi yang didapatkan, yakni sebesar 97.23 %.
Saran
• Pada tahap normalisasi teks masih terdapat kesalahan pada beberapa kata,
sehingga patut dicoba menggunakan metode normalisasi teks yang lain.
• Proses klasifikasi tweet menggunakan Naïve Bayes tentu akan menghasilkan
tingkat akurasi yang lebih besar jika data yang digunakan semakin besar. Sebab,
kesalahan pengklasifikasian ini bisa saja terjadi akibat sedikitnya jumlah data
latih sehingga belum cukup untuk menentukan penciri dari suatu kelas.
10
Editor's Notes
Situsjejaring social adalahpelayananberbasis web yang memungkinkanindidviduuntukmembangunprofil public atau semi public didalamsuatu system yang terbatas, menghubungkan para pengguna yang terdaftardalamhubungansalingberbagi, sertamelihatdanmelintasihubungan-hubungan yang dibuatoleh system. (Boyd dan Ellison 2007)BerdasarkanpenelitianSemiocast, lembagariset media social yang berpusat di Paris, Prancis, jumlahpemilikakun twitter yang berasaldari Indonesia sebelumtgl 1 januari 2012 menempatiurutankelima di duniadenganjumlah 19,5 juta.