SlideShare a Scribd company logo
1 of 10
Download to read offline
Perbandingan distribusi frekuensi
kata bahasa Indonesia di Kompas,
Wikipedia, Twitter, dan Kaskus
Ivan Lanin, Jim Geovedi, Wicak Soegijoko
Ardwort, http://ardwort.com
Latar belakang
• Apa kata yang paling sering dipakai dalam
bahasa Indonesia?
• Berapa jumlah huruf per kata yang paling
sering dipakai dalam bahasa Indonesia?
• Apakah ragam bahasa menentukan pemilihan
kata?
• Bagaimana pola distribusi frekuensi
penggunaan kata?
2
Sumber data
Korpus Sumber data Jumlah
kata unik
Jumlah
kata total
Kompas
(media massa)
Diambil pada bulan Januari tahun 2013
untuk artikel berita berbahasa Indonesia
daring tahun 2012
343.532 32.724.503
Wikipedia
(ensiklopedia)
Diambil dari salinan Wikipedia bahasa
Indonesia bulan Januari tahun 2013
936.288 43.545.242
Twitter
(mikroblog)
Diambil pada bulan Januari tahun 2013
untuk percakapan bulan Oktober-Desember
2012 oleh pengguna Twitter yang berlokasi
di Indonesia
798.078 34.769.573
Kaskus
(forum)
Diambil pada bulan Januari tahun 2013 dan
dari 1000 utas (thread) terakhir sub-forum
The Lounge
761.795 109.292.156
3
Metodologi
Scraping
(Kompas, Kaskus)
Ekstrasi XML
(Wikipedia)
Kueri API (Twitter)
Pengambilan
Kode HTML
URL
Pola acu
Tanda baca
Pembersihan
Python
NLTK
NumPy
SciPy
Ramisch (2012): f
= Cw(•) / N
Zipf (1932): f = k/r
Pengolahan
4
Peringkat frekuensi kemunculan *
# Kompas Wikipedia Twitter Kaskus
1 yang yang di gan
2 di dan yg ane
3 dan di ya di
4 ini pada aku yang
5 itu dari yang yg
6 dengan dengan ini ya
7 untuk ini itu ada
8 dari adalah ada itu
9 dalam dalam d tuh
10 akan untuk aja aja
# Kompas Wikipedia Twitter Kaskus
11 pada kategori ga bisa
12 tidak tahun dan juga
13 juga sebagai gak kalo
14 ke oleh i keren
15 tersebut indonesia mau ga
16 ada ke ke banget
17 bisa the udah nya
18 saat ia lagi wah
19 jakarta tidak kalo nih
20 tahun menjadi the jadi
5
* Data lengkap: https://github.com/ardwort/freq-dist-id
Analisis frekuensi kemunculan
Kompas Wikipedia Twitter Kaskus
• akan (#10): hal-hal di
masa depan
• Jakarta (#19):
tempat
• tahun (#20): waktu
• adalah (#8):
deskriptif
• the (#17): nama diri
• kategori (#11):
kategorisasi artikel
• aku (#4); mau (#15):
subjektif
• yg (#2); d (#9); ga
(#11): pemendekan
• aja (#10); gak (#13);
udah (#17); kalo
(#19): percakapan
• i (#14): campur kode
atau alih kode
• gan (#1); ane (#2):
pronomina persona
khas komunitas
• yg (#5); ga (#15):
pemendekan
• kalo (#13); banget
(#16): percakapan
• tuh (#9); wah (#18);
nih (#19), keren
(#14): ekspresif
• nya (#17): partikel
6
Distribusi frekuensi kemunculan
Hukum Zipf:
f = k/r
7
Perbandingan frekuensi kemunculan
• Perbandingan: Tala
(2003)
• yang dan di: empat
korpus
• ada, dan, ini, itu, dan ke:
tiga korpus
8
Distribusi jumlah huruf per kata
• Distribusi Gauss condong
ke kiri (kata pendek)
• Kompas: 5 huruf
• Wikipedia: 4 huruf
• Twitter: 4 huruf
• Kaskus: 3 huruf
• Dorongan meminimalkan
waktu & upaya
(Piantadosi, 2011)
9
Kesimpulan dan pengembangan
• Kesimpulan:
– Kata yang tersering dipakai umumnya merupakan partikel
– Jumlah huruf per kata yang paling sering dipakai antara 3‌–5
– Ragam bahasa menentukan pemilihan kata
– Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikuti
hukum Zipf
• Penyempurnaan
– Pengenalan nama diri (named-entity recognition)
– Penandaan kata hentian (stopwords)
• Pengembangan:
– Kamus kata bahasa Indonesia sederhana berdasarkan kata yang paling
sering muncul dalam berbagai korpus
– Kamus variasi ejaan (atau salah eja) kata
– Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal)
10

More Related Content

More from Jim Geovedi

IDS & Log Management
IDS & Log ManagementIDS & Log Management
IDS & Log ManagementJim Geovedi
 
Satellite Telephony Security
Satellite Telephony SecuritySatellite Telephony Security
Satellite Telephony SecurityJim Geovedi
 
Hacking a Bird in the Sky: The Revenge of Angry Birds
Hacking a Bird in the Sky: The Revenge of Angry BirdsHacking a Bird in the Sky: The Revenge of Angry Birds
Hacking a Bird in the Sky: The Revenge of Angry BirdsJim Geovedi
 
Warezzman - DVB-Satellite Hacking
Warezzman - DVB-Satellite HackingWarezzman - DVB-Satellite Hacking
Warezzman - DVB-Satellite HackingJim Geovedi
 
Adam Laurie - $atellite Hacking for Fun & Pr0fit!
Adam Laurie - $atellite Hacking for Fun & Pr0fit!Adam Laurie - $atellite Hacking for Fun & Pr0fit!
Adam Laurie - $atellite Hacking for Fun & Pr0fit!Jim Geovedi
 
Leonardo Nve Egea - Playing in a Satellite Environment 1.2
Leonardo Nve Egea - Playing in a Satellite Environment 1.2Leonardo Nve Egea - Playing in a Satellite Environment 1.2
Leonardo Nve Egea - Playing in a Satellite Environment 1.2Jim Geovedi
 
Is Cyber-offence the New Cyber-defence?
Is Cyber-offence the New Cyber-defence?Is Cyber-offence the New Cyber-defence?
Is Cyber-offence the New Cyber-defence?Jim Geovedi
 
The 21st Century Bank Job
The 21st Century Bank JobThe 21st Century Bank Job
The 21st Century Bank JobJim Geovedi
 
Cloud Security - Security Aspects of Cloud Computing
Cloud Security - Security Aspects of Cloud ComputingCloud Security - Security Aspects of Cloud Computing
Cloud Security - Security Aspects of Cloud ComputingJim Geovedi
 
Hacking Satellite: A New Universe to Discover
Hacking Satellite: A New Universe to DiscoverHacking Satellite: A New Universe to Discover
Hacking Satellite: A New Universe to DiscoverJim Geovedi
 
Hacking a Bird in the Sky: Exploiting Satellite Trust Relationship
Hacking a Bird in the Sky: Exploiting Satellite Trust RelationshipHacking a Bird in the Sky: Exploiting Satellite Trust Relationship
Hacking a Bird in the Sky: Exploiting Satellite Trust RelationshipJim Geovedi
 
Hacking a Bird in the Sky: Hijacking VSAT Connection
Hacking a Bird in the Sky: Hijacking VSAT ConnectionHacking a Bird in the Sky: Hijacking VSAT Connection
Hacking a Bird in the Sky: Hijacking VSAT ConnectionJim Geovedi
 
Hacking Cracking 2008
Hacking Cracking 2008Hacking Cracking 2008
Hacking Cracking 2008Jim Geovedi
 
Wireless Hotspot Security
Wireless Hotspot SecurityWireless Hotspot Security
Wireless Hotspot SecurityJim Geovedi
 
Wireless Hotspot: The Hackers Playground
Wireless Hotspot: The Hackers PlaygroundWireless Hotspot: The Hackers Playground
Wireless Hotspot: The Hackers PlaygroundJim Geovedi
 

More from Jim Geovedi (16)

IDS & Log Management
IDS & Log ManagementIDS & Log Management
IDS & Log Management
 
Satellite Telephony Security
Satellite Telephony SecuritySatellite Telephony Security
Satellite Telephony Security
 
Hacking a Bird in the Sky: The Revenge of Angry Birds
Hacking a Bird in the Sky: The Revenge of Angry BirdsHacking a Bird in the Sky: The Revenge of Angry Birds
Hacking a Bird in the Sky: The Revenge of Angry Birds
 
Warezzman - DVB-Satellite Hacking
Warezzman - DVB-Satellite HackingWarezzman - DVB-Satellite Hacking
Warezzman - DVB-Satellite Hacking
 
Adam Laurie - $atellite Hacking for Fun & Pr0fit!
Adam Laurie - $atellite Hacking for Fun & Pr0fit!Adam Laurie - $atellite Hacking for Fun & Pr0fit!
Adam Laurie - $atellite Hacking for Fun & Pr0fit!
 
Leonardo Nve Egea - Playing in a Satellite Environment 1.2
Leonardo Nve Egea - Playing in a Satellite Environment 1.2Leonardo Nve Egea - Playing in a Satellite Environment 1.2
Leonardo Nve Egea - Playing in a Satellite Environment 1.2
 
Is Cyber-offence the New Cyber-defence?
Is Cyber-offence the New Cyber-defence?Is Cyber-offence the New Cyber-defence?
Is Cyber-offence the New Cyber-defence?
 
The 21st Century Bank Job
The 21st Century Bank JobThe 21st Century Bank Job
The 21st Century Bank Job
 
Cloud Security - Security Aspects of Cloud Computing
Cloud Security - Security Aspects of Cloud ComputingCloud Security - Security Aspects of Cloud Computing
Cloud Security - Security Aspects of Cloud Computing
 
Hacking Satellite: A New Universe to Discover
Hacking Satellite: A New Universe to DiscoverHacking Satellite: A New Universe to Discover
Hacking Satellite: A New Universe to Discover
 
Hacking a Bird in the Sky: Exploiting Satellite Trust Relationship
Hacking a Bird in the Sky: Exploiting Satellite Trust RelationshipHacking a Bird in the Sky: Exploiting Satellite Trust Relationship
Hacking a Bird in the Sky: Exploiting Satellite Trust Relationship
 
Hacking a Bird in the Sky: Hijacking VSAT Connection
Hacking a Bird in the Sky: Hijacking VSAT ConnectionHacking a Bird in the Sky: Hijacking VSAT Connection
Hacking a Bird in the Sky: Hijacking VSAT Connection
 
Hacking Cracking 2008
Hacking Cracking 2008Hacking Cracking 2008
Hacking Cracking 2008
 
Wireless Hotspot Security
Wireless Hotspot SecurityWireless Hotspot Security
Wireless Hotspot Security
 
Wireless Hotspot: The Hackers Playground
Wireless Hotspot: The Hackers PlaygroundWireless Hotspot: The Hackers Playground
Wireless Hotspot: The Hackers Playground
 
Hacking Trust
Hacking TrustHacking Trust
Hacking Trust
 

Recently uploaded

Teknik Menjawab Kertas P.Moral SPM 2024.pptx
Teknik Menjawab Kertas P.Moral SPM  2024.pptxTeknik Menjawab Kertas P.Moral SPM  2024.pptx
Teknik Menjawab Kertas P.Moral SPM 2024.pptxwongcp2
 
Soal accurate terbaru untuk mahasiswa ya
Soal accurate terbaru untuk mahasiswa yaSoal accurate terbaru untuk mahasiswa ya
Soal accurate terbaru untuk mahasiswa yaMonaAmelia
 
Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 Tesalonika
Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 TesalonikaMateri Kelas Online Ministry Learning Center - Bedah Kitab 1 Tesalonika
Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 TesalonikaSABDA
 
materi pembelajaran tentang INTERNET.ppt
materi pembelajaran tentang INTERNET.pptmateri pembelajaran tentang INTERNET.ppt
materi pembelajaran tentang INTERNET.pptTaufikFadhilah
 
Modul Ajar Informatika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Informatika Kelas 11 Fase F Kurikulum MerdekaModul Ajar Informatika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Informatika Kelas 11 Fase F Kurikulum MerdekaAbdiera
 
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2noviamaiyanti
 
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.pptPertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.pptNabilahKhairunnisa6
 
Catatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus PerilakuCatatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus PerilakuHANHAN164733
 
Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...
Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...
Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...NiswatuzZahroh
 
slide presentation bab 2 sain form 2.pdf
slide presentation bab 2 sain form 2.pdfslide presentation bab 2 sain form 2.pdf
slide presentation bab 2 sain form 2.pdfNURAFIFAHBINTIJAMALU
 
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...Kanaidi ken
 
Teks ucapan Majlis Perpisahan Lambaian Kasih
Teks ucapan Majlis Perpisahan Lambaian KasihTeks ucapan Majlis Perpisahan Lambaian Kasih
Teks ucapan Majlis Perpisahan Lambaian Kasihssuserfcb9e3
 
Keberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptx
Keberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptxKeberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptx
Keberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptxLeniMawarti1
 
PERTEMUAN 9 KESEIM 3 SEKTOR.............
PERTEMUAN 9 KESEIM 3 SEKTOR.............PERTEMUAN 9 KESEIM 3 SEKTOR.............
PERTEMUAN 9 KESEIM 3 SEKTOR.............SenLord
 
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxTopik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxsyafnasir
 
RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY SKILL",
RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY  SKILL",RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY  SKILL",
RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY SKILL",Kanaidi ken
 
Tina fitriyah - Uji Sampel statistik.pptx
Tina fitriyah - Uji Sampel statistik.pptxTina fitriyah - Uji Sampel statistik.pptx
Tina fitriyah - Uji Sampel statistik.pptxTINAFITRIYAH
 
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxJurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxBambang440423
 
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKAPPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKARenoMardhatillahS
 
MATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptx
MATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptxMATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptx
MATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptxrofikpriyanto2
 

Recently uploaded (20)

Teknik Menjawab Kertas P.Moral SPM 2024.pptx
Teknik Menjawab Kertas P.Moral SPM  2024.pptxTeknik Menjawab Kertas P.Moral SPM  2024.pptx
Teknik Menjawab Kertas P.Moral SPM 2024.pptx
 
Soal accurate terbaru untuk mahasiswa ya
Soal accurate terbaru untuk mahasiswa yaSoal accurate terbaru untuk mahasiswa ya
Soal accurate terbaru untuk mahasiswa ya
 
Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 Tesalonika
Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 TesalonikaMateri Kelas Online Ministry Learning Center - Bedah Kitab 1 Tesalonika
Materi Kelas Online Ministry Learning Center - Bedah Kitab 1 Tesalonika
 
materi pembelajaran tentang INTERNET.ppt
materi pembelajaran tentang INTERNET.pptmateri pembelajaran tentang INTERNET.ppt
materi pembelajaran tentang INTERNET.ppt
 
Modul Ajar Informatika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Informatika Kelas 11 Fase F Kurikulum MerdekaModul Ajar Informatika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Informatika Kelas 11 Fase F Kurikulum Merdeka
 
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
 
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.pptPertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
 
Catatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus PerilakuCatatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus Perilaku
 
Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...
Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...
Pembuktian rumus volume dan luas permukaan bangung ruang Tabung, Limas, Keruc...
 
slide presentation bab 2 sain form 2.pdf
slide presentation bab 2 sain form 2.pdfslide presentation bab 2 sain form 2.pdf
slide presentation bab 2 sain form 2.pdf
 
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
 
Teks ucapan Majlis Perpisahan Lambaian Kasih
Teks ucapan Majlis Perpisahan Lambaian KasihTeks ucapan Majlis Perpisahan Lambaian Kasih
Teks ucapan Majlis Perpisahan Lambaian Kasih
 
Keberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptx
Keberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptxKeberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptx
Keberagaman-Peserta-Didik-dalam-Psikologi-Pendidikan.pptx
 
PERTEMUAN 9 KESEIM 3 SEKTOR.............
PERTEMUAN 9 KESEIM 3 SEKTOR.............PERTEMUAN 9 KESEIM 3 SEKTOR.............
PERTEMUAN 9 KESEIM 3 SEKTOR.............
 
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxTopik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
 
RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY SKILL",
RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY  SKILL",RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY  SKILL",
RENCANA + Link2 Materi TRAINING "Effective LEADERSHIP & SUPERVISORY SKILL",
 
Tina fitriyah - Uji Sampel statistik.pptx
Tina fitriyah - Uji Sampel statistik.pptxTina fitriyah - Uji Sampel statistik.pptx
Tina fitriyah - Uji Sampel statistik.pptx
 
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxJurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
 
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKAPPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
 
MATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptx
MATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptxMATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptx
MATERI 1_ Modul 1 dan 2 Konsep Dasar IPA SD jadi.pptx
 

FrekuensiKataBI

  • 1. Perbandingan distribusi frekuensi kata bahasa Indonesia di Kompas, Wikipedia, Twitter, dan Kaskus Ivan Lanin, Jim Geovedi, Wicak Soegijoko Ardwort, http://ardwort.com
  • 2. Latar belakang • Apa kata yang paling sering dipakai dalam bahasa Indonesia? • Berapa jumlah huruf per kata yang paling sering dipakai dalam bahasa Indonesia? • Apakah ragam bahasa menentukan pemilihan kata? • Bagaimana pola distribusi frekuensi penggunaan kata? 2
  • 3. Sumber data Korpus Sumber data Jumlah kata unik Jumlah kata total Kompas (media massa) Diambil pada bulan Januari tahun 2013 untuk artikel berita berbahasa Indonesia daring tahun 2012 343.532 32.724.503 Wikipedia (ensiklopedia) Diambil dari salinan Wikipedia bahasa Indonesia bulan Januari tahun 2013 936.288 43.545.242 Twitter (mikroblog) Diambil pada bulan Januari tahun 2013 untuk percakapan bulan Oktober-Desember 2012 oleh pengguna Twitter yang berlokasi di Indonesia 798.078 34.769.573 Kaskus (forum) Diambil pada bulan Januari tahun 2013 dan dari 1000 utas (thread) terakhir sub-forum The Lounge 761.795 109.292.156 3
  • 4. Metodologi Scraping (Kompas, Kaskus) Ekstrasi XML (Wikipedia) Kueri API (Twitter) Pengambilan Kode HTML URL Pola acu Tanda baca Pembersihan Python NLTK NumPy SciPy Ramisch (2012): f = Cw(•) / N Zipf (1932): f = k/r Pengolahan 4
  • 5. Peringkat frekuensi kemunculan * # Kompas Wikipedia Twitter Kaskus 1 yang yang di gan 2 di dan yg ane 3 dan di ya di 4 ini pada aku yang 5 itu dari yang yg 6 dengan dengan ini ya 7 untuk ini itu ada 8 dari adalah ada itu 9 dalam dalam d tuh 10 akan untuk aja aja # Kompas Wikipedia Twitter Kaskus 11 pada kategori ga bisa 12 tidak tahun dan juga 13 juga sebagai gak kalo 14 ke oleh i keren 15 tersebut indonesia mau ga 16 ada ke ke banget 17 bisa the udah nya 18 saat ia lagi wah 19 jakarta tidak kalo nih 20 tahun menjadi the jadi 5 * Data lengkap: https://github.com/ardwort/freq-dist-id
  • 6. Analisis frekuensi kemunculan Kompas Wikipedia Twitter Kaskus • akan (#10): hal-hal di masa depan • Jakarta (#19): tempat • tahun (#20): waktu • adalah (#8): deskriptif • the (#17): nama diri • kategori (#11): kategorisasi artikel • aku (#4); mau (#15): subjektif • yg (#2); d (#9); ga (#11): pemendekan • aja (#10); gak (#13); udah (#17); kalo (#19): percakapan • i (#14): campur kode atau alih kode • gan (#1); ane (#2): pronomina persona khas komunitas • yg (#5); ga (#15): pemendekan • kalo (#13); banget (#16): percakapan • tuh (#9); wah (#18); nih (#19), keren (#14): ekspresif • nya (#17): partikel 6
  • 8. Perbandingan frekuensi kemunculan • Perbandingan: Tala (2003) • yang dan di: empat korpus • ada, dan, ini, itu, dan ke: tiga korpus 8
  • 9. Distribusi jumlah huruf per kata • Distribusi Gauss condong ke kiri (kata pendek) • Kompas: 5 huruf • Wikipedia: 4 huruf • Twitter: 4 huruf • Kaskus: 3 huruf • Dorongan meminimalkan waktu & upaya (Piantadosi, 2011) 9
  • 10. Kesimpulan dan pengembangan • Kesimpulan: – Kata yang tersering dipakai umumnya merupakan partikel – Jumlah huruf per kata yang paling sering dipakai antara 3‌–5 – Ragam bahasa menentukan pemilihan kata – Pola distribusi frekuensi penggunaan kata bahasa Indonesia mengikuti hukum Zipf • Penyempurnaan – Pengenalan nama diri (named-entity recognition) – Penandaan kata hentian (stopwords) • Pengembangan: – Kamus kata bahasa Indonesia sederhana berdasarkan kata yang paling sering muncul dalam berbagai korpus – Kamus variasi ejaan (atau salah eja) kata – Penerjemahan otomatis antarragam bahasa (mis. SMS ke formal) 10