3. Mengapa Belajar Computational
Linguistics?
• Perkembangan internet dengan jutaan dokumen merupakan
kesempatan bagi industri dgn spesialisasi bidang CL
• Keinginan manusia untuk menggunakan teknologi yg human-
friendly termasuk dalam interaksi dengan menggunakan
bahasa sehari-hari
• Perkembangan teknologi CL sangat terkait dengan bahasa dari
sebuah negara/daerah tertentu kesempatan bagi industri
lokal untuk bersaing dengan dunia global
3Ayu Purwarianti - NLP
7. Text Categorization
Ayu Purwarianti - NLP 7
spam filtering
Label: spam vs bukan spam
Kategorisasi/klasifikasi teks/dokumen:
Pemberian label atau kategori thd teks/dokumen secara otomatis
Sentiment analysis
Label: positif, negatif, netral
Document clustering
Label: bebas tergantung kata kunci pd dok
Plagiarism detection
Label: plagiat vs tdk plagiat
Essay scoring
Label: nilai
8. Information Retrieval
Sistem mampu memberi dokumen yang relevan terhadap user input yang berupa
query atau kumpulan kata dengan bersumber dari kumpulan dokumen
Ayu Purwarianti - NLP 8
Kata-kata
(dlm bhs sehari-hari)
Kumpulan dokumen
yang relevan
9. Question Answering
Sistem mampu memberi jawaban atau potongan teks yg berisi jawaban untuk
user input yang berupa pertanyaan secara otomatis dari kumpulan dokumen
Ayu Purwarianti - NLP 9
pertanyaan
(dlm bhs sehari-hari)
jawaban
10. • Chat Robot
• Example:
– Human: can you change how you look?
ALICE: Yes the ALICE robot is fully parameterized.
Human: how to parameterize it?
ALICE: What is it to you.
I haven't heard of to parameterize it.
Human: I mean, I want to see you with other cloth
ALICE: Oh I get it. Thanks for explaining that. Is it a movie?
Human: No of course not
ALICE: A boot? A TV show? Then what is it?
Alice…
12. Tools Dasar pada CL
Ayu Purwarianti - NLP 12
Pemrosesan
Leksikal
Syntactic Analysis
Semantic Analysis
Pemrosesan
Pragmatik
Tokenisasi
Pemisahan kalimat
Stemming
Lemmatisasi
POS Tagger
Named Entity Tagger
Phrase Tagger
Parser
Word Sense Disambiguation
Semantic Analysis
reference resolution
anaphora
13. Permasalahan pada Aplikasi CL
(peluang riset)
• OOV (Out of vocabulary)
– kata-kata baru yang tidak ada pada kamus
• Ambiguitas
– Kata-kata yang memiliki lebih dari satu arti
• Utk bahasa Indonesia: low resource language
sedikitnya tools dasar CL yang tersedia
• Keterkaitan antar tools dasar
– rendahnya akurasi sebuah tools dasar akan
mempengaruhi tools dasar lain yg menggunakannya
– Lamanya waktu eksekusi
Ayu Purwarianti - NLP 13