Penelitian ini menggunakan metode otomatis untuk menandai batas-batas frasa dalam kalimat yang dihasilkan secara stokastik. Eksperimen persepsi menunjukkan 92% batas yang ditandai sesuai dengan persepsi prosodik. Pengenalan otomatis 3 tingkat batas mencapai 81% akurasi.
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Penandaan prosodik thd batas frase
1. PENANDAAN PROSODIK
BATAS-BATAS FRASA
(DUGAAN & HASIL)
oleh A.Batliner, R.Kompe, A.KieBling, E.Noth, H.Niemann,U.Killian
Dipresentasikan oleh Heidyanne R. Kaeni
S2 Liguistik – FIB UI
Februari 2012
2. Abstrak Penelitian
Dengan menggunakan template kalimat dan tata
bahasa stokastik yang bebas konteks, diciptakan
sebuah corpus besar (10.000 kalimat) dimana batas-
batas frasa dilabeli dalam kalimat secara otomatis
selama generasi kalimat
Dengan eksperimen persepsi pada 500 ucapan
diverivikasi bahwa 92% dari batas-batas yang
ditandai otomatis dirasa tertandai secara prosodik.
Dalam eksperimen otomatis awal untuk 3 level batas
dapat tercapai angka pengenalan hingga 81%.
3. Peta Pembahasan
1. Pendahuluan & Material
2. Penandaan Batas Berdasarkan
Pengetahuan Linguistik
3. Eksperimen Persepsi
4. Pengelompokan Otomatis terhadap
Batas-Batas Frasa
5. Penutup
4. 1a. Pendahuluan
Penemuan otomatis batas-batas frasa
membantu memisahkan hipotesa sebuah kata dalam
suatu sistem automatic speech understanding (ASU)
Pandangan dalam Pendekatan Statistik
perlu training database yg besar (corpus dengan
label referensi untuk batas-batas frasa yang
ditandai secara prosodik)
metode: generasi otomatis terhadap label-label
verifikasi: eksperimen persepsi
5. 1b. Material
Material : Erlanger Bahn Anfragen (ERBA)
speech training database besar untuk pengenalan kata
Menggunakan pembangkit kalimat stokastik berdasarkan
tatabahasa yang bebas kontes & 38 pola dasar kalimat
corpus teks arbitrer
10000 kalimat direkam dari 100 penutur tidak terlatih
(masing-masing 100 kalimat)
Yang digunakan untuk evaluasi persepsi:
50 dari 100 ucapan oleh 10 penutur (5 pria, 5 wanita)
Dapat diabaikan: pengaruh kalimat dengan keganjilan semantik
pada pengenalan kata
6. 2. Penandaan Batas
Berdasarkan Ilmu Linguistik
Empat (4) tipe of batas: B3, B2, B1, B0
Batas B3
antara klausa elipitik & klausa
Guten Morgen B3 Ich mochte gerne…
(Good morning B3 I would like to…)
antara klausa induk & anak klausa
…einen Zug B3 der sehr fruh fahrt
(…a train B3 that every early leaves)
pada partikel-partikel penghubung antarklausa
Ich mochte um acht Uhr nach Munchen fahren B3 und moglischst fruh
ankommen
(I would like at 8 o’clock to Munich to go B3 and as early as possible
arrive)
7. Batas B2
antar konstituen
in der Nacht B2 mit dem IC B2 nach Ulm
(during the night B2 with the IC B2 to Ulm)
pada partikel-partikel penghubung antar konstituen
zwischem Ulm B2 und Stuttgart
between Ulm B2 and Stuttgart
Batas B1
secara sintaktis termasuuk ke B2 namun dekat ke B3
atau awal/akhir ucapan
Ich mochte B1 am nachsten Dienstag B2 zwischen drei B2 und sechs
Uhr B2 von Hamburg B2 nach Ulm B1 fahren
(I would like B1 next Tuesday B2 between three B2 and six o’clock B2
from Hamburg B2 to Ulm B1 to go)
Batas B0 yag tidak termasuk ke B1, B2, B3
8. 3. Eksperimen Persepsi
Untuk verifikasi dijalankan eksperimen dengan 10
pendengar ‘naif’ yang :
diberikan ucapan-ucapan tanpa tanda-tanda baca
diminta untuk menandai jarak antara 2 kata jika terasa ada
‘potongan’
diinstruksikan untuk tidak bergantung pada pengetahuan
mereka tentang struktur kalimat
Data persepsi dibandingkan dengan bagian-bagian
berlabel dari batas-batas frasa
Skor tiap batas frasa yg memungkinkan: 0 (tanpa tanda) –
10 (seluruh subjek dalam tes merasakan suatu batas frasa
sebagai tanda prosodik)
9. Hasil:
Distribusi
B0,B1,B3 sesuai dugaan dan
berkerumun di batas kiri dan batas kanan
10. 4. Pengelompokan Otomatis
atas Batas-Batas Frasa
Kontur F0 diperhitungkan menggunakan algoritma
Untuk tiap batas kata, sekumpulan fitur-fitur
prosodik diperhitungkan:
Panjang jeda
Durasi dari pangkal silabel sebelum batas, rata-rata
dan standar deviasi durasi
Energi dan posisi frame relatif ke batas, energi rata-
rata dari 2 silabel ke kiri dan ke kanan batas
Koefisien regresi linier dari kontur F0
Onset, minimum, maximum, dan offset F0 serta posisi
mereka pada sumbu axis waktu relatif ke batas
11. Penggolong polinomial kuadratik dilatih untuk
membedakan 3 kelompok B0+B1, B2, B3.
Training database terdiri atas 6900 ucapan ERBA dari
69 penutur
Kumpulan tes terdiri atas 1000 ucapan ERBA dari 10
penutur yang digunakan untuk eksperimen persepsi
Tingkat pengenalan:
81% (rata-rata 51%) kemungkinan apriori
71% (rata-rata 69%) distribusi sama
12. 5. Penutup
Akan dibangun model intonasi yang memadukan
batas-batas frase dan aksen-aksen frase
Akan dikembangkan metode yang memungkinkan
untuk mengenerasi secara otomatis label-label
referensi frasa berdasarkan corpus teks seperti ERBA
(dimana batas-batas frase prosodik telah ditandai)
Harapan: mendapatkan perbaikan lebih lanjut dengan
melihat aksen-aksen frasa dan menambahkan fitur-fitur
suprasegmental baru ke vektor fitur.