SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
ปรัชญา บุญขวัญ (อาร์ม)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
kaamanita@gmail.com, prachya.boonkwan@nectec.or.th
¡ รู้จักกับภาษาไทย
¡ ความมหัศจรรย์แห่งภาษาไทย
¡ ภาษาไทยในสังคมออนไลน์
¡ หัวข้อวิจัยที่น่าสนใจ
¡ สรุป
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
¡ ภาษาไทยเป็นภาษาคำโดด(analytic language)
§ ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย
หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น
(head-initial)
§ ลำดับคำตายตัว และมีผลต่อการตีความความหมาย
§ ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก
หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา
(inflection) หรือเติมวิภัตติปัจจัย (declension)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4
ระบบความคิดแบบปัจเจกนิยม
เน้นความโดดเด่นของปัจเจกบุคคล
นิยมสื่อความหมายแบบชัดแจ้ง
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5
ระบบความคิดแบบปัจเจกนิยม
ประเด็นนำไปสู่เหตุผลสนับสนุน
เน้นเล่าเรื่องตามลำดับและให้เหตุผล
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
ข้ออ้างนำไปสู่ประเด็น
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้
ความหมายแฝง (high-context meaning)
§ คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist
semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น
หน่วยความหมายที่สลับซับซ้อน
§ สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง
(ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์
§ ระดับหน่วยคำ: “คำคืออะไร”
§ ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม
ประโยคถึงได้ขาดรุ่งริ่งแบบนี้”
§ ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร”
§ ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน”
§ ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่”
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
§ สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่
ภายในกลุ่มสามารถอนุมานได้จากบริบท
§ ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน
§ การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล
ภาษาธรรมชาติด้วยคอมพิวเตอร์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ
ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ
non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine
¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9
สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม
√ เขา.pro
เขา.n
ตา|กลม|
√ ตาก|ลม|
√ ตา|กลม|
ตาก|ลม|
npa1 npa3 npa2a1 a2 a3
¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing
Machine มีความซับซ้อนแบบ Exponential จึงเป็น
ปัญหาที่ทนรอไม่ได้ (intractable problem)
¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate)
เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB,
HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข
(เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
¡ คำถาม 1: คำคืออะไร
§ ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป
▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน
§ ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง
กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12
เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ
อิงตามคำมูล
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน|
ตัดแยกให้เป็นคำมูลทั้งหมด
อิงตามคำมูล
ที่รวมกันแน่น
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียน|ประจำ|
ดอก|จิก| (กล้วย) เล็บ|มือ|นาง|
ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ
อิงตามคำประสม
เปลี่ยนความหมาย
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| แม่|น้ำ| โรง|เรียน|
ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย
อิงตาม
หน่วยความหมาย
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียนประจำ|
การออกกำลังกาย| หม้อแปลงไฟฟ้า|
ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13
เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง
อิงตามคำมูล
วิเคราะห์โครงสร้าง
หน่วยคำ
ขอบเขตคำมูล
ทับซ้อนกัน
ต่ำสุด N/A
อิงตามคำมูล
ที่รวมกันแน่น
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
รวมกันแน่น
ปานกลาง
Thai National
Corpus (TNC)
อิงตามคำประสมที่
เปลี่ยนความหมาย
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
เปลี่ยนความหมาย
ปานกลาง BEST 2010
อิงตาม
หน่วยความหมาย
ใช้เพื่อสอนระบบ
แปลภาษาอัตโนมัติ
ไม่มีหน่วยความหมาย
กลางให้เป็นหลักยึด
สูง ORCHID
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14
หม้อหุงข้าว
N
หม้อ หุง ข้าว
N V N
VP
S
NP
หม้อหุงข้าว
N
ไฟฟ้า
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ไฟฟ้า
N
NP
หม้อหุงข้าว
N
ซ้อมมือ
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ซ้อมมือ
N
NP
1
3 4
หีบ ประดับ มรกต
N JV N
JVP
NP
NP
2
หีบประดับมรกต
N
×
×
×
×
(รวมกันแน่น)
(รวมกันแบบหลวม)
(‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15
คนขับรถ
N
คน ขับ รถ
N V N
VP
S
NP
คนขับรถ
N
บรรทุก
JV
NP
คน ขับ
N V
VP
S
NP
รถ
N
บรรทุก
V
NP
คน ขับ
N JV
JVP
NP
NP
รถ
N
บรรทุก
V
NP
1
2
คนขับรถบรรทุก
N× ×
(ไม่รวมกันแน่น)
(‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้
§ สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า
ภายในกลุ่มยังสามารถอนุมานจากบริบทได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16
สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2
npa1 npa2a1 a2 a3
because he wants to relax without worrying about it .
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร
§ เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้
โดยใช้ Categorial Grammar และ Lambda Calculus
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17
คำศัพท์ Categorial Grammar Lambda Calculus
แม่, น้อง, ผ้า :- np mom’, sister’, clothes’
วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2))
เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18
แม่ วาน น้อง เก็บ ผ้า
np
: mom’
snp1/(snp2)/np2
: λx2 λf λx1.ask’(x1, x2, f(x2))
np
: sister’
snp1/np2
: λx2 λx1.collect’(x1,x2)
np
: clothes’
snp1/(snp2)
: λf λx1.ask’(x1, sister’, f(sister’))
snp1
: λx1.collect’(x1, clothes’)
snp1
: λx1.ask’(x1, sister’, collect’(sister’ , clothes’))
s
: ask’(mom’, sister’, collect’(sister’, clothes’))
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ)
§ การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม
(Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน
รูปแทนความหมายได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19
แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’))
✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ
✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20
ระบบความคิดแบบรวมศูนย์
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
ระบบความคิดในสื่อสารมวลชนบางชนิด
อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง
ไม่จำเป็นต้องมีประเด็นที่ชัดเจน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
?
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21
ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22
ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ
สังคมออนไลน์
§ มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง
จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน
การพิมพ์ และการพิมพ์ผิดอย่างจงใจ
§ มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook,
Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ
§ ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์
§ ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก
§ เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis)
§ เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion)
ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25
โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย
ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว
+ + +
- - - -
1
2
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ)
§ ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว
ตรงกันข้ามกับความหมายผิว (ambivalence)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26
ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง
+ -
แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล
- - -
¡ หัวข้อวิจัย
§ ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ
§ ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค
การแก้ปัญหาการละในระดับไวยากรณ์
§ ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย
การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่
§ ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ
§ ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก
(เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
¡ ข้อแนะนำ
§ ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ
พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง
§ ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ
แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม
(surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก
กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง
¡ การใช้กฎผสมกับ machine learning และการออกแบบ
รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้
¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
30
ที่มา: เพจมุกหรือ
เปลือกหมอย
¡ ความรู้เบื้องต้นสำหรับภาษาไทย
§ ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์,
พ.ศ. 2520)
§ หลักภาษาไทย (กำชัย ทองหล่อ, 2515)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
¡ Machine Learning
§ A First Course in Machine Learning (Simon Rogers
and Mark Girolami, 2011) [เข้าใจง่าย]
§ Pattern Recognition and Machine Learning
(Christopher Bishop, 2007) [ยากระดับกลาง]
§ Information Theory, Inference, and Learning
Algorithms (David MacKay, 2003) [ยากและละเอียด]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
¡ Natural Language Processing
§ Speech and Language Processing (Daniel Jurafsky
and James M. Martin, 2008) [ง่าย]
§ Foundations of Statistical Natural Language
Processing (Manning, Prabhakar, and Schütze, 2008)
[ยากระดับกลาง]
§ Natural Language Processing with Python (Bird,
Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33

Weitere ähnliche Inhalte

Was ist angesagt?

Sentiment Analysis
Sentiment AnalysisSentiment Analysis
Sentiment Analysisalmenea
 
บุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยว
บุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยวบุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยว
บุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยวSomyot Ongkhluap
 
การท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทย
การท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทยการท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทย
การท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทยKorawan Sangkakorn
 
07อาณาจักรอยุธยา
07อาณาจักรอยุธยา07อาณาจักรอยุธยา
07อาณาจักรอยุธยาJulPcc CR
 
ประเทศกัมพูชา
ประเทศกัมพูชาประเทศกัมพูชา
ประเทศกัมพูชาBangon Suyana
 
Practical sentiment analysis
Practical sentiment analysisPractical sentiment analysis
Practical sentiment analysisDiana Maynard
 
เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2
เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2
เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2sawed kodnara
 
โครงงานคอมพิวเตอร์2
โครงงานคอมพิวเตอร์2โครงงานคอมพิวเตอร์2
โครงงานคอมพิวเตอร์2Ploy Wanida
 
Tourist Behavior: International tourist behavior
Tourist Behavior: International tourist behaviorTourist Behavior: International tourist behavior
Tourist Behavior: International tourist behaviorSomyot Ongkhluap
 
การจัดการท่องเที่ยวสีเขียว Green Tourism
การจัดการท่องเที่ยวสีเขียว Green Tourismการจัดการท่องเที่ยวสีเขียว Green Tourism
การจัดการท่องเที่ยวสีเขียว Green TourismKorawan Sangkakorn
 
การบินไทย
การบินไทยการบินไทย
การบินไทยLumi Doll
 
คู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdf
คู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdfคู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdf
คู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdfAsst. Dr. Jutharat Nokkaew
 
สไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1page
สไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1pageสไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1page
สไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1pagePrachoom Rangkasikorn
 
ประวัติวรรณคดี สมัยรัตนโกสินทร์
ประวัติวรรณคดี สมัยรัตนโกสินทร์ ประวัติวรรณคดี สมัยรัตนโกสินทร์
ประวัติวรรณคดี สมัยรัตนโกสินทร์ vanichar
 
ใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากล
ใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากลใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากล
ใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากลleemeanxun
 
Presentation on Sentiment Analysis
Presentation on Sentiment AnalysisPresentation on Sentiment Analysis
Presentation on Sentiment AnalysisRebecca Williams
 
2. introduction to epigraphy
2. introduction to epigraphy2. introduction to epigraphy
2. introduction to epigraphyJayaprakash CR
 

Was ist angesagt? (20)

Sentiment Analysis
Sentiment AnalysisSentiment Analysis
Sentiment Analysis
 
บุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยว
บุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยวบุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยว
บุคลิกภาพ จรรยาบรรณและจริยธรรมทางวิชาชีพผู้นําเที่ยว
 
การท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทย
การท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทยการท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทย
การท่องเที่ยวเชิงวัฒนธรรมกับวิถีไทย
 
07อาณาจักรอยุธยา
07อาณาจักรอยุธยา07อาณาจักรอยุธยา
07อาณาจักรอยุธยา
 
ประเทศกัมพูชา
ประเทศกัมพูชาประเทศกัมพูชา
ประเทศกัมพูชา
 
Practical sentiment analysis
Practical sentiment analysisPractical sentiment analysis
Practical sentiment analysis
 
เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2
เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2
เฉลยข้อสอบคณิตศาสตร์นานาชาติ(สพฐ) ปี 2553 รอบ 2
 
โครงงานคอมพิวเตอร์2
โครงงานคอมพิวเตอร์2โครงงานคอมพิวเตอร์2
โครงงานคอมพิวเตอร์2
 
Tourist Behavior: International tourist behavior
Tourist Behavior: International tourist behaviorTourist Behavior: International tourist behavior
Tourist Behavior: International tourist behavior
 
การจัดการท่องเที่ยวสีเขียว Green Tourism
การจัดการท่องเที่ยวสีเขียว Green Tourismการจัดการท่องเที่ยวสีเขียว Green Tourism
การจัดการท่องเที่ยวสีเขียว Green Tourism
 
Radio Magazine
Radio MagazineRadio Magazine
Radio Magazine
 
การบินไทย
การบินไทยการบินไทย
การบินไทย
 
service mind
service mindservice mind
service mind
 
คู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdf
คู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdfคู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdf
คู่มือการจัดการท่องเที่ยวโดยชุมชนในวิถี.pdf
 
สไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1page
สไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1pageสไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1page
สไลด์ นิทานชาดก ป.2+434+dltvsocp2+55t2soc p02 f15-1page
 
3.4 อารยธรรมกรีก
3.4 อารยธรรมกรีก3.4 อารยธรรมกรีก
3.4 อารยธรรมกรีก
 
ประวัติวรรณคดี สมัยรัตนโกสินทร์
ประวัติวรรณคดี สมัยรัตนโกสินทร์ ประวัติวรรณคดี สมัยรัตนโกสินทร์
ประวัติวรรณคดี สมัยรัตนโกสินทร์
 
ใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากล
ใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากลใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากล
ใบความรู้ที่ 1 บทที่ 1 เรื่อง ประวัติดนตรีสากล
 
Presentation on Sentiment Analysis
Presentation on Sentiment AnalysisPresentation on Sentiment Analysis
Presentation on Sentiment Analysis
 
2. introduction to epigraphy
2. introduction to epigraphy2. introduction to epigraphy
2. introduction to epigraphy
 

Ähnlich wie Text Mining and Thai NLP

กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอดกฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอดVisanu Euarchukiati
 
แผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdfแผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdfPawarit Phomma
 
โครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีโครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีNuchy Geez
 
กาพย์ยานี
กาพย์ยานีกาพย์ยานี
กาพย์ยานีkhorntee
 

Ähnlich wie Text Mining and Thai NLP (6)

กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอดกฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
 
Languageusage for radio writing
Languageusage for radio writingLanguageusage for radio writing
Languageusage for radio writing
 
Chitrapathachan
ChitrapathachanChitrapathachan
Chitrapathachan
 
แผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdfแผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdf
 
โครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีโครงงานประเภททฤษฏี
โครงงานประเภททฤษฏี
 
กาพย์ยานี
กาพย์ยานีกาพย์ยานี
กาพย์ยานี
 

Mehr von Data Science Thailand

Drawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceDrawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceData Science Thailand
 
Microsoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaMicrosoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaData Science Thailand
 
Electronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeElectronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeData Science Thailand
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processingData Science Thailand
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...Data Science Thailand
 
Data Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Thailand
 
Precision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcarePrecision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcareData Science Thailand
 
Big Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityBig Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityData Science Thailand
 
Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Data Science Thailand
 
Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Data Science Thailand
 
Predictive Analytics in Manufacturing
Predictive Analytics in ManufacturingPredictive Analytics in Manufacturing
Predictive Analytics in ManufacturingData Science Thailand
 

Mehr von Data Science Thailand (20)

Data Science Thailand Meetup#11
Data Science Thailand Meetup#11Data Science Thailand Meetup#11
Data Science Thailand Meetup#11
 
Define Your Data (Science) Career
Define Your Data (Science) CareerDefine Your Data (Science) Career
Define Your Data (Science) Career
 
Drawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceDrawing Your career in business analytics and data science
Drawing Your career in business analytics and data science
 
Data Science fuels Creativity
Data Science fuels CreativityData Science fuels Creativity
Data Science fuels Creativity
 
Microsoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaMicrosoft R Server for Data Sciencea
Microsoft R Server for Data Sciencea
 
Electronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeElectronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data Initiative
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processing
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
 
Bioinformatics in a Nutshell
Bioinformatics in a NutshellBioinformatics in a Nutshell
Bioinformatics in a Nutshell
 
Data Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk Management
 
Myths of Data Science
Myths of Data ScienceMyths of Data Science
Myths of Data Science
 
Hr Analytics
Hr AnalyticsHr Analytics
Hr Analytics
 
Marketing analytics
Marketing analyticsMarketing analytics
Marketing analytics
 
Precision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcarePrecision Medicine - The Future of Healthcare
Precision Medicine - The Future of Healthcare
 
Big Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityBig Data Analytics to Enhance Security
Big Data Analytics to Enhance Security
 
Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)
 
Using hadoop for big data
Using hadoop for big dataUsing hadoop for big data
Using hadoop for big data
 
My Spark Journey
My Spark JourneyMy Spark Journey
My Spark Journey
 
Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics
 
Predictive Analytics in Manufacturing
Predictive Analytics in ManufacturingPredictive Analytics in Manufacturing
Predictive Analytics in Manufacturing
 

Text Mining and Thai NLP

  • 2. ¡ รู้จักกับภาษาไทย ¡ ความมหัศจรรย์แห่งภาษาไทย ¡ ภาษาไทยในสังคมออนไลน์ ¡ หัวข้อวิจัยที่น่าสนใจ ¡ สรุป 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
  • 3. ¡ ภาษาไทยเป็นภาษาคำโดด(analytic language) § ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น (head-initial) § ลำดับคำตายตัว และมีผลต่อการตีความความหมาย § ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา (inflection) หรือเติมวิภัตติปัจจัย (declension) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
  • 4. ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4 ระบบความคิดแบบปัจเจกนิยม เน้นความโดดเด่นของปัจเจกบุคคล นิยมสื่อความหมายแบบชัดแจ้ง ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 5. ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5 ระบบความคิดแบบปัจเจกนิยม ประเด็นนำไปสู่เหตุผลสนับสนุน เน้นเล่าเรื่องตามลำดับและให้เหตุผล ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ ข้ออ้างนำไปสู่ประเด็น เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 6. ¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้ ความหมายแฝง (high-context meaning) § คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น หน่วยความหมายที่สลับซับซ้อน § สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง (ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
  • 7. ¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์ § ระดับหน่วยคำ: “คำคืออะไร” § ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม ประโยคถึงได้ขาดรุ่งริ่งแบบนี้” § ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร” § ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน” § ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่” 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
  • 8. ¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม § สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่ ภายในกลุ่มสามารถอนุมานได้จากบริบท § ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน § การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล ภาษาธรรมชาติด้วยคอมพิวเตอร์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
  • 9. ¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine ¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9 สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม √ เขา.pro เขา.n ตา|กลม| √ ตาก|ลม| √ ตา|กลม| ตาก|ลม| npa1 npa3 npa2a1 a2 a3
  • 10. ¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing Machine มีความซับซ้อนแบบ Exponential จึงเป็น ปัญหาที่ทนรอไม่ได้ (intractable problem) ¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate) เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB, HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข (เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
  • 11. ¡ คำถาม 1: คำคืออะไร § ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป ▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน § ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
  • 12. ¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12 เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ อิงตามคำมูล ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน| ตัดแยกให้เป็นคำมูลทั้งหมด อิงตามคำมูล ที่รวมกันแน่น ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียน|ประจำ| ดอก|จิก| (กล้วย) เล็บ|มือ|นาง| ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ อิงตามคำประสม เปลี่ยนความหมาย ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| แม่|น้ำ| โรง|เรียน| ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย อิงตาม หน่วยความหมาย ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียนประจำ| การออกกำลังกาย| หม้อแปลงไฟฟ้า| ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
  • 13. 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13 เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง อิงตามคำมูล วิเคราะห์โครงสร้าง หน่วยคำ ขอบเขตคำมูล ทับซ้อนกัน ต่ำสุด N/A อิงตามคำมูล ที่รวมกันแน่น วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า รวมกันแน่น ปานกลาง Thai National Corpus (TNC) อิงตามคำประสมที่ เปลี่ยนความหมาย วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า เปลี่ยนความหมาย ปานกลาง BEST 2010 อิงตาม หน่วยความหมาย ใช้เพื่อสอนระบบ แปลภาษาอัตโนมัติ ไม่มีหน่วยความหมาย กลางให้เป็นหลักยึด สูง ORCHID
  • 14. ¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14 หม้อหุงข้าว N หม้อ หุง ข้าว N V N VP S NP หม้อหุงข้าว N ไฟฟ้า N NP หม้อ หุง N JV JVP NP NP ข้าว N ไฟฟ้า N NP หม้อหุงข้าว N ซ้อมมือ N NP หม้อ หุง N JV JVP NP NP ข้าว N ซ้อมมือ N NP 1 3 4 หีบ ประดับ มรกต N JV N JVP NP NP 2 หีบประดับมรกต N × × × × (รวมกันแน่น) (รวมกันแบบหลวม) (‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
  • 15. ¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15 คนขับรถ N คน ขับ รถ N V N VP S NP คนขับรถ N บรรทุก JV NP คน ขับ N V VP S NP รถ N บรรทุก V NP คน ขับ N JV JVP NP NP รถ N บรรทุก V NP 1 2 คนขับรถบรรทุก N× × (ไม่รวมกันแน่น) (‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
  • 16. ¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้ § สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า ภายในกลุ่มยังสามารถอนุมานจากบริบทได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16 สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2 npa1 npa2a1 a2 a3 because he wants to relax without worrying about it .
  • 17. ¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร § เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้ โดยใช้ Categorial Grammar และ Lambda Calculus 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17 คำศัพท์ Categorial Grammar Lambda Calculus แม่, น้อง, ผ้า :- np mom’, sister’, clothes’ วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2)) เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
  • 18. 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18 แม่ วาน น้อง เก็บ ผ้า np : mom’ snp1/(snp2)/np2 : λx2 λf λx1.ask’(x1, x2, f(x2)) np : sister’ snp1/np2 : λx2 λx1.collect’(x1,x2) np : clothes’ snp1/(snp2) : λf λx1.ask’(x1, sister’, f(sister’)) snp1 : λx1.collect’(x1, clothes’) snp1 : λx1.ask’(x1, sister’, collect’(sister’ , clothes’)) s : ask’(mom’, sister’, collect’(sister’, clothes’))
  • 19. ¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ) § การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม (Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน รูปแทนความหมายได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19 แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’)) ✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ ✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
  • 20. ¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20 ระบบความคิดแบบรวมศูนย์ นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ระบบความคิดในสื่อสารมวลชนบางชนิด อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง ไม่จำเป็นต้องมีประเด็นที่ชัดเจน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ?
  • 21. ¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21 ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
  • 22. ¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22 ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
  • 23. ¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ สังคมออนไลน์ § มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน การพิมพ์ และการพิมพ์ผิดอย่างจงใจ § มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook, Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ § ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
  • 24. ¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์ § ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก § เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
  • 25. ¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) § เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion) ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25 โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว + + + - - - - 1 2
  • 26. ¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ) § ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว ตรงกันข้ามกับความหมายผิว (ambivalence) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26 ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง + - แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล - - -
  • 27. ¡ หัวข้อวิจัย § ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ § ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค การแก้ปัญหาการละในระดับไวยากรณ์ § ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่ § ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ § ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก (เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
  • 28. ¡ ข้อแนะนำ § ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง § ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม (surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
  • 29. ¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง ¡ การใช้กฎผสมกับ machine learning และการออกแบบ รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้ ¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
  • 31. ¡ ความรู้เบื้องต้นสำหรับภาษาไทย § ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์, พ.ศ. 2520) § หลักภาษาไทย (กำชัย ทองหล่อ, 2515) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
  • 32. ¡ Machine Learning § A First Course in Machine Learning (Simon Rogers and Mark Girolami, 2011) [เข้าใจง่าย] § Pattern Recognition and Machine Learning (Christopher Bishop, 2007) [ยากระดับกลาง] § Information Theory, Inference, and Learning Algorithms (David MacKay, 2003) [ยากและละเอียด] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
  • 33. ¡ Natural Language Processing § Speech and Language Processing (Daniel Jurafsky and James M. Martin, 2008) [ง่าย] § Foundations of Statistical Natural Language Processing (Manning, Prabhakar, and Schütze, 2008) [ยากระดับกลาง] § Natural Language Processing with Python (Bird, Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33