SlideShare ist ein Scribd-Unternehmen logo
1 von 60
tokyotextmining #3
FSNLP Chapter 3
Linguistic Essentials
@hitoshi_ni
本章のねらい
• FSNLP を読み進めるにあたり、必要とされ
る言語学由来の概念、用語を知っておく
こと
2010/11/07 2tokyotextmining #3
目次
1. Part of Speech and Morphology
– 品詞、形態論、屈折、派生、複合
1. Phrase Structure
– 句構造文法、依存関係
1. Semantics and Pragmatics
– 上位語、下位語、類義語
– 構成性原理
1. Other Areas
2010/11/07 3tokyotextmining #3
1. PART OF SPEECH AND
MORPHOLOGY
品詞と形態論
概要
• 品詞
– 単語を性質で分類したもの
– 名詞、動詞、形容詞、副詞など
• 形態論
– 単語の変化 (dog, dogs) などを扱う
– 品詞と密接に関係する
2010/11/07 5tokyotextmining #3
品詞 (Part of speech)
• 言語学者が、統語的、意味的に同じような動きをする単
語をグループ化したもの
• 重要な 3 つの品詞
– 名詞 (Noun) 人物,動物,概念,物体
– 動詞 (Verb) 文中における動作を表現
– 形容詞 (Adjective) 名詞の性質を表現
• 品詞の判定方法 (Substitution test)
2010/11/07 tokyotextmining #3 6
The one is in the corner.
sad
intelligent
green
fat
…
品詞の分類
Open word class
語彙範疇
(lexical category)
Closed word class
機能範疇
(functional category)
名詞、動詞、形容詞、副
詞
限定詞 (determiner: a,
an, the)
前置詞 (preposition: to,
on, in, of)
•メンバーが多い
•新しいメンバーが加わ
る
•メンバーが少ない
•メンバーは固定的
2010/11/07 7tokyotextmining #3
形態論
• 単数形 (dog) と複数形 (dogs) に示されるような語
の変化を扱い、品詞と密接に関係する
• NLP において重要である
• 自然言語においては次々と新しい語が発生して
くる
• コンピュータは常に、新しい、未知の語と遭遇
する可能性がある
• その場合も、既知の語と、語の変化の仕組みが
わかっていれば新しい語の性質を推測できる
2010/11/07 tokyotextmining #3 8
主な形態的な変化
Inflection
屈折
Derivation
派生
Compounding
複合
• 原形に概ね規則的に接
辞を付与する
• 単数や複数,時制,人
称などを表現する
• 品詞や意味を大きく変
えない
• あまり規則的ではない
• 品詞や意味が大きく変
化する
• 2 個以上の単語が新し
い語を構成する
• 分割して書かれていて
も 1 語として発音され
る
• dog, dogs
• eat, eats, ate, eaten
• teach, teacher
• weak, weaken
• wide, widely
• tea kettle, disk drive
• mad cow disease
2010/11/07 10tokyotextmining #3
品詞と形態論
名詞名詞 動詞動詞
形容詞形容詞
teach
weak
weaken
teacherteachers
屈折
(数)
派生(名詞・動
詞)
派生(動詞・形容
詞)
形態論
taught
屈折(時
制)
2010/11/07 11tokyotextmining #3
品詞
名詞
• 名詞
– 人、動物、物など世界に存在する物体を表す
• 名詞の屈折の原因
– 数:単数、複数
• Dog, dogs
– 性:女性、男性、中性
• 英語では失われたが、 3 人称単数代名詞 (she, he, it) がある
– 格:主格、対格、所有格
• 主語、目的語など文中の機能によって変化する
• ‘英語では s が所有を表現する
2010/11/07 tokyotextmining #3 12
代名詞
• 談話中の際立った対象を示すため変数のような
働きをする
• 代名詞の屈折
– 格:主格、対格、所有格など
2010/11/07 13tokyotextmining #3
人称・性 主格 対格 所有格
一人称 I Me My
二人称 You You Your
三人称・男性 He Him His
三人称・女性 She Her Her
三人称・中性 It It Its
限定詞 (Determiner)
• 名詞に伴って出現
– 名詞の参照を特定
– 冠詞 (Article)
• the : 既に言及されたもの,一意に決定されるもの
• a, an : これまで言及されていないもの
– 指示詞 (Demonstrative)
• this, that
2010/11/07 14tokyotextmining #3
形容詞
Suffixing Periphrastic phrase
原級 rich, trendy intelligent
比較級 richer, trendier more intelligent
最上級 richest, trendiest most intelligent
• 名詞に伴って出現
• 名詞の性質を表現
• 限定用法 (Attributive)
– 名詞の前につく (red moon)
• 叙述用法 (Predicative)
– 名詞の後につく (moon is red)
• Agreement
– Article や adjective と名詞の
格、性、数などが一致する
こと
• Comparative, Superlative
– 下記参照
2010/11/07 15tokyotextmining #3
動詞
• 動作や行動、状態を表現する
• 以下の4つの形態を持つ
– 原形 : walk
– 三単現 : walks
– 動名詞・現在分詞 : walking
– 過去形・過去分詞・受動分詞 : walked
• 基本的には接尾辞を規則的に付与 (s, ing, ed) する
が、不規則に変化する場合もある
– Drive, drove, driven
– Take, took, taken
2010/11/07 16tokyotextmining #3
不定詞・進行形・動名詞
• 不定詞 (infinitive): 他の品詞の働きをする
– to 不定詞
• She likes to walk.
– 原形不定詞(助動詞の後、使役動詞の時など)
• She shouldn’t walk.
• She helped me walk.
• 進行形 (progressive): 進行中の事柄をあらわす
• She is walking.
• 動名詞 (gerund): 動詞がいくらか名詞の性質を
得ているもの
• Walking is fun.
2010/11/07 17tokyotextmining #3
分析的言語と総合的言語
• 分析的言語 (Analytic language)
– 文法を表す際に屈折でなく機能語を用いる言
語の特徴
• 総合的言語 (Synthetic language)
– 文法関係を表す際に屈折を用いる言語の特徴
2010/11/07 tokyotextmining #3 18
英語の場合
• 機能語を利用 (Analytic)
– 助動詞を用いて表現
– be: 進行形  have: 完了形  will: 未来形
– Periphrastic form (迂言系)ともいう
– ”直接表現しない(助動詞を使う)ため“迂 言
– フランス語などは未来形を屈折で表現(=直接表現
している=迂言形でない)
• 屈折を利用 (Synthetic)
– 接尾辞を追加
– -s: 複数形  -ed: 過去形  -ing: 進行形
2010/11/07 tokyotextmining #3 19
法助動詞
• 法 (mood) を表現するための助動詞
• 可能、仮定、願望、要求など
– Should
• You should spend more time with your family.
– May
• He may or may not come to the meeting.
– Can
• With her abilities, she can do whatever she wants to.
2010/11/07 20tokyotextmining #3
動詞によって示される特徴
示される特徴
示す方法(接尾辞あるいは助動
詞)
人称 一人称、二人称、三人称 接尾辞 : walks
時制 現在、過去、未来
接尾辞 : walked
助動詞 : will
相 進行形、完了形
接尾辞 : waking
助動詞 : have
法 可能、仮定、願望、要求 助動詞 :can
態 受動態、能動態 接尾辞 :taken
2010/11/07 21tokyotextmining #3
副詞
• 副詞 (adverb)
– 動詞や形容詞を修飾する
• 形容詞から派生する
• This painting is absolutely wonderful.
• 形容詞から派生しないものもある
• She often travels to Las Vegas.
• Degree adverb (Quantifier): 程度の副詞(数量詞)
– 動詞ではなく形容詞や副詞を修飾する
• 形容詞を修飾する
• A very unlucky event
2010/11/07 22tokyotextmining #3
前置詞 (preposition)
• 前置詞 (preposition)
– 空間的な関係を表現する
• In the glass, on the table, over their head
• 不変化詞 (particle)
– 句動詞(動詞+前置詞)中の前置詞のこと
• Don’t give in to him.
– 動詞と前置詞を単純に足した意味にならない
(unpredictable)
• She ran up a hill.
• She ran up a bill.
– 字面どおりの意味と比喩的な意味がある
2010/11/07 23tokyotextmining #3
接続詞 (conjunction)
• 等位接続詞 (coordinating conjunction)
– 同じカテゴリにある二つの語や句を結合する
• Husband and wife [noun]
• She bought or leased the car. [verb]
• She bought her car, but she also considered leasing it. [sentences]
• 従位接続詞 (subordinating conjunction)
– 文や節 (clause) を接続する
• She said that he would be late. [proposition] (主張)
• She complained because he was late. [reason] (理由)
• If [condition] (条件) , although [concession] (譲歩) , before
[temporal] (時制)など
– 補文標識 (complementizer)
• She said that he would be late.
• 青字が補文,赤字が補文標識
2010/11/07 24tokyotextmining #3
形態論
• 単語には品詞がある
• 単語の形態の変化には屈折や派生、複合
がある
• 単語の形態の変化には、規則的なものと
不規則的なものがある
2010/11/07 tokyotextmining #3 25
2. PHRASE STRUCTURE
句構造
概要
• 単語の並びに関する規則を扱う
• 単語と文の間にある文法的単位とその種
類を扱う
• FSNLP Ch.3 のメイン
2010/11/07 27tokyotextmining #3
統語論 (syntax)
• 単語は無茶苦茶に並んでいるわけではな
い
• 言語は単語の並びに関して制約を持って
いる
• 句 (phrase)
– 単語が組織されたもの
• 統語論 (syntax)
– 語順の規則や制約、句の構造を扱う
• 構成素 (constituent)
– 特定の単語の系列が一塊の「構成素」となっ
て、何らかの文法的役割を担っていると考え
2010/11/07 28tokyotextmining #3
構文木
2010/11/07 29tokyotextmining #3
caught
VBD NP
NP VP
S
That
the with
a
PP
IN NP
名詞句名詞句
動詞句動詞句
前置詞句前置詞句
• 単語の列(文)は、階層的な構造を持っていると考える
• 1 つ以上の単語から構成されている、単語と文の間にある単位が句
• 特に、名詞を中心に構成されているものを名詞句、動詞を中心に構成
されているものを動詞句、前置詞を中心に構成されているものを動詞
句という
文文
DT
man
NN
DT NN
butterfly DT NN
net
緑字:品詞
赤字:単語
句の種類
• 主辞 (head)
– 句の中心
• 名詞句 (Noun Phrase) NP
– 動詞に動作や状態を表現さ
れる
– 限定詞、形容詞句、主辞
(名詞)、前置詞句、関係
詞節といった構成素が組み
合わさって出現
• 前置詞句 (Prepositional
Phrases) PP
– 全ての他の主要な句の中で
出現
– 空間的、時間的性質を表現
• 動詞句 (Verb Phrase) VP
– 動詞を主辞として、動作や
状態を表現
– 動詞を中心として、前置詞
句などを伴って出現
– 統語的に動詞に係るほとん
ど全ての要素の組織できる
• 形容詞句 (Adjective
Phrases) AP
– 形容詞が主辞である句
– 名詞の性質などを表現
2010/11/07 30tokyotextmining #3
語の並びに関する規則
• 語順で意味が変わる
– Mary gave peter a book.
– Peter gave Mary a book.
• 平叙文 (Declaratives)
– The children should eat spinach.
• 命令文 (Imperatives)
– Eat spinach!
• 疑問文 (Interrogatives)
– Should the children eat spinach?
• 明らかに規則的に元の文を書き変えている
2010/11/07 tokyotextmining #3 31
書き換え規則 (Rewrite rules)
2010/11/07 tokyotextmining #3 32
レキシコン (Lexicon)
• 書き換え規則 : 左辺が右辺に書き換えられる
• レキシコン : Category から対応する単語に書き換えられる部分
• 文脈自由文法 (Context-free grammars): 書き換えはカテゴリのみに
依存
Manning, C. D., Schutze, H. Foundations of
Statistical Natural Language Processing. MIT
Press, 1999. pp.97 (3.39) より引用
書き換え規則と構文木の導出
2010/11/07 tokyotextmining #3 33
Manning, C. D.,
Schutze, H. Foundations
of Statistical Natural
Language Processing.
MIT Press, 1999.
pp.97,98 (3.39) (3.40)
(3.41) (3.42) (3.43) より
引用
文脈自由であるということは?
• 文脈自由 (context-free)
– 文脈 (context) と無関係
– ナンセンスな文が許容される
– The cake ate the children.
2010/11/07 34tokyotextmining #3
再帰性 (recursivity)
• 書き換え規則には任意の回数繰り返すこ
とのできる部分がある
– NP -> NP PP; PP-> IN NP
• 再帰性こそが一つの開始記号 (start
symbol) が無数の単語に拡張可能な理由
2010/11/07 35tokyotextmining #3
非局所依存
(Non-local dependencies)
• 非局所依存
– 統語的依存関係がある二つの語の間に他の語が割り
込むことが可能なこと
• Subject-verb agreement はその一つの例
– 主語と動詞の間で、数を一致させなければならない
こと
– ○The women who found the wallet were given a reward.
– ×The women who found the wallet was given a reward.
2010/11/07 tokyotextmining #3 36
依存関係 (Dependency)
• 文を、要素間の依存関係の集合と考える
• Sue watch the man at the next table.
• “Sue” と “ the man” は “ watching” という
出来事の依存要素 (dependent) と考える
• “at the next table” は the man の依存要素
2010/11/07 37tokyotextmining #3
Sue watch the man at the next table
項と意味役割・文法役割
• 動詞が必須とする依存要素を項
(argument) という
– 他動詞の場合、少なくとも主語と目的語が必
要
• 項は以下の 2 つの観点から記述できる
• 意味役割 (semantic role):
– 動作主、受動者、道具、目標など
• 文法役割 (grammatical role)
– 主語、目的語など
2010/11/07 38tokyotextmining #3
主語と目的語
• 主語 (subject): 全ての動詞は主語を持つ
• 目的語 (object): 多くの動詞は目的語を持つ
• 主語と目的語は態によって変わるが、意味役割は不変
2010/11/07 tokyotextmining #3 39
項 She gave him the book
文法役割 主語 間接目的語 直接目的語
意味役割 動作主 受領者 受動者
依存要素の分類
• 項 (Arguments)
– 主語、目的語など動詞の中心的な要素で、必
須
– NP がほとんど(まれに PP や VP )
– Subject でない項は補語 (Complements) という
• 付加語 (Adjuncts)
– 動詞との結びつきが弱い
– 動作や状態の時間や場所を示す
• She saw a Woody Allen movie yesterday.
• She saw a Woody Allen movie in Paris.2010/11/07 tokyotextmining #3 40
下位範疇化 (Subcategolization)
• 動詞がある特定の補語を取ることを、下位範疇
化という
– 動詞 “ bring “ には目的語が不可欠
– このことを「動詞 “ bring” は “ object” を下位範疇化
する」という言い方をする
• 下位範疇化フレーム (Subcategorization frame)
– 動詞が補語を取るパターンには、頻出するものがあ
る
– 例えば “ know” や “ think” は文を下位範疇化する
– I know (that) she likes you.
2010/11/07 tokyotextmining #3 41
選択選好 (Selectional
preferences)
• 選択制限 (Selectional restrictions) ともいう
• 下位範疇化フレームのような統語的なも
のではなく、意味的に、ある種の動詞は
ある種の項を補語として取りやすい
• 例えば “ bark” (吠える)の主語は “ dog”
でなければ少々おかしい
2010/11/07 tokyotextmining #3 42
X バー理論 (X’ theory)
• 一般に、句は、主辞 (Head) に対して規則的に補語、付
加語、指定部 (Specifier) が付与されて構成されると考え
る
• 補語は付加語より先に主辞に付くと考えるため、 “ of
France” と “ with gray hair” を逆にはできない2010/11/07 tokyotextmining #3 43
The
president of F
rance
with gray hair
N’
N’
PP
NP
Det
PP
N
補語補語
付加語付加語
指定部指定部
構文解析 (Parsing)
• 書き換え規則を使って、単語列から構文木
(parse tree) を得ること
• NLP の最重要タスクの一つ
2010/11/07 tokyotextmining #3 44
The children ate
the cake
AT
NNS VBDAT
NN
NP
NP VP
S
統語的曖昧性 (syntactic ambiguity)
• ある程度網羅的な書き換え規則を与えられた場
合、与えられた単語列から大量の構文木を作る
ことができる
• 一体どれが正しい構文木なのか?
• そこで、確率文脈自由文法 (Probabilistic Context-
Free Grammar) の出番となる( 11 章、 12 章)
2010/11/07 tokyotextmining #3 45
付加の曖昧性 (attachment
ambiguity)
2010/11/07 tokyotextmining #3 46
• “The children ate the cake with a spoon”
• PP “with a spoon” を付与する場所に対して
、 2 つの解釈が可能
Manning, C. D., Schutze, H. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
pp.108 Figure 3.2 より引用
袋小路文 (Garden path sentence)
• 統語的曖昧性の代表的な例
• “The horse raced past the barn fell.”
• “The horse raced past the barn” までは、 “ raced”
が動詞だと考えている
• しかし、最後に “ fell” が出てくるので、これま
での仮説を棄て、 “ fell” を動詞、 “ raced past
the barn” を関係節と解釈する
• 話言葉では,イントネーションなどが誤解を防
いでくれる
2010/11/07 tokyotextmining #3 47
構文解析の失敗
• うまく解析できない場合
1. 生成の規則が網羅されていない
2. 非文 (Ungrammatical) である
– *Slept children the.
• 非文ではないが,辻褄が合わないもの
– #Colorless green ideas sleep furiously.
– #The cat barked.
– 意味的、語用論的、文化的なおかしさ
2010/11/07 tokyotextmining #3 48
統語論
• 単語は規則的に並んでいる
• 文は階層的な構造を持っている
• 階層的な構造を陽に記述した書き換え規
則を用いて、文を構文解析することがで
きる
2010/11/07 tokyotextmining #3 49
3. SEMANTICS AND PRAGMATICS
意味論と語用論
概要
• 単語の意味
• 文の意味
• 談話の意味
2010/11/07 51tokyotextmining #3
意味論
• 単語、構文、談話の意味に関する研究
• 個別の単語の意味に関する研究
– 語彙意味論 (Lexical semantics)
• 個別の単語が結合された文あるいは更に
大きな単位の意味の研究
2010/11/07 tokyotextmining #3 52
語彙意味論
• 個別の単語と他の単語との間の関係
• 上位・下位関係 (Hypernymy)
– 上位語 (Hypernym) 下位語 (Hyponym)
• 対義語 (Antonyms)
• 部分・全体関係 (part-whole relation)
– 部分 (Meronym) 全体 (Holonym)
• 類義語 (Synonyms)
• 同表記異義語 (Homonym) 多義語 (Polyseme)
– Homonym は、表記が同じだが意味がまったく異なるもの
( Bank の銀行と土手)、 Polyseme は若干意味的なつながりが
あるもの( Branch の支局と枝)
– 語義曖昧性解消 (Word Sense Disambiguation) の対象
2010/11/07 tokyotextmining #3 53
構成性原理 (Compositionality)
• 構成要素の意味から一定の手続きに従って全体の意味が
決定される
• 自然言語は従わない
• コロケーション (Collocations)
– 部分の意味の和から全体の意味が推測できない( 5 章をお楽し
みに)
• 慣用句 (Idiom)
– 部分の意味と全体の意味がまったく無関係
• スコープ (Scope)
– 数量詞が適用される範囲
– 解釈によって意味が変わってしまい、コンテキストから判断す
るしかない
2010/11/07 tokyotextmining #3 54
談話
• 談話 (discourse)
– 単語、文の次の単位
• 談話分析 (discourse analysis)
– テキスト中の文の間の関係を検討
• 例示 (example)
• 詳述 (elaboration)
• 更新 (restatement)
– 照応関係 (anaphoric relations)
2010/11/07 tokyotextmining #3 55
語用論
• 語用論 (pragmatics)
– 世界と言葉の相互関係を研究
– 談話分析は語用論に含まれる
• 照応関係の解決には世界知識が必要
– 統計的自然言語処理においてはまだまだ未開
拓
• データが少ない
2010/11/07 tokyotextmining #3 56
4. OTHER AREAS
言語学の他の分野
• 音声学 (phonetics)
– 子音 (consonants) 母音 (vowels) 音調 (intonation)
• 音韻論 (phonology)
• 社会言語学 (sociolinguistics)
– 社会と言語の関係
• 歴史言語学 (historical linguistics)
– 言語の歴史的な変遷
• 言語類型論 (linguistic typology)
• 言語獲得 (language acquisition)
• 心理言語学 (psycholinguistics)
• 数理言語学 (mathematical linguistics)
2010/11/07 tokyotextmining #3 58
まとめ
1. 品詞と形態論
– 品詞
– 屈折と派生
1. 句構造
– 句構造文法
– 依存関係
– 句構造の曖昧性
3. 意味論と語用論
– 意味論
• 単語の間の関係
• 構成性原理
– 語用論
• 談話分析
• 照応
2010/11/07 tokyotextmining #3 59
参考文献
• 言語処理学会(編) . 言語処理学辞典 . 共立出版 , 2009.
– 訳語は特にこれを参考にした
• Manning, C. D., Schutze, H. Foundations of Statistical Natural Language
Processing. MIT Press, 1999.
• 益岡 , 田窪 . 基礎日本語文法 . くろしお出版 , 1992.
– NLPer 必携の一冊!
• 益岡 , 仁田 , 郡司 , 金水 . 文法(岩波講座 言語の科学) . 岩波書店
, 1997.
• 松本 , 影山 , 永田 , 齋藤 , 徳永 . 単語と辞書(岩波講座 言語の科学
) . 岩波書店 , 1997.
• 長尾 , 中川 , 松本 , 橋田 , Bateman. 言語の数理(岩波講座 言語の
科学) . 岩波書店 , 1999.
2010/11/07 tokyotextmining #3 60
お疲れ様でした
2010/11/07 tokyotextmining #3 61

Weitere ähnliche Inhalte

Was ist angesagt?

Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127博三 太田
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッションantibayesian 俺がS式だ
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5博三 太田
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用Kanji Takahashi
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方についてKow Kuroda
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine TranslationKanji Takahashi
 
読解支援@2015 05-22
読解支援@2015 05-22読解支援@2015 05-22
読解支援@2015 05-22sekizawayuuki
 

Was ist angesagt? (9)

Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
読解支援@2015 05-22
読解支援@2015 05-22読解支援@2015 05-22
読解支援@2015 05-22
 

Andere mochten auch

Introduction to Automatic Summarization
Introduction to Automatic SummarizationIntroduction to Automatic Summarization
Introduction to Automatic SummarizationHitoshi Nishikawa
 
Automatic Summarization (2014)
Automatic Summarization (2014)Automatic Summarization (2014)
Automatic Summarization (2014)Hitoshi Nishikawa
 
Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。健一 辰濱
 
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Preferred Networks
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
対話テキストの自動要約
対話テキストの自動要約対話テキストの自動要約
対話テキストの自動要約Masahiro Yamamoto
 

Andere mochten auch (8)

Argmax Operations in NLP
Argmax Operations in NLPArgmax Operations in NLP
Argmax Operations in NLP
 
Introduction to Automatic Summarization
Introduction to Automatic SummarizationIntroduction to Automatic Summarization
Introduction to Automatic Summarization
 
Automatic Summarization (2014)
Automatic Summarization (2014)Automatic Summarization (2014)
Automatic Summarization (2014)
 
20140306 ibisml
20140306 ibisml20140306 ibisml
20140306 ibisml
 
Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。
 
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
対話テキストの自動要約
対話テキストの自動要約対話テキストの自動要約
対話テキストの自動要約
 

Kürzlich hochgeladen

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Kürzlich hochgeladen (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

FSNLP Ch.3 Linguistic Essentials

  • 1. tokyotextmining #3 FSNLP Chapter 3 Linguistic Essentials @hitoshi_ni
  • 3. 目次 1. Part of Speech and Morphology – 品詞、形態論、屈折、派生、複合 1. Phrase Structure – 句構造文法、依存関係 1. Semantics and Pragmatics – 上位語、下位語、類義語 – 構成性原理 1. Other Areas 2010/11/07 3tokyotextmining #3
  • 4. 1. PART OF SPEECH AND MORPHOLOGY 品詞と形態論
  • 5. 概要 • 品詞 – 単語を性質で分類したもの – 名詞、動詞、形容詞、副詞など • 形態論 – 単語の変化 (dog, dogs) などを扱う – 品詞と密接に関係する 2010/11/07 5tokyotextmining #3
  • 6. 品詞 (Part of speech) • 言語学者が、統語的、意味的に同じような動きをする単 語をグループ化したもの • 重要な 3 つの品詞 – 名詞 (Noun) 人物,動物,概念,物体 – 動詞 (Verb) 文中における動作を表現 – 形容詞 (Adjective) 名詞の性質を表現 • 品詞の判定方法 (Substitution test) 2010/11/07 tokyotextmining #3 6 The one is in the corner. sad intelligent green fat …
  • 7. 品詞の分類 Open word class 語彙範疇 (lexical category) Closed word class 機能範疇 (functional category) 名詞、動詞、形容詞、副 詞 限定詞 (determiner: a, an, the) 前置詞 (preposition: to, on, in, of) •メンバーが多い •新しいメンバーが加わ る •メンバーが少ない •メンバーは固定的 2010/11/07 7tokyotextmining #3
  • 8. 形態論 • 単数形 (dog) と複数形 (dogs) に示されるような語 の変化を扱い、品詞と密接に関係する • NLP において重要である • 自然言語においては次々と新しい語が発生して くる • コンピュータは常に、新しい、未知の語と遭遇 する可能性がある • その場合も、既知の語と、語の変化の仕組みが わかっていれば新しい語の性質を推測できる 2010/11/07 tokyotextmining #3 8
  • 9. 主な形態的な変化 Inflection 屈折 Derivation 派生 Compounding 複合 • 原形に概ね規則的に接 辞を付与する • 単数や複数,時制,人 称などを表現する • 品詞や意味を大きく変 えない • あまり規則的ではない • 品詞や意味が大きく変 化する • 2 個以上の単語が新し い語を構成する • 分割して書かれていて も 1 語として発音され る • dog, dogs • eat, eats, ate, eaten • teach, teacher • weak, weaken • wide, widely • tea kettle, disk drive • mad cow disease 2010/11/07 10tokyotextmining #3
  • 11. 名詞 • 名詞 – 人、動物、物など世界に存在する物体を表す • 名詞の屈折の原因 – 数:単数、複数 • Dog, dogs – 性:女性、男性、中性 • 英語では失われたが、 3 人称単数代名詞 (she, he, it) がある – 格:主格、対格、所有格 • 主語、目的語など文中の機能によって変化する • ‘英語では s が所有を表現する 2010/11/07 tokyotextmining #3 12
  • 12. 代名詞 • 談話中の際立った対象を示すため変数のような 働きをする • 代名詞の屈折 – 格:主格、対格、所有格など 2010/11/07 13tokyotextmining #3 人称・性 主格 対格 所有格 一人称 I Me My 二人称 You You Your 三人称・男性 He Him His 三人称・女性 She Her Her 三人称・中性 It It Its
  • 13. 限定詞 (Determiner) • 名詞に伴って出現 – 名詞の参照を特定 – 冠詞 (Article) • the : 既に言及されたもの,一意に決定されるもの • a, an : これまで言及されていないもの – 指示詞 (Demonstrative) • this, that 2010/11/07 14tokyotextmining #3
  • 14. 形容詞 Suffixing Periphrastic phrase 原級 rich, trendy intelligent 比較級 richer, trendier more intelligent 最上級 richest, trendiest most intelligent • 名詞に伴って出現 • 名詞の性質を表現 • 限定用法 (Attributive) – 名詞の前につく (red moon) • 叙述用法 (Predicative) – 名詞の後につく (moon is red) • Agreement – Article や adjective と名詞の 格、性、数などが一致する こと • Comparative, Superlative – 下記参照 2010/11/07 15tokyotextmining #3
  • 15. 動詞 • 動作や行動、状態を表現する • 以下の4つの形態を持つ – 原形 : walk – 三単現 : walks – 動名詞・現在分詞 : walking – 過去形・過去分詞・受動分詞 : walked • 基本的には接尾辞を規則的に付与 (s, ing, ed) する が、不規則に変化する場合もある – Drive, drove, driven – Take, took, taken 2010/11/07 16tokyotextmining #3
  • 16. 不定詞・進行形・動名詞 • 不定詞 (infinitive): 他の品詞の働きをする – to 不定詞 • She likes to walk. – 原形不定詞(助動詞の後、使役動詞の時など) • She shouldn’t walk. • She helped me walk. • 進行形 (progressive): 進行中の事柄をあらわす • She is walking. • 動名詞 (gerund): 動詞がいくらか名詞の性質を 得ているもの • Walking is fun. 2010/11/07 17tokyotextmining #3
  • 17. 分析的言語と総合的言語 • 分析的言語 (Analytic language) – 文法を表す際に屈折でなく機能語を用いる言 語の特徴 • 総合的言語 (Synthetic language) – 文法関係を表す際に屈折を用いる言語の特徴 2010/11/07 tokyotextmining #3 18
  • 18. 英語の場合 • 機能語を利用 (Analytic) – 助動詞を用いて表現 – be: 進行形  have: 完了形  will: 未来形 – Periphrastic form (迂言系)ともいう – ”直接表現しない(助動詞を使う)ため“迂 言 – フランス語などは未来形を屈折で表現(=直接表現 している=迂言形でない) • 屈折を利用 (Synthetic) – 接尾辞を追加 – -s: 複数形  -ed: 過去形  -ing: 進行形 2010/11/07 tokyotextmining #3 19
  • 19. 法助動詞 • 法 (mood) を表現するための助動詞 • 可能、仮定、願望、要求など – Should • You should spend more time with your family. – May • He may or may not come to the meeting. – Can • With her abilities, she can do whatever she wants to. 2010/11/07 20tokyotextmining #3
  • 20. 動詞によって示される特徴 示される特徴 示す方法(接尾辞あるいは助動 詞) 人称 一人称、二人称、三人称 接尾辞 : walks 時制 現在、過去、未来 接尾辞 : walked 助動詞 : will 相 進行形、完了形 接尾辞 : waking 助動詞 : have 法 可能、仮定、願望、要求 助動詞 :can 態 受動態、能動態 接尾辞 :taken 2010/11/07 21tokyotextmining #3
  • 21. 副詞 • 副詞 (adverb) – 動詞や形容詞を修飾する • 形容詞から派生する • This painting is absolutely wonderful. • 形容詞から派生しないものもある • She often travels to Las Vegas. • Degree adverb (Quantifier): 程度の副詞(数量詞) – 動詞ではなく形容詞や副詞を修飾する • 形容詞を修飾する • A very unlucky event 2010/11/07 22tokyotextmining #3
  • 22. 前置詞 (preposition) • 前置詞 (preposition) – 空間的な関係を表現する • In the glass, on the table, over their head • 不変化詞 (particle) – 句動詞(動詞+前置詞)中の前置詞のこと • Don’t give in to him. – 動詞と前置詞を単純に足した意味にならない (unpredictable) • She ran up a hill. • She ran up a bill. – 字面どおりの意味と比喩的な意味がある 2010/11/07 23tokyotextmining #3
  • 23. 接続詞 (conjunction) • 等位接続詞 (coordinating conjunction) – 同じカテゴリにある二つの語や句を結合する • Husband and wife [noun] • She bought or leased the car. [verb] • She bought her car, but she also considered leasing it. [sentences] • 従位接続詞 (subordinating conjunction) – 文や節 (clause) を接続する • She said that he would be late. [proposition] (主張) • She complained because he was late. [reason] (理由) • If [condition] (条件) , although [concession] (譲歩) , before [temporal] (時制)など – 補文標識 (complementizer) • She said that he would be late. • 青字が補文,赤字が補文標識 2010/11/07 24tokyotextmining #3
  • 24. 形態論 • 単語には品詞がある • 単語の形態の変化には屈折や派生、複合 がある • 単語の形態の変化には、規則的なものと 不規則的なものがある 2010/11/07 tokyotextmining #3 25
  • 27. 統語論 (syntax) • 単語は無茶苦茶に並んでいるわけではな い • 言語は単語の並びに関して制約を持って いる • 句 (phrase) – 単語が組織されたもの • 統語論 (syntax) – 語順の規則や制約、句の構造を扱う • 構成素 (constituent) – 特定の単語の系列が一塊の「構成素」となっ て、何らかの文法的役割を担っていると考え 2010/11/07 28tokyotextmining #3
  • 28. 構文木 2010/11/07 29tokyotextmining #3 caught VBD NP NP VP S That the with a PP IN NP 名詞句名詞句 動詞句動詞句 前置詞句前置詞句 • 単語の列(文)は、階層的な構造を持っていると考える • 1 つ以上の単語から構成されている、単語と文の間にある単位が句 • 特に、名詞を中心に構成されているものを名詞句、動詞を中心に構成 されているものを動詞句、前置詞を中心に構成されているものを動詞 句という 文文 DT man NN DT NN butterfly DT NN net 緑字:品詞 赤字:単語
  • 29. 句の種類 • 主辞 (head) – 句の中心 • 名詞句 (Noun Phrase) NP – 動詞に動作や状態を表現さ れる – 限定詞、形容詞句、主辞 (名詞)、前置詞句、関係 詞節といった構成素が組み 合わさって出現 • 前置詞句 (Prepositional Phrases) PP – 全ての他の主要な句の中で 出現 – 空間的、時間的性質を表現 • 動詞句 (Verb Phrase) VP – 動詞を主辞として、動作や 状態を表現 – 動詞を中心として、前置詞 句などを伴って出現 – 統語的に動詞に係るほとん ど全ての要素の組織できる • 形容詞句 (Adjective Phrases) AP – 形容詞が主辞である句 – 名詞の性質などを表現 2010/11/07 30tokyotextmining #3
  • 30. 語の並びに関する規則 • 語順で意味が変わる – Mary gave peter a book. – Peter gave Mary a book. • 平叙文 (Declaratives) – The children should eat spinach. • 命令文 (Imperatives) – Eat spinach! • 疑問文 (Interrogatives) – Should the children eat spinach? • 明らかに規則的に元の文を書き変えている 2010/11/07 tokyotextmining #3 31
  • 31. 書き換え規則 (Rewrite rules) 2010/11/07 tokyotextmining #3 32 レキシコン (Lexicon) • 書き換え規則 : 左辺が右辺に書き換えられる • レキシコン : Category から対応する単語に書き換えられる部分 • 文脈自由文法 (Context-free grammars): 書き換えはカテゴリのみに 依存 Manning, C. D., Schutze, H. Foundations of Statistical Natural Language Processing. MIT Press, 1999. pp.97 (3.39) より引用
  • 32. 書き換え規則と構文木の導出 2010/11/07 tokyotextmining #3 33 Manning, C. D., Schutze, H. Foundations of Statistical Natural Language Processing. MIT Press, 1999. pp.97,98 (3.39) (3.40) (3.41) (3.42) (3.43) より 引用
  • 33. 文脈自由であるということは? • 文脈自由 (context-free) – 文脈 (context) と無関係 – ナンセンスな文が許容される – The cake ate the children. 2010/11/07 34tokyotextmining #3
  • 34. 再帰性 (recursivity) • 書き換え規則には任意の回数繰り返すこ とのできる部分がある – NP -> NP PP; PP-> IN NP • 再帰性こそが一つの開始記号 (start symbol) が無数の単語に拡張可能な理由 2010/11/07 35tokyotextmining #3
  • 35. 非局所依存 (Non-local dependencies) • 非局所依存 – 統語的依存関係がある二つの語の間に他の語が割り 込むことが可能なこと • Subject-verb agreement はその一つの例 – 主語と動詞の間で、数を一致させなければならない こと – ○The women who found the wallet were given a reward. – ×The women who found the wallet was given a reward. 2010/11/07 tokyotextmining #3 36
  • 36. 依存関係 (Dependency) • 文を、要素間の依存関係の集合と考える • Sue watch the man at the next table. • “Sue” と “ the man” は “ watching” という 出来事の依存要素 (dependent) と考える • “at the next table” は the man の依存要素 2010/11/07 37tokyotextmining #3 Sue watch the man at the next table
  • 37. 項と意味役割・文法役割 • 動詞が必須とする依存要素を項 (argument) という – 他動詞の場合、少なくとも主語と目的語が必 要 • 項は以下の 2 つの観点から記述できる • 意味役割 (semantic role): – 動作主、受動者、道具、目標など • 文法役割 (grammatical role) – 主語、目的語など 2010/11/07 38tokyotextmining #3
  • 38. 主語と目的語 • 主語 (subject): 全ての動詞は主語を持つ • 目的語 (object): 多くの動詞は目的語を持つ • 主語と目的語は態によって変わるが、意味役割は不変 2010/11/07 tokyotextmining #3 39 項 She gave him the book 文法役割 主語 間接目的語 直接目的語 意味役割 動作主 受領者 受動者
  • 39. 依存要素の分類 • 項 (Arguments) – 主語、目的語など動詞の中心的な要素で、必 須 – NP がほとんど(まれに PP や VP ) – Subject でない項は補語 (Complements) という • 付加語 (Adjuncts) – 動詞との結びつきが弱い – 動作や状態の時間や場所を示す • She saw a Woody Allen movie yesterday. • She saw a Woody Allen movie in Paris.2010/11/07 tokyotextmining #3 40
  • 40. 下位範疇化 (Subcategolization) • 動詞がある特定の補語を取ることを、下位範疇 化という – 動詞 “ bring “ には目的語が不可欠 – このことを「動詞 “ bring” は “ object” を下位範疇化 する」という言い方をする • 下位範疇化フレーム (Subcategorization frame) – 動詞が補語を取るパターンには、頻出するものがあ る – 例えば “ know” や “ think” は文を下位範疇化する – I know (that) she likes you. 2010/11/07 tokyotextmining #3 41
  • 41. 選択選好 (Selectional preferences) • 選択制限 (Selectional restrictions) ともいう • 下位範疇化フレームのような統語的なも のではなく、意味的に、ある種の動詞は ある種の項を補語として取りやすい • 例えば “ bark” (吠える)の主語は “ dog” でなければ少々おかしい 2010/11/07 tokyotextmining #3 42
  • 42. X バー理論 (X’ theory) • 一般に、句は、主辞 (Head) に対して規則的に補語、付 加語、指定部 (Specifier) が付与されて構成されると考え る • 補語は付加語より先に主辞に付くと考えるため、 “ of France” と “ with gray hair” を逆にはできない2010/11/07 tokyotextmining #3 43 The president of F rance with gray hair N’ N’ PP NP Det PP N 補語補語 付加語付加語 指定部指定部
  • 43. 構文解析 (Parsing) • 書き換え規則を使って、単語列から構文木 (parse tree) を得ること • NLP の最重要タスクの一つ 2010/11/07 tokyotextmining #3 44 The children ate the cake AT NNS VBDAT NN NP NP VP S
  • 44. 統語的曖昧性 (syntactic ambiguity) • ある程度網羅的な書き換え規則を与えられた場 合、与えられた単語列から大量の構文木を作る ことができる • 一体どれが正しい構文木なのか? • そこで、確率文脈自由文法 (Probabilistic Context- Free Grammar) の出番となる( 11 章、 12 章) 2010/11/07 tokyotextmining #3 45
  • 45. 付加の曖昧性 (attachment ambiguity) 2010/11/07 tokyotextmining #3 46 • “The children ate the cake with a spoon” • PP “with a spoon” を付与する場所に対して 、 2 つの解釈が可能 Manning, C. D., Schutze, H. Foundations of Statistical Natural Language Processing. MIT Press, 1999. pp.108 Figure 3.2 より引用
  • 46. 袋小路文 (Garden path sentence) • 統語的曖昧性の代表的な例 • “The horse raced past the barn fell.” • “The horse raced past the barn” までは、 “ raced” が動詞だと考えている • しかし、最後に “ fell” が出てくるので、これま での仮説を棄て、 “ fell” を動詞、 “ raced past the barn” を関係節と解釈する • 話言葉では,イントネーションなどが誤解を防 いでくれる 2010/11/07 tokyotextmining #3 47
  • 47. 構文解析の失敗 • うまく解析できない場合 1. 生成の規則が網羅されていない 2. 非文 (Ungrammatical) である – *Slept children the. • 非文ではないが,辻褄が合わないもの – #Colorless green ideas sleep furiously. – #The cat barked. – 意味的、語用論的、文化的なおかしさ 2010/11/07 tokyotextmining #3 48
  • 48. 統語論 • 単語は規則的に並んでいる • 文は階層的な構造を持っている • 階層的な構造を陽に記述した書き換え規 則を用いて、文を構文解析することがで きる 2010/11/07 tokyotextmining #3 49
  • 49. 3. SEMANTICS AND PRAGMATICS 意味論と語用論
  • 50. 概要 • 単語の意味 • 文の意味 • 談話の意味 2010/11/07 51tokyotextmining #3
  • 51. 意味論 • 単語、構文、談話の意味に関する研究 • 個別の単語の意味に関する研究 – 語彙意味論 (Lexical semantics) • 個別の単語が結合された文あるいは更に 大きな単位の意味の研究 2010/11/07 tokyotextmining #3 52
  • 52. 語彙意味論 • 個別の単語と他の単語との間の関係 • 上位・下位関係 (Hypernymy) – 上位語 (Hypernym) 下位語 (Hyponym) • 対義語 (Antonyms) • 部分・全体関係 (part-whole relation) – 部分 (Meronym) 全体 (Holonym) • 類義語 (Synonyms) • 同表記異義語 (Homonym) 多義語 (Polyseme) – Homonym は、表記が同じだが意味がまったく異なるもの ( Bank の銀行と土手)、 Polyseme は若干意味的なつながりが あるもの( Branch の支局と枝) – 語義曖昧性解消 (Word Sense Disambiguation) の対象 2010/11/07 tokyotextmining #3 53
  • 53. 構成性原理 (Compositionality) • 構成要素の意味から一定の手続きに従って全体の意味が 決定される • 自然言語は従わない • コロケーション (Collocations) – 部分の意味の和から全体の意味が推測できない( 5 章をお楽し みに) • 慣用句 (Idiom) – 部分の意味と全体の意味がまったく無関係 • スコープ (Scope) – 数量詞が適用される範囲 – 解釈によって意味が変わってしまい、コンテキストから判断す るしかない 2010/11/07 tokyotextmining #3 54
  • 54. 談話 • 談話 (discourse) – 単語、文の次の単位 • 談話分析 (discourse analysis) – テキスト中の文の間の関係を検討 • 例示 (example) • 詳述 (elaboration) • 更新 (restatement) – 照応関係 (anaphoric relations) 2010/11/07 tokyotextmining #3 55
  • 55. 語用論 • 語用論 (pragmatics) – 世界と言葉の相互関係を研究 – 談話分析は語用論に含まれる • 照応関係の解決には世界知識が必要 – 統計的自然言語処理においてはまだまだ未開 拓 • データが少ない 2010/11/07 tokyotextmining #3 56
  • 57. 言語学の他の分野 • 音声学 (phonetics) – 子音 (consonants) 母音 (vowels) 音調 (intonation) • 音韻論 (phonology) • 社会言語学 (sociolinguistics) – 社会と言語の関係 • 歴史言語学 (historical linguistics) – 言語の歴史的な変遷 • 言語類型論 (linguistic typology) • 言語獲得 (language acquisition) • 心理言語学 (psycholinguistics) • 数理言語学 (mathematical linguistics) 2010/11/07 tokyotextmining #3 58
  • 58. まとめ 1. 品詞と形態論 – 品詞 – 屈折と派生 1. 句構造 – 句構造文法 – 依存関係 – 句構造の曖昧性 3. 意味論と語用論 – 意味論 • 単語の間の関係 • 構成性原理 – 語用論 • 談話分析 • 照応 2010/11/07 tokyotextmining #3 59
  • 59. 参考文献 • 言語処理学会(編) . 言語処理学辞典 . 共立出版 , 2009. – 訳語は特にこれを参考にした • Manning, C. D., Schutze, H. Foundations of Statistical Natural Language Processing. MIT Press, 1999. • 益岡 , 田窪 . 基礎日本語文法 . くろしお出版 , 1992. – NLPer 必携の一冊! • 益岡 , 仁田 , 郡司 , 金水 . 文法(岩波講座 言語の科学) . 岩波書店 , 1997. • 松本 , 影山 , 永田 , 齋藤 , 徳永 . 単語と辞書(岩波講座 言語の科学 ) . 岩波書店 , 1997. • 長尾 , 中川 , 松本 , 橋田 , Bateman. 言語の数理(岩波講座 言語の 科学) . 岩波書店 , 1999. 2010/11/07 tokyotextmining #3 60