SlideShare a Scribd company logo
1 of 33
Download to read offline
機械学習を用いたニ格深層格 の自動付与の検討 
○長岡技術科学大学電気系竹野峻輔 
金沢大学松田真希子 
長岡技術科学大学電気系梶原智之 
長岡技術科学大学電気系山本和英 
1
導入-研究背景・関連研究 
機械翻訳・含意関係認識においては 
計算機による意味の自動判定が必要 
⇒ 深層格(体言と用言の関係)の理解 
ニ格の出現頻度が高い[渋木ら06] 
ヲ格に次ぎ2番目の出現頻度である 
Rule-basedの二格の深層格推定[田辺ら09] 
意味属性を人手で付与。 
小規模コーパスでの深層格推定 
2
導入-研究背景・関連研究 
機械翻訳・含意関係認識においては 
計算機による意味の自動判定が必要 
⇒ 深層格(体言と用言の関係)の理解 
ニ格の出現頻度が高い[渋木ら06] 
ヲ格に次ぎ2番目の出現頻度である 
Rule-basedの二格の深層格推定[田辺ら09] 
意味属性を人手で付与。 
小規模コーパスでの深層格推定 
3 
深層格の分類項目の共通見解がない 
既存の分類項目では網羅性が不十分
[松田ら12,14]による分類項目の提案 
日本語学/言語学に基づき、専門家による項目の選定 
12種類の深層格分類項目 
[時間][場所][結果][対象] [動作主] [目的][役割][頻度][副詞化][複合辞] [起点][その他] 
導入-先行研究 
e.g) 8時に起きる[時間]、医者になる[結果] 
映画を見に行く[目的]、東京に行く[場所] 
4
導入-本研究における目的 
12種の深層格分類項目の自動付与 
3種類の大規模コーパスを使った分類器を構築 
BCCWJ 
–書き言葉均衡コーパス 
京都大学テキストコーパス 
–情報が付与された新聞記事コーパス 
Web日本語Nグラム 
–Web上の高頻度n-gramコーパス 
e.g) 8時に起きる[時間]、医者になる[結果] 
映画を見に行く[目的]、東京に行く[場所] 
5
分類器の構築–流れ 
①分類器の選定 
②素性抽出 
③汎化処理 
④素性選択 
⑤評価 
6
分類器の構築–流れ 
①分類器の選定 
②素性抽出 
③汎化処理 
④素性選択 
⑤評価 
ナイーブベイズ分類器 
7
分類器の構築–分類器の選定 
•ナイーブベイズ分類器 
–軽量かつ高速な学習が可能 
–頻度情報に基づいたモデルの分析が可能 
푛푓,푐∶分類項目푐と素性푓の共起頻度 
푛푐∶分類項目푐と出現頻度 
훼:平滑化パラメータ(1で固定) 
퐹:素性集合, 
퐶:分類項目集合 
푃(푐|퐹)=푃푐푃퐹푐 =푝푐 푝푓,푐 훿푓∙1−푝푓,푐 1−훿푓 푓∈퐹 
푝푓,푐= 푛푓,푐+훼 푛푐푐∈퐶+2훼 , 
 푝푐= 푛푐+ 훼 푛푐푐∈퐶+훼|퐶| 
푐 =argmax 푐 푃(푐|퐹) 
8
分類器の構築–流れ 
①分類器の選定 
②素性抽出 
③汎化処理 
④素性選択 
⑤評価 
ナイーブベイズ分類器 
係り元文節 
および係先文節の抽出 
9
係り受け・形態素解析結果から下記素性を抽出 
仮説: 
深層格は前接の体言と後接の用言で決まる 
係り元文節 
全ての形態素※ 
係り先文節 
サ変接続名詞・動詞・形容詞 
形容動詞・副詞・助動詞 
以上より原形および品詞・品詞細分類 
活用形・IREXタグ 
を抽出 
分類器の構築–素性の抽出 
※判定に必要ないまた雑音となる形態素を除去 記号、フィラー、接頭詞、助詞など その他数値表現の均一化 
10
分類器の構築–流れ 
①分類器の選定 
②素性抽出 
③汎化処理 
④素性選択 
⑤評価 
ナイーブベイズ分類器 
係り元文節 
および係先文節の抽出 
日本語語彙大系による 
名詞の汎化 
11
名詞 
具体 
人 
<職業> 
人 
<役割> 
抽象 
主体 
•日本語語彙大系を利用した名詞の汎化を行う 
適当な深さNを定め、その位置の意味属性を取り出す 
学生 
医者 
深さ1 
深さ2 
深さ6 
分類器の構築–名詞素性の汎化 
汎化の深さ 
学生になる[結果] 
医者になる[結果] 
12
名詞 
具体 
人 
<職業> 
人 
<役割> 
抽象 
主体 
•日本語語彙大系を利用した名詞の汎化を行う 
適当な深さNを定め、その位置の意味属性を取り出す 
学生 
医者 
深さ1 
深さ2 
深さ6 
分類器の構築–名詞素性の汎化 
汎化の深さ 
人<職業> になる 
学生になる[結果] 
医者になる[結果] 
13
名詞 
具体 
人 
<職業> 
人 
<役割> 
抽象 
主体 
•日本語語彙大系を利用した名詞の汎化を行う 
適当な深さNを定め、その位置の意味属性を取り出す 
学生 
医者 
深さ1 
深さ2 
深さ6 
分類器の構築–名詞素性の汎化 
汎化の深さ 
学習効率 
-未知の名詞対応可 
-正答率向上が期待 
14
分類器の構築–流れ 
①分類器の選定 
②素性抽出 
③汎化処理 
④素性選択 
⑤評価 
ナイーブベイズ分類器 
係り元文節 
および係先文節の抽出 
日本語語彙大系による 
名詞の汎化 
tfidfによる閾値基準 
15
分類器の構築–素性選択 
tfidf を用いた素性選択 
出現頻度が高く、限られた深層格でのみ 
出現する素性ほど高くなる 
scoreが閾値以下の素性f を削除することで素性選択 
푡푓푐,푓= log2푛푐,푓 log2푛푐 ,  푖푑푓푓=log2( 퐶 푑푓푓 )+1 
푡푓푖푑푓푐,푓=푡푓푐,푓∙푖푑푓푓 
푠푐표푟푒푓=max 푐∈퐶 푡푓푖푑푓푐,푓 
푛푓,푐∶分類項目푐と素性푓の共起頻度 
푛푐∶分類項目푐と出現頻度 
푑푓푓:素性푓の出現する深層格種類数 
16 
tfidf による素性の評価
分類器の構築–流れ 
①分類器の選定 
②素性抽出 
③汎化処理 
④素性選択 
⑤評価 
ナイーブベイズ分類器 
係り元文節 
および係先文節の抽出 
日本語語彙大系による 
名詞の汎化 
tfidfによる閾値基準 
F値, 正答率 
17
訓練セット 
•BCCWJ –9,970件 
–書き言葉均衡コーパス(ランダム抽出) 
•京都大学テキストコーパス–9,743件 
–情報が付与された新聞中の文章コーパス(ランダム抽出) 
•Web日本語Nグラム–9,826件 
–Web上の高頻度n-gram コーパス(7-gram高頻度順抽出) 
評価セット 
•評価用コーパス–1,086件 
※文体、世代や位相の代表性を有するように下記情報源から抽出 
青空文庫, 読売新聞, アメーバブログ, Wikipedia, 論文, 論文抄録, サイゾーウーマン 
, サイゾー, Twitter 
分類器の構築–利用するコーパス 
18
分類器の構築–評価 
正答率: 푆푎푣푒= 分類正解数 評価コーパスのデータ数 
精度: 푃푐= 푐と予測したうちの正解数 深層格푐 と予測した数 , 再現率:푅푐= 푐と予測したうちの正解数 評価コーパス中の深層格푐である数 F値:퐹푐= 2푃푐푅푐 푃푐+푅푐 
深層格ごとの結果比較→F値 
コーパスの結果比較→正答率 
19
分類器構築の検討–流れ 
①tfidfの閾値の検討 
②3種のコーパスの比較 
③誤り分析 
20
分類器構築の検討–流れ 
①tfidf の閾値の検討 
②3種のコーパスの比較 
③誤り分析 
21
tfidf閾値によるF値・正答率の変化 
0% 
20% 
40% 
60% 
80% 
100% 
0 
0.3 
0.6 
0.9 
1.2 
1.5 
[時間] 
[場所] 
[結果] 
[対象] 
[動作主] 
[目的] 
[役割] 
[その他] 
[頻度] 
[副詞] 
[複合辞] 
[起点] 
正答率 
正答率 
tfidf の閾値 
全体の正答率[%], 各深層格のF値[%] 
tfidf の閾値の変化による 正答率の改善を検討する 
BCCWJ 汎化の深さ5 
22
tfidf閾値によるF値・正答率の変化 
61% 
0% 
20% 
40% 
60% 
80% 
100% 
0 
0.3 
0.6 
0.9 
1.2 
1.5 
[時間] 
[場所] 
[結果] 
[対象] 
[動作主] 
[目的] 
[役割] 
[その他] 
[頻度] 
[副詞] 
[複合辞] 
[起点] 
正答率 
正答率 
tfidf の閾値 
全体の正答率[%], 各深層格のF値[%] 
tfidfの閾値の変化による 
正答率の改善を検討する 
BCCWJ 汎化の深さ5 
閾値の変化により正答率は大きな改善は無し 
しかし推定に必要な素性は少ない(142/7489) 
23
0% 
20% 
40% 
60% 
80% 
100% 
0 
0.3 
0.6 
0.9 
1.2 
1.5 
[時間] 
[場所] 
[結果] 
[対象] 
[動作主] 
[目的] 
[役割] 
[その他] 
[頻度] 
[副詞] 
[複合辞] 
[起点] 
正答率 
BCCWJ 汎化の深さ5 
tfidf の閾値の変化による 
正答率の改善を検討する 
tfidf閾値によるF値・正答率の変化 
正答率 
tfidf の閾値 
全体の正答率[%], 各深層格のF値[%] 
正答率の傾向は[対象]のF値の傾向と一致 [対象]の割合が最も多いため 
対象 
24
BCCWJ 汎化の深さ5 
TFIDFの閾値の変化による 
正答率の改善を検討する 
tfidf 閾値によるF値・正答率の変化 
0% 
20% 
40% 
60% 
80% 
100% 
0 
0.3 
0.6 
0.9 
1.2 
1.5 
[時間] 
[場所] 
[結果] 
[対象] 
[動作主] 
[目的] 
[役割] 
[その他] 
[頻度] 
[副詞] 
[複合辞] 
[起点] 
正答率 
正答率 
tfidf の閾値 
全体の正答率[%], 各深層格のF値[%] 
結果 
副詞 
副詞・複合辞・結果(約3割)は改善傾向あり ⇒閾値による余分な素性が削除された 
複合辞 
25
分類器構築の検討–流れ 
①tfidf の閾値の検討 
②3種のコーパスの比較 
③誤り分析 
26
コーパス同士の比較 
訓練セット 
BCCWJ 
京大 
Nグラム 
評価セット 
BCCWJ 
67% 
62% 
55% 
京大 
66% 
74% 
59% 
Nグラム 
59% 
67% 
78% 
評価用 コーパス 
67% 
66% 
53% 
訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~15, tfidfの閾値: 0~1.5 最大値を抽出 
※京大:京都大学テキストコーパス 
Nグラム: Web日本語Nグラム 
として評価 
3種のコーパスについて分類器の正答率を検証 
27
コーパス同士の比較 
訓練セット 
BCCWJ 
京大 
Nグラム 
評価セット 
BCCWJ 
67% 
62% 
55% 
京大 
66% 
74% 
59% 
Nグラム 
59% 
67% 
78% 
評価用 コーパス 
67% 
66% 
53% 
訓練事例数:8500件 
評価事例数:1086件 
汎化の深さ:0 ~15, 
tfidfの閾値: 0~1.5 
最大値を抽出 
※京大:京都大学テキストコーパス 
Nグラム: Web日本語Nグラム 
として評価 
3種のコーパスについて分類器の正答率を検証 
28 
対評価用(未知の事例): 
BCCWJ(67%) 
ベースライン: 
[対象]の割合(41%)
コーパス同士の比較 
訓練セット 
BCCWJ 
京大 
Nグラム 
評価セット 
BCCWJ 
67% 
62% 
55% 
京大 
66% 
74% 
59% 
Nグラム 
59% 
67% 
78% 
評価用 コーパス 
67% 
66% 
53% 
訓練事例数:8500件 
評価事例数:1086件 
汎化の深さ:0 ~15, 
tfidfの閾値: 0~1.5 
最大値を抽出 
※京大:京都大学テキストコーパス 
Nグラム: Web日本語Nグラム 
として評価 
3種のコーパスについて分類器の正答率を検証 
29 
対評価用(未知の事例): 
BCCWJ(67%) 
ベースライン: 
[対象]の割合(41%) 
BCCWJ は均衡コーパスのため 
評価用コーパスと近似性が高い
分類器構築の検討–流れ 
①tfidf の閾値の検討 
②3種のコーパスの比較 
③誤り分析 
30
誤り分析 
[対象]以外を[対象]と誤判定(148/360) 
e.g)…壊滅に追い込まれ、一家離散した[結果]→ [対象] 
壊滅追い込まれるが訓練コーパスに含まれない 
未知の単語に効果的な素性が抽出できていないことに起因 
•素性抽出(n-gram 等) 、汎化方法の再考。棄却オプションの導入 
[複合辞][副詞化][結果]の誤判定(84/360 ) 
e.g) … モデルによる分析に加え…[複合辞]→ [動作主] 
…具体的に話すと… [副詞化]→ [対象] 
一定の構文パターンを持つが、他の素性の影響で誤判定 
•構文パターンを予め記憶し、照合することで改善可 
BCCWJの誤り件数360/1086件において 
※以上の誤り件数で202/360を占める 
31
結論 
•ニ格の深層格の自動付与を検討 
–大規模コーパスを利用した12種の自動分類 
–日本語語彙大系による汎化 
–tfidfを基準とした素性選択 
•分類器の構築の検討 
–tfidfを使った正答率の改善効果は低い 
–最大性能は訓練セットBCCWJで最高67% 
•今後の課題 
–異なる素性抽出方法の再考の必要性 
–構文パターンの適応で改善可能 
32
33

More Related Content

Viewers also liked

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定Tatsuya Coike
 
日本企業における外国人への日本語教育
日本企業における外国人への日本語教育日本企業における外国人への日本語教育
日本企業における外国人への日本語教育Kei Koike
 
Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Japanese Club
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Japanese Club
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseShinichi Kudo
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理Wataru ONO
 
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房Takehiko Ito
 

Viewers also liked (9)

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
 
日本企業における外国人への日本語教育
日本企業における外国人への日本語教育日本企業における外国人への日本語教育
日本企業における外国人への日本語教育
 
Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnamese
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理
 
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
 

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 

Recently uploaded (9)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 

機械学習を用いたニ格深層格の自動付与の検討

  • 1. 機械学習を用いたニ格深層格 の自動付与の検討 ○長岡技術科学大学電気系竹野峻輔 金沢大学松田真希子 長岡技術科学大学電気系梶原智之 長岡技術科学大学電気系山本和英 1
  • 2. 導入-研究背景・関連研究 機械翻訳・含意関係認識においては 計算機による意味の自動判定が必要 ⇒ 深層格(体言と用言の関係)の理解 ニ格の出現頻度が高い[渋木ら06] ヲ格に次ぎ2番目の出現頻度である Rule-basedの二格の深層格推定[田辺ら09] 意味属性を人手で付与。 小規模コーパスでの深層格推定 2
  • 3. 導入-研究背景・関連研究 機械翻訳・含意関係認識においては 計算機による意味の自動判定が必要 ⇒ 深層格(体言と用言の関係)の理解 ニ格の出現頻度が高い[渋木ら06] ヲ格に次ぎ2番目の出現頻度である Rule-basedの二格の深層格推定[田辺ら09] 意味属性を人手で付与。 小規模コーパスでの深層格推定 3 深層格の分類項目の共通見解がない 既存の分類項目では網羅性が不十分
  • 4. [松田ら12,14]による分類項目の提案 日本語学/言語学に基づき、専門家による項目の選定 12種類の深層格分類項目 [時間][場所][結果][対象] [動作主] [目的][役割][頻度][副詞化][複合辞] [起点][その他] 導入-先行研究 e.g) 8時に起きる[時間]、医者になる[結果] 映画を見に行く[目的]、東京に行く[場所] 4
  • 5. 導入-本研究における目的 12種の深層格分類項目の自動付与 3種類の大規模コーパスを使った分類器を構築 BCCWJ –書き言葉均衡コーパス 京都大学テキストコーパス –情報が付与された新聞記事コーパス Web日本語Nグラム –Web上の高頻度n-gramコーパス e.g) 8時に起きる[時間]、医者になる[結果] 映画を見に行く[目的]、東京に行く[場所] 5
  • 6. 分類器の構築–流れ ①分類器の選定 ②素性抽出 ③汎化処理 ④素性選択 ⑤評価 6
  • 7. 分類器の構築–流れ ①分類器の選定 ②素性抽出 ③汎化処理 ④素性選択 ⑤評価 ナイーブベイズ分類器 7
  • 8. 分類器の構築–分類器の選定 •ナイーブベイズ分類器 –軽量かつ高速な学習が可能 –頻度情報に基づいたモデルの分析が可能 푛푓,푐∶分類項目푐と素性푓の共起頻度 푛푐∶分類項目푐と出現頻度 훼:平滑化パラメータ(1で固定) 퐹:素性集合, 퐶:分類項目集合 푃(푐|퐹)=푃푐푃퐹푐 =푝푐 푝푓,푐 훿푓∙1−푝푓,푐 1−훿푓 푓∈퐹 푝푓,푐= 푛푓,푐+훼 푛푐푐∈퐶+2훼 ,  푝푐= 푛푐+ 훼 푛푐푐∈퐶+훼|퐶| 푐 =argmax 푐 푃(푐|퐹) 8
  • 9. 分類器の構築–流れ ①分類器の選定 ②素性抽出 ③汎化処理 ④素性選択 ⑤評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 9
  • 10. 係り受け・形態素解析結果から下記素性を抽出 仮説: 深層格は前接の体言と後接の用言で決まる 係り元文節 全ての形態素※ 係り先文節 サ変接続名詞・動詞・形容詞 形容動詞・副詞・助動詞 以上より原形および品詞・品詞細分類 活用形・IREXタグ を抽出 分類器の構築–素性の抽出 ※判定に必要ないまた雑音となる形態素を除去 記号、フィラー、接頭詞、助詞など その他数値表現の均一化 10
  • 11. 分類器の構築–流れ ①分類器の選定 ②素性抽出 ③汎化処理 ④素性選択 ⑤評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 日本語語彙大系による 名詞の汎化 11
  • 12. 名詞 具体 人 <職業> 人 <役割> 抽象 主体 •日本語語彙大系を利用した名詞の汎化を行う 適当な深さNを定め、その位置の意味属性を取り出す 学生 医者 深さ1 深さ2 深さ6 分類器の構築–名詞素性の汎化 汎化の深さ 学生になる[結果] 医者になる[結果] 12
  • 13. 名詞 具体 人 <職業> 人 <役割> 抽象 主体 •日本語語彙大系を利用した名詞の汎化を行う 適当な深さNを定め、その位置の意味属性を取り出す 学生 医者 深さ1 深さ2 深さ6 分類器の構築–名詞素性の汎化 汎化の深さ 人<職業> になる 学生になる[結果] 医者になる[結果] 13
  • 14. 名詞 具体 人 <職業> 人 <役割> 抽象 主体 •日本語語彙大系を利用した名詞の汎化を行う 適当な深さNを定め、その位置の意味属性を取り出す 学生 医者 深さ1 深さ2 深さ6 分類器の構築–名詞素性の汎化 汎化の深さ 学習効率 -未知の名詞対応可 -正答率向上が期待 14
  • 15. 分類器の構築–流れ ①分類器の選定 ②素性抽出 ③汎化処理 ④素性選択 ⑤評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 日本語語彙大系による 名詞の汎化 tfidfによる閾値基準 15
  • 16. 分類器の構築–素性選択 tfidf を用いた素性選択 出現頻度が高く、限られた深層格でのみ 出現する素性ほど高くなる scoreが閾値以下の素性f を削除することで素性選択 푡푓푐,푓= log2푛푐,푓 log2푛푐 ,  푖푑푓푓=log2( 퐶 푑푓푓 )+1 푡푓푖푑푓푐,푓=푡푓푐,푓∙푖푑푓푓 푠푐표푟푒푓=max 푐∈퐶 푡푓푖푑푓푐,푓 푛푓,푐∶分類項目푐と素性푓の共起頻度 푛푐∶分類項目푐と出現頻度 푑푓푓:素性푓の出現する深層格種類数 16 tfidf による素性の評価
  • 17. 分類器の構築–流れ ①分類器の選定 ②素性抽出 ③汎化処理 ④素性選択 ⑤評価 ナイーブベイズ分類器 係り元文節 および係先文節の抽出 日本語語彙大系による 名詞の汎化 tfidfによる閾値基準 F値, 正答率 17
  • 18. 訓練セット •BCCWJ –9,970件 –書き言葉均衡コーパス(ランダム抽出) •京都大学テキストコーパス–9,743件 –情報が付与された新聞中の文章コーパス(ランダム抽出) •Web日本語Nグラム–9,826件 –Web上の高頻度n-gram コーパス(7-gram高頻度順抽出) 評価セット •評価用コーパス–1,086件 ※文体、世代や位相の代表性を有するように下記情報源から抽出 青空文庫, 読売新聞, アメーバブログ, Wikipedia, 論文, 論文抄録, サイゾーウーマン , サイゾー, Twitter 分類器の構築–利用するコーパス 18
  • 19. 分類器の構築–評価 正答率: 푆푎푣푒= 分類正解数 評価コーパスのデータ数 精度: 푃푐= 푐と予測したうちの正解数 深層格푐 と予測した数 , 再現率:푅푐= 푐と予測したうちの正解数 評価コーパス中の深層格푐である数 F値:퐹푐= 2푃푐푅푐 푃푐+푅푐 深層格ごとの結果比較→F値 コーパスの結果比較→正答率 19
  • 21. 分類器構築の検討–流れ ①tfidf の閾値の検討 ②3種のコーパスの比較 ③誤り分析 21
  • 22. tfidf閾値によるF値・正答率の変化 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] tfidf の閾値の変化による 正答率の改善を検討する BCCWJ 汎化の深さ5 22
  • 23. tfidf閾値によるF値・正答率の変化 61% 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] tfidfの閾値の変化による 正答率の改善を検討する BCCWJ 汎化の深さ5 閾値の変化により正答率は大きな改善は無し しかし推定に必要な素性は少ない(142/7489) 23
  • 24. 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 BCCWJ 汎化の深さ5 tfidf の閾値の変化による 正答率の改善を検討する tfidf閾値によるF値・正答率の変化 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] 正答率の傾向は[対象]のF値の傾向と一致 [対象]の割合が最も多いため 対象 24
  • 25. BCCWJ 汎化の深さ5 TFIDFの閾値の変化による 正答率の改善を検討する tfidf 閾値によるF値・正答率の変化 0% 20% 40% 60% 80% 100% 0 0.3 0.6 0.9 1.2 1.5 [時間] [場所] [結果] [対象] [動作主] [目的] [役割] [その他] [頻度] [副詞] [複合辞] [起点] 正答率 正答率 tfidf の閾値 全体の正答率[%], 各深層格のF値[%] 結果 副詞 副詞・複合辞・結果(約3割)は改善傾向あり ⇒閾値による余分な素性が削除された 複合辞 25
  • 26. 分類器構築の検討–流れ ①tfidf の閾値の検討 ②3種のコーパスの比較 ③誤り分析 26
  • 27. コーパス同士の比較 訓練セット BCCWJ 京大 Nグラム 評価セット BCCWJ 67% 62% 55% 京大 66% 74% 59% Nグラム 59% 67% 78% 評価用 コーパス 67% 66% 53% 訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~15, tfidfの閾値: 0~1.5 最大値を抽出 ※京大:京都大学テキストコーパス Nグラム: Web日本語Nグラム として評価 3種のコーパスについて分類器の正答率を検証 27
  • 28. コーパス同士の比較 訓練セット BCCWJ 京大 Nグラム 評価セット BCCWJ 67% 62% 55% 京大 66% 74% 59% Nグラム 59% 67% 78% 評価用 コーパス 67% 66% 53% 訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~15, tfidfの閾値: 0~1.5 最大値を抽出 ※京大:京都大学テキストコーパス Nグラム: Web日本語Nグラム として評価 3種のコーパスについて分類器の正答率を検証 28 対評価用(未知の事例): BCCWJ(67%) ベースライン: [対象]の割合(41%)
  • 29. コーパス同士の比較 訓練セット BCCWJ 京大 Nグラム 評価セット BCCWJ 67% 62% 55% 京大 66% 74% 59% Nグラム 59% 67% 78% 評価用 コーパス 67% 66% 53% 訓練事例数:8500件 評価事例数:1086件 汎化の深さ:0 ~15, tfidfの閾値: 0~1.5 最大値を抽出 ※京大:京都大学テキストコーパス Nグラム: Web日本語Nグラム として評価 3種のコーパスについて分類器の正答率を検証 29 対評価用(未知の事例): BCCWJ(67%) ベースライン: [対象]の割合(41%) BCCWJ は均衡コーパスのため 評価用コーパスと近似性が高い
  • 30. 分類器構築の検討–流れ ①tfidf の閾値の検討 ②3種のコーパスの比較 ③誤り分析 30
  • 31. 誤り分析 [対象]以外を[対象]と誤判定(148/360) e.g)…壊滅に追い込まれ、一家離散した[結果]→ [対象] 壊滅追い込まれるが訓練コーパスに含まれない 未知の単語に効果的な素性が抽出できていないことに起因 •素性抽出(n-gram 等) 、汎化方法の再考。棄却オプションの導入 [複合辞][副詞化][結果]の誤判定(84/360 ) e.g) … モデルによる分析に加え…[複合辞]→ [動作主] …具体的に話すと… [副詞化]→ [対象] 一定の構文パターンを持つが、他の素性の影響で誤判定 •構文パターンを予め記憶し、照合することで改善可 BCCWJの誤り件数360/1086件において ※以上の誤り件数で202/360を占める 31
  • 32. 結論 •ニ格の深層格の自動付与を検討 –大規模コーパスを利用した12種の自動分類 –日本語語彙大系による汎化 –tfidfを基準とした素性選択 •分類器の構築の検討 –tfidfを使った正答率の改善効果は低い –最大性能は訓練セットBCCWJで最高67% •今後の課題 –異なる素性抽出方法の再考の必要性 –構文パターンの適応で改善可能 32
  • 33. 33