SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
日本語の語彙的換言知識の質的評価
梶原智之 山本和英
長岡技術科学大学
日本語の語彙的換言知識の質的評価
•  9種類の語彙的換言知識の品質を人手で評価
•  最高品質:基本的意味関係の事例ベース(名詞)
•   高品質:動詞含意関係データベース (動詞)
     内容語換言辞書(形容詞や副詞、句)
•  比較的低品質:WordNetDB (その他の名詞)
•  低品質:PPDB: Japanese (大規模、句単位)
•  ALAGINの異形同義語対(基本的意味関係の事例ベース)
•  県立学校の{担当教員/担当教諭}を支援する
•  {うわべ/上っ面}だけの信仰心を見抜く
•  正解率: 94.8%, 一致率: 72.2%, 規模: 4.5万語対
2
換言, 言い換え, 書き換え, パラフレーズ
意味が近似的に等価な言語表現の異形 [1]
[1] 乾, 藤田 (2004) 言い換え技術に関する研究動向
先生
教員
教師
教諭
3
換言, 言い換え, 書き換え, パラフレーズ
意味が近似的に等価な言語表現の異形 [1]
[1] 乾, 藤田 (2004) 言い換え技術に関する研究動向
先生
教員
教師
教諭
4
語彙的換言と構文的換言
•  語彙的換言
県立学校の担当教員を支援する
県立学校の担当教諭を支援する
•  構文的換言
梶原が長岡技科大に入学した
長岡技科大に梶原が入学した
5
語彙的換言と構文的換言
•  語彙的換言
県立学校の担当教員を支援する
県立学校の担当教諭を支援する
•  構文的換言
梶原が長岡技科大に入学した
長岡技科大に梶原が入学した
6
語彙的換言技術の応用(1)
•  文章読解支援(語彙の平易化)
– 子ども向け [2]
話し合いを継続していく
話し合いを続け ていく
– 言語学習者向け [3]
ご不明な点がありましたら、下記まで
 わからなかったら   、下記まで
[2] 梶原, 山本 (2013) 小学生の読解支援に向けた複数の換言知識を併用
           した語彙平易化と評価
[3] 杢, 山本 (2013) 「やさしい日本語」変換システムの試作
7
語彙的換言技術の応用(2)
•  自動要約 [4]
大賞を受賞したAさん
大賞  の  Aさん
•  機械翻訳 [5]
その本なら書類の下にある
It is under the papers if it is the book.
その本 は 書類の下にある
The book is under the papers.
[4] 片岡, 増山, 山本 (2000) 動詞型連体修飾表現の N1のN2 への言い換え
[5] 松吉, 佐藤, 宇津呂 (2004) 機能表現「なら」の機械翻訳のための言い換え
8
換言と多義性の解消
教員
教諭
マック
paraphrasing:13
2014年 1
2013年 4
2012年 2
2011年 5
2010年 1
disambiguation:29
2014年 4
2013年 6
2012年 6
2011年 9
2010年 4
表:ACLでの発表件数
9
ここまでのまとめ
•  換言:複数の言語表現が1つの意味を表す
•  換言処理は種々の応用を持つ
•  読解支援:難解な表現を平易な表現に
•  自動要約:文字数の多い表現を短い表現に
•  機械翻訳:機械翻訳しやすい表現に
•  多義性の解消と対をなす重要な研究課題
•  しかし、あまり活発に研究されていない
本研究では、日本語の語彙的換言知識を網羅的に比較しました。
換言技術を使って、各種NLPタスクの性能を改善してください。
10
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
11
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
12
PPDB: Japanese
•  日英対訳コーパスをもとに全自動で構築
•  英語を中間意味表現(ピボット)として使用
•  換言:同じ英語に対応する複数の日本語の句
•  換言確率により、S・M・L・XLの4種類を提供
•  最も高精度なSサイズを使用
•  それでも大規模(152万対) ※ 他は数万対
{の寿命がある/寿命がある}{ったらない/ったらありゃしない}
{、多くのこと/してたくさんのこと} {が鈍った/を遅らせた}
13
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
14
内容語換言辞書
•  作業者1名の感覚のみで構築(全て人手)
•  JUMAN辞書の見出し語に換言を付与
•  換言:日本語初学者からその言葉の意味を
   問われたときにどのように答えるか
•  無理な換言を行わない工夫
•  思い浮かばない場合はスキップ可能
•  内容語3語までの句に換言して良い
{暴騰する/値段が上がる} {慰労する/ねぎらう}
{全店/全ての店} {戸外/屋外} {宿願/願い}
15
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
16
日本語WordNet同義語データベース
•  日本語WordNetで同じsynset(概念集合)に
登録されている語の組合せ
•  更に人手で同義関係を判定(言語資源+人手)
•  同義関係の範囲
•  異表記、略記、敬語、比喩、…(多岐にわたる)
•  ALAGINフォーラムの言語資源に含まれる対は除く
(以降で紹介するもの)
{実施/実行}    {可能性/見込み}
{装い/身なり}{コンディション/状況}
17
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
18
   
動詞含意関係データベース
•  Webから自動で収集された含意関係にある対
•  更に人手で含意関係を判定(自動収集+人手)
•  含意スコア:相互情報量などをもとに計算
•  動詞1が動詞2を含意する
•  動詞1の事態が成立するなら、
同時かそれ以前に動詞2の事態も成立している
•  e.g. 「酔っ払う」→「飲む」
•  Triv:文字上包含関係にある(あざ笑う → 笑う)
•  Ntriv:文字上は関係ない  (挑戦する → チャレンジする)
19
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
20
基本的意味関係の事例ベース
•  文脈類似度の高い2語の組合せ
– 更に人手で対の関係を分類(自動収集+人手)
– 略記対、異形同義語対、異表記対を使用
•  異表記対:読みが同じで意味も同じ語対
•  略記対:片方の文字数や音節数が他方よりも
    少なく、短縮形や略称と呼ばれる語対
•  異形同義語対:読み、形態素数、音節数のいずれか
     が異なり、同一の事象や事物を指す語対
{乗り換え駅/乗換駅}{婦人警官/婦警}{うわべ/上っ面}
21
名称 略称 収録数 品詞 収集方法 形式
PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句
内容語換言辞書(用言) 用言 9,702 用言
人手 語→句
内容語換言辞書(名詞) 普通名詞 15,879 名詞
日本語WordNet同義語DB WordNet 23,506 名詞
言語資源
および人手
語→語
動詞含意関係データベース
(類似・上位下位関係)
Ntriv 63,572
動詞
含意スコア計算
(相互情報量)
および人手動詞含意関係データベース
(文字上包含関係にある)
Triv 30,453
基本的意味関係の事例
ベース(略記対)
略記対 3,276
名詞
文脈類似度
および人手
基本的意味関係の事例
ベース(異形同義語対)
同義語対 44,754
基本的意味関係の事例
ベース(異表記対)
異表記対 30,230
現在利用可能な日本語の語彙的換言知識
22
評価方法
•  3人の日本語母語話者によって人手で評価
•  所与の文脈中での同義性を判定
•  文脈ごとに 換言可能 or 換言不可能 を回答
•  換言知識ごとに50換言対を10文脈ずつ評価
•  文脈は日本経済新聞から無作為に抽出
•  文脈によって換言の妥当性は変化する
○ 入選作は、彩調など{不熟/未成熟}で、
✕ セリフに{不熟/未成熟}があったりもするが、
23
0.0 0.2 0.4 0.6 0.8 1.0
PPDB: Japanese
用言等換言辞書
普通名詞換言辞書
WordNet同義語DB
動詞含意DB(Ntriv)
動詞含意DB(Triv)
略記対
異形同義語対
異表記対
正解率
語彙的換言知識の質的評価 24
評価者3人中2人以上が
換言可能と回答した割合
0.0 0.2 0.4 0.6 0.8 1.0
PPDB: Japanese
用言等換言辞書
普通名詞換言辞書
WordNet同義語DB
動詞含意DB(Ntriv)
動詞含意DB(Triv)
略記対
異形同義語対
異表記対
正解率
一致率
語彙的換言知識の質的評価 25
評価者3人の評価が一致
( ooo or xxx )した割合
0% 20% 40% 60% 80% 100%
PPDB: Japanese
用言等換言辞書
普通名詞換言辞書
WordNet同義語DB
動詞含意DB(Ntriv)
動詞含意DB(Triv)
略記対
異形同義語対
異表記対
常に換言可能
文脈によって換言可能
常に換言不可能
語彙的換言知識の質的評価 26
日本語の語彙的換言知識の質的評価
•  9種類の語彙的換言知識の品質を人手で評価
•  最高品質:基本的意味関係の事例ベース(名詞)
•   高品質:動詞含意関係データベース (動詞)
     内容語換言辞書(全ての内容語、句)
•  比較的低品質:WordNetDB (その他の名詞)
•  低品質:PPDB: Japanese (大規模、句単位)
•  語彙的換言技術の応用
•  読解支援(語彙平易化)、機械翻訳、自動要約
27

Weitere ähnliche Inhalte

Was ist angesagt?

N3 (Bunpou)
N3 (Bunpou)N3 (Bunpou)
N3 (Bunpou)Mae
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...Takehiko Ito
 
読解支援@2015 05-22
読解支援@2015 05-22読解支援@2015 05-22
読解支援@2015 05-22sekizawayuuki
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.Yutaka Ishii
 
はじめての生成文法 《後編》
はじめての生成文法 《後編》はじめての生成文法 《後編》
はじめての生成文法 《後編》Shuyo Nakatani
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築長岡技術科学大学 自然言語処理研究室
 
読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10kentshioda
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—
日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—
日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—Atsushi Nakanishi
 
Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseswenbe
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーKanji Takahashi
 
日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-
日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-
日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-Atsushi Nakanishi
 
正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem
正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem
正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety TheoremRyoma Sin'ya
 

Was ist angesagt? (16)

N3 (Bunpou)
N3 (Bunpou)N3 (Bunpou)
N3 (Bunpou)
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
 
読解支援@2015 05-22
読解支援@2015 05-22読解支援@2015 05-22
読解支援@2015 05-22
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
はじめての生成文法 《後編》
はじめての生成文法 《後編》はじめての生成文法 《後編》
はじめての生成文法 《後編》
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
 
読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—
日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—
日本人英語学習者の前置詞使用の問題点の解明 —頻度・共起語・用法の 3 つの観点から—
 
Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japanese
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
 
日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-
日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-
日本人英語学習者のライティングに見る意味ネットワークの発達-in, on, atに注目して-
 
正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem
正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem
正規言語と代数と論理の対応:An Introduction to Eilenberg’s Variety Theorem
 

Andere mochten auch

日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築Tomoyuki Kajiwara
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築Tomoyuki Kajiwara
 
Evaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical SimplificationEvaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical SimplificationTomoyuki Kajiwara
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向Tomoyuki Kajiwara
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案Tomoyuki Kajiwara
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical SimplificationTomoyuki Kajiwara
 
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification TaskTomoyuki Kajiwara
 
Noun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of ContextsNoun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of ContextsTomoyuki Kajiwara
 
高頻度語は平易なのか?
高頻度語は平易なのか?高頻度語は平易なのか?
高頻度語は平易なのか?Tomoyuki Kajiwara
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言Tomoyuki Kajiwara
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システムTomoyuki Kajiwara
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換えTomoyuki Kajiwara
 
文章読解支援のための語彙平易化
文章読解支援のための語彙平易化文章読解支援のための語彙平易化
文章読解支援のための語彙平易化Tomoyuki Kajiwara
 
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築Tomoyuki Kajiwara
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案Tomoyuki Kajiwara
 

Andere mochten auch (19)

日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
 
joint_seminar
joint_seminarjoint_seminar
joint_seminar
 
Evaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical SimplificationEvaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical Simplification
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
 
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task
 
Noun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of ContextsNoun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of Contexts
 
高頻度語は平易なのか?
高頻度語は平易なのか?高頻度語は平易なのか?
高頻度語は平易なのか?
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
文章読解支援のための語彙平易化
文章読解支援のための語彙平易化文章読解支援のための語彙平易化
文章読解支援のための語彙平易化
 
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
tmu_science_cafe02
tmu_science_cafe02tmu_science_cafe02
tmu_science_cafe02
 

Ähnlich wie 日本語の語彙的換言知識の質的評価

“「ひらがな」で話す技術”でわかりやすく話す
“「ひらがな」で話す技術”でわかりやすく話す“「ひらがな」で話す技術”でわかりやすく話す
“「ひらがな」で話す技術”でわかりやすく話すbijikin
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッションantibayesian 俺がS式だ
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価Tomoyuki Kajiwara
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法Tomoyuki Kajiwara
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)智文 中野
 
20170114 lod challenge
20170114 lod challenge20170114 lod challenge
20170114 lod challengezuhitoslide
 
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案KateConference
 
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...swenbe
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26kentshioda
 
英会話に必要な語彙力
英会話に必要な語彙力英会話に必要な語彙力
英会話に必要な語彙力hinatakiyoto
 
N2 (Moji-Goi)
N2 (Moji-Goi)N2 (Moji-Goi)
N2 (Moji-Goi)Mae
 

Ähnlich wie 日本語の語彙的換言知識の質的評価 (20)

“「ひらがな」で話す技術”でわかりやすく話す
“「ひらがな」で話す技術”でわかりやすく話す“「ひらがな」で話す技術”でわかりやすく話す
“「ひらがな」で話す技術”でわかりやすく話す
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
 
Jitsuryoku_Appu_JLPT_N1-Yomu.pdf
Jitsuryoku_Appu_JLPT_N1-Yomu.pdfJitsuryoku_Appu_JLPT_N1-Yomu.pdf
Jitsuryoku_Appu_JLPT_N1-Yomu.pdf
 
20170114 lod challenge
20170114 lod challenge20170114 lod challenge
20170114 lod challenge
 
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
 
1 3-2
1 3-21 3-2
1 3-2
 
日语
日语日语
日语
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
 
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
英会話に必要な語彙力
英会話に必要な語彙力英会話に必要な語彙力
英会話に必要な語彙力
 
N2 (Moji-Goi)
N2 (Moji-Goi)N2 (Moji-Goi)
N2 (Moji-Goi)
 

Mehr von Tomoyuki Kajiwara

機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討Tomoyuki Kajiwara
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenTomoyuki Kajiwara
 
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-Tomoyuki Kajiwara
 
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-Tomoyuki Kajiwara
 

Mehr von Tomoyuki Kajiwara (6)

20190315 nlp
20190315 nlp20190315 nlp
20190315 nlp
 
20180208公聴会
20180208公聴会20180208公聴会
20180208公聴会
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
 
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
 

日本語の語彙的換言知識の質的評価

  • 2. 日本語の語彙的換言知識の質的評価 •  9種類の語彙的換言知識の品質を人手で評価 •  最高品質:基本的意味関係の事例ベース(名詞) •   高品質:動詞含意関係データベース (動詞)      内容語換言辞書(形容詞や副詞、句) •  比較的低品質:WordNetDB (その他の名詞) •  低品質:PPDB: Japanese (大規模、句単位) •  ALAGINの異形同義語対(基本的意味関係の事例ベース) •  県立学校の{担当教員/担当教諭}を支援する •  {うわべ/上っ面}だけの信仰心を見抜く •  正解率: 94.8%, 一致率: 72.2%, 規模: 4.5万語対 2
  • 3. 換言, 言い換え, 書き換え, パラフレーズ 意味が近似的に等価な言語表現の異形 [1] [1] 乾, 藤田 (2004) 言い換え技術に関する研究動向 先生 教員 教師 教諭 3
  • 4. 換言, 言い換え, 書き換え, パラフレーズ 意味が近似的に等価な言語表現の異形 [1] [1] 乾, 藤田 (2004) 言い換え技術に関する研究動向 先生 教員 教師 教諭 4
  • 7. 語彙的換言技術の応用(1) •  文章読解支援(語彙の平易化) – 子ども向け [2] 話し合いを継続していく 話し合いを続け ていく – 言語学習者向け [3] ご不明な点がありましたら、下記まで  わからなかったら   、下記まで [2] 梶原, 山本 (2013) 小学生の読解支援に向けた複数の換言知識を併用            した語彙平易化と評価 [3] 杢, 山本 (2013) 「やさしい日本語」変換システムの試作 7
  • 8. 語彙的換言技術の応用(2) •  自動要約 [4] 大賞を受賞したAさん 大賞  の  Aさん •  機械翻訳 [5] その本なら書類の下にある It is under the papers if it is the book. その本 は 書類の下にある The book is under the papers. [4] 片岡, 増山, 山本 (2000) 動詞型連体修飾表現の N1のN2 への言い換え [5] 松吉, 佐藤, 宇津呂 (2004) 機能表現「なら」の機械翻訳のための言い換え 8
  • 9. 換言と多義性の解消 教員 教諭 マック paraphrasing:13 2014年 1 2013年 4 2012年 2 2011年 5 2010年 1 disambiguation:29 2014年 4 2013年 6 2012年 6 2011年 9 2010年 4 表:ACLでの発表件数 9
  • 10. ここまでのまとめ •  換言:複数の言語表現が1つの意味を表す •  換言処理は種々の応用を持つ •  読解支援:難解な表現を平易な表現に •  自動要約:文字数の多い表現を短い表現に •  機械翻訳:機械翻訳しやすい表現に •  多義性の解消と対をなす重要な研究課題 •  しかし、あまり活発に研究されていない 本研究では、日本語の語彙的換言知識を網羅的に比較しました。 換言技術を使って、各種NLPタスクの性能を改善してください。 10
  • 11. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 11
  • 12. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 12
  • 13. PPDB: Japanese •  日英対訳コーパスをもとに全自動で構築 •  英語を中間意味表現(ピボット)として使用 •  換言:同じ英語に対応する複数の日本語の句 •  換言確率により、S・M・L・XLの4種類を提供 •  最も高精度なSサイズを使用 •  それでも大規模(152万対) ※ 他は数万対 {の寿命がある/寿命がある}{ったらない/ったらありゃしない} {、多くのこと/してたくさんのこと} {が鈍った/を遅らせた} 13
  • 14. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 14
  • 15. 内容語換言辞書 •  作業者1名の感覚のみで構築(全て人手) •  JUMAN辞書の見出し語に換言を付与 •  換言:日本語初学者からその言葉の意味を    問われたときにどのように答えるか •  無理な換言を行わない工夫 •  思い浮かばない場合はスキップ可能 •  内容語3語までの句に換言して良い {暴騰する/値段が上がる} {慰労する/ねぎらう} {全店/全ての店} {戸外/屋外} {宿願/願い} 15
  • 16. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 16
  • 17. 日本語WordNet同義語データベース •  日本語WordNetで同じsynset(概念集合)に 登録されている語の組合せ •  更に人手で同義関係を判定(言語資源+人手) •  同義関係の範囲 •  異表記、略記、敬語、比喩、…(多岐にわたる) •  ALAGINフォーラムの言語資源に含まれる対は除く (以降で紹介するもの) {実施/実行}    {可能性/見込み} {装い/身なり}{コンディション/状況} 17
  • 18. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 18
  • 19.     動詞含意関係データベース •  Webから自動で収集された含意関係にある対 •  更に人手で含意関係を判定(自動収集+人手) •  含意スコア:相互情報量などをもとに計算 •  動詞1が動詞2を含意する •  動詞1の事態が成立するなら、 同時かそれ以前に動詞2の事態も成立している •  e.g. 「酔っ払う」→「飲む」 •  Triv:文字上包含関係にある(あざ笑う → 笑う) •  Ntriv:文字上は関係ない  (挑戦する → チャレンジする) 19
  • 20. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 20
  • 21. 基本的意味関係の事例ベース •  文脈類似度の高い2語の組合せ – 更に人手で対の関係を分類(自動収集+人手) – 略記対、異形同義語対、異表記対を使用 •  異表記対:読みが同じで意味も同じ語対 •  略記対:片方の文字数や音節数が他方よりも     少なく、短縮形や略称と呼ばれる語対 •  異形同義語対:読み、形態素数、音節数のいずれか      が異なり、同一の事象や事物を指す語対 {乗り換え駅/乗換駅}{婦人警官/婦警}{うわべ/上っ面} 21
  • 22. 名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言 人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞 日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手 語→語 動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572 動詞 含意スコア計算 (相互情報量) および人手動詞含意関係データベース (文字上包含関係にある) Triv 30,453 基本的意味関係の事例 ベース(略記対) 略記対 3,276 名詞 文脈類似度 および人手 基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754 基本的意味関係の事例 ベース(異表記対) 異表記対 30,230 現在利用可能な日本語の語彙的換言知識 22
  • 23. 評価方法 •  3人の日本語母語話者によって人手で評価 •  所与の文脈中での同義性を判定 •  文脈ごとに 換言可能 or 換言不可能 を回答 •  換言知識ごとに50換言対を10文脈ずつ評価 •  文脈は日本経済新聞から無作為に抽出 •  文脈によって換言の妥当性は変化する ○ 入選作は、彩調など{不熟/未成熟}で、 ✕ セリフに{不熟/未成熟}があったりもするが、 23
  • 24. 0.0 0.2 0.4 0.6 0.8 1.0 PPDB: Japanese 用言等換言辞書 普通名詞換言辞書 WordNet同義語DB 動詞含意DB(Ntriv) 動詞含意DB(Triv) 略記対 異形同義語対 異表記対 正解率 語彙的換言知識の質的評価 24 評価者3人中2人以上が 換言可能と回答した割合
  • 25. 0.0 0.2 0.4 0.6 0.8 1.0 PPDB: Japanese 用言等換言辞書 普通名詞換言辞書 WordNet同義語DB 動詞含意DB(Ntriv) 動詞含意DB(Triv) 略記対 異形同義語対 異表記対 正解率 一致率 語彙的換言知識の質的評価 25 評価者3人の評価が一致 ( ooo or xxx )した割合
  • 26. 0% 20% 40% 60% 80% 100% PPDB: Japanese 用言等換言辞書 普通名詞換言辞書 WordNet同義語DB 動詞含意DB(Ntriv) 動詞含意DB(Triv) 略記対 異形同義語対 異表記対 常に換言可能 文脈によって換言可能 常に換言不可能 語彙的換言知識の質的評価 26
  • 27. 日本語の語彙的換言知識の質的評価 •  9種類の語彙的換言知識の品質を人手で評価 •  最高品質:基本的意味関係の事例ベース(名詞) •   高品質:動詞含意関係データベース (動詞)      内容語換言辞書(全ての内容語、句) •  比較的低品質:WordNetDB (その他の名詞) •  低品質:PPDB: Japanese (大規模、句単位) •  語彙的換言技術の応用 •  読解支援(語彙平易化)、機械翻訳、自動要約 27