SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
文脈の多様性に基づく 
名詞換言の提案 
長岡技術科学大学 
梶原智之 山本和英
背景と目的 
国語辞典を用いた換言 [梶原 13] 
【語彙平易化】見出し語 → 語釈文中の語 
課題1:語釈文の一部では見出し語と非等価 
課題2:数語の語釈文では換言候補が少ない 
→ 既存の換言知識に頼らず 
  大規模コーパスを用いて換言を生成 2
提案手法 
コーパスを用いた名詞換言 
 分布仮説[Harris 54] 
似た意味の語は似た文脈で用いられる 
1. 入力文と同じ文脈で用いられる名詞を抽出 
  → 自然な文を出力するための制約 
2. 抽出した各換言候補語と文脈の類似度を計算 
   → 意味を保持するための制約 3
提案手法による名詞換言の流れ 
4
1. 換言候補の収集 
「空港へのアクセスを調べる」 
「空港への○○」  「○○を調べる」 
コーパスを検索して○○を収集 
前文脈と後文脈に共通する○○に 
換言することで自然な文を出力できる 5
2. 換言先の選択(類似度計算) 
   換言対象の語と換言候補の語が多くの種類 
   の文脈を共有するほど換言可能性は高い 
   換言候補の語が多くの種類の 
   文脈を持つほど換言可能性は低い 
1 
2 
sim(nt, nc) = com(nt, nc) * log(N/DF(nc)) 
1 2 
 nt:換言対象の名詞、 nc:換言候補の名詞 
 com(nt, nc):ntとncが共通して用いられる文脈の種類数 
 N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
提案手法の特徴 
• 入力文脈に応じた換言が可能 
• 単語の出現頻度を使わない 
• 換言可能な語とは多くの種類の文脈を共有する 
• 高頻度の単語に影響を受けない 
• 頻度の偏りにも影響を受けない 
→ 文脈の多様性に基づく名詞換言の提案 
7
関連研究 
• [Marton et al. 09] 
• [Bhagat and Ravichandran 08] 
1. コーパス中で換言対象語の 
文脈の語から特徴ベクトルを生成する 
2. 特徴ベクトル同士のコサイン類似度を 
計算し類似度最大の換言候補語へ換言する 
8
関連研究 
• [Marton et al. 09] 
• 未知語の換言により機械翻訳の精度を向上 
• 文脈の語との共起頻度で特徴ベクトルを作成 
• [Bhagat and Ravichandran 08] 
• 大規模コーパスから換言対を獲得 
• 文脈の語とのPMIで特徴ベクトルを作成 
9
関連研究 
• [Marton et al. 09]:共起頻度 
• 重要な文脈:多く共起する文脈 
→ 単体での出現頻度が高い単語の影響が強い 
• [Bhagat and Ravichandran 08]:PMI 
• 重要な文脈:偏って共起する文脈 
→ 単体での出現頻度が低い単語の影響が強い 
10
実験 
• Web日本語Nグラム:1,365,705件を抽出 
• 名詞 + … + 名詞 + … + 動詞原形 
• このうち頻出の200件について実験 
• 文頭ではない名詞が換言対象の名詞 
• 京都大学格フレーム:文脈の類似度計算 
• 述語:34,059語 
• 名詞:824,639語 
• 【荷物を積む】と【経験を積む】を区別できる 11
評価 
12 
類似度1位 
の名詞が換 
言可能 
20% 
類似度2位 
から10位ま 
での名詞が 
換言可能 
21% 
類似度10位 
までに換言 
可能な名詞 
がない 
31% 
同じ文脈で 
用いられる 
名詞がない 
28% 
200文の換言結果
換言できた例 
入力文 出力文 
オーナーの【承認】が必要になる オーナーの【許可】が必要になる 
重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 
良心的な【料金】を提供する 良心的な【価格】を提供する 
国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 
教育の【拡充】などがあげられる 教育の【強化】などがあげられる 
13
同じ文脈の名詞がない例 
14 
• 「畜産加工等の【案件】がある」 
• 文脈に依存する共起の種類が少ない語 
• 前文脈に依存する例が多い 
• 「更新日順表示に【並び】かえる」 
• 複合語の一部は換言できない
適切な換言ができない例 
入力文 換言候補 
① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 
水着、普段着、カジュアル 
② 以上の【評価】を受けている 活動、教育、事業、 
サービス、調査、管理 
①類義語を換言候補に集めることはできるが、 
 上位下位関係の中で適切な階層の語を選択できない 
②句単位の換言が必要 
 【評価を受ける】→【認められる】 
15
まとめ 
• 本研究の目的 
• 文脈の多様性に基づく名詞の換言手法の提案 
• 提案手法の特徴 
• 入力文脈に応じた換言 
• 頻度を使用しない文脈の種類数に基づく換言 
• 今後の課題 
• 上位下位関係の中での語の選択 
• 句単位の換言 16
予告 
JSAI2014@愛媛 
3I4:自然言語処理におけるコーパス・辞書生成 
「文脈の多様性に基づく名詞換言の評価」 
 入力文脈を考慮した制約の有効性 
17 
1  頻度を使わない手法の有効性 
2

Weitere ähnliche Inhalte

Was ist angesagt?

日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価Tomoyuki Kajiwara
 
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性Ryoma Sin'ya
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向Tomoyuki Kajiwara
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26kentshioda
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5kentshioda
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換えTomoyuki Kajiwara
 
固有表現抽出について
固有表現抽出について固有表現抽出について
固有表現抽出についてSyo Kyojin
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12sekizawayuuki
 
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127博三 太田
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5博三 太田
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201博三 太田
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1sekizawayuuki
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...Takehiko Ito
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
自由回答の簡易分析-テキストデータの可視化の一例-
自由回答の簡易分析-テキストデータの可視化の一例-自由回答の簡易分析-テキストデータの可視化の一例-
自由回答の簡易分析-テキストデータの可視化の一例-博三 太田
 

Was ist angesagt? (20)

日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
固有表現抽出について
固有表現抽出について固有表現抽出について
固有表現抽出について
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
 
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
自由回答の簡易分析-テキストデータの可視化の一例-
自由回答の簡易分析-テキストデータの可視化の一例-自由回答の簡易分析-テキストデータの可視化の一例-
自由回答の簡易分析-テキストデータの可視化の一例-
 
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
 

Mehr von 長岡技術科学大学 自然言語処理研究室

Mehr von 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 

Kürzlich hochgeladen

2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 

Kürzlich hochgeladen (12)

2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 

文脈の多様性に基づく名詞換言の提案

  • 2. 背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない → 既存の換言知識に頼らず   大規模コーパスを用いて換言を生成 2
  • 3. 提案手法 コーパスを用いた名詞換言  分布仮説[Harris 54] 似た意味の語は似た文脈で用いられる 1. 入力文と同じ文脈で用いられる名詞を抽出   → 自然な文を出力するための制約 2. 抽出した各換言候補語と文脈の類似度を計算    → 意味を保持するための制約 3
  • 5. 1. 換言候補の収集 「空港へのアクセスを調べる」 「空港への○○」  「○○を調べる」 コーパスを検索して○○を収集 前文脈と後文脈に共通する○○に 換言することで自然な文を出力できる 5
  • 6. 2. 換言先の選択(類似度計算)    換言対象の語と換言候補の語が多くの種類    の文脈を共有するほど換言可能性は高い    換言候補の語が多くの種類の    文脈を持つほど換言可能性は低い 1 2 sim(nt, nc) = com(nt, nc) * log(N/DF(nc)) 1 2  nt:換言対象の名詞、 nc:換言候補の名詞  com(nt, nc):ntとncが共通して用いられる文脈の種類数  N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
  • 7. 提案手法の特徴 • 入力文脈に応じた換言が可能 • 単語の出現頻度を使わない • 換言可能な語とは多くの種類の文脈を共有する • 高頻度の単語に影響を受けない • 頻度の偏りにも影響を受けない → 文脈の多様性に基づく名詞換言の提案 7
  • 8. 関連研究 • [Marton et al. 09] • [Bhagat and Ravichandran 08] 1. コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する 2. 特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する 8
  • 9. 関連研究 • [Marton et al. 09] • 未知語の換言により機械翻訳の精度を向上 • 文脈の語との共起頻度で特徴ベクトルを作成 • [Bhagat and Ravichandran 08] • 大規模コーパスから換言対を獲得 • 文脈の語とのPMIで特徴ベクトルを作成 9
  • 10. 関連研究 • [Marton et al. 09]:共起頻度 • 重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い • [Bhagat and Ravichandran 08]:PMI • 重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い 10
  • 11. 実験 • Web日本語Nグラム:1,365,705件を抽出 • 名詞 + … + 名詞 + … + 動詞原形 • このうち頻出の200件について実験 • 文頭ではない名詞が換言対象の名詞 • 京都大学格フレーム:文脈の類似度計算 • 述語:34,059語 • 名詞:824,639語 • 【荷物を積む】と【経験を積む】を区別できる 11
  • 12. 評価 12 類似度1位 の名詞が換 言可能 20% 類似度2位 から10位ま での名詞が 換言可能 21% 類似度10位 までに換言 可能な名詞 がない 31% 同じ文脈で 用いられる 名詞がない 28% 200文の換言結果
  • 13. 換言できた例 入力文 出力文 オーナーの【承認】が必要になる オーナーの【許可】が必要になる 重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 良心的な【料金】を提供する 良心的な【価格】を提供する 国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 教育の【拡充】などがあげられる 教育の【強化】などがあげられる 13
  • 14. 同じ文脈の名詞がない例 14 • 「畜産加工等の【案件】がある」 • 文脈に依存する共起の種類が少ない語 • 前文脈に依存する例が多い • 「更新日順表示に【並び】かえる」 • 複合語の一部は換言できない
  • 15. 適切な換言ができない例 入力文 換言候補 ① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル ② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理 ①類義語を換言候補に集めることはできるが、  上位下位関係の中で適切な階層の語を選択できない ②句単位の換言が必要  【評価を受ける】→【認められる】 15
  • 16. まとめ • 本研究の目的 • 文脈の多様性に基づく名詞の換言手法の提案 • 提案手法の特徴 • 入力文脈に応じた換言 • 頻度を使用しない文脈の種類数に基づく換言 • 今後の課題 • 上位下位関係の中での語の選択 • 句単位の換言 16
  • 17. 予告 JSAI2014@愛媛 3I4:自然言語処理におけるコーパス・辞書生成 「文脈の多様性に基づく名詞換言の評価」  入力文脈を考慮した制約の有効性 17 1  頻度を使わない手法の有効性 2