SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
乾健太郎, 藤田篤. 言い換え技術に関する研究
動向. 自然言語処理, 11(5), pp.151-198, 2004.
Presented by 梶原  智之
–
™ 「意味が近似的に等価な言語表現の異形」
→ 同じ意味を持つ異なる言語表現
e.g. 内戦状態に再突入する公算が大きい
再び内戦状態になる可能性が高い
™ キーワード:
 言い換え生成、言い換え認識、言い換え知識獲得
™ 言い換えの言い換え:
 換言、書き換え、パラフレーズ(Paraphrase)
言い換え
2
–
™ 語彙的言い換え(lexical paraphrase)
–  警官が犯人を逮捕する
–  警官が犯人を捕まえる
™ 構文的言い換え(structural paraphrase)
–  返信しないと、申込みは取り消されます
–  返信すると、申込みは取り消されません
™ 内包的意味の同一性に基づく言い換え
™ 工学的実現が最も容易(に見える)
意味が同じであるとは?
3
–
™ 内包的意味が同じ ≠ 参照対象が同じ
– 宵の明星
– 明けの明星
™ 参照的言い換え(referential paraphrase)
– 筆者の考え    去年の出来事
– 佐藤の考え    1998年の出来事
™ 特定の文脈や談話の中でのみ成り立つ言い換え
™ 内包的意味の同一性に基づく言い換えとは区別すべき
意味が同じであるとは?
参照対象が同一であることは
言い換え可能であるための
十分条件には”ならない”
4
–
™ 言葉の語用論的効果
–  話者がそれを発することによって達成できると
期待するコミュニケーションの目的
™ 語用論的言い換え(pragmatic paraphrase)
–  どなたかgccのソースのありかをご存知ないでしょうか
–  gccのソースが置いてあるftpサイトを教えてください
™ 同じ語用論的効果を持つ言い換え
™ 内包的意味の同一性に基づく言い換えとは区別すべき
意味が同じであるとは?
5
–
™ 人間のために言い換える
–  読解支援:読者の読解能力に合わせて平易な表現に変換
–  推敲支援:スタイルの統一  /  制限言語文書の作成
–  機械翻訳:機械が出力した不適格な表現を自動的に修正
–  自動要約:原文にない表現を使って内容をまとめる
–  字幕生成:ニュース原稿から字幕を生成
™ 機械のために言い換える
–  機械翻訳:翻訳しやすい表現に予め書き換え(前編集)
–  クエリ拡張:情報検索の質問の多様性を吸収する
–  複数文書要約:同じ情報を伝える記述がないか判定する
言い換え技術の使い方
6
–
™ 言い換え = 同一言語内の翻訳
(翻訳 = 異なる言語間をまたぐ言い換え)
™ 言い換え生成の研究が機械翻訳の研究の長い歴史
から学べることは多い(後追いの域を出ていない)
™ トランスファ方式
™ ピボット方式
言い換えの実現方法
7
–
トランスファ方式
単語列
意味表現
出力文
構文構造
中間言語
意味表現
構文構造
単語列
入力文
意味レベル
統語レベル
表層レベル
8
–
™ 表層レベル
–  e.g. 単語を同義語に言い換える
–  e.g. 慣用表現を言い換える
–  要素が省略されにくい
–  語の間に別の語が割り込まない
–  語彙化された言い換え知識を用いる
™ 統語レベル
–  文節の係り受け構造を用いる
™ 意味レベル
–  語順まで考慮する
トランスファ方式
9
–
  訳      は      原文      に      忠実
translation   closely   follows   the   original
translation    is    difficult    for    me
  翻訳    は    私    に    は    難しい
ピボット方式
Masahiro Mizukami, Graham Neubig, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura.
Building a Free, General-Domain Paraphrase Database for Japanese.
The 17th Oriental COCOSDA Conference (O-COCOSDA). Thailand. September 2014.
10
–
™ 表層の単語列や構文木の対
™ 単語ラティス
言い換え知識の表現方法
複数単語列アライメントによって
生成される単語ラティス 11
–
™ 応用横断的なミドルウェアとしての言い換え
™ 翻訳は異言語間の同義表現
™ 言い換えは同一言語内の同義表現
™ 形態素解析・統語解析などの基盤技術を、
機械翻訳や自動要約などの各種応用技術に
つなげる応用横断的なミドルウェアである
機械翻訳との違い1
12
–
™ 応用横断的なミドルウェアとしての言い換え
™ 今後の言い換え研究
–  言い換えのための知識をどのように
整理し、分解し、記述しておけば
応用横断的な再利用性が高くなるか検討し、
–  その成果に基づいて実際に言い換えの
処理や知識を実現し、
–  それらの部品を組み合わせて新しい用途に
対応できる仕組みを作る
機械翻訳との違い1
13
–
™ 問題解決型タスクとしての言い換え
™ 翻訳は、原文の全ての構成要素を目的言語に変換
™ 言い換え生成は、言い換えるべき対象を選択する
™ 言い換えは多くの場合、原文の意味を厳密には保存
できない → 不必要な言い換えは情報を損なう
機械翻訳との違い2
14
–
™ 問題解決型タスクとしての言い換え
™ 原文から基準を満たさない言語表現を抽出し、
満たす表現に言い換えるという問題解決型タスク
–  読解支援:人間にとってのテキストの読みやすさ
–  機械翻訳:解析・翻訳の容易性
–  音声合成:聴覚理解の容易性
機械翻訳との違い2
15
–
機械翻訳との違い2
16
–
™ 語彙・構文的変換に基づく言い換えの認識
–  語彙・構文的変換の到達可能性を調べる
–  与えられた2つの言語表現のうち、
一方を言い換えて他方に到達できるか否かを判別
™ 意味表現に基づく言い換えの認識
–  意味レベルの照合を明示的に扱う
–  与えられた2つの言語表現の各々を
意味表現に変換し、それらが一致するか否かを判別
言い換えの認識
17
–
™ シソーラスを使って同概念語に言い換える
–  WordNet(http://compling.hss.ntu.edu.sg/wnja/)
e.g. 教職の人(synset ID: 10694258-n)
指導員, 師範, 教官, 師匠, 教師, 先生, 教員, …
™ 同概念語と言っても、意味や用法には差がある
–  随所(⇒各地)でがれきの山が生まれ、火災も発生し、
死者も多数、確認されている。
–  片仮名交じりの文語体、しかも難解な言葉が随所(⇒
各地)にあり、法学専攻の学生すら悩ます現行刑法の
法文が現代用語に書き換えられる。
言い換え知識の獲得
18
–
™ 語釈文に言い換える
–  e.g. 廃材[見出し語]:いらなくなった木材[語釈文]
がれきや廃材の仮置き場
がれきやいらなくなった木材の仮置き場
–  e.g. 相乗り[見出し語]:乗り物に一緒に乗る[語釈文]
タクシーに相乗りする
タクシーに乗り物に一緒に乗るする
™ 既存の語彙資源を使うため、カバレッジが広い
™ 自然言語で書かれているので知識の拡張・保守が容易
言い換え知識の獲得
19
–
™ 対訳辞書から言い換えを見つける
–  日本語語彙大系の構文体系
e.g. N1(主体)がN2(主体)の軍門に下る
⇔ N1 surrender to N2
N1(主体)がN2(主体)に降伏する
⇔ N1 surrender to N2
欧州がヒトラーの軍門に下る
欧州がヒトラーに降伏する
言い換え知識の獲得
20
–
™ パラレルコーパスから言い換え知識を獲得する
–  The athletic field was swamped with spectators.
–  競技場は大勢の観客で膨れ上がった
–  競技場は大勢の観客で身動きができなかった
™ 同じ原著から何冊もの訳本が出ている作品
(パラレルコーパス)
™ 同じ事件を報道している複数の新聞社の記事
(コンパラブルコーパス)
言い換え知識の獲得
21
–
™ パラレルでないコーパスを使う
–  与えられた入力表現と
 (a) 似た文脈で出現する表現 ← 分布類似度
 (b) 内部構造が似ている表現
がコーパス中に存在すれば、
それは入力の言い換えである可能性が高い
™ 分布類似度:distributional similarity
–  出現文脈の類似性に基づいて推定される言語表現の類似度
™ ノンパラレルコーパスは、パラレルコーパスや
コンパラブルコーパスよりもはるかに容易に入手できる
言い換え知識の獲得
22
–
™  言い換え:同じ意味を持つ異なる言語表現
–  言い換え生成
™  応用:機械翻訳の前編集、文章簡単化
™  機械翻訳の技術と重なるところが大きい
e.g. 変換, 曖昧性解消, 生成, 知識表現, 知識獲得
–  言い換え認識
™  応用:情報検索、質問応答、複数文書要約
™  片方のテキストから言い換えを生成して
他方のテキストに到達できるかどうか判定
–  言い換え知識獲得
™  自然には大規模なパラレルコーパスが作成されない
™  コンパラブルコーパス, ノンパラレルコーパスに工夫
まとめ
23
–
™ 乾  健太郎
– http://www.cl.ecei.tohoku.ac.jp/
™ 藤田  篤
– http://paraphrasing.org/~fujita/
– Bibliography of paraphrasing
™ http://paraphrasing.org/bib-cat.html
– A classification of paraphrases
™ http://paraphrasing.org/paraphrase.html
著者情報
24

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
内発的動機づけの計算モデル, 岡夏樹
内発的動機づけの計算モデル, 岡夏樹内発的動機づけの計算モデル, 岡夏樹
内発的動機づけの計算モデル, 岡夏樹
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
Deep forest
Deep forestDeep forest
Deep forest
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 
lsh
lshlsh
lsh
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
LDA入門
LDA入門LDA入門
LDA入門
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Dynamic Pricing
Dynamic PricingDynamic Pricing
Dynamic Pricing
 
【数学パズル】 無限の囚人と帽子パズル ~選択公理を使ったトリック~
【数学パズル】 無限の囚人と帽子パズル ~選択公理を使ったトリック~ 【数学パズル】 無限の囚人と帽子パズル ~選択公理を使ったトリック~
【数学パズル】 無限の囚人と帽子パズル ~選択公理を使ったトリック~
 

Andere mochten auch

20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
 

Andere mochten auch (20)

20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
joint_seminar
joint_seminarjoint_seminar
joint_seminar
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
 
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
Noun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of ContextsNoun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of Contexts
 
Evaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical SimplificationEvaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical Simplification
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
 
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
高頻度語は平易なのか?
高頻度語は平易なのか?高頻度語は平易なのか?
高頻度語は平易なのか?
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
文章読解支援のための語彙平易化
文章読解支援のための語彙平易化文章読解支援のための語彙平易化
文章読解支援のための語彙平易化
 
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
tmu_science_cafe02
tmu_science_cafe02tmu_science_cafe02
tmu_science_cafe02
 

Mehr von Tomoyuki Kajiwara

Mehr von Tomoyuki Kajiwara (8)

20190315 nlp
20190315 nlp20190315 nlp
20190315 nlp
 
20180208公聴会
20180208公聴会20180208公聴会
20180208公聴会
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
 
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
 

文献紹介:言い換え技術に関する研究動向