SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Downloaden Sie, um offline zu lesen
文献紹介
2015/02/02
長岡技術科学大学
自然言語処理研究室
岡田 正平
今回の文献紹介の趣旨
• SemEval (SENSEVAL) のWSDタスクについて紹介
– Lexical Sample
– All-Words
– Monolingual
– Multilingual
– Cross-lingual
2015/02/02 文献紹介 2
WSDタスクの実施状況
Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓
All-Words ✓ ✓ ✓ ✓ ✓
Multilingual ✓
Cross-lingual ✓ ✓
2015/02/02 文献紹介 3
※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
All-Words
The English All-Words Task
Benjamin Snyder and Martha Palmer
In Senseval-3: Third International Workshop on the
Evaluation of Systems for the Semantic Analysis of Text, pp.
41-43. 2004.
2015/02/02 文献紹介 4
All-Words
• 与えられた文中の全内容語をWordNet中の語義に割り当
てる
• 構文解析とPOS-tagの情報は与えられる
2015/02/02 文献紹介 5
Test Corpus
• Wall Street Journal と Brown Corpus から得られた約
5,000語の内容語を対象
• 作業者2人によるアノテーション後,別の作業者による
確認・修正
– WordNet中に適切な項目がある場合は複合語も可
– 複数語義に割当てることも可(できるだけ避ける)
– 「WordNet中に無い」も可
• 最終的に2,211語
2015/02/02 文献紹介 6
Lexical Sample
The Senseval-3 English lexical sample task
Rada Mihalcea, Timothy Chklovski and Adam Kilgarriff
In Senseval-3: Third International Workshop on the
Evaluation of Systems for the Semantic Analysis of Text, pp.
25-28. 2004.
2015/02/02 文献紹介 7
コーパスの構築
• British National Corpus, Penn Treebank corpus, Los
Angeles Times collection から抽出された文を利用
• 語義目録は WordNet 1.7.1 のものを利用
– ただし動詞は Wordsmyth のものを利用
• SENSEVAL2において動詞に対する性能が低かった
ため
• 語義の粒度が細かすぎたためと思われる
• 対象語は57語(名詞20語,動詞32語,形容詞5語)
2015/02/02 文献紹介 8
コーパスの構築
• Web上のボランティアを利用
– 対象語を含む文をコーパスから抽出
– 作業者に提示し,最も適切な語義を選ばせる
• チェックボックによる選択(複数可)
• “unclear”と”none of the above” を選択可
• 他者の回答は表示されない
– 2人の回答が一致したらタグ付けされる(最大4人)
2015/02/02 文献紹介 9
Multilingual WSD
SemEval-2013 Task 12: Multilingual Word Sense
Disambiguation
Roberto Navigli, David Jurgens and Daniele Vannella
In Proc. of SemEval 2013, pp. 222-231.
2013.
2015/02/02 文献紹介 10
Task Setup
• 対象となる名詞を最も適切な語義に割り当てる
– 語義はBabelNet
• 2010, 2011, 2012 の workshop on SMT の
データセットより13記事
– English, French, German, Spanish
– さらに人手で English → Italian の翻訳
2015/02/02 文献紹介 11
語義目録
• BabelNet 1.1.1
– 単語,複合語,固有名詞を含む
– Wikipedia や WordNet 3.0 等から作られている
– synset は同じ概念に対する複数言語の表現集合
{Globus aerostàticCA, BalloonEN, AérostationFR,
BallonDE, Pallone aerostaticoIT, ..., Globo aerostáticoES}
2015/02/02 文献紹介 12
Sense Annotation
• 各言語の母語話者がアノテーション
– English, French, German, Spanish: 各言語1人
– Italian: 2人
2015/02/02 文献紹介 13
Sense Annotation
各作業者が
1. 見出し語に付けられているPOSは正しいか
2. 複合語または固有名詞のアノテーションは正しいか
3. 見出し語の意味がBabelNetに割り当てられているか
をチェックする(正しくないものは取り除かれる)
2015/02/02 文献紹介 14
Sense Annotation
• 英語のデータセット中の語をBebelNetの語義に
割り当てる
• 英語でアノテーションされたものを他言語に写像
– 対応する英文中の語の語義に含まれる場合にその語
義に割り当てる
• 各言語の作業者によって修正
• 異なる作業者が高頻度の見出し語について確認
2015/02/02 文献紹介 15
Cross-lingual WSD
SemEval-2013 Task 10: Cross-lingual Word Sense
Disambiguation
Els Lefever and Véronique Hoste
In Proc. of SemEval 2013, pp. 158-166.
2013.
2015/02/02 文献紹介 16
Cross-lingual WSD
その文脈において正しい訳語を選択する
“Je cherche des idées pour manger de l’avocat”
(French→English)
– 正しい訳語 “avocat” → “avocado”
– 誤った訳語 “avocat” → “lawyer”
2015/02/02 文献紹介 17
Task setup
• 英語の名詞に対する教師なしWSDタスク
– 英語の名詞 20 個
• 語義目録は Europarl parallel corpus に基づく
• 対象言語: French, Italian, Spanish, Dutch, German
2015/02/02 文献紹介 18
Motivations
• パラレルコーパスを利用することで,データの作成時の
ボトルネックを解決可能
– 語義のタグ付けが不要
– 同様のフレームワークが多言語にも適用可
2015/02/02 文献紹介 19
Motivations
• 語義の粒度の問題
– 必ずしも細かい粒度が必要ではない
“head” (English) は常に “hoofd” (Dutch)に翻訳できる
(頭と組織の長の両方の意味を持つ)
– 領域特化のコーパスを利用することで,
その領域向きの語義目録が作成可
2015/02/02 文献紹介 20
Motivations
• 言語横断のものに即座に応用可能
– 機械翻訳
– 情報検索
2015/02/02 文献紹介 21
語義目録の作成
英語と対象言語間で1文対1文になっているものを利用
1. 対訳コーパスにおいて単語アライメントを行い,
対象名詞の翻訳を列挙する
2. 得られた翻訳をクラスタリングし,人手で見出し語化
2015/02/02 文献紹介 22
テストデータ
• ANCコーパスより人手で各名詞に対して50文を選択
• 対象言語ごとに3人の作業者
1. 最も適切な語義(クラスタ)を選択
2. 適切な翻訳を3つまで,そのクラスタより選択
2015/02/02 文献紹介 23
subtasks
• best evaluation
– システムはいくつでも答えを提示可能
– 提示した数によってスコアが割られる
• Out-of-five
– システムは5つまで答えを提示可能
– 誤った答えに対するペナルティは無し
2015/02/02 文献紹介 24
WSDタスクの実施状況
Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓
All-Words ✓ ✓ ✓ ✓ ✓
Multilingual ✓
Cross-lingual ✓ ✓
2015/02/02 文献紹介 25
※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)

Weitere ähnliche Inhalte

Mehr von Shohei Okada

クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawaクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawaShohei Okada
 
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondoクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondoShohei Okada
 
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfukLaravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfukShohei Okada
 
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyoエラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyoShohei Okada
 
スペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリアスペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリアShohei Okada
 
PHP でも活用できる Makefile
PHP でも活用できる MakefilePHP でも活用できる Makefile
PHP でも活用できる MakefileShohei Okada
 
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよはじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよShohei Okada
 
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...Shohei Okada
 
働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソードShohei Okada
 
Laravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するならLaravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するならShohei Okada
 
Laravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミLaravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミShohei Okada
 
Laravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのかLaravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのかShohei Okada
 
2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~Shohei Okada
 
Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話Shohei Okada
 
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみたLaravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみたShohei Okada
 
チームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組みチームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組みShohei Okada
 
プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話Shohei Okada
 
PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!Shohei Okada
 
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1Shohei Okada
 
The Infamous Hello World Program
The Infamous Hello World ProgramThe Infamous Hello World Program
The Infamous Hello World ProgramShohei Okada
 

Mehr von Shohei Okada (20)

クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawaクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
 
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondoクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
 
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfukLaravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
 
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyoエラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
 
スペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリアスペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリア
 
PHP でも活用できる Makefile
PHP でも活用できる MakefilePHP でも活用できる Makefile
PHP でも活用できる Makefile
 
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよはじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
 
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
 
働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード
 
Laravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するならLaravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するなら
 
Laravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミLaravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミ
 
Laravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのかLaravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのか
 
2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~
 
Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話
 
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみたLaravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
 
チームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組みチームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組み
 
プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話
 
PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!
 
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
 
The Infamous Hello World Program
The Infamous Hello World ProgramThe Infamous Hello World Program
The Infamous Hello World Program
 

文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて