Weitere ähnliche Inhalte Ähnlich wie Visualizing and understanding neural models in NLP (16) Visualizing and understanding neural models in NLP1. Visualizing and Understanding
Neural Models in NLP
Jiwei Li, Xinlei Chen, Eduard Hovy, and Dan Jurafsky
NAACL 2016, pages 681-691.
論文 コード TechTalks.tv
読み手: 岡崎 直観 (東北大学) (@chokkanorg)
第8回最先端NLP勉強会
※但し書きがある場合を除き,スライド中の図・表はLi+ (2016) の引用
2. 本研究の貢献: DNNモデルの解釈
• 人間が設計した素性からなるモデルは解釈可能
• 例: 線形識別モデルにおける素性の重み
• 今や幅広いタスクでDNNが最高性能を達成
• 単語ベクトルや隠れ層などでモデルの解釈が困難に
• DNNは意味合成をどのように実現しているのか?
• 強調(intensification)や否定(negation)の取り扱い
• 文中の離れた場所の単語の意味の合成
• 文中の不要な要素(ストップワード)の除去
• 単語の顕著度(saliency)を可視化する手法を検討
• 分散: 文中の単語ベクトルの平均からの乖離度
• 偏微分: 解いているタスクへの単語ベクトルの貢献度
Li+ (2016) Visualizing and Understanding Neural Models in NLP 2
3. 本研究で用いたタスク (1/2):
Stanford Sentiment Treebank (Socher+ 13)
• 句構造に5段階の評価ラベルが付与されたデータ
• 句構造を単語列に展開し,単語列から評価ラベル
を予測する問題に変換した
• 単語列からラベルを予測する方が一般的なため
• 実験設定
• 最適化: ミニバッチAdaGrad
• 次元数: 60 (入力層と隠れ層)
Li+ (2016) Visualizing and Understanding Neural Models in NLP 3
(Socher+ 2013)
モデル 5クラス 2クラス
RNN 0.429 0.850
LSTM 0.469 0.870
双方向LSTM 0.488 0.878
11. 偏微分による顕著度
• 文𝑆𝑆中の単語𝑖𝑖のベクトル𝒙𝒙𝑖𝑖の𝑗𝑗次元目𝑥𝑥𝑖𝑖,𝑗𝑗の顕著度
Grad𝑆𝑆 𝑖𝑖, 𝑗𝑗 =
𝜕𝜕𝑙𝑙(𝒙𝒙1 … 𝒙𝒙 𝑆𝑆 , �𝑦𝑦)
𝜕𝜕𝑥𝑥𝑖𝑖,𝑗𝑗
• 解釈: 確率推定値(スコア)の一次近似
𝑙𝑙 𝒙𝒙1 … 𝒙𝒙 𝑆𝑆 , �𝑦𝑦 ≈ 𝑙𝑙 𝑥𝑥𝑖𝑖,𝑗𝑗 + 𝑙𝑙′
𝑥𝑥𝑖𝑖,𝑗𝑗 𝛿𝛿𝑥𝑥 = 𝑙𝑙′
𝑥𝑥𝑖𝑖,𝑗𝑗 𝛿𝛿𝑥𝑥 + 𝑏𝑏
• 単語ベクトルの値を微小に(𝛿𝛿𝑥𝑥だけ)変化させるとき,ラ
ベル�𝑦𝑦の確率推定値(スコア)に大きな影響を与えるも
のを見つける
Li+ (2016) Visualizing and Understanding Neural Models in NLP 11
ラベル�𝑦𝑦を予測した際の
確率推定値またはスコア
一次までのテイラー展開 𝑥𝑥𝑖𝑖,𝑗𝑗を𝛿𝛿𝑥𝑥だけ動か
した時の影響度
定数項
誤差逆伝搬法で計算可
13. 偏微分の可視化例(文生成)
(I like the movie through the plot is boring)
Li+ (2016) Visualizing and Understanding Neural Models in NLP 13
内容語の生成: 入力文の単語ベクトルを使う
機能語の生成: 直前の語(言語モデル)を使う
14. まとめ
• 単語の顕著度(saliency)を可視化する手法を検討
• 分散: 文中の単語ベクトルの平均からの乖離度
• 偏微分: 解いているタスクへの単語ベクトルの貢献度
• 言語処理のニューラルモデルの可視化の第一歩
• どの可視化方法が良いかは分からない
• ニューラルネットワークの比較検討はこれから
• 読み手の感想
• 文生成モデルの解析は興味深かった
• アテンションを可視化することとの関連性は?
Li+ (2016) Visualizing and Understanding Neural Models in NLP 14