Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

言語と知識の深層学習@認知科学会サマースクール

26.238 Aufrufe

Veröffentlicht am

認知科学会のサマースクールでの講演資料です

Veröffentlicht in: Technologie
  • Loggen Sie sich ein, um Kommentare anzuzeigen.

言語と知識の深層学習@認知科学会サマースクール

  1. 1. ⾔言語と知識識の深層学習 (株)Preferred Infrastructure 海野  裕也 2015/08/31 認知科学サマースクール@箱根
  2. 2. ⾃自⼰己紹介 海野  裕也 l  -2008 東⼤大情報理理⼯工修⼠士 l  ⾃自然⾔言語処理理 l  2008-2011 ⽇日本アイ・ビー・エム(株)東京基礎研 l  テキストマイニング、⾃自然⾔言語処理理の研究開発 l  2011- (株)プリファードインフラストラクチャー l  ⾃自然⾔言語処理理、情報検索索、機械学習、テキストマイニングなど の研究開発 l  研究開発系案件、コンサルティング l  JubatusやChainerの開発 NLP若若⼿手の会共同委員⻑⾧長(2014-) 「オンライン機械学習」(2015, 講談社) 2
  3. 3. 本⽇日の話の概要 l  ⾃自然⾔言語処理理における深層学習の⼿手法の概要を お話します l  現在、私が持っている課題感などもお話させて いただけると幸いです 3
  4. 4. ⾃自然⾔言語処理理とは ⾃自然⾔言語(⼈人の話す⾔言葉葉)をコンピュータで処理理させるた めの技術 l  主な応⽤用:⽇日本語⼊入⼒力力、機械翻訳、⾃自動要約など l  ⾔言語学、機械学習、最適化、統計などの技術と関わりが 深い 4 古⽂文書            仕様書 電子カルテ            twitter
  5. 5. ⾔言語処理理固有(?)の問題 1.  シーケンスの各要素の異異なり数は膨⼤大(単語) 2.  極めて規則的に各要素が選ばれる(⽂文法) 3.  外の情報や推論論がないと判断できないことも (知識識・推論論) 5 記号の規則的な列列である
  6. 6. 本⽇日の概要 ⾃自然⾔言語処理理における深層学習を3つに分け て話します l  埋め込みベクトルの学習 l  構造の学習 l  知識識、記憶、推論論の学習 6
  7. 7. その前に 7
  8. 8. おさらい:機械学習 多くの機械学習⼿手法は、 1.  ⽬目的関数の設計 2.  勾配の計算 3.  最⼩小化のための反復復計算 からなる そうでない機械学習もある(例例:MCMC) 8
  9. 9. 典型的な機械学習のイメージ l  正しければ正しいほど⼩小さくなる関数fを、デー タから設計する(例例えば正解率率率) l  fの任意の地点での勾配(⼩小さくなる⽅方向)を計 算する⽅方法を⽤用意する l  更更新を繰り返すとfの極⼩小点がわかる9 http://www.denizyuret.com/2015/03/alec-radfords-animations-for.htmlより
  10. 10. 機械学習の例例:分類学習の⽬目的関数 10 argminw ∑(x, y) l(x, y; w) + r(w) l  xは⼊入⼒力力ベクトル、yは予測ラベル l  l(x, y)は予測が正しければ⼩小さく、間違えれば⼤大 きくなる値(損失関数) l  r(w)はwが極端な値にならないような制約(正則 化項) l  上記関数を最⼩小化するパラメータwを求めたい
  11. 11. 機械学習の例例:分類学習のアルゴリズム l  ⽬目的関数をパラメータwで微分した値(勾配) を計算する⽅方法を⽤用意する l  wを勾配の⽅方向に少しだけ動かす、を繰り返す l  実際は更更新⽅方向の取り⽅方に⼯工夫が他数ある 11 initialize w until converge: w := w - η d/dw L(x, y; w) 最急降降下法
  12. 12. 応⽤用タスクでは関数の設計が焦点 l  勾配の計算と、最⼩小化の反復復計算は、ほとんど ⾃自動化できるようになった l  重要な⼯工夫は他数あるが、今⽇日はしません(Dropout、 Batch normalization、ADAMなど) l  応⽤用系の深層学習研究では、問題に合った⽬目的 関数を設計するところが主な焦点 l  RNN、CNN、skip-gramなど、全て⽬目的関数の形の ⼯工夫のはなし 12
  13. 13. お断り l  細かい式と実装は紹介しません l  式の意図や性質を中⼼心に解説します l  勾配計算はライブラリに任せることが増 えています 13
  14. 14. 埋め込みベクトルの学習
  15. 15. 記号と意味の類似度度 l  同じ意味、似た意味、関連のある意味、など l  記号列列が似ていても、関係が無いことが多い 15 リンゴ リンク アップル ⾷食べる みかん リンス ⻘青リンゴ
  16. 16. 分布仮説 (Distributional Hypothesis) l  同じ⽂文脈で出現する単語は同じ意味を持つとい うこと l  データから単語の意味を学習する話は、少なか らずこの仮説が元になっている 16 The Distributional Hypothesis is that words that occur in the same contexts tend to have similar meanings (Harris, 1954). (ACL wikiより)
  17. 17. 問題:???の単語は何でしょう? 17 [Evert10]より抜粋 ヒント:この表は各単語同士の共起頻度を表している
  18. 18. 問題:???の単語は何でしょう? 18 [Evert10]より抜粋 ヒント2:catやpigと共起語が似ていて、knifeと似てない
  19. 19. 正解:dog 19 [Evert10]より抜粋
  20. 20. word2vec [Mikolov+13] l  各単語の「意味」を表現するベクトルを作るはなし l  vec(Berlin) – vec(German) + vec(France) と⼀一番近い単 語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 20 Berlin German France Paris!!
  21. 21. Skip-gramモデル (word2vec) [Mikolov+13a] l  周辺単語を予測するモデル l  周辺単語から予測するモデル (CBOW)も提案している l  Analogical reasoningの精 度度が劇的に向上 l  ⾼高性能な実装が公開された ため、⼤大流流⾏行行した 21 [Mikolov+13a]より
  22. 22. Skip-gramモデル[Mikolov+13a]の⽬目的関数 l  ⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語) 22 これを最 ⼤大化 vwは単語wを表現するようなベクトル(適当な 次元)で、これらを推定したい cは文脈サイズで5くらい
  23. 23. 出⼒力力層を⼯工夫する l  語彙数 x 隠れ層  の⾏行行列列を毎単語ごとに更更新す る必要がある l  語彙数が巨⼤大すぎる(10万〜~100万) l  更更新量量を減らす⼯工夫が欲しい 23
  24. 24. ⼯工夫1: Hierarchical Softmax (HSM) [Morin+05] l  単語で⽊木を作り、ルートからその単語までの各ノードの ベクトルと内積をとり、そのシグモイドの積にする l  計算量量が語彙数の対数時間になる l  学習時間が数⽇日から数分に24 りんご みかん カレー ラーメン n1 n2 n3 各ノードのベ クトル ルートからw までの全ノー ドで積をとる σ(x)=1/(1 + exp(-x))
  25. 25. ⼯工夫2: Negative Sampling [Mikolov+13b] l  ∑の中の期待値計算は、k個のサンプルを取って 近似する l  データが少ない時は5~20個、多ければ2~5個で充分 l  P(w)として、1-gram頻度度の3/4乗に⽐比例例させた ときが⼀一番良良かった 25 log P(wo|wI) =
  26. 26. Skip-gramの衝撃 l  式は異異様にシンプル l  ある単語の出現が、周囲の単語の出現に影響を与え ている、程度度の意味合い l  想像以上に直感通りの実⾏行行結果 l  “1”に類似する単語は、順番に”2”, “3”, “4”, … l  ベクトルのたし引きができる 26 Berlin German France Paris!!
  27. 27. オープンソースで公開される l  実装はかなりギリギリまでチューニングされて いるので、CPUでも異異様に⾼高速に動く l  公開後、エンジニア界隈でも流流⾏行行した 27 https://code.google.com/p/word2vec/
  28. 28. 意味の「程度度」がベクトル空間中に埋め込まれる [Kim+13] l  “good”と”best”の真ん中に、”better”が存在 28 [Kim+13]より
  29. 29. ⾔言語間の翻訳辞書ができる [Mikolov+13c] l  単⾔言語のコーパスで作られた表現ベクトルは似ている l  少ない対訳辞書で作った、表現ベクトル空間の線形変換 を作る 29 英語 スペイン語 [Mikolov+13c]より
  30. 30. 複数の意味を持たせて、⽂文脈に応じて選択 [Neelakantan+14] 30 文脈を認識 一番類似した意味を選択 Skip-gramと同じ [Neelakantan+14]より
  31. 31. ⽂文書のベクトル表現(Paragraph vector) [Le+14] l  周囲の単語に加えて、⽂文書固有のベクトル (Paragraph vector)も単語の予測に使う l  このベクトルで⽂文書分類すると性能が向上する 31 Continuous BoW Paragraph vector [Le+14]より
  32. 32. 埋め込みベクトルの学習 l  単語の意味に相当するベクトルを学習する l  周囲の単語を予測するモデル l  不不思議な性質が次々に明らかになる l  意味の⾜足し算や、⾔言語をまたいだ類似性など l  関連する研究が次々に⾏行行われた 32
  33. 33. 構造の学習
  34. 34. ⾃自然⾔言語処理理の2⼤大構造 l  系列列構造 l  そもそも⽂文が⽂文字列列なので、系列列を使うのは⾃自然 l  cf. N-gram, HMM, linear-chain CRF… l  ⽊木構造 l  伝統的に⾃自然⾔言語処理理は⽊木構造を多⽤用してきた l  cf. PCFG, 係り受け解析… 34 Recurrent Neural Network Recursive Neural Network
  35. 35. Recurrent Neural Network (RNN) l  系列列に対するネットワーク l  隠れ層をコピーして、次の⼊入 ⼒力力に使うところがポイント l  必ずしも予測は必要ない 35 ⽂文字、単語 時刻  t-‐‑‒1  の隠れ層 隠れ層 予測 コピー
  36. 36. つなげて書くと・・・ 36 ⽂文字1 時刻  0  の隠れ層 隠れ層 時刻1の 予測 ⽂文字2 時刻2の 予測 ⽂文字3 時刻3の 予測
  37. 37. フィードフォワードニューラルネットとの関係 l  横⽅方向に並べて書くことが多い 37 ここだけみると、⽂文 ⻑⾧長と同じ⻑⾧長さのニュー ラルネットワーク yt = f(ht) ht+1 = g(xt, ht) x1 x2 x3 x4 h1 h2 h3 h4 y1 y2 y3 y4 入力データ 出力データ
  38. 38. 補⾜足:Skip-gramとRNNの違い l  Skip-gramでは、各単語は独⽴立立に、周囲の単語 から予想していた l  RNNでは隠れ状態の遷移が次の単語出⼒力力に影響 を与える 38 yt = f(ht), ht+1 = g(xt, ht) yt = f(xt-2, xt-1, xt+1, xt+2)
  39. 39. Back Propagation Through Time (BPTT)で学習 l  時間⽅方向に展開した状態で誤差逆伝搬すると、時間をさ かのぼって学習しているように⾒見見える 39
  40. 40. 深いネットワークと同様の問題が発⽣生する l  何度度も掛け算が発⽣生するので、重みが爆発したり、勾配 が消失する問題が発⽣生する l  そのため、⻑⾧長い依存関係を学習できない 40
  41. 41. Long Short-Term Memory [Hochreiter+97] l  勾配が消えないようにエラーを内部に貯めこむ構造に なっている l  ⼊入出⼒力力のゲートを作って、情報を選択的に流流すようにす る(流流すタイミングを学習するイメージ) 41 情報が貯まる 出⼒力力タイ ミング ⼊入⼒力力タイ ミング gateの出⼒力力が1に近い時だけ影響する
  42. 42. LSTMをRNNのモジュールとして利利⽤用する l  時間⽅方向の遷移をLSTMに置き換えることで、 ⻑⾧長距離離の依存関係を学習できるようになる 42
  43. 43. 統計的⾔言語モデル l  ⽂文か否かを判定するのが⾔言語モデル l  統計的⾔言語モデルは、記号列列に対して確率率率を与 える l  正しい⽂文には⾼高い確率率率、⾮非⽂文に対しては低い確率率率 43 P(今日は天気だ)>P(は天気だ今日)
  44. 44. RNNの⾔言語モデルへの利利⽤用 [Mikolov+10] l  ⼊入⼒力力は単語列列、出⼒力力は次の単語 l  副次的に単語毎にベクトルが学習される 44 今日 は 天気 だ は 天気 だ <eos> 単語毎に確率率率が出る
  45. 45. ⾔言語モデルは何に使われるか? l  ⽂文を⽣生成するあらゆるタスクに応⽤用できる l  翻訳 l  ⽂文書要約 l  ⾳音声認識識 l  対話 l  例例えば⾳音声認識識結果の候補がいくつかあったと きに、最も尤もらしい⽂文を選択するイメージ 45
  46. 46. 従来の⾔言語モデルとRNN⾔言語モデルの⽐比較 l  N-gram⾔言語モデル l  確率率率が直近N単語にのみ依存する l  RNN⾔言語モデル l  隠れ状態に必要な情報がエンコードされる 46 P(xt | xt-1, …) = f(xt, xt-1, xt-2) P(xt | xt-1, …) = f(xt, ht) ht = g(ht-1, xt-1)
  47. 47. LSTM⾔言語モデルの強⼒力力さ [Graves13] 47 閉じタグが正確に復復元タグの出現順も正しい ⽂文の構造も復復元 [Graves13]より
  48. 48. LSTMの成功から学ぶべきこと l  条件分岐のようなものを学習できる l  シグモイド関数の出⼒力力をかける l  出⼒力力が1なら使う、0なら使わないことになる l  内部記憶のようなものも再現できる 48 微分可能な関数でかければ何でもできる!
  49. 49. 昨年年後半からLSTMが⼤大流流⾏行行 l  ⽂文を⽣生成するタスクの標準的な⼿手法になる l  ⾃自然⽂文以外でも、系列列を扱うタスクの標準にな る 49
  50. 50. Show and Tell [Vinyals+15a] l  画像を畳み込みニューラルネットワーク (CNN)でエンコードして、そこからRNNで⽂文 を⽣生成する l  画像を説明するような⽂文の⽣生成に成功 50 [Vinyals+15a]より
  51. 51. Sequence-to-sequence learning (seq2seq) l  ⼊入⼒力力⽂文をRNNでエンコードして、そこからRNN で出⼒力力⽂文を⽣生成する l  ⽂文から⽂文の変換を学習できる 51 入力文 出力文 [Sutskever+14]より
  52. 52. seq2seqが複数のタスクで成果を上げる l  機械翻訳  [Sutskever+14] l  原⽂文から翻訳⽂文へ l  構⽂文解析  [Vinyals+15b] l  ⽂文から構⽂文⽊木(のS式表現)へ l  対話  [Vinyals+15c] l  相⼿手の発話から⾃自分の発話へ 52 WSJの記事になった
  53. 53. RNNによる⽣生成はエンコードとデコードに別れる l  ⼊入⼒力力データをエンコード l  画像をCNNで、翻訳元の⽂文や質問⽂文をRNNで l  できたベクトルからRNNで⽂文を⽣生成する l  全体が1つのネットワークになる 53 hencoder ⼊入⼒力力 RNN 出⼒力力⽂文
  54. 54. 従来の⾔言語モデルとの⽐比較 l  従来は⾔言語モデルとタスク固有のモデル(翻訳 モデルや⾳音響モデル)は式の上で分離離した l  RNN的なアプローチでは全部くっつけ学習する 54 argmaxy P(y|x) = argmaxy P(x|y) P(y) 翻訳モデル ⾔言語モデル
  55. 55. Recursive Neural Network (RNN) l  2つの単語の表現ベクトルを組合せて、フレーズ の表現ベクトルを構成する l  再帰的に繰り返すことで、⽂文全体の表現ベクト ルを作る 55 x1 x2 p1 x3 p2
  56. 56. RNNによる構⽂文解析 [Socher+11] l  隣隣接単語からフレーズを 構成する l  構成を繰り返すことで、 ⽊木ができる l  画像の構造推定にも使え る 56 [Socher+13]より
  57. 57. Matrix-Vector RNN (MV-RNN) [Socher+12] l  各フレーズは⾏行行列列とベクトルのペアで表現する l  ⼀一⽅方のベクトルを、もう⼀一⽅方の⾏行行列列との積を 取ってから、ベクトルを合成する 57 [Socher+12]より
  58. 58. Neural Tensor Network (NTN) [Socher+13] l  3階のテンソルを使って、2つのベクトルから、 1つのベクトルを⽣生成する 58 [Socher+13]より
  59. 59. RNNによる評判分析 [Socher+13] l  構⽂文⽊木に沿って句句のベクトルを再帰的に構築し て、ポジ・ネガ分類をする l  各フレーズ単位でも判定ができる 59 [Socher+13]より
  60. 60. Tree-LSTM [Tai+15] l  ベクトルの合成にLSTMを利利⽤用する l  実験結果を⾒見見ると、受け⾝身になった⽂文でも⽂文意 が変わらないことを学習できている 60 c: メモリセル h:隠れ状態 [Tai+15]より
  61. 61. Recurrent vs Recursive l  Recurrentは単純だが強⼒力力 l  実装は単純、構⽂文解析器が必要ない l  ⽂文の⽣生成結果も良良好 l  GPUによる並列列化がし易易い l  ⾔言語の複雑な現象を説明するのにRecursiveの⽅方 がよい? l  実際はRecurrentがかなり強いので⼀一概に⾔言いづらい 61
  62. 62. 系列列的に処理理したからといって⽊木構造を扱えないわ けではない l  構⽂文解析におけるShift-Reduce法は、前から順番に⽂文を 読んでスタック操作で構⽂文⽊木を⽣生成できる l  Recurrentも似たようことが起こっている? 62 内部状態
  63. 63. 構造の深層学習まとめ l  構造は主に2種類の⼿手法がある l  Recurrentは前から順番に単語を読む l  LSTMが⾮非常に強⼒力力 l  翻訳や対話など、⽂文を⽣生成するタスクに期待 l  Recursiveは構⽂文⽊木に沿って処理理する l  複雑な⾔言語現象を捉えやすそう l  評判分析などに期待 l  両者は実は類似のことをしていないか? 63
  64. 64. 知識識の深層学習
  65. 65. RNNだけで全ての問題が解決できるのか? l  「今⽇日の天気は?」に答えられるかは、⾔言語モ デルとは関係がない l  RNNでできるのは、妥当な回答候補を絞り込む ことだけ h RNN 出⼒力力⽂文
  66. 66. 知能に対する個⼈人的イメージ 66 1. 知覚 3. 思考 4. 行動 2. 認識
  67. 67. ⾃自然⾔言語処理理における処理理のイメージ 67 1. ◯◯解析 3. 推論 4. 文生成 2. 意味表現
  68. 68. 各処理理のイメージ 68 1. ◯◯解析 3. 推論 4. 文生成 2. 意味表現 花形の研究 難しい さらに難しい RNNが強⼒力力
  69. 69. 三つ組(トリプル)モデル l  2つのエンティティーと、その関係という3つの 情報を最⼩小単位とする l  エンティティーを節、関係をラベル付きの枝と する有向グラフとみなせる l  RDFも三つ組で出来ている 69 (x, r, y) x yr
  70. 70. 既存の知識識ベースのほとんどが、三つ組モデルで表 現される 70
  71. 71. 具体例例 l  「New York」の「略略語」は「NY」である 71
  72. 72. 問題設定 ⼊入⼒力力 l  {(xi, ri, yi)}: 知識識ベース中の三つ組集合 l  x, y: エンティティー l  r: エンティティー間の関係 出⼒力力 l  x, yに対応するベクトル l  rに対応するパラメータ 72
  73. 73. ⼤大雑把な枠組み l  三つ組に対するスコア関数を定義する l  程度度の差はあるが、概ね知識識ベース中の全三つ 組に対するスコアが⼩小さく(あるいは⼤大きく) なるようなパラメータを探す 73 argmax ∑i f(xi, ri, yi)
  74. 74. Distance model (Structured Embedding) [Bordes +11] l  e は、単語からベクトルへの関数 l  Rleft, Rright は、関係から⾏行行列列への関数 l  それぞれ別々の変換を⾏行行う l  学習データに対する f が⼩小さくなるように学習 74 f(x, r, y) = || Rleft(r) e(x) – Rright(r) e(y) ||1
  75. 75. TransE model [Brodes+13] l  関係  r は、ベクトル r を⾜足すだけというシンプ ルなモデル l  良良好な結果で、ベースライン的扱い 75 f(x, r, y) = || e(x) + r – e(y) ||2 2
  76. 76. TransE modelの問題点 1対多関係、多対多関係の場合、TransEでは同じ 関係にある全ての埋め込みベクトルが同⼀一になる ように学習してしまう 拡張 l  TransM: 広がりをもたせるように学習する l  TransH: 射影された超平⾯面上で同⼀一になるよう 学習する 76
  77. 77. TransM model [Fan+14] l  r に応じて、重みをつける l  wr は、r の関係をもつ x, y の個数から決まる定数 77 f(x, r, y) = wr|| e(x) + r – e(y) ||2 2 [Fan+14]より
  78. 78. TransH model [Wang+14] l  関係毎に超平⾯面上に射影して、その上でTransE と同じモデル化をする 78 [Wang+14]より
  79. 79. 評価⽅方法:Link prediction l  エンティティーの内の1つを隠して当てる l  ある種のQAタスクになっている l  「孫悟空の⼦子供は誰?」 79 (e1, r, e2) (e1, r, ? )
  80. 80. ⽐比較すると新しい⼿手法のほうが性能は良良い 80 TransH TransE ⾏行行列列分解 図は[Bordes&Weston14]より
  81. 81. さらに発展 l  ⾃自然⽂文も⼀一緒に扱うようになる l  より⾃自然な質問応⽤用タスクに近づく 81
  82. 82. 記憶、知識識、推論論 l  記憶、知識識、推論論に関わりそうな研究が注⽬目さ れている l  RNN-EM (Microsoft) l  Memory Networks (Facebook) l  Neural Reasoner (Huawei) l  多くの研究が対話型質問応答システムを⽬目指し ているように⾒見見える 82
  83. 83. DL Workshop@ICML2015のパネル討論論より l  ⾃自然⽂文対話とQ&Aシステムが重要になると、 FacebookとGoogle DeepMindが指摘 83 LeCun and Hassabis both picked Q&A and natural language dialogue systems as next big things. https://sites.google.com/site/deepernn/home/blog/ briefsummaryofthepaneldiscussionatdlworkshopicml2015
  84. 84. RNN-EM [Peng+15a] l  RNNに外部メモリ(External Memory)を追加 してより⻑⾧長い依存関係を学習 l  書き込み、読み込み操作も学習84 ⼊入⼒力力単語 出⼒力力単語 隠れ状態 外部メモリ 書き込み 読み込み [Peng+15a]より
  85. 85. Memory networks [Weston+15][Sukhbaatar+15] l  ⾃自然⽂文の知識識をエンコードして、質問⽂文から答 えを探し答えるまでを1つのネットワークに 85 外部の⽂文献 知識識表現 質問⽂文 知識識の探索索 回答の⽣生成 [Sukhbaatar+15]より
  86. 86. Neural Reasoner [Peng+15b] l  質問(q)と事実(fi)から、推論論を⾏行行うイメージ l  この推論論を何回も⾏行行うと、結論論が得られる 86 質問と事実をRNNでエンコード 1段の推論論 最後に回答 推論論を何度度も [Peng+15b]より
  87. 87. Deep Learningとは、「深い」ことだけではなく なってきている l  認識識系のDeep Learning l  段数の「深い」多層パーセプトロン l  段数の「深い」畳み込みニューラルネット l  層の深さが重要だった l  ⾔言語処理理のDeep Learning l  微分可能関数をうまく組み合わせる⼯工夫合戦 l  深さよりも構造の⼯工夫の⽅方が⽬目⽴立立つ 87
  88. 88. 知識識の深層学習のまとめ l  知識識ベースの表現学習 l  三つ組による知識識ベースを、埋め込みベクトルで表 現する l  簡単な質問応答ができるようになった l  より⾃自然な知識識や記憶の獲得が流流⾏行行中 l  対話型の質問応答システムに向かっている l  深さよりも問題特化した⼿手法が重要になってき ている 88
  89. 89. この辺りから議論論 89
  90. 90. 記号列列(⾔言語)のみで 意味を獲得できるのか? 90
  91. 91. Skip-thought vectors [Kiros+15] l  RNNで⽂文をエンコードし、周囲の⽂文を推定する l  Skip-gramモデルを⽂文に適⽤用したイメージ 91 前の⽂文を予測 次の⽂文を予測 ⽂文をエンコード [Kiros+15]より
  92. 92. Skip-gramとseq2seqやSkip thought vectorの類似 性 l  Skip-gram l  単語の意味(ベクトル)は、周囲に来やすい単語の 類似性によって決まる l  seq2seq l  ⽂文の意味(ベクトル)は、変換後の⽂文の類似性に よって決まる l  Skip thought vector l  ⽂文の意味(ベクトル)は、周囲の⽂文の類似性によっ て決まる 92
  93. 93. 本当に記号内で完結するのか? l  周囲の記号同⼠士の関係のみで埋め込みベクトル を計算している l  本当にこれだけで、「リンゴを絞るとジュース になる」ことを理理解できるんだろうか? 93 リンゴ ⾷食べる カツ丼みかん ⾚赤い
  94. 94. 連続な表現とのマッピングが必要? l  記号の表現は不不連続 l  記号そのものは類似性を測れない l  現状は埋め込みベクトルの類似度度と、共起関係 から間接的に類似度度を測っている l  もっと直接的にコトバを覚えられないか? l  コトバに対応した外部の刺刺激が必要? l  ⾝身体性? 94
  95. 95. まとめ l  埋め込みの学習 l  周囲の単語との共起を使って学習 l  Skip-gramが単純だが強⼒力力で、⼤大流流⾏行行している l  構造の学習 l  系列列を扱うのがRecurrentで、LSTMが⾮非常に強⼒力力 l  ⽊木構造を扱うのがRecursive l  知識識や記憶の学習 l  知識識ベースの三つ組を埋め込みベクトルにエンコー ドする⼯工夫 l  ⾃自然分を使った、より⾃自然なモデルへと研究のトレ ンドは移っている 95
  96. 96. 参考⽂文献 l  [Evert10] Stefan Evert. Distributional Semantic Models. NAACL 2010 Tutorial. l  [Mikolov+13a] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. CoRR, 2013. l  [Morin+05] Frederic Morin, Yoshua Bengio. Hierarchical Probabilistic Neural Network Language Model. AISTATS, 2005. l  [Mikolov+13c] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. NIPS, 2013. 97
  97. 97. 参考⽂文献 l  [Kim+13] Joo-Kyung Kim, Marie-Catherine de Marneffe. Deriving adjectival scales from continuous space word representations. EMNLP, 2013. l  [Mikolov+13d] Tomas Mikolov, Quoc V. Le, Ilya Sutskever. Exploiting Similarities among Languages for Machine Translation. CoRR, 2013. l  [Neelakantan+14] Arvind Neelakantan, Jeevan Shankar, Alexandre Passos, Andrew McCallum. Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space. EMNLP, 2014. l  [Le+14] Quoc Le, Tomas Mikolov. Distributed Representations of Sentences and Documents. ICML, 2014. 98
  98. 98. 参考⽂文献 l  [Hochreiter+97] Sepp Hochreiter, Jurgen Schmidhunber. Long Short-Term Memory. Neural Computation 9(8), 1997. l  [Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Honza Cernocky, Sanjeev Khudanpur. Recurrent neural network based language model. Interspeech, 2010. l  [Graves13] Alex Graves. Generating Sequences With Recurrent Neural Networks. arXiv: 1308.0850, 2013. l  [Vinyal+15a] Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan. Show and tell: A neural image caption generator. CVPR, 2015. 99
  99. 99. 参考⽂文献 l  [Sutskever+14] Ilya Sutskever, Oriol Vinyals, Quoc V. Le. Sequence to Sequence Learning with Neural Networks. NIPS 2014. l  [Vinyals+15b] Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, Geoffrey Hinton. Grammar as a foreign language. ICLR 2015. l  [Vinyals+15c] Oriol Vinyals, Quoc Le. A Neural Conversational Model. ICML 2015. 100
  100. 100. 参考⽂文献 l  [Socher+11] Richard Socher, Cliff Lin, Andrew Y. Ng, Christopher D. Manning. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011 l  [Socher+12] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. EMNLP2012. l  [Socher+13] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Chris Manning, Andrew Ng, Chris Potts. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP 2013. l  [Tai+15] Kai Sheng Tai, Richard Socher, Christopher D. Manning. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015. 101
  101. 101. 参考⽂文献 l  [Bordes+11] A. Bordes, J. Weston, R. Collobert, Y. Bengio. Learning structured embeddings of knowledge bases. AAAI2011. l  [Bordes+13] A. Bordes, N. Usunier, A. Garcia-Duran, J. Weston, O. Yakhnenko. Translating Embeddings for Modeling Multi-relational Data. NIPS 2013. l  [Fan+14] M. Fan, Q. Shou, E. Chang, T. F. Zheng. Transition-based Knowledge Graph Embedding with Relational Mapping Properties. PACLIC 2014. l  [Wang+14] Z. Wang, J. Zhang, J. Feng, Z. Chen. Knowledge Graph Embedding by Translating on Hyperplanes. AAAI 2014. l  [Bordes&Weston14] A. Bordes, J. Weston. Embedding Methods for Natural Language Processing. EMNLP2014 tutorial. 102
  102. 102. 参考⽂文献 l  [Peng+15a] Baolin Peng, Kaisheng Yao. Recurrent Neural Networks with External Memory for Language Understanding. arXiv:1506.00195, 2015. l  [Weston+15] J. Weston, S. Chopra, A. Bordes. Memory Networks. ICLR 2015. l  [Sukhbaatar+15] Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus. End-To-End Memory Networks. arXiv:1503.08895, 2015. l  [Kumar+15] Ankit Kumar, Ozan Irsoy, Jonathan Su, James Bradbury, Robert English, Brian Pierce, Peter Ondruska, Ishaan Gulrajani, Richard Socher. Ask Me Anything: Dynamic Memory Networks for Natural Language Processing. arXiv:1506.07285, 2015. l  [Peng+15b] Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong. Towards Neural Network-based Reasoning. arXiv:1508.05508, 2015. l  [Kiros+15] Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors. arXiv:1506.06726, 2015. 103

×