SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Representation Learning:
A Review and New Perspectives
       Yoshua Bengio, Aaron Courville, and Pascal Vincent
Department of computer science and operations research, U. Montreal



                                              12/14 2012
                                            D1 大知 正直


                                                                      1
Abstract
• 機械学習アルゴリズムの性能
 – データ表現に依存
  •   データの背後にある真の説明因子が複雑で,隠
      されてしまっている
  •   ドメイン依存の知識や,一般的な前提知識を
      データ表現の設計に利用することができる
  •   こうした前提知識をもっと強力に学習する表現
      学習アルゴリズムがAI分野で求められている




                              7
Abstract
• この論文の内容
 – 教師なしの特徴学習,ディープラーニング
   の結合学習に関する最近の研究成果のレ
   ビュー
 – 確率モデル,オートエンコーダ,多様体学
   習,ディープアーキテクチャをカバー




                         8
Abstract
• この論文の内容
 – 長期的な難問を提起するのが目的
  •   良い表現を学習,推定するための適切な対象
  •   表現学習,密度推定,多様体学習間の幾何学的
      な接続




                              9
1. INTRODUCTION
• 機械学習アルゴリズムの性能
 – データ(特徴)表現の選択に強く依存
  •   データの変換にすごく手間をかけている現状
  •   特徴量のエンジニアリングも人間の創造性や前
      提知識を利用してしまっている
• AIは本質的に人間の身の回りの世界を理
  解しなければならない
 – 低レベルの知覚可能なデータの根本にある
   説明要因を分解し学習することができれば
   可能

                              10
1. INTRODUCTION
• 本稿の内容
 – 特徴学習(feature learning),表現学習
   (representation learning)
  •   分類器や予測器の作成時に有用な情報の抽出が
      簡単になるようなデータの変換を学習すること
  •   ディープラーニングによる特徴学習に注目
      –   より抽象的な表現を作ることを目的とした複数回の非
          線型データ変換
      –   近年の発展途上の領域だが、特に最近の進展の内容を
          強調




                                 11
2. WHY SHOULD WE CARE ABOUT LEARNING
    REPRESENTATIONS?
• 様々な分野での表現学習について言及
1. Speech Recognition and Signal
   Processing(音声認識と信号処理)
 – MAVIS(Microsoft Research) が約30%のエ
   ラー率改善
2. Object Recognition(物体認識)
 – MNIST(数字認識タスク)においてディープ
   ラーニングがSVMの1.4%のエラー率を
   0.27%に改善
 – ImageNet(自然画像のデータセット)認識タ
   スクで15.3%のエラー率へ改善
                                        12
2. WHY SHOULD WE CARE ABOUT LEARNING
    REPRESENTATIONS?
3. Natural Language Processing(自然言語
   処理)
 – SENNAシステム・・・言語モデリングを行う
   タスク(品詞タグ付け,チャンキング,固有
   名詞認識,意味役割ラベリング,構文解析)
   向けのシステム
 – (Mikolov et al., 2011)は隠れ層を再帰的に追加
   する手法で、平滑化n-gramをperplexity,品詞
   認識のエラー率で上回る



                                        13
2. WHY SHOULD WE CARE ABOUT LEARNING
    REPRESENTATIONS?
4. Multi-Task and Transfer Learning,
   Domain Adaptation(マルチタスク,転
   移学習,ドメイン適応)
                          説明要因(赤い◯)を発見す
                          る表現学習モデルのイメージ
                          図.
                          タスク間での統計的強度の共
                          有が表現の一般性の獲得を可
                          能にする.
                           ICML2011, NIPS2011の
                          ワークショップで良い結果が
                          報告されている




                                            14
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Smoothness(平滑性)
  •   3-2で議論
– Multiple explanatory factors(複数の説明要
  因)
  •   3-5で議論(3-3で議論する分散化した表現が前提
      にある)
– A hierarchical organization of explanatory
  factors(説明要因の階層化)
  •   抽象的な概念はより上の階層へ(3-4で議論する
      “deep representation”が利用される仮定)

                                               15
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Semi-supervised learning(半教師あり学
  習)
  •   𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用.
      教師あり,無し学習間の表現の共有を可能にする
      (4で議論)
– Shared factors across tasks
  •    𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる(2-
      3で述べた)




                                       16
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Manifolds(多様性)
  •   元のデータ空間より小さな次元数を持つ局所的な
      領域にデータが集中している場合,オートエン
      コーダアルゴリズムや他の多様体学習のアルゴリ
      ズムが利用される(7-2,8で議論)
– Natural clustering
  •   多様体上での局所的な分布がそのままクラスタに
      なっている状態(人間が考える固有のカテゴリ,
      クラスといった概念と一致)8-3 Manifold
      Tangent Classifierで議論


                                       17
3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
 – Temporal and spatial coherence
   •   時間,空間的に近くな状態からの観測は似たよう
       な結果をもたらしやすい(11-3で議論)
 – Sparsity
   •   観測データ𝑥で実際に関係のある要因がほんのわ
       ずかであること(6-1-3, 7-2で議論)




これらの前提は学習器がデータの根底にある説明要因を学習,分解する手法
として,頻繁に見られる
                                        18
3. WHAT MAKES A REPRESENTATION GOOD?

2. 平滑性と次元の呪い
                       カーネル関数を用いて,局所
                       的で平滑な線形モデルを構築
                       することで解決




 こうしたカーネルそのものの発見も表現学習に含まれると考える

                                       19
3. WHAT MAKES A REPRESENTATION GOOD?

3. 分散化した表現
 – 良い表現
   •   表現力豊かであること
       –   入力領域を識別するのに十分な数のパラメータを持っ
           ているか
           » GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の
             入力領域の識別に𝑂(𝑁)個のパラメータが必要
           » RBMs(Restricted Boltzmann Machines), スパース
             コーディング, オートエンコーダ,多層ニューラル
             ネットワーク は 𝑂(2 𝑘 )個までの入力領域の識別に
             ただ𝑂(𝑁)個のパラメータがあればよい。(kは0で
             ない要素の数)


       良い表現=分散化した表現(distributed representation)

                                                     20
3. WHAT MAKES A REPRESENTATION GOOD?

4. Depth and abstraction(深さと抽象性)
 – 特徴の再利用




                       計算的,統計的な効率性を持つ



          ディープラーニングの背後にある利点
                                        21
3. WHAT MAKES A REPRESENTATION GOOD?

4. Depth and abstraction(深さと抽象性)
 – 抽象性と不変性
   •   ディープアーキテクチャは抽象性の低いもの同士
       の関係性からより抽象性の高いものを構築する
   •   抽象性の高い表現は一般的には極めて局所的な変
       化に対して不変
   •   分類という概念に一致




       不変的な特徴の学習はパターン認識の大きな目標の一つ

                                        22
3. WHAT MAKES A REPRESENTATION GOOD?

5. Disentangling Factors of Variation(変化
   の要因の分解)
  – 特徴学習へのアプローチ
    •   可能な限りたくさんの要因に分解すること
    •   ほとんど実用上意味の無いデータを捨てること




                 特徴学習の基準

                                           23
4. BUILDING DEEP REPRESENTATIONS

• 特徴学習,ディープラーニングの出現
 – 2006~
 – 階層別に教師なし学習を行うというアイデ
   ア
• ディープアーキテクチャに基づく特徴学
  習
 – より良い表現抽出をスタックする手法
  •   分類エラーの減少を目指すもの
  •   確率モデルによって生成されたサンプルの質を
      見るもの
  •   学習した特徴の不変特性見るもの
                                   24
4. BUILDING DEEP REPRESENTATIONS

• Deep Belief Network
  – Stack pre-trained RBMs




その他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数
              を利用する研究が報告されている
                                                         25
5. SINGLE-LAYER LEARNING MODULES

• 表現学習への2つのアプローチ
 – 確率的グラフィカルモデルに基づくもの(§6)
  •   隠れ変数を持つ
      –   RBM(Restricted Boltzmann Machine)
 – ニューラルネットワークに基づくもの(§7)
  •   階層構造を持つ
      –   Auto-encoder




         どちらもグラフ構造を持ち,本質的な差は無い
      → §6,7で一層で訓練する特徴学習の手法について解説
                                              26
5. SINGLE-LAYER LEARNING MODULES

• Principal Components Analysis(主成分
  分析)
 – 最古の特徴抽出アルゴリズム
   •   確率モデルと非常に関係がある
       –   固有値分解
   •   出力が基本的なauto-encoderと同じ
       –   ああああ
   •   多様体学習の単純な形式ととらえることが可能




                                      27
5. SINGLE-LAYER LEARNING MODULES

• Principal Components Analysis(主成分
  分析)




      PCAは表現学習の基本的な特徴を全て備えている
                                      28
6. PROBABILISTIC MODELS
• 確率モデルからみた特徴学習
 – 観測データ上の分布を表現する潜在変数の復
   元
 – 潜在変数ℎ, 観測データ𝑥において,確率モデ
   ル 𝑝(ℎ, 𝑥) を定義
 – 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後
   確率
 – 尤度最大化などのモデルパラメータ推定によ
   る学習


有向(Directed),無向(Undirected)のグラフィカルモデルそれぞれの特徴学習
                         の研究が存在               29
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  – 原因 ℎ と結果 𝑥 が対応するモデル
     • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度
  – 原因と結果に1対1の対応がある
     • 𝑝 𝑥 ℎ の分布が集中している




  PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse
                    coding model 等が挙げられる                               30
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  2. Probabilistic Interpretation of PCA
    •   主成分分析の確率的解釈




                                           31
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  3. Sparse Coding
    •   たくさんいるニューロンのうち、ホンの一部の
        ニューロンだけが活動して、情報の重複をでき
        るだけ抑えて情報を表現する方法
    •   非確率的な視点
        –   ああああ
        –   Xごとに活動するhを決定づける辞書Wを学習
        –   ああああ
        –   Jscが最小になるように訓練データを学習
        –   WhはL1正則化項として機能



                                    32
6. PROBABILISTIC MODELS
1. Directed Graphical Models
  3. Sparse Coding
    •   確率的解釈




        –   p(h)は事前分布にラプラス分布を仮定
        –   MAP推定によるWの推定




 CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse
       Codingという派生型がNIPS’11の転移学習のタスクで優勝            33
6. PROBABILISTIC MODELS
2. Undirected Graphical Models
  – Markov Random Fields(MRFs)とも呼ばれる

  – 教師無し特徴学習ではボルツマン分布を利用
    した形式を用いることが多い

  – 変数間の相互作用はエネルギー関数として定
    義

    • U,V,W,b,dはモデルパラメータ

                                       34
6. PROBABILISTIC MODELS
2. Undirected Graphical Models
  – 条件付き確率




  – 事後分布の推定は周辺化で行う




                                 35
6. PROBABILISTIC MODELS
2. Undirected Graphical Models
  1. Restricted Boltzmann Machines
     • Eq.7でU,V=0とし,単純化したもの
     • 観測データと隠れ変数の2部グラフの形式




様々な成果が報告されている(fMRI image classification, motion and spatial
   transformations, collaborative filtering, natural image modeling) 36
6. PROBABILISTIC MODELS
3. Generalizations of the RBM to Real-
   valued data
  – 画像データに対し、様々な拡張が提案
    • Gaussian RBM, mean and covariance RBM,
      covariance RBM, spike-and-slab RBM




      学習した特徴とトレーニングデータの画像が近い様子
                                               37
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  – Log likelihood



  – 勾配               positive phase




                     negative phase


  – Positive phaseは簡単に計算可能だが、
    negative phaseは難しい
                                      38
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  – パラメータの独立性を利用


  – ギブスサンプリングで収束するまで実行


(問題点)
   • Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる
   • Negative-phaseの収束→勾配の計算 の繰り返しで計算量が多い
(negative-phase のburn-inを対策したアルゴリズム)
• Constrastive Divergence
• Stochastic Maximum Likelihood
• Fast-weight persistent contrastive divergence (FPCD)

                                                         39
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  1. Contrastive Divergence
    •   Positive phaseを先に実行
    •   Gibbs sampling を数回実行するのみ




                                   40
6. PROBABILISTIC MODELS
4. RBM parameter estimation
  2. Stochastic Maximum Likelihood
    •   Negative phaseは前のxの状態で更新




    •   Fast-weight persistent contrastive divergence
        (FPCD)
        –   勾配に比例して更新量を調整




                                                        41

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...KIT Cognitive Interaction Design
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎Deep Learning JP
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 

Was ist angesagt? (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 

Ähnlich wie Deep learning勉強会20121214ochi

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26sekizawayuuki
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択無職
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkNaoki Matsunaga
 

Ähnlich wie Deep learning勉強会20121214ochi (20)

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
 

Mehr von Ohsawa Goodfellow

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Ohsawa Goodfellow
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Ohsawa Goodfellow
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...Ohsawa Goodfellow
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Ohsawa Goodfellow
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 

Mehr von Ohsawa Goodfellow (12)

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
 
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 

Deep learning勉強会20121214ochi

  • 1. Representation Learning: A Review and New Perspectives Yoshua Bengio, Aaron Courville, and Pascal Vincent Department of computer science and operations research, U. Montreal 12/14 2012 D1 大知 正直 1
  • 2. Abstract • 機械学習アルゴリズムの性能 – データ表現に依存 • データの背後にある真の説明因子が複雑で,隠 されてしまっている • ドメイン依存の知識や,一般的な前提知識を データ表現の設計に利用することができる • こうした前提知識をもっと強力に学習する表現 学習アルゴリズムがAI分野で求められている 7
  • 3. Abstract • この論文の内容 – 教師なしの特徴学習,ディープラーニング の結合学習に関する最近の研究成果のレ ビュー – 確率モデル,オートエンコーダ,多様体学 習,ディープアーキテクチャをカバー 8
  • 4. Abstract • この論文の内容 – 長期的な難問を提起するのが目的 • 良い表現を学習,推定するための適切な対象 • 表現学習,密度推定,多様体学習間の幾何学的 な接続 9
  • 5. 1. INTRODUCTION • 機械学習アルゴリズムの性能 – データ(特徴)表現の選択に強く依存 • データの変換にすごく手間をかけている現状 • 特徴量のエンジニアリングも人間の創造性や前 提知識を利用してしまっている • AIは本質的に人間の身の回りの世界を理 解しなければならない – 低レベルの知覚可能なデータの根本にある 説明要因を分解し学習することができれば 可能 10
  • 6. 1. INTRODUCTION • 本稿の内容 – 特徴学習(feature learning),表現学習 (representation learning) • 分類器や予測器の作成時に有用な情報の抽出が 簡単になるようなデータの変換を学習すること • ディープラーニングによる特徴学習に注目 – より抽象的な表現を作ることを目的とした複数回の非 線型データ変換 – 近年の発展途上の領域だが、特に最近の進展の内容を 強調 11
  • 7. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS? • 様々な分野での表現学習について言及 1. Speech Recognition and Signal Processing(音声認識と信号処理) – MAVIS(Microsoft Research) が約30%のエ ラー率改善 2. Object Recognition(物体認識) – MNIST(数字認識タスク)においてディープ ラーニングがSVMの1.4%のエラー率を 0.27%に改善 – ImageNet(自然画像のデータセット)認識タ スクで15.3%のエラー率へ改善 12
  • 8. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS? 3. Natural Language Processing(自然言語 処理) – SENNAシステム・・・言語モデリングを行う タスク(品詞タグ付け,チャンキング,固有 名詞認識,意味役割ラベリング,構文解析) 向けのシステム – (Mikolov et al., 2011)は隠れ層を再帰的に追加 する手法で、平滑化n-gramをperplexity,品詞 認識のエラー率で上回る 13
  • 9. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS? 4. Multi-Task and Transfer Learning, Domain Adaptation(マルチタスク,転 移学習,ドメイン適応) 説明要因(赤い◯)を発見す る表現学習モデルのイメージ 図. タスク間での統計的強度の共 有が表現の一般性の獲得を可 能にする. ICML2011, NIPS2011の ワークショップで良い結果が 報告されている 14
  • 10. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Smoothness(平滑性) • 3-2で議論 – Multiple explanatory factors(複数の説明要 因) • 3-5で議論(3-3で議論する分散化した表現が前提 にある) – A hierarchical organization of explanatory factors(説明要因の階層化) • 抽象的な概念はより上の階層へ(3-4で議論する “deep representation”が利用される仮定) 15
  • 11. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Semi-supervised learning(半教師あり学 習) • 𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用. 教師あり,無し学習間の表現の共有を可能にする (4で議論) – Shared factors across tasks • 𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる(2- 3で述べた) 16
  • 12. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Manifolds(多様性) • 元のデータ空間より小さな次元数を持つ局所的な 領域にデータが集中している場合,オートエン コーダアルゴリズムや他の多様体学習のアルゴリ ズムが利用される(7-2,8で議論) – Natural clustering • 多様体上での局所的な分布がそのままクラスタに なっている状態(人間が考える固有のカテゴリ, クラスといった概念と一致)8-3 Manifold Tangent Classifierで議論 17
  • 13. 3. WHAT MAKES A REPRESENTATION GOOD? 1. 人工知能による表現学習の前提 – Temporal and spatial coherence • 時間,空間的に近くな状態からの観測は似たよう な結果をもたらしやすい(11-3で議論) – Sparsity • 観測データ𝑥で実際に関係のある要因がほんのわ ずかであること(6-1-3, 7-2で議論) これらの前提は学習器がデータの根底にある説明要因を学習,分解する手法 として,頻繁に見られる 18
  • 14. 3. WHAT MAKES A REPRESENTATION GOOD? 2. 平滑性と次元の呪い カーネル関数を用いて,局所 的で平滑な線形モデルを構築 することで解決 こうしたカーネルそのものの発見も表現学習に含まれると考える 19
  • 15. 3. WHAT MAKES A REPRESENTATION GOOD? 3. 分散化した表現 – 良い表現 • 表現力豊かであること – 入力領域を識別するのに十分な数のパラメータを持っ ているか » GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の 入力領域の識別に𝑂(𝑁)個のパラメータが必要 » RBMs(Restricted Boltzmann Machines), スパース コーディング, オートエンコーダ,多層ニューラル ネットワーク は 𝑂(2 𝑘 )個までの入力領域の識別に ただ𝑂(𝑁)個のパラメータがあればよい。(kは0で ない要素の数) 良い表現=分散化した表現(distributed representation) 20
  • 16. 3. WHAT MAKES A REPRESENTATION GOOD? 4. Depth and abstraction(深さと抽象性) – 特徴の再利用 計算的,統計的な効率性を持つ ディープラーニングの背後にある利点 21
  • 17. 3. WHAT MAKES A REPRESENTATION GOOD? 4. Depth and abstraction(深さと抽象性) – 抽象性と不変性 • ディープアーキテクチャは抽象性の低いもの同士 の関係性からより抽象性の高いものを構築する • 抽象性の高い表現は一般的には極めて局所的な変 化に対して不変 • 分類という概念に一致 不変的な特徴の学習はパターン認識の大きな目標の一つ 22
  • 18. 3. WHAT MAKES A REPRESENTATION GOOD? 5. Disentangling Factors of Variation(変化 の要因の分解) – 特徴学習へのアプローチ • 可能な限りたくさんの要因に分解すること • ほとんど実用上意味の無いデータを捨てること 特徴学習の基準 23
  • 19. 4. BUILDING DEEP REPRESENTATIONS • 特徴学習,ディープラーニングの出現 – 2006~ – 階層別に教師なし学習を行うというアイデ ア • ディープアーキテクチャに基づく特徴学 習 – より良い表現抽出をスタックする手法 • 分類エラーの減少を目指すもの • 確率モデルによって生成されたサンプルの質を 見るもの • 学習した特徴の不変特性見るもの 24
  • 20. 4. BUILDING DEEP REPRESENTATIONS • Deep Belief Network – Stack pre-trained RBMs その他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数 を利用する研究が報告されている 25
  • 21. 5. SINGLE-LAYER LEARNING MODULES • 表現学習への2つのアプローチ – 確率的グラフィカルモデルに基づくもの(§6) • 隠れ変数を持つ – RBM(Restricted Boltzmann Machine) – ニューラルネットワークに基づくもの(§7) • 階層構造を持つ – Auto-encoder どちらもグラフ構造を持ち,本質的な差は無い → §6,7で一層で訓練する特徴学習の手法について解説 26
  • 22. 5. SINGLE-LAYER LEARNING MODULES • Principal Components Analysis(主成分 分析) – 最古の特徴抽出アルゴリズム • 確率モデルと非常に関係がある – 固有値分解 • 出力が基本的なauto-encoderと同じ – ああああ • 多様体学習の単純な形式ととらえることが可能 27
  • 23. 5. SINGLE-LAYER LEARNING MODULES • Principal Components Analysis(主成分 分析) PCAは表現学習の基本的な特徴を全て備えている 28
  • 24. 6. PROBABILISTIC MODELS • 確率モデルからみた特徴学習 – 観測データ上の分布を表現する潜在変数の復 元 – 潜在変数ℎ, 観測データ𝑥において,確率モデ ル 𝑝(ℎ, 𝑥) を定義 – 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後 確率 – 尤度最大化などのモデルパラメータ推定によ る学習 有向(Directed),無向(Undirected)のグラフィカルモデルそれぞれの特徴学習 の研究が存在 29
  • 25. 6. PROBABILISTIC MODELS 1. Directed Graphical Models – 原因 ℎ と結果 𝑥 が対応するモデル • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度 – 原因と結果に1対1の対応がある • 𝑝 𝑥 ℎ の分布が集中している PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse coding model 等が挙げられる 30
  • 26. 6. PROBABILISTIC MODELS 1. Directed Graphical Models 2. Probabilistic Interpretation of PCA • 主成分分析の確率的解釈 31
  • 27. 6. PROBABILISTIC MODELS 1. Directed Graphical Models 3. Sparse Coding • たくさんいるニューロンのうち、ホンの一部の ニューロンだけが活動して、情報の重複をでき るだけ抑えて情報を表現する方法 • 非確率的な視点 – ああああ – Xごとに活動するhを決定づける辞書Wを学習 – ああああ – Jscが最小になるように訓練データを学習 – WhはL1正則化項として機能 32
  • 28. 6. PROBABILISTIC MODELS 1. Directed Graphical Models 3. Sparse Coding • 確率的解釈 – p(h)は事前分布にラプラス分布を仮定 – MAP推定によるWの推定 CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse Codingという派生型がNIPS’11の転移学習のタスクで優勝 33
  • 29. 6. PROBABILISTIC MODELS 2. Undirected Graphical Models – Markov Random Fields(MRFs)とも呼ばれる – 教師無し特徴学習ではボルツマン分布を利用 した形式を用いることが多い – 変数間の相互作用はエネルギー関数として定 義 • U,V,W,b,dはモデルパラメータ 34
  • 30. 6. PROBABILISTIC MODELS 2. Undirected Graphical Models – 条件付き確率 – 事後分布の推定は周辺化で行う 35
  • 31. 6. PROBABILISTIC MODELS 2. Undirected Graphical Models 1. Restricted Boltzmann Machines • Eq.7でU,V=0とし,単純化したもの • 観測データと隠れ変数の2部グラフの形式 様々な成果が報告されている(fMRI image classification, motion and spatial transformations, collaborative filtering, natural image modeling) 36
  • 32. 6. PROBABILISTIC MODELS 3. Generalizations of the RBM to Real- valued data – 画像データに対し、様々な拡張が提案 • Gaussian RBM, mean and covariance RBM, covariance RBM, spike-and-slab RBM 学習した特徴とトレーニングデータの画像が近い様子 37
  • 33. 6. PROBABILISTIC MODELS 4. RBM parameter estimation – Log likelihood – 勾配 positive phase negative phase – Positive phaseは簡単に計算可能だが、 negative phaseは難しい 38
  • 34. 6. PROBABILISTIC MODELS 4. RBM parameter estimation – パラメータの独立性を利用 – ギブスサンプリングで収束するまで実行 (問題点) • Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる • Negative-phaseの収束→勾配の計算 の繰り返しで計算量が多い (negative-phase のburn-inを対策したアルゴリズム) • Constrastive Divergence • Stochastic Maximum Likelihood • Fast-weight persistent contrastive divergence (FPCD) 39
  • 35. 6. PROBABILISTIC MODELS 4. RBM parameter estimation 1. Contrastive Divergence • Positive phaseを先に実行 • Gibbs sampling を数回実行するのみ 40
  • 36. 6. PROBABILISTIC MODELS 4. RBM parameter estimation 2. Stochastic Maximum Likelihood • Negative phaseは前のxの状態で更新 • Fast-weight persistent contrastive divergence (FPCD) – 勾配に比例して更新量を調整 41