動的ボルツマンマシンとPommerman
- 2. 恐神貴行 @TOsogami
© 2019 IBM Corporation 2
1998年 日本アイ・ビー・エム(株)入社 東京基礎研究所配属
2005年 米国学術博士(カーネギーメロン大学コンピュータ・サイエンス学科)
2013-19年 JST CRESTプロジェクト主たる共同研究者
2015年 IBMアカデミー会員
2019年 IBMシニア・テクニカル・スタッフ・メンバー
現在 数学アドバンストイノベーションプラットフォーム(AIMaP) 運営委員
産業数学の先進的・基礎的共同研究拠点 共同利用・共同研究委員会委員
人工知能・機械学習関連の学会で活動
など
興味 確率モデル、逐次的意思決定、強化学習
- 3. 基礎研究
受賞
• 人工知能学会全国大会優秀賞 (2004, 2006, 2015, 2017)
• IBISワークショップ・ベストプレゼンテーション賞 (2015)
• 待ち行列研究部会論文賞 (2015)
学術書
基礎研究からビジネスのイノベーションへ
IBM東京基礎研究所.数理科学部門の取り組み
ビジネスのイノベーション
日本OR学会
実施賞 (2003)
ICDM データマイ
ニング・コンテス
ト優勝 (2007)
PDOS
製造プロセスの最適化
Image courtesy of worradmu at
FreeDigitalPhotos.net
日本OR学会
文献賞奨励賞
(2010)
ANACONDA
センサーデータからの異常検知
Finance trend predictor
金融市場の予測
NeurIPS Pommerman
コンペティション優勝
(2018)
© 2019 IBM Corporation 3
- 4. Dynamic Boltzmann machine (DyBM) from
scientific contributions to business innovations
© 2019 IBM Corporation
Publication in a Nature journal (2015) Business innovation (2018)
- 5. How can we make effective use of spike-timing
dependent plasticity (STDP) in artificial neural networks?
© 2019 IBM Corporation
Hebb’s rule (’49) STDP (’90s)
Cells that fire together,
wire together
Bi & Poo (1998)
Dan & Poo (2006)
Amount of changes
depends on timing of spikes
Today’s artificial neural
networks ?[Nessler et al. 2013,
Bengio et al. 2016,
Scellier & Bengio 2016]
- 6. DyBM provides theoretical underpinnings for STDP,
similar to Boltzmann machine for Hebb’s rule
© 2019 IBM Corporation
Boltzmann machine
Dynamic Boltzmann machine
Hebb’s rule
Spike-timing dependent plasticity
Bi & Poo (1998)
Dan & Poo (2006)
MLE
MLE Cells that fire together, wire together
Refine
Boltzmann machine Hebb’s rule
Derive
- 7. Learning rule of Boltzmann machine,
maximizing log-likelihood [Hinton et al. ’83]
© 2019 IBM Corporation
Neuron Neuron
Synapse
𝒙∈
Expected value:
𝒙
Log likelihood of training data :
𝒙∈
cf. Hebb’s rule
Stochastic
gradient
- 9. Spike-timing dependent plasticity (STDP):
Amount of changes depends on timing of spikes
© 2019 IBM Corporation
Synapse strengthened
(Long Term Potentiation)
Bi & Poo (1998)
Dan & Poo (2006)
Pre-synaptic
neuron
Post-synaptic
neuronSynapse
Synapse weakened
(Long Term Depression)
- 10. Dynamic Boltzmann machine as a limit
of a sequence of Boltzmann machines
© 2019 IBM Corporation
Time
Dynamic Boltzmann machine
Historical values Next value
Weight from neuron at time
to neuron at time
We learn
Boltzmann machine for a
-th order Markov model
- 11. Inference with Dynamic Boltzmann machine (LTP only)
© 2019 IBM Corporation
Conduction delay,
Synaptic eligibility trace:
[ ]
[ ]
Probability for neuron to fire at time :
:
- 12. Learning with DyBM, maximizing log-likelihood
© 2019 IBM Corporation
Conduction delay,
Synaptic eligibility trace:
[ ]
[ ]
[: ]
:
Stochastic gradient update for LTP weight:
:
Spike-timing dependent
How recently/often
spikes reached from
neuron
cf. Boltzmann machine
- 13. No back propagation through time
in DyBM’s learning
© 2019 IBM Corporation
:
[ ]
*summation is over
pre-synaptic neurons
connected toPer-step learning time is independent of the length
of time-series (local in time & space)
cf. Back propagation through time needed for
recurrent neural networks (including LSTM)
- 14. Online learning can also improve predictive
accuracy for non-stationary data
© 2019 IBM Corporation
Training Test
Batch 0.932 0.863
Online 0.980 0.958
Training Test Predictive accuracy*
Batch:
Train DyBM optimally → Test with fixed parameters
Online:
Train DyBM optimally
Further online learning → Test while learning online
*Predictive accuracy is the coefficient of
correlation between prediction and
realized values in sensor data from a
power generator, but Figure is IBM stock
price from Yahoo! Finance
- 15. DyBM provides theoretical underpinnings for STDP
© 2019 IBM Corporation
Hebb’s rule (’49)
Motivated artificial
neural networks
- Perceptron (’58)
Failure
1950 1960 1970 1980 1990
Theoretical underpinnings
- Hopfield network (’82)
- Boltzmann machine (’83)
2000 2010
Success
- Deep learning
STDP (’90s)
Theoretical underpinnings
- Dynamic Boltzmann machine
Successful
applications
- 16. Extensions of DyBM
© 2019 IBM Corporation 16
To structured time-series
• T. Osogami, R. Raymond, A. Goel, T. Shirai,
and T. Maehara, “Dynamic determinantal
point processes,” AAAI-18
To real-valued time-series
• S. Dasgupta and T. Osogami, “Nonlinear
dynamic Boltzmann machines for time
series prediction,” AAAI-17
To models with hidden units
• T. Osogami, H. Kajino, and T. Sekiyama,
“Bidirectional learning for time-series
models with hidden units,” ICML 2017
To continuous space
• H. Kajino, “A functional dynamic
Boltzmann machine,” IJCAI-17
- 17. References
© 2019 IBM Corporation 17
• 恐神貴行, ボルツマンマシン, コロナ社, 2019• T. Osogami and M. Otsuka, “Seven neurons
memorizing sequences of alphabetical images
via spike-timing dependent plasticity,” Scientific
Reports 5, 14149 (2015).
www.nature.com/articles/srep14149
• T. Osogami and S. Dasgupta, Energy-based
machine learning, IJCAI-17 tutorial
researcher.watson.ibm.com/researcher/view_g
roup.php?id=7834
• github.com/ibm-research-tokyo/dybm
- 19. Pommermanは今日のAI技術では手に負えません
© 2019 IBM Corporation
Pommermanの難しさ:
• 実時間での意思決定
• 複数のエージェントの協調
• 部分観測
• ⾧期のプラニング
AIの学会では、この様な難しい課題を
コンペティションとすることで技術の
発展を目指しています
IBM エージェント (赤) vs. デフォルト・エージェント (青)
19
- 24. 新技術
悲観的シナリオによる実時間での木探索
© 2019 IBM Corporation T. Osogami & T. Takahashi, Real-time tree search with pessimistic scenarios, arXiv:1902.10870
確率的シナリオ
による木探索
決定的・悲観的
シナリオによる
評価
24
- 29. Pommermanを動かしてみるには
© 2019 IBM Corporation 29
$ git clone https://github.com/MultiAgentLearning/playground.git
$ cd playground
$ pip install –r requirements.txt
$ python examples/simple_ffa_run.py
詳細は
https://github.com/MultiAgentLearning/playground/tree/master/docs