Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
これからの Vision & Language
~ Acadexit した4つの理由
オムロンサイニックエックス株式会社
牛久 祥孝
losnuevetoros
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018...
2011
2012
2014
電話音声認識のエラー率が
30%程度→20%以下に
[Seide+, InterSpeech 2011]
大規模画像分類のエラー率が
25%程度→15%程度に
[Krizhevsky+, NIPS 2012]
LS...
2012年:一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年:一般物体認識における激震
公式サイトにアクセスしてみると…
1st team w/ DL
Error rate: 15%
2nd team w/o DL
Error rate: 26%
[http://image-net.org/c...
2012年:一般物体認識における激震
公式サイトにアクセスしてみると…
1st team w/ DL
Error rate: 15%
2nd team w/o DL
Error rate: 26%
[http://image-net.org/c...
入力
出力
Deep Learning の影響
• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
– RNNで問題になっていた勾配の消失をLSTM
[Hochreiter+Schmidhuber, 1997] で解...
ユーザー生成コンテンツの爆発的増加
特にコンテンツ投稿・共有サービスでは…
• Facebookに画像が2500億枚 (2013年9月時点)
• YouTubeにアップロードされる動画
1分間で計400時間分 (2015年7月時点)
Pōhut...
Vision and Language の萌芽的な研究
記事付き画像へのキャプション生成
[Feng+Lapata, ACL 2010]
• Input: article + image Output: caption for image
• ...
Vision and Language の萌芽的な研究
× 3361
King Toupu IV died at the
age of 88 last week.
記事付き画像へのキャプション生成
[Feng+Lapata, ACL 2010]...
画像キャプション生成
Group of people sitting
at a table with a dinner.
Tourists are standing on
the middle of a flat desert.
[Ushiku...
動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a pl...
他言語化・キャプション翻訳
Ein Masten mit zwei Ampeln
fur Autofahrer. (独語)
A pole with two lights
for drivers. (英語)
[Hitschler+, ACL 20...
ビジュアル質問応答
[Fukui+, EMNLP 2016]
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is wh...
Vision-Aware Dialog
本講演の目的
視覚×言語の融合研究を俯瞰
1. 画像・動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
5. Vision-aware Dialog
すると、Acadexitに至る道が見えて...
視覚・言語融合の最前線1
画像・動画キャプション生成
Every picture tells a story
データセット:
画像+<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, act...
Every picture tells a story
<pet, sleep, ground>
See something unexpected.
<transportation, move, track>
A man stands next...
マルチキーフレーズ推定アプローチ
当時の問題=使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定=一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ...
文の終わり
深層学習登場以前の動画×言語
• 言語と動画内の物体とのグラウンディング
[Yu+Siskind, ACL 2013]
– 動画とその動画を説明する文のみから学習
– 対象物体が少なく、コントロールされた小規模デー
タセットでの実験
Deep Learning によるキャプション生成
Google NIC [Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する...
生成された説明文の例
[https://github.com/tensorflow/models/tree/master/im2txt]
Deep Learning による動画キャプション生成
• LRCN
[Donahue+, CVPR 2015]
– CNN+RNN
• 動作認識
• 画像/動画
キャプション生成
• Video to Text
[Venugopalan+, ...
アテンションモデル
• 2分野が融合して新たに生まれたものの例:
– アテンションモデルの利用 [Xu+, ICML 2015]
– 画像+キャプションデータのみからの学習!
– 動画:時間方向のアテンション[Laokulrat+, COLIN...
ここまでの問題点1:最適化したい目的関数
学習に用いるのは Cross-Entropy
評価に用いるのは BLEUなどの評価指標
→ 生成したキャプションの評価指標を
直接最適化するべきでは?
• 評価指標の直接最適化
– 機械翻訳ではディープ...
ここまでの問題点2: Exposure Bias
通常のRNNによる系列生成モデル学習では…
• 学習時:Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時:Free running
– 入力は𝑡 − 1番...
強化学習の利用
• 強化学習を利用したキャプション生成
評価指標を報酬とする強化学習を導入すれば
問題点1と2が同時に解決されるはず!
– 方策勾配:評価指標の勾配が分からなくても、
出力の事後確率の勾配でOK→問題点1
– 評価指標を利用すれ...
視覚・言語融合の最前線2
他言語化・キャプション翻訳
他言語への展開
データセット
• IAPR TC12 [Grubinger+, 2006] 20,000画像+英独
• Multi30K [Elliot+, 2016] 30,000画像+英独
• STAIR Captions [吉川ら、 20...
英語でない画像キャプション生成
多くは英語のキャプションを生成するが…
• 日本語 [Miyazaki+Shimizu, ACL 2016]
• 中国語 [Li+, ICMR 2016]
• トルコ語 [Unal+, SIU 2016]
Çim...
単にデータ集めを頑張るだけ?
他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]
• 他言語の視覚-言語グラウンディングの転移
• 少数のキャプション付き画像でも効率よく学習
an elephant is
an el...
言語横断型の研究
画像は機械翻訳の精度に寄与[Calixto+,2012]
• 英語でsealとあるけど、
・stampに近いsealなのか?
・sea animalのsealなのか?
がわからず誤ったポルトガル語に翻訳
• (実験してないけど...
入力:言語Aのキャプション+画像
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
– 最初に候補翻訳を複数生成(画像には非依存)
– 類似画像に付随する言語Bのキャプショ...
入力:言語Aのキャプション
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• ゼロ対訳コーパスでのマルチモーダル翻訳
[Nakayama+Nishida, 2017]
視覚・言語融合の最前線3
画像に関する質問への応答
Visual Question Answering (VQA)
最初はユーザインタフェース分野で注目
• VizWiz [Bigham+, UIST 2010]
AMTで人力解決
• 初の自動化(ディープラーニング不使用)
[Malinowsk...
VQAを自動化する試み
VQA: Visual Question Answering
• ビジュアル質問応答を分野として確立
– ベンチマークデータセットの提供
– ベースとなるパイプラインでの実験
• ポータルサイトも運営
– http://www.visualqa...
VQA Dataset
AMT で質問と回答を収集
• 10万超の実画像、3万超のアニメ調画像
• 計70万弱の質問+それぞれ10の模範回答
VQA=多クラス分類問題
表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
質問文𝑄
What objects are
found on the bed?
応答𝐴
bed sheets, pillow
画像𝐼
画像特徴量
𝑥𝐼
質問特徴量
𝑥 𝑄
統...
その後の展開:統合方法
「統合された表現ベクトル 𝑧𝐼+𝑄」の工夫
• VQA [Antol+, ICCV 2015]:そのまま直列に並べる
• 「和」グループ
例 Attentionで重みづけ和をとった画像特徴と
質問特徴を単純に足す [Xu...
その後の展開:アテンション
• 2017年SOTA [Anderson+, CVPR 2018]
– これまで:Top-down領域の
画像にアテンション
– Bottom-upとTow-down領域の
両方にアテンション
• 2018年SOT...
視覚・言語融合の最前線4
キャプションからの画像生成
GANによる文→画像生成
Generator と Discriminator に文を加える
・自然な画像
・文に沿った画像
を生成しようとする
・不自然な画像
・文に合わない画像
を識別しようとする
[Reed+, ICML 2016]
生成できた画像の例
• 鳥(CUB)/花(Oxford-102)データセット
– 約1万の鳥/花画像と5キャプション/画像
– 200種類の鳥/102種類の花
A tiny bird, with a tiny beak,
tarsus and ...
その後の展開
StackGAN [Zhang+, ICCV 2017]
• 2段階のGANからなるモデル
• 1段目でぼやっとした画像を生成、2段目で高解像+詳細化
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is wh...
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is wh...
視覚・言語融合の最前線5
Vision-Aware Dialog
Vision-Aware Dialog
エージェントとユーザー以外に視覚的な情報が存在
研究を大別すると…
• データセットの提供
VisDial [Das+, CVPR 2017]
• それらを利用した対話の研究
共参照解析を利用したVisD...
マルチモーダル対話?
• マルチモーダル対話
– 主にユーザからの入力が複数モーダルの情報
• Vision-Aware Dialog
– 環境などに視覚情報を伴うものをさす
– マルチモダリティではある
本講演では
Vision-Aware ...
GuessWhat?!
連続するYes/No型のVQAデータ
Is it a person? No
Is it an item being worn or held? Yes
Is it a snowboard? Yes
Is it the r...
Visual Dialog (VisDial)
連続する一般的なVQAデータ
Questioner Answerer
A couple of people
in the snow on skis.
[Das+, CVPR 2017]
Visual Dialog (VisDial)
Questioner Answerer
A couple of people
in the snow on skis.
What are their genders?
Are they both ...
Vision-and-Language Navigation (VNL)
対話行為が移動とナビゲーション
[Anderson+, ICCV 2017]
Multimodal Dialog (MMD)
商品推薦を伴うマルチモーダル対話
[Saha+, AAAI 2018]
Talk the Walk
NYCを歩くTouristと目的地へ導くGuide
• 1万程度の発話
– 行動: 約44回
– Guide発話: 約9回
– Tourist発話: 約8回
[de Vries+, arXiv 2018]
個人適合キャプション列生成
複数のキャプションで説明しようとすると
• 個人で注目する場所によってふさわしい
キャプションも変わる
• ユーザへの質問を通じて注目個所を獲得
What is the man riding?
Motorcycle
...
個人適合キャプション列生成
複数のキャプションで説明しようとすると
• 個人で注目する場所によってふさわしい
キャプションも変わる
• ユーザへの質問を通じて注目個所を獲得
What is the man riding?
Skateboard
...
ロボットのPick&Place
[Hatori+, ICRA 2018]
まとめ
• Deep Learning による視覚・言語融合を俯瞰
1. 画像・動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
5. Vision-Aware Dialog
• Deep ...
Visual Dialog の著者陣
4機関による共著だ…
CVPR 2018 でハイライトされた論文でも
CVPR 2018 でハイライトされた論文でも
CVPR 2018 でハイライトされた論文でも
大半が複数機関による共著だ!!
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018...
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018...
4つの理由
基本的に(NTT以外)先方に誘われてjoin
→何を考えて引き受けたのか?
• 個人的なステップアップ
• 情報科学周辺の事情
• 日本の大学に対する危機感
• 日本での新たなキャリアスタイル
個人的なステップアップ
• 現在の状況
– NTT: 部長→グループリーダー→木っ端研究員
– 東大: 教授→准教授/講師—助教/ポスドク→学生
– 現職: PI→Researcher
• 研究グループを主宰するというチャレンジ
PI: Pri...
情報科学周辺の事情
• 国際舞台に日本は居ない
• 圧倒的な劣勢を挽回するために
– 優秀な研究者が研究に専念できる環境を作る
– CV×NLPという分野の交点→コラボがとても大事
日本の論文数の世界ランクの変動
日本の大学に対する危機感
• ボロボロになりながらやっている
• 自由なき責任を負わされた15年
– 2004年から交付金は減りだしたけど収入を上げる方
法は制約あり
– 2004年から外部資金獲得に偏重化したけどインセン
ティブなし
日本での新たなキャリアスタイル
• 終身雇用崩壊の先進分野からみて
– 劣悪な環境で耐えるのはもう止めよう
– 転職=キャリアアップの絶好のチャンス
• 退職時に先生方から言われたこと
– Acadexit だけじゃなくて Academin が...
OMRON SINIC X のチャレンジ
世の中に3つのコントリビューションを提供したい
• 近未来デザインとその研究開発成果
• 企業研究所の新たな在り方
• 優秀な人材の輩出
スペシャリスト+オープンイノベーション
Jiaxin Ma
栗原 聡
(慶應大)
橋本 敦史
Felix von Drigalski
片岡 裕雄
(産総研)
米谷 竜
諏訪 正樹
小西 光春
井尻 善久
牛久 祥孝
松原 崇充
(NAIST)
Nächste SlideShare
Wird geladen in …5
×

これからの Vision & Language ~ Acadexit した4つの理由

2.442 Aufrufe

Veröffentlicht am

2019/2/23 ステアラボ人工知能シンポジウム2019
https://stair.connpass.com/event/113616/
での招待講演資料です。

大層なタイトルですが前半は「Deep Learning による視覚×言語融合の最前線」と題して喋っている講演のダイジェスト版です。Acadexit した4つの理由はその後のパネルディスカッションにつなげるための頭出し程度の分量です。

Veröffentlicht in: Karriere
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE Format, ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE Format, ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier

これからの Vision & Language ~ Acadexit した4つの理由

  1. 1. これからの Vision & Language ~ Acadexit した4つの理由 オムロンサイニックエックス株式会社 牛久 祥孝 losnuevetoros
  2. 2. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-i 社外CRO [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  3. 3. 2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に [Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が 複雑なシステムと同等に [Sutskever+, NIPS 2014]
  4. 4. 2012年:一般物体認識における激震 2012年の画像 認識タスクで ディープ勢が 2位以下に圧勝! 2012年の画像 認識タスクで ディープ勢が 2位以下に圧勝! 2012年の画像 認識タスクで ディープ勢が 2位以下に圧勝!
  5. 5. 2012年:一般物体認識における激震 公式サイトにアクセスしてみると… 1st team w/ DL Error rate: 15% 2nd team w/o DL Error rate: 26% [http://image-net.org/challenges/LSVRC/2012/results.html]
  6. 6. 2012年:一般物体認識における激震 公式サイトにアクセスしてみると… 1st team w/ DL Error rate: 15% 2nd team w/o DL Error rate: 26% [http://image-net.org/challenges/LSVRC/2012/results.html] It’s me!!
  7. 7. 入力 出力 Deep Learning の影響 • 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014] – RNNで問題になっていた勾配の消失をLSTM [Hochreiter+Schmidhuber, 1997] で解決 →文中の離れた単語間での関係を扱えるように – LSTMを4層つなぎ、end-to-endで機械学習 →state-of-the-art並み(英仏翻訳) CNN/RNNなどの共通技術が台頭 画像認識や機械翻訳の参入障壁が低下
  8. 8. ユーザー生成コンテンツの爆発的増加 特にコンテンツ投稿・共有サービスでは… • Facebookに画像が2500億枚 (2013年9月時点) • YouTubeにアップロードされる動画 1分間で計400時間分 (2015年7月時点) Pōhutukawa blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular. 画像/動画と 関連する文章の対 →大量に収集可能
  9. 9. Vision and Language の萌芽的な研究 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption × 3361 King Toupu IV died at the age of 88 last week.
  10. 10. Vision and Language の萌芽的な研究 × 3361 King Toupu IV died at the age of 88 last week. 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption これらの背景から… つぎのような様々な取り組みが!
  11. 11. 画像キャプション生成 Group of people sitting at a table with a dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]
  12. 12. 動画キャプション生成 A man is holding a box of doughnuts. Then he and a woman are standing next each other. Then she is holding a plate of food. [Shin+, ICIP 2016]
  13. 13. 他言語化・キャプション翻訳 Ein Masten mit zwei Ampeln fur Autofahrer. (独語) A pole with two lights for drivers. (英語) [Hitschler+, ACL 2016]
  14. 14. ビジュアル質問応答 [Fukui+, EMNLP 2016]
  15. 15. キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, 2016]
  16. 16. Vision-Aware Dialog
  17. 17. 本講演の目的 視覚×言語の融合研究を俯瞰 1. 画像・動画キャプション生成 2. 言語横断 3. 画像に関する質問への応答 4. キャプションからの画像生成 5. Vision-aware Dialog すると、Acadexitに至る道が見えてくる…?!
  18. 18. 視覚・言語融合の最前線1 画像・動画キャプション生成
  19. 19. Every picture tells a story データセット: 画像+<object, action, scene>+キャプション 1. 画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを検 索して利用 <Horse, Ride, Field> [Farhadi+, ECCV 2010]
  20. 20. Every picture tells a story <pet, sleep, ground> See something unexpected. <transportation, move, track> A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]
  21. 21. マルチキーフレーズ推定アプローチ 当時の問題=使用候補であるフレーズの精度が悪い キーフレーズを独立なラベルとして扱うと… マルチキーフレーズの推定=一般画像認識 文生成は[Ushiku+, ACM MM 2011]と同じ [Ushiku+, ACM MM 2012]
  22. 22. 文の終わり
  23. 23. 深層学習登場以前の動画×言語 • 言語と動画内の物体とのグラウンディング [Yu+Siskind, ACL 2013] – 動画とその動画を説明する文のみから学習 – 対象物体が少なく、コントロールされた小規模デー タセットでの実験
  24. 24. Deep Learning によるキャプション生成
  25. 25. Google NIC [Vinyals+, CVPR 2015] Googleで開発された • GoogLeNet [Szegedy+, CVPR 2015] • LSTM [Sutskever+, NIPS 2014] を直列させて文生成する。 画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は 𝑆0: スタートを意味する単語 𝑆1 = LSTM CNN 𝐼 𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1 𝑆 𝑁: ストップを意味する単語
  26. 26. 生成された説明文の例 [https://github.com/tensorflow/models/tree/master/im2txt]
  27. 27. Deep Learning による動画キャプション生成 • LRCN [Donahue+, CVPR 2015] – CNN+RNN • 動作認識 • 画像/動画 キャプション生成 • Video to Text [Venugopalan+, ICCV 2015] – CNN+RNN • RGB画像で物体を • オプティカルフローで 動作を 認識→キャプション生成
  28. 28. アテンションモデル • 2分野が融合して新たに生まれたものの例: – アテンションモデルの利用 [Xu+, ICML 2015] – 画像+キャプションデータのみからの学習! – 動画:時間方向のアテンション[Laokulrat+, COLING 2016]
  29. 29. ここまでの問題点1:最適化したい目的関数 学習に用いるのは Cross-Entropy 評価に用いるのは BLEUなどの評価指標 → 生成したキャプションの評価指標を 直接最適化するべきでは? • 評価指標の直接最適化 – 機械翻訳ではディープ以前からある [Och, ACL 2003] • 深層学習で評価指標を直接最適化…? – 勾配が求められないから学習できない!! 短い文へのペナルティ N-gramのPrecision
  30. 30. ここまでの問題点2: Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は𝑡 − 1番目までの 教師データ • テスト時:Free running – 入力は𝑡 − 1番目までで 自身が推定したデータ テスト時の生成系列が学習時から外れだすと エラーが蓄積し続ける
  31. 31. 強化学習の利用 • 強化学習を利用したキャプション生成 評価指標を報酬とする強化学習を導入すれば 問題点1と2が同時に解決されるはず! – 方策勾配:評価指標の勾配が分からなくても、 出力の事後確率の勾配でOK→問題点1 – 評価指標を利用すれば、Teacher forcingしない 学習も可能→問題点2 state RNNの状態変数 action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション [Ranzato+, ICLR 2016][Rennie+, CVPR 2017]
  32. 32. 視覚・言語融合の最前線2 他言語化・キャプション翻訳
  33. 33. 他言語への展開 データセット • IAPR TC12 [Grubinger+, 2006] 20,000画像+英独 • Multi30K [Elliot+, 2016] 30,000画像+英独 • STAIR Captions [吉川ら、 2017] MS COCO (10万超画像+英語キャプション) →すべてに日本語キャプションを付与 タスクとしての展開 • 英語でない画像キャプション生成 • マルチモーダル機械翻訳/言語間文書検索 1. 入力:言語Aでのキャプション+画像 2. 入力:言語Aでのキャプション → 出力:言語Bでのキャプション(1.と2.で同じ)
  34. 34. 英語でない画像キャプション生成 多くは英語のキャプションを生成するが… • 日本語 [Miyazaki+Shimizu, ACL 2016] • 中国語 [Li+, ICMR 2016] • トルコ語 [Unal+, SIU 2016] Çimlerde ko¸ san bir köpek 金色头发的小女孩 柵の中にキリンが一頭 立っています
  35. 35. 単にデータ集めを頑張るだけ? 他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016] • 他言語の視覚-言語グラウンディングの転移 • 少数のキャプション付き画像でも効率よく学習 an elephant is an elephant 一匹の 象が 土の 一匹の 象が
  36. 36. 言語横断型の研究 画像は機械翻訳の精度に寄与[Calixto+,2012] • 英語でsealとあるけど、 ・stampに近いsealなのか? ・sea animalのsealなのか? がわからず誤ったポルトガル語に翻訳 • (実験してないけど)画像があれば防げるはず!
  37. 37. 入力:言語Aのキャプション+画像 • 画像を介した言語横断キャプション翻訳 [Elliott+, 2015] [Hitschler+, ACL 2016] – 最初に候補翻訳を複数生成(画像には非依存) – 類似画像に付随する言語Bのキャプションを 利用して翻訳候補から出力を選択 Eine Person in einem Anzug und Krawatte und einem Rock. (独語) 画像を見ない場合の翻訳 A person in a suit and tie and a rock. 画像を利用した場合の翻訳 A person in a suit and tie and a skirt.
  38. 38. 入力:言語Aのキャプション • 画像を介した言語横断関連文書検索 [Funaki+Nakayama, EMNLP 2015] • ゼロ対訳コーパスでのマルチモーダル翻訳 [Nakayama+Nishida, 2017]
  39. 39. 視覚・言語融合の最前線3 画像に関する質問への応答
  40. 40. Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010] AMTで人力解決 • 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014] • 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
  41. 41. VQAを自動化する試み
  42. 42. VQA: Visual Question Answering • ビジュアル質問応答を分野として確立 – ベンチマークデータセットの提供 – ベースとなるパイプラインでの実験 • ポータルサイトも運営 – http://www.visualqa.org/ – 国際コンペティションも開催 [Antol+, ICCV 2015] What color are her eyes? What is the mustache made of?
  43. 43. VQA Dataset AMT で質問と回答を収集 • 10万超の実画像、3万超のアニメ調画像 • 計70万弱の質問+それぞれ10の模範回答
  44. 44. VQA=多クラス分類問題 表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別 質問文𝑄 What objects are found on the bed? 応答𝐴 bed sheets, pillow 画像𝐼 画像特徴量 𝑥𝐼 質問特徴量 𝑥 𝑄 統合された 表現ベクトル 𝑧𝐼+𝑄
  45. 45. その後の展開:統合方法 「統合された表現ベクトル 𝑧𝐼+𝑄」の工夫 • VQA [Antol+, ICCV 2015]:そのまま直列に並べる • 「和」グループ 例 Attentionで重みづけ和をとった画像特徴と 質問特徴を単純に足す [Xu+Saenko, ECCV 2016] • 「積」グループ 例 双線形積とフーリエ変換を組み合わせる [Fukui+, EMNLP 2016] • 「和」と「積」のハイブリッド 例 要素毎の積と要素毎の和を直列に並べる [Saito+, ICME 2017] 𝑧𝐼+𝑄 = 𝑥𝐼 𝑥 𝑄 𝑥𝐼 𝑥 𝑄 𝑥𝐼 𝑥 𝑄𝑧𝐼+𝑄 = 𝑧𝐼+𝑄 = 𝑧𝐼+𝑄 = 𝑥𝐼 𝑥 𝑄 𝑥𝐼 𝑥 𝑄
  46. 46. その後の展開:アテンション • 2017年SOTA [Anderson+, CVPR 2018] – これまで:Top-down領域の 画像にアテンション – Bottom-upとTow-down領域の 両方にアテンション • 2018年SOTA [Nguyen+Okatani, CVPR 2018] – これまで:画像に対し アテンション – 質問特徴と画像特徴の 両方にアテンション Bottom-upTop-down
  47. 47. 視覚・言語融合の最前線4 キャプションからの画像生成
  48. 48. GANによる文→画像生成 Generator と Discriminator に文を加える ・自然な画像 ・文に沿った画像 を生成しようとする ・不自然な画像 ・文に合わない画像 を識別しようとする [Reed+, ICML 2016]
  49. 49. 生成できた画像の例 • 鳥(CUB)/花(Oxford-102)データセット – 約1万の鳥/花画像と5キャプション/画像 – 200種類の鳥/102種類の花 A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch Bright droopy yellow petals with burgundy streaks, and a yellow stigma
  50. 50. その後の展開 StackGAN [Zhang+, ICCV 2017] • 2段階のGANからなるモデル • 1段目でぼやっとした画像を生成、2段目で高解像+詳細化
  51. 51. キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, ICCV 2017]
  52. 52. キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, ICCV 2017] 鳥/花に特化したデータセットでの結果 →一般的な画像を生成するにはより一層のブレイクスルーが必要
  53. 53. 視覚・言語融合の最前線5 Vision-Aware Dialog
  54. 54. Vision-Aware Dialog エージェントとユーザー以外に視覚的な情報が存在 研究を大別すると… • データセットの提供 VisDial [Das+, CVPR 2017] • それらを利用した対話の研究 共参照解析を利用したVisDialモデル
  55. 55. マルチモーダル対話? • マルチモーダル対話 – 主にユーザからの入力が複数モーダルの情報 • Vision-Aware Dialog – 環境などに視覚情報を伴うものをさす – マルチモダリティではある 本講演では Vision-Aware Dialog と呼ぶことにします
  56. 56. GuessWhat?! 連続するYes/No型のVQAデータ Is it a person? No Is it an item being worn or held? Yes Is it a snowboard? Yes Is it the red one? No Is it the one being held by the Yes person in blue? Is it a cow? Yes Is it the big cow in the middle? No Is the cow on the left? No On the right? Yes First cow near us? Yes [de Vries+, CVPR 2017]
  57. 57. Visual Dialog (VisDial) 連続する一般的なVQAデータ Questioner Answerer A couple of people in the snow on skis. [Das+, CVPR 2017]
  58. 58. Visual Dialog (VisDial) Questioner Answerer A couple of people in the snow on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]
  59. 59. Vision-and-Language Navigation (VNL) 対話行為が移動とナビゲーション [Anderson+, ICCV 2017]
  60. 60. Multimodal Dialog (MMD) 商品推薦を伴うマルチモーダル対話 [Saha+, AAAI 2018]
  61. 61. Talk the Walk NYCを歩くTouristと目的地へ導くGuide • 1万程度の発話 – 行動: 約44回 – Guide発話: 約9回 – Tourist発話: 約8回 [de Vries+, arXiv 2018]
  62. 62. 個人適合キャプション列生成 複数のキャプションで説明しようとすると • 個人で注目する場所によってふさわしい キャプションも変わる • ユーザへの質問を通じて注目個所を獲得 What is the man riding? Motorcycle Input image The man is riding Motorcycle. It is white. The motorcycle is honda. [Shin+, CVPR 2018]
  63. 63. 個人適合キャプション列生成 複数のキャプションで説明しようとすると • 個人で注目する場所によってふさわしい キャプションも変わる • ユーザへの質問を通じて注目個所を獲得 What is the man riding? Skateboard The man is riding skateboard. The man is skateboarding. The color of the jacket is red. Input image [Shin+, CVPR 2018]
  64. 64. ロボットのPick&Place [Hatori+, ICRA 2018]
  65. 65. まとめ • Deep Learning による視覚・言語融合を俯瞰 1. 画像・動画キャプション生成 2. 言語横断 3. 画像に関する質問への応答 4. キャプションからの画像生成 5. Vision-Aware Dialog • Deep Learning の貢献 – 上記研究課題自体は Deep Learning 以前も存在 – 画像、動画、自然言語処理技術の共通化 – 認識と生成の精緻化 視覚×言語の新たなステージへ
  66. 66. Visual Dialog の著者陣 4機関による共著だ…
  67. 67. CVPR 2018 でハイライトされた論文でも
  68. 68. CVPR 2018 でハイライトされた論文でも
  69. 69. CVPR 2018 でハイライトされた論文でも 大半が複数機関による共著だ!!
  70. 70. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-i 社外CRO [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  71. 71. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-i 社外CRO [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  72. 72. 4つの理由 基本的に(NTT以外)先方に誘われてjoin →何を考えて引き受けたのか? • 個人的なステップアップ • 情報科学周辺の事情 • 日本の大学に対する危機感 • 日本での新たなキャリアスタイル
  73. 73. 個人的なステップアップ • 現在の状況 – NTT: 部長→グループリーダー→木っ端研究員 – 東大: 教授→准教授/講師—助教/ポスドク→学生 – 現職: PI→Researcher • 研究グループを主宰するというチャレンジ PI: Principal Investigator のある定義 by 文部科学省 • 独立した研究室を持った • 研究グループの予算作成・執行の実質的な責任者 • 担当課題の予算作成・執行の実質的な責任者 • 特定の部下(大学院生)の指導の責任者 • 発表論文の責任者
  74. 74. 情報科学周辺の事情 • 国際舞台に日本は居ない • 圧倒的な劣勢を挽回するために – 優秀な研究者が研究に専念できる環境を作る – CV×NLPという分野の交点→コラボがとても大事 日本の論文数の世界ランクの変動
  75. 75. 日本の大学に対する危機感 • ボロボロになりながらやっている • 自由なき責任を負わされた15年 – 2004年から交付金は減りだしたけど収入を上げる方 法は制約あり – 2004年から外部資金獲得に偏重化したけどインセン ティブなし
  76. 76. 日本での新たなキャリアスタイル • 終身雇用崩壊の先進分野からみて – 劣悪な環境で耐えるのはもう止めよう – 転職=キャリアアップの絶好のチャンス • 退職時に先生方から言われたこと – Acadexit だけじゃなくて Academin があってよい – そして企業も Academia を担ってよい – 大学を労働市場の競争に巻き込み、環境が少しでも良く なれば… 企業でバリバリやって、 また縁があったら大学に戻ってきてくれよ
  77. 77. OMRON SINIC X のチャレンジ 世の中に3つのコントリビューションを提供したい • 近未来デザインとその研究開発成果 • 企業研究所の新たな在り方 • 優秀な人材の輩出
  78. 78. スペシャリスト+オープンイノベーション Jiaxin Ma 栗原 聡 (慶應大) 橋本 敦史 Felix von Drigalski 片岡 裕雄 (産総研) 米谷 竜 諏訪 正樹 小西 光春 井尻 善久 牛久 祥孝 松原 崇充 (NAIST)

×