これからの Vision & Language ～ Acadexit した4つの理由

これからの Vision & Language
～ Acadexit した4つの理由
オムロンサイニックエックス株式会社
牛久祥孝
losnuevetoros

自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4～2016.3 NTT CS研研究員
2016.4～2018.9 東京大学講師 (原田・牛久研究室)
2016.9～産業技術総合研究所協力研究員
2016.12～2018.9 国立国語研究所共同研究員
2018.10～オムロンサイニックエックス株式会社
Principal Investigator
2019.1～株式会社Ridge-i 社外CRO
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on
and yellow snow pants.
A zebra standing in a field with
a tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near
a train station.

2011
2012
2014
電話音声認識のエラー率が
30%程度→20%以下に
[Seide+, InterSpeech 2011]
大規模画像分類のエラー率が
25%程度→15%程度に
[Krizhevsky+, NIPS 2012]
LSTMで英仏翻訳の精度が
複雑なシステムと同等に
[Sutskever+, NIPS 2014]

2012年：一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2012年の画像
認識タスクで
ディープ勢が

公式サイトにアクセスしてみると…
1st team w/ DL
Error rate: 15%
2nd team w/o DL
Error rate: 26%
[http://image-net.org/challenges/LSVRC/2012/results.html]

公式サイトにアクセスしてみると…
1st team w/ DL
Error rate: 15%
2nd team w/o DL
Error rate: 26%
[http://image-net.org/challenges/LSVRC/2012/results.html]
It’s me!!

入力
出力
Deep Learning の影響
• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
– RNNで問題になっていた勾配の消失をLSTM
[Hochreiter+Schmidhuber, 1997] で解決
→文中の離れた単語間での関係を扱えるように
– LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み（英仏翻訳）
CNN/RNNなどの共通技術が台頭
画像認識や機械翻訳の参入障壁が低下

ユーザー生成コンテンツの爆発的増加
特にコンテンツ投稿・共有サービスでは…
• Facebookに画像が2500億枚 (2013年9月時点)
• YouTubeにアップロードされる動画
1分間で計400時間分 (2015年7月時点)
Pōhutukawa blooms this
time of the year in New
Zealand. As the flowers
fall, the ground
underneath the trees look
spectacular.
画像/動画と
関連する文章の対
→大量に収集可能

Vision and Language の萌芽的な研究
記事付き画像へのキャプション生成
[Feng+Lapata, ACL 2010]
• Input: article + image Output: caption for image
• Dataset: Sets of article + image + caption
× 3361
King Toupu IV died at the
age of 88 last week.

Vision and Language の萌芽的な研究
× 3361
King Toupu IV died at the
age of 88 last week.
記事付き画像へのキャプション生成
[Feng+Lapata, ACL 2010]
• Input: article + image Output: caption for image
• Dataset: Sets of article + image + caption
これらの背景から…
つぎのような様々な取り組みが！

画像キャプション生成
Group of people sitting
at a table with a dinner.
Tourists are standing on
the middle of a flat desert.
[Ushiku+, ICCV 2015]

動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a plate of food.
[Shin+, ICIP 2016]

他言語化・キャプション翻訳
Ein Masten mit zwei Ampeln
fur Autofahrer. (独語)
A pole with two lights
for drivers. (英語)
[Hitschler+, ACL 2016]

ビジュアル質問応答
[Fukui+, EMNLP 2016]

キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]

本講演の目的
視覚×言語の融合研究を俯瞰
1. 画像・動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
5. Vision-aware Dialog
すると、Acadexitに至る道が見えてくる…?!

視覚・言語融合の最前線1
画像・動画キャプション生成

Every picture tells a story
データセット：
画像＋<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを検
索して利用
<Horse, Ride, Field>
[Farhadi+, ECCV 2010]

Every picture tells a story
<pet, sleep, ground>
See something unexpected.
<transportation, move, track>
A man stands next to a train
on a cloudy day.
[Farhadi+, ECCV 2010]

マルチキーフレーズ推定アプローチ
当時の問題＝使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定＝一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ACM MM 2012]

深層学習登場以前の動画×言語
• 言語と動画内の物体とのグラウンディング
[Yu+Siskind, ACL 2013]
– 動画とその動画を説明する文のみから学習
– 対象物体が少なく、コントロールされた小規模デー
タセットでの実験

Deep Learning によるキャプション生成

Google NIC [Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文（単語列）𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語

生成された説明文の例
[https://github.com/tensorflow/models/tree/master/im2txt]

Deep Learning による動画キャプション生成
• LRCN
[Donahue+, CVPR 2015]
– CNN+RNN
• 動作認識
• 画像/動画
キャプション生成
• Video to Text
[Venugopalan+, ICCV 2015]
– CNN+RNN
• RGB画像で物体を
• オプティカルフローで
動作を
認識→キャプション生成

アテンションモデル
• 2分野が融合して新たに生まれたものの例：
– アテンションモデルの利用 [Xu+, ICML 2015]
– 画像+キャプションデータのみからの学習！
– 動画：時間方向のアテンション[Laokulrat+, COLING 2016]

ここまでの問題点1:最適化したい目的関数
学習に用いるのは Cross-Entropy
評価に用いるのは BLEUなどの評価指標
→ 生成したキャプションの評価指標を
直接最適化するべきでは？
• 評価指標の直接最適化
– 機械翻訳ではディープ以前からある [Och, ACL 2003]
• 深層学習で評価指標を直接最適化…？
– 勾配が求められないから学習できない！！
短い文へのペナルティ
N-gramのPrecision

ここまでの問題点2: Exposure Bias
通常のRNNによる系列生成モデル学習では…
• 学習時：Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時：Free running
– 入力は𝑡 − 1番目までで
自身が推定したデータ
テスト時の生成系列が学習時から外れだすと
エラーが蓄積し続ける

強化学習の利用
• 強化学習を利用したキャプション生成
評価指標を報酬とする強化学習を導入すれば
問題点1と2が同時に解決されるはず！
– 方策勾配：評価指標の勾配が分からなくても、
出力の事後確率の勾配でOK→問題点１
– 評価指標を利用すれば、Teacher forcingしない
学習も可能→問題点２
state
RNNの状態変数
action
単語系列の推定
reward
評価指標
environment
画像特徴と生成中のキャプション
[Ranzato+, ICLR 2016][Rennie+, CVPR 2017]

他言語化・キャプション翻訳

他言語への展開
データセット
• IAPR TC12 [Grubinger+, 2006] 20,000画像+英独
• Multi30K [Elliot+, 2016] 30,000画像+英独
• STAIR Captions [吉川ら、 2017]
MS COCO (10万超画像＋英語キャプション)
→すべてに日本語キャプションを付与
タスクとしての展開
• 英語でない画像キャプション生成
• マルチモーダル機械翻訳/言語間文書検索
1. 入力：言語Aでのキャプション+画像
2. 入力：言語Aでのキャプション
→ 出力：言語Bでのキャプション（1.と2.で同じ）

英語でない画像キャプション生成
多くは英語のキャプションを生成するが…
• 日本語 [Miyazaki+Shimizu, ACL 2016]
• 中国語 [Li+, ICMR 2016]
• トルコ語 [Unal+, SIU 2016]
Çimlerde ko¸ san bir köpek
金色头发的小女孩
柵の中にキリンが一頭
立っています

単にデータ集めを頑張るだけ？
他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]
• 他言語の視覚-言語グラウンディングの転移
• 少数のキャプション付き画像でも効率よく学習
an elephant is
an elephant
一匹の象が土の
一匹の象が

言語横断型の研究
画像は機械翻訳の精度に寄与[Calixto+,2012]
• 英語でsealとあるけど、
・stampに近いsealなのか？
・sea animalのsealなのか？
がわからず誤ったポルトガル語に翻訳
• （実験してないけど）画像があれば防げるはず！

入力：言語Aのキャプション+画像
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
– 最初に候補翻訳を複数生成（画像には非依存）
– 類似画像に付随する言語Bのキャプションを
利用して翻訳候補から出力を選択
Eine Person in
einem Anzug
und Krawatte
und einem Rock.
(独語)
画像を見ない場合の翻訳
A person in a suit and tie
and a rock.
画像を利用した場合の翻訳
A person in a suit and tie
and a skirt.

入力：言語Aのキャプション
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• ゼロ対訳コーパスでのマルチモーダル翻訳
[Nakayama+Nishida, 2017]

画像に関する質問への応答

Visual Question Answering (VQA)
最初はユーザインタフェース分野で注目
• VizWiz [Bigham+, UIST 2010]
AMTで人力解決
• 初の自動化（ディープラーニング不使用）
[Malinowski+Fritz, NIPS 2014]
• 類似用語：Visual Turing Test [Malinowski+Fritz, 2014]

VQA: Visual Question Answering
• ビジュアル質問応答を分野として確立
– ベンチマークデータセットの提供
– ベースとなるパイプラインでの実験
• ポータルサイトも運営
– http://www.visualqa.org/
– 国際コンペティションも開催
[Antol+, ICCV 2015]
What color are her eyes?
What is the mustache made of?

VQA Dataset
AMT で質問と回答を収集
• 10万超の実画像、3万超のアニメ調画像
• 計70万弱の質問＋それぞれ10の模範回答

VQA=多クラス分類問題
表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
質問文𝑄
What objects are
found on the bed?
応答𝐴
bed sheets, pillow
画像𝐼
画像特徴量
𝑥𝐼
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧𝐼+𝑄

その後の展開：統合方法
「統合された表現ベクトル 𝑧𝐼+𝑄」の工夫
• VQA [Antol+, ICCV 2015]：そのまま直列に並べる
• 「和」グループ
例 Attentionで重みづけ和をとった画像特徴と
質問特徴を単純に足す [Xu+Saenko, ECCV 2016]
• 「積」グループ
例双線形積とフーリエ変換を組み合わせる
[Fukui+, EMNLP 2016]
• 「和」と「積」のハイブリッド
例要素毎の積と要素毎の和を直列に並べる
[Saito+, ICME 2017]
𝑧𝐼+𝑄 =
𝑥𝐼
𝑥 𝑄
𝑥𝐼 𝑥 𝑄
𝑥𝐼 𝑥 𝑄𝑧𝐼+𝑄 =
𝑧𝐼+𝑄 =
𝑧𝐼+𝑄 =
𝑥𝐼 𝑥 𝑄
𝑥𝐼 𝑥 𝑄

その後の展開：アテンション
• 2017年SOTA [Anderson+, CVPR 2018]
– これまで：Top-down領域の
画像にアテンション
– Bottom-upとTow-down領域の
両方にアテンション
• 2018年SOTA [Nguyen+Okatani, CVPR 2018]
– これまで：画像に対し
アテンション
– 質問特徴と画像特徴の
両方にアテンション
Bottom-upTop-down

GANによる文→画像生成
Generator と Discriminator に文を加える
・自然な画像
・文に沿った画像
を生成しようとする
・不自然な画像
・文に合わない画像
を識別しようとする
[Reed+, ICML 2016]

生成できた画像の例
• 鳥(CUB)/花(Oxford-102)データセット
– 約1万の鳥/花画像と5キャプション/画像
– 200種類の鳥/102種類の花
A tiny bird, with a tiny beak,
tarsus and feet, a blue crown,
blue coverts, and black
cheek patch
Bright droopy yellow petals
with burgundy streaks, and a
yellow stigma

その後の展開
StackGAN [Zhang+, ICCV 2017]
• 2段階のGANからなるモデル
• 1段目でぼやっとした画像を生成、2段目で高解像+詳細化

[Zhang+, ICCV 2017]

[Zhang+, ICCV 2017]
鳥/花に特化したデータセットでの結果
→一般的な画像を生成するにはより一層のブレイクスルーが必要

Vision-Aware Dialog

Vision-Aware Dialog
エージェントとユーザー以外に視覚的な情報が存在
研究を大別すると…
• データセットの提供
VisDial [Das+, CVPR 2017]
• それらを利用した対話の研究
共参照解析を利用したVisDialモデル

マルチモーダル対話？
• マルチモーダル対話
– 主にユーザからの入力が複数モーダルの情報
• Vision-Aware Dialog
– 環境などに視覚情報を伴うものをさす
– マルチモダリティではある
本講演では
Vision-Aware Dialog
と呼ぶことにします

GuessWhat?!
連続するYes/No型のVQAデータ
Is it a person? No
Is it an item being worn or held? Yes
Is it a snowboard? Yes
Is it the red one? No
Is it the one being held by the Yes
person in blue?
Is it a cow? Yes
Is it the big cow in the middle? No
Is the cow on the left? No
On the right? Yes
First cow near us? Yes
[de Vries+, CVPR 2017]

Visual Dialog (VisDial)
連続する一般的なVQAデータ
Questioner Answerer
A couple of people
in the snow on skis.
[Das+, CVPR 2017]

Visual Dialog (VisDial)
Questioner Answerer
A couple of people
in the snow on skis.
What are their genders?
Are they both adults?
Do they wear goggles?
Do they have hats on?
Are there any other people?
What color is man’s hat?
Is it snowing now?
What is woman wearing?
Are they smiling?
Do you see trees?
1 man 1 woman
Yes
Looks like sunglasses
Man does
No
Black
No
Blue jacket and black pants
Yes
Yes
[Das+, CVPR 2017]

Vision-and-Language Navigation (VNL)
対話行為が移動とナビゲーション
[Anderson+, ICCV 2017]

Multimodal Dialog (MMD)
商品推薦を伴うマルチモーダル対話
[Saha+, AAAI 2018]

Talk the Walk
NYCを歩くTouristと目的地へ導くGuide
• 1万程度の発話
– 行動：約44回
– Guide発話：約9回
– Tourist発話：約8回
[de Vries+, arXiv 2018]

個人適合キャプション列生成
複数のキャプションで説明しようとすると
• 個人で注目する場所によってふさわしい
キャプションも変わる
• ユーザへの質問を通じて注目個所を獲得
What is the man riding?
Motorcycle
Input image
The man is riding
Motorcycle. It is
white. The motorcycle is
honda.
[Shin+, CVPR 2018]

個人適合キャプション列生成
複数のキャプションで説明しようとすると
• 個人で注目する場所によってふさわしい
キャプションも変わる
• ユーザへの質問を通じて注目個所を獲得
What is the man riding?
Skateboard
The man is riding
skateboard. The man
is skateboarding. The
color of the jacket is red.
Input image
[Shin+, CVPR 2018]

ロボットのPick&Place
[Hatori+, ICRA 2018]

まとめ
• Deep Learning による視覚・言語融合を俯瞰
1. 画像・動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
5. Vision-Aware Dialog
• Deep Learning の貢献
– 上記研究課題自体は Deep Learning 以前も存在
– 画像、動画、自然言語処理技術の共通化
– 認識と生成の精緻化
視覚×言語の新たなステージへ

Visual Dialog の著者陣
4機関による共著だ…

CVPR 2018 でハイライトされた論文でも

CVPR 2018 でハイライトされた論文でも
大半が複数機関による共著だ！！

4つの理由
基本的に（NTT以外）先方に誘われてjoin
→何を考えて引き受けたのか？
• 個人的なステップアップ
• 情報科学周辺の事情
• 日本の大学に対する危機感
• 日本での新たなキャリアスタイル

個人的なステップアップ
• 現在の状況
– NTT: 部長→グループリーダー→木っ端研究員
– 東大: 教授→准教授/講師—助教/ポスドク→学生
– 現職: PI→Researcher
• 研究グループを主宰するというチャレンジ
PI: Principal Investigator のある定義 by 文部科学省
• 独立した研究室を持った
• 研究グループの予算作成・執行の実質的な責任者
• 担当課題の予算作成・執行の実質的な責任者
• 特定の部下（大学院生）の指導の責任者
• 発表論文の責任者

情報科学周辺の事情
• 国際舞台に日本は居ない
• 圧倒的な劣勢を挽回するために
– 優秀な研究者が研究に専念できる環境を作る
– CV×NLPという分野の交点→コラボがとても大事
日本の論文数の世界ランクの変動

日本の大学に対する危機感
• ボロボロになりながらやっている
• 自由なき責任を負わされた15年
– 2004年から交付金は減りだしたけど収入を上げる方
法は制約あり
– 2004年から外部資金獲得に偏重化したけどインセン
ティブなし

日本での新たなキャリアスタイル
• 終身雇用崩壊の先進分野からみて
– 劣悪な環境で耐えるのはもう止めよう
– 転職＝キャリアアップの絶好のチャンス
• 退職時に先生方から言われたこと
– Acadexit だけじゃなくて Academin があってよい
– そして企業も Academia を担ってよい
– 大学を労働市場の競争に巻き込み、環境が少しでも良く
なれば…
企業でバリバリやって、
また縁があったら大学に戻ってきてくれよ

OMRON SINIC X のチャレンジ
世の中に３つのコントリビューションを提供したい
• 近未来デザインとその研究開発成果
• 企業研究所の新たな在り方
• 優秀な人材の輩出

スペシャリスト+オープンイノベーション
Jiaxin Ma
栗原聡
(慶應大)
橋本敦史
Felix von Drigalski
片岡裕雄
(産総研)
米谷竜
諏訪正樹
小西光春
井尻善久
牛久祥孝
松原崇充
(NAIST)

これからの Vision & Language ～ Acadexit した4つの理由

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie これからの Vision & Language ～ Acadexit した4つの理由

Ähnlich wie これからの Vision & Language ～ Acadexit した4つの理由 (15)

Mehr von Yoshitaka Ushiku

Mehr von Yoshitaka Ushiku (16)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

これからの Vision & Language ～ Acadexit した4つの理由

Hinweis der Redaktion