画像キャプションの自動生成

画像キャプションの自動生成
東京大学大学院情報理工学系研究科
牛久祥孝
losnuevetoros

自己紹介
～2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4～2016.3 NTT コミュニケーション科学基礎研究所
2016.4～東京大学大学院情報理工学系研究科
知能機械情報学専攻講師 (原田・牛久研究室)

教員のおしごと：授業

CaptionBot
https://www.captionbot.ai/

CaptionBot:
I think it's a group of people sitting at a table
and they seem 😐😐😐😐😐😐😐😐😐😐😐😐😐😐.

画像キャプション生成例 [Ushiku+, ICCV 2015]
Group of people sitting at a table with a dinner.

Tourists are standing on the middle of a flat desert.

1K SBU images
Is a train station in the lake in the small.
10K SBU images
All the lake in the water is a shot.
100K SBU images
View of the lake in the water in a boat.
1M SBU images
It is a picture of the boat in the water.
1K SBU images
Stained glass window in Aanbouw Cofferdam for a field.
10K SBU images
Window in the ossuary glass windows in St. Louis Missouri.
100K SBU images
Stained glass in the tower of the church in St..
1M SBU images
Stained glass window in the church in St. Vitus Cathedral.

ユーザー生成コンテンツの爆発的増加
• Web、特に画像投稿・共有サービスでは…
– Flickr 画像100億枚 2015年5月時点
– Instagram 画像400億枚 2015年9月時点
– Facebook 画像2500億枚 2013年9月時点
Pōhutukawa blooms this
time of the year in New
Zealand. As the flowers
fall, the ground
underneath the trees look
spectacular.
大量に収集可能：
画像と関連する文章の対

画像キャプション生成
入力画像を説明する自然文を出力する問題
• 一般的な対象：できるだけ多くの訓練サンプル
→Webにあるような画像+文のみのデータ
• 新規の文も生成できるような柔軟性
本講演の目的
• 画像キャプション生成という分野を俯瞰する
– 歴史的な流れ
– アプローチの体系
– 視覚×言語の研究としての広がり

もくじ
おおよそ歴史順
1. 画像の内容を認識すること
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
5. ところで、どう評価するの？
6. 深層学習の襲来
7. 今後の展望・派生研究のひろがり

2. 画像キャプション自動生成の始まり

そもそもの画像認識のはじまり
• 線画認識 [Clowes, 1971]
• 知識ベース
[Ohta, 1985][Draper+, IJCV 1989][Matsuyama+Hwang, 1990]
– 物体ごとに人手でルールを記述
– フレーム問題が立ちはだかる
• モデルベース
[Binford, 1971][Brooks, 1981][Basri, IJCV 1996]
– 3次元の幾何形状を予め用意
– 全ての対象の明確な
形状の定義はやっぱり無理

自然言語処理に習う
2000年代：統計的機械学習への移行
• 領域ベース
– word-image-translation model [Duygulu+, ECCV 2002]
– 画像の各領域とラベルとの対応を学習
– 機械翻訳における自動対応付けから着想
機械翻訳における単語の対応（[永田ら、2008]より）
sun, sea, sky sun, sea, sky

自然言語処理に習う
2000年代：統計的機械学習への移行
• 局所特徴ベース
– Bag of Visual Words [Csurka+, 2004][Fei-Fei+Perona, CVPR 2005]
– 似た局所特徴を同一の単語とみなす
– 文書分類における Bag of Words モデルから着想
– 情報幾何を取り入れた精緻化 [Perronnin+, ECCV 2010]
Cf. 原田達也. “大規模画像データを用いた一般画像認識”
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/SSII_harada20120608.pdf

画像を理解できるようになった？
people, table, dinner
関係性の欠如

解決するべき最大のボトルネック
単語がバラバラに推定されても…
それらの関係性がわからない

画像キャプションの自動生成へ

I2T [Yao+, Proc. of the IEEE 2010]

I2T [Yao+, Proc. of the IEEE 2010]
種々の外部データベース
インタラクティブな画像の分解
道路の監視カメラなど
ごく限られたドメインのみへの適用

画像+記事→キャプション [Feng+Lapata, ACL 2010]
• 学習データ：記事+画像+キャプションのセット
• 入力＝記事+画像出力＝キャプション
• 既存文の再利用
• 新規文の生成
× 3361
King Toupu IV died at the age
of 88 last week.
入力が異なるものの
その後の2大アプローチを実践

再利用？新規生成？
• 再利用
• 新規生成
– テンプレート
主語＋動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力データセット

• 再利用
– A small gray dog on a leash.
• 新規生成
主語＋動詞の文を生成しよう
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.

• 再利用
• 新規生成
dog＋stand ⇒ A dog stands.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.

• 再利用
• 新規生成
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.

• 再利用
• 新規生成
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
実は…
キャプショニング
||
キャプション候補に正確なスコアを与える問題

また自然言語処理に習う
• 機械翻訳
– フランス語𝐟から英語𝐞への翻訳
– 生成モデルによる翻訳
𝐞 = arg max
𝐞
𝑃(𝐞|𝐟) = arg max
𝐞
𝑃 𝐞 𝑃(𝐟|𝐞)
– 識別モデル（対数線形モデル）による翻訳
𝐞 = arg max
𝐞
𝑃 𝐞 𝐟 = arg max
𝐞
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝐞, 𝐟)
英語の
文法モデル
英語→仏語の
翻訳モデル
翻訳モデル、言語モデル、歪みモデル、単語長、など
あらゆるモデルを導入可能
ℎ1 = log 𝑃(𝐞) , ℎ2 = log 𝑃 𝐟 𝐞 , 𝜆1 = 𝜆2 = 1なら生成モデルと同じ

また自然言語処理に習う
• キャプション生成は画像から言語への「翻訳」
– 画像𝒊から言語𝒍への翻訳
– 識別モデル（対数線形モデル）による翻訳
𝒍 = arg max
𝒍
𝑃 𝒍 𝒊 = arg max
𝒍
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝒍, 𝒊)
• アプローチの違い＝スコアのモデルの違い
– 再利用：各既存文を用いるスコア
– テンプレート：
各空欄へ各単語を利用するスコア
– 非テンプレート：
文法の正しさのスコア＋各単語を用いるスコア

Every picture tells a story [Farhadi+, ECCV 2010]
• データセット：
画像＋<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを検
索して利用
<Horse, Ride, Field>

Every picture tells a story [Farhadi+, ECCV 2010]

Im2Text [Ordonez+, NIPS 2011]
• 手法：オーソドックスなリランキング
• 貢献
– 100万画像+キャプション（SBUデータセット）
– データを増やす効果を確認
cf. 80M tiny images [Torralba+, TPAMI 2008]

その他の既存文再利用アプローチ
• その後も継続して新規手法が提案されてい
る
– 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014]
– 文章要約技術の応用[Mason+Charniak, ACL 2014]
– 係り受け木＋RNN[Socher+, TACL 2014]
– RCNNによる画像領域と係り受けの対応[Karpathy+,
NIPS 2014]
– 分散表現によるリランキング[Yagcioglu, ACL 2015]
分散表現：word2vec [Mikolov+, NIPS 2013]など
単語の「足し引き」が可能な表現
– WordNetのような意味的階層性をモデル化した
CNN [Vendrov+, ICLR 2016]

永遠に解決されない問題
データセットにない組み合わせの事物は
表現できない
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力
データセット

閑話休題
Descriptive Camera [Richardson, 2012]
レシート？

閑話休題
写真を撮ると…

閑話休題
キャプションがレシートで出てくる！
Looks like a cupboard which is ugly and old having name plates
on it with a study lamp attached to it.

閑話休題
キャプションがレシートで出てくる！
Looks like a cupboard which is ugly and old having name plates
on it with a study lamp attached to it.
当時の牛久
（博士2年）
画像キャプションの自動生成が
・こんなに正確に
・こんなに詳細に
できるなんて！！！
自分のD論詰んだ！！！

実は…
[http://s3.amazonaws.com/pix-media/blog/328/mechanical-turk.jpg]
Looks like a cupboard which is
ugly and old having name
plates on it with a study lamp
attached to it.

実は…
[http://s3.amazonaws.com/pix-media/blog/328/mechanical-turk.jpg]
Looks like a cupboard which is
ugly and old having name
plates on it with a study lamp
attached to it.
当時の牛久
（博士2年）
画像キャプションの手動生成
だった！
…よかった～

テンプレートの誘惑
• 既存文の使いまわしでは表現に限界
→単語レベルの認識結果をどうやって新規文に？
• 主にコンピュータビジョン系の研究だと…
– 翻訳等で用いられる文生成手法への知見がない
– そうだ、テンプレートをつくってしまおう…
people, table, dinner
？

テンプレートを用いたキャプション生成
• Baby Talk [Kulkarni+, CVPR 2011]
• Choosing Linguistics [Gupta+, AAAI 2012][Verma+, CVPR 2013]
– 類似画像の形態素解析済みフレーズを利用

テンプレートに頼らない新規文生成
𝑀種のスコアの合計値が最大になる文を探すには
𝑙 = arg max
𝑙
𝑃 𝑙 𝑖 = arg max
𝑙 𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝑙, 𝑖)
例えば、1万語彙から10単語の文を生成すると…
1単語目：1万通り
2単語目：1億通り
…
10単語目：1正（1040
）通り
出力𝒍の文法スコアや単語𝑤を利用するスコア

マルチスタックビームサーチ
1. 𝑡単語分だけ文を生成して評価
2. 上位𝑘個の候補文のみ残す
3. 𝑡 → 𝑡 + 1として1.へ
• 探索手法の一つ
• 現在流行しているRNNによる文生成でも利用
1 word 2 words 3 words
stack
The
Cat
Mat
On
Is
The cat
The mat
On cat
Mat is
On the
The cat is
The cat on
On the mat
Mat is on
On cat is
The cat is on
The cat on the
Is on the mat
The mat is on
Mat on cat is
4 words

既存説明文群の再構成による説明文生成
部分的に利用可能な単語列（フレーズ）が
存在するはず！
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
Cf. フレーズベース機械翻訳
入力画像
データセット内の説明文つき画像
[Ushiku+, ACM MM 2011]

説明文を利用した類似画像検索の高精度化
• 画像の見た目と内容の間のセマンティックギャップ
• 説明文を利用した画像間類似度の改善
画像・長文からの潜在空間獲得による画像間類似度の改善
[牛久ら, 情報処理学会誌52巻12号, 2011]
𝒙 𝒛~𝒩, 𝒚 𝒛~𝒩 (𝒩は正規分布)
• KLD(𝑝(𝒛|𝒙 = 𝒙 𝑞)||𝑝(𝒛|𝒙 = 𝒙t, 𝒚 = 𝒚t))
を偽距離として再近傍探索
• 正規分布のパラメータを最尤推定
→確率的正準相関分析 [Bach and Jordan, 2005]
入力
(画像特徴𝒙 𝑞)
どれが
類似？
説明文つき画像群
(𝑡番目のペアの画像特徴𝒙 𝑡、説明文特徴𝒚 𝑡とする)
𝒙 𝒚
𝒛
画像説明文
潜在変数

Training Dataset
A woman posing
on a red scooter.
White and gray
kitten lying on
its side.
A white van
parked in an
empty lot.
A white cat rests
head on a stone.
Silver car parked
on side of road.
A small gray dog
on a leash.
A black dog
standing in a
grassy area.
A small white dog
wearing a flannel
warmer.
Input Image
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
Nearest Captions
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.

Collective Generation of Natural Image Descriptions
1. 入力画像に物体検出、シーン認識などを適用
2. データセットの類似画像からフレーズを収集
– 名詞句（例：the brown cow）
– 動詞句（例：boy running）
– 前置詞句（例：in the sky や at the market）
3. 他のフレーズと繋いでキャプションを生成
– 名詞句ひとつにつき1文
– フレーズの組み合わせは整数計画問題
[Feng+, ACL 2012]
データセットのとある画像とキャプション
入力
Hard rock casino
exotic car show in
June
名詞句候補

マルチキーフレーズ推定アプローチ
当時の問題＝使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定＝一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ACM MM 2012]

Midge [Mitchel+, EACL 2012]
• 各種認識結果から木構造を生成
– 物体検出およびAttribute認識結果
– 動作やポーズの認識結果
– 物体間の位置関係
• 木構造を組み合わせてキャプションの形へ
物体の名詞に関する局所的な木構造
統合
最終的な文を生成する木構造
出力：
People with a bottle at the table

ここまでのまとめ
• 既存キャプションの再利用
• テンプレートを利用した新規キャプション生成
× 表現能力に問題あり
• テンプレートに依らない新規キャプション生成
✔ 新規にキャプションを生成可能
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力
データセット

ここまでのまとめ
• 新規キャプションを生成する関連研究
– 物体の名前、個数、位置関係を推定して羅列
[Kulkarni+, CVPR 2011]
– <物体, 動作, 光景＞+前置詞の学習
[Yang+, EMNLP 2011]
– 物体検出、アトリビュート認識、動作認識
[Mitchel+, EACL 2012]
× 特定の認識タスク向けのデータセットが必要
• 提案手法
– 既存文を組み合わせる[Ushiku+, ACM MM 2011]
– キーとなるフレーズを推定して組み合わせる[Ushiku+, ACM
MM 2011]
✔ 画像とキャプションのペアのみ使用

どれがどれくらい良いキャプションなのか？
CoSMoS [Ushiku et al., ICCV 2015]
Corpus-Guided [Yang et al., EMNLP 2011]
Three people are showing the bottle on the street
Midge [Mitchel et al., EACL 2012]
people with a bottle at the table
アンケートによる比較：相対的な良さの評価
• 毎回ほかの手法と比較してもらわなければならない
• 絶対的なキャプションの良さの評価がほしい

定量評価指標
機械翻訳では…
• テスト文に複数の参照訳が付随（通常5文）
• これらの参照訳と近い訳文が「良い」
One jet lands at an airport while another takes off next to it.
Two airplanes parked in an airport.
Two jets taxi past each other.
Two parked jet airplanes facing opposite directions.
two passenger planes on a grassy plain
キャプション生成の評価でも同様の流れ
PASCAL Sentenceの画像と参照キャプションの例

データセット
Webからクロールしてきたもの
• SBU Captioned Image [Ordonez+, NIPS 2011]
100万枚のFlickr画像、1キャプション/画像
• YFCC-100M [Thomee+, 2015]
1億枚のFlickr画像＋動画、一部の画像にキャプション
• Déjà Images [Chen+, ACL 2015]
1つのキャプションに複数の画像が紐づいている

データセット
クラウドソーシングを用いたもの
• PASCAL Sentence, Flickr 8k/30k (すべてUIUCから)
それぞれ1000/8000/30000枚の画像、5キャプション/画像
• Abstract Scene Dataset[Zitnick+Parikh, CVPR 2013]
10000枚のクリップアート、6キャプション/画像
• MS COCO [Lin+, 2014]
10万超の画像、5キャプション/画像
• MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014]
500枚の画像に100,000の矩形領域+キャプション
• PASCAL-50S, ABSTRACT-50S[Vedantam+, CVPR 2015]
より人間らしい評価のために作成、50キャプション/画像

定量評価指標
• Precisionに基づく評価
– システムが出力したキャプション中のn-gramが
参照キャプション中に含まれる割合
– BLEU [PapineniL, ACL 2002]
– NIST [Doddington, HLT 2002]
短い文へのペナルティ
短い文へのペナルティ
N-gramのPrecisionの累積積
N-gramのPrecisionの累積和

定量評価指標
• Recallに基づく評価
– 参照キャプション中のn-gramがシステムが、出力し
たキャプション中に含まれる割合
– Rouge [Lin, 2004]
• ランキングに基づく評価
– 既存文の検索はまさにランキング問題
– 実は新規文生成でも各文を目的関数で評価できる
→ランキング問題として新規文生成手法も評価可能
𝐥 = arg max
𝐥
𝑃 𝐥 𝐢 = arg max
𝐥
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝐥, 𝐢)

Precisionベース評価の試練
• BLEUバッシング
– 「BLEUは人の評価と相関しない」 [Hodosh+, JAIR 2013]
– 確かに機械翻訳でも疑問の声はある
– しかしキャプション生成分野では…
ほぼ全てでunigramやbigramのBLEUを利用
（BLEUは4-gramでの利用が一般的）
• NISTパッシング
– BLEUの改良版
– Rougeの原著でも、Rouge=NIST>BLEUという結果
– しかしキャプション生成分野では…
BLEUを叩くだけで誰もNISTを使わない

Consensus-based Image Description Evaluation
• METEOR（RecallとPrecision両方を重視[Elliott+Keller,
EMNLP 2013]）を参考にしたもの
• CIDEr：画像キャプション生成の評価用に考案
[Vedantam+, CVPR 2015]
TF-IDF（実はNISTとよく似ている）
n-gramでの
CIDErの累積和
n-gramでの
PrecisionとRecallの
調和平均（F値）

7. 今後の展望・派生研究の広がり

2012年：一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2012年の画像
認識タスクで
ディープ勢が

[Tomohiro Mito, Deep learning, slideshare, 2013]

[Tomohiro Mito, Deep learning, slideshare, 2013]
ISIってなんだよどこのチームだよ
同webサイトをみると･･･
ぼくら
深層学習

またまた自然言語処理に習う
機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
• RNNで問題になっていた勾配の消失を
LSTM[Hochreiter+Schmidhuber, 1997]で解決
→文中の離れた単語間での関係を扱えるように
• LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み（英仏翻訳）
“ABC”という単語列から”WXYZ”という単語列への翻訳
入力
出力

Google NIC[Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet[Szegedy+, CVPR 2015]
• LSTM[Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文（単語列）𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語

生成された説明文の例

LRCN[Donahue+, CVPR 2015]
• CNN+stacked LSTM
– 動作認識（下図左）
– 画像説明文生成（下図中央）
– 動画説明文生成（下図右）

Visual-Semantic Alignments
[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成はCNN+Bidirectional RNN
– 他の手法とほぼ同一
– 並列でVisual Semantic
Alignmentを提案

画像領域と文の一部とのアライメント
Image-sentence score（右図）
画像領域𝐼𝑖・説明文単語𝑆𝑡で、
– 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ
– 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ
から 𝑖 𝑡 𝒗𝑖
⊤
𝒔 𝑡 を計算
対応する画像・説明文ペアの score
> 非対応ペアの score になるよう学習

そのほかのCVPR2015論文でも…
• DMSM [Fang+] (著者12人)
– CNNと対数線形モデル
– Multiple Instance
Learningで物体検出
– キャプション候補のリ
ランキング
• Mind’s Eye [Chen+Zitnick]
– CNNとRNN

お互いにとても似ている
Methods in CVPR2015 CNN（画像特徴量） RNN（文生成）
Google NIC GoogLeNet（22層CNN） LSTM
LRCN VGG Net（19層CNN） Stacked LSTMs
Visual-Semantic Alignment AlexNet（7層CNN） BRNN → LSTM
Mind’s Eye VGG Net RNN
DMSM AlexNet 対数線形モデル
表：Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較

[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では：
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では：
CNN（オンライン学習なのは一緒）
CVPR 2015 の各論文では：
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では：
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定文法モデルを利用して繋ぎ、説明文に
• いずれも画像+キャプションのみから学習可能
• 全体の流れは非常に似ている
“キーフレーズ”

唯一の大きな違い
• 深層学習以前の新規キャプション生成
何らかの語句に変換してから文生成器へ
• 深層学習による新規キャプション生成
画像特徴量を直接文生成器へ

ところが最近では…
• CNNで事物の認識まで済ませてRNNで文生成
[Wu+, CVPR 2016][You+, CVPR 2016]
→画像特徴量の段階でRNNに渡すより高性能！
• 深層学習以前のアプローチとより類似
[You+, CVPR 2016][Wu+, CVPR 2016]

7. 今後の展望・派生研究の広がり

画像キャプション生成の精緻化
• 画像認識
– InceptionモデルやResNetなど、より高精度なCNN
• 自然言語処理
– 画像認識側が完璧になったと仮定した文生成 [Gupta+
Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+,
ICLR workshop 2016]
• 2分野が融合して新たに生まれたものの例：
– Show, Attend and Tell [Xu+, ICML 2015]
– 画像+キャプションから注視モデルも学習！

MS COCO Captioning Challenge
• CVPR 2015で行われた競争型ワークショップ
– 1位：Google
• 基本的にはGoogle NIC
• 後の[Bengio+, NIPS2015]において…
RNNの学習にCurriculum Learning [Bengio+, ICML 2009]
を導入していたことが判明
– 2位：MSR
• CVPR2015で発表された論文の通り、
CNN+RNN以外の工夫もしている
• のちにRNNによる文生成も検討
[Devlin+, IJCNLP 2015]

キャプション生成そのものは終わった？
• 深層学習のおかげで画像認識は人間並み…？
– ILSVRC 2015 における1000クラス画像認識では…
人間（5%）より ResNet（4%弱）が上
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価（5が最良）
M4:詳細さの5段階評価（5が最良）
M5:既存キャプションによく似たキャプションの割合

キャプション生成そのものは終わった？
• 深層学習のおかげで画像認識は人間並み…？
– ILSVRC 2015 における1000クラス画像認識では…
人間（5%）より ResNet（4%弱）が上
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価（5が最良）
M4:詳細さの5段階評価（5が最良）
M5:既存キャプションによく似たキャプションの割合
× キャプション生成は深層学習によって終わった
 キャプション生成への深層学習の単純な適用は終わった

定性的な発展
• より細かいキャプション生成
[Lin+, BMVC 2015] [Johnson+, CVPR 2016]
• アルバムのような系列画像にキャプション生成
[Park+Kim, NIPS 2015][Huang+, NAACL 2016]

定性的な発展
• 感性語Sentiment Termを重視したキャプション生成
[Mathews+, AAAI 2016][Andrew+, BMVC 2016]←Ours!
ニュートラルな文
ポジティブな文
（生成した例）

定性的な発展
• ここまで英語キャプション生成だったが…
– 日本語[Miyazaki+Shimizu, ACL2016]
– 中国語[Li+, ICMR 2016]
– トルコ語[Unal+, SIU 2016]
Çimlerde ko¸ san bir köpek
金色头发的小女孩
柵の中にキリンが一頭
立っています。

派生研究の広がり
視覚と言語の高度な知能システム
1. 動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成

動画キャプション生成
• 深層学習前：物体検出やトラッキングに依存
[Yu+Siskind, ACL 2013]
• CNN+RNNによるend-to-endな学習手法が台頭
– LRCN [Donahue+, CVPR 2015]
– Video to Text [Venugopalan+, ICCV 2015]
– 3-D CNN [Yao+, ICCV 2015]
• データセットも増えつつある
– MPII Movie Description dataset [Rohrbach+, CVPR 2015]
– MS VDC [Chen+Dolan, ACL 2011]
[Yao+, ICCV 2015]

言語横断型の研究
• IAPR-TC12 [Grubinger+, 2006]
– 英&独の説明文が付与されている
– 主に画像×タグの理解を進める研究に利用される
• 画像は機械翻訳の精度に寄与[Calixto+,2012]
– 英語でsealとあるけど、
・stampに近いsealなのか？
・sea animalのsealなのか？
がわからず誤ったポルトガル語に翻訳
– （実験してないけど）画像があれば防げるはず！

言語横断型の研究
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
• データセットも出始める
– 1000枚画像＋日英キャプション[Funaki+Nakayama,
EMNLP 2015]
– 30,000枚画像+英独キャプション[Elliot+, WMT 2016]

画像に関する質問に答えるQAシステム
Visual Question Answering
• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA Challenge
– CVPR 2016 併設のコンペティション
– 原田・牛久研究室：Abstract Image 部門で世界1位
[Malinowski+,
ICCV 2015]

キャプションを入力して画像を生成
• Attention モデルの利用[Mansimov+, ICLR 2016]
• DCGAN [Radford+, 2016] の利用[Reed+, ICML 2016]
1単語だけ変えた場合ありえないシチュエーション
This small bird
has a pink breast
and crown, and
black primaries
and secondaries.
A man in a
set suit riding
a surfboard
on a wave.
CUB(鳥200種類のみの
データセット)で学習
MS COCOで学習

画像キャプション生成のまとめ
入力画像を説明する自然文を出力する問題
• 一般的な対象：できるだけ多くの訓練サンプル
→Webにあるような画像+文のみのデータ
• 新規の文も生成できるような柔軟性
本講演の目的
• 画像キャプション生成という分野を俯瞰する
– 歴史的な流れ、アプローチの体系
• 視覚×言語の新たなステージへ

画像キャプションの自動生成

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (19)

Similar to 画像キャプションの自動生成

Similar to 画像キャプションの自動生成 (20)

More from Yoshitaka Ushiku

More from Yoshitaka Ushiku (12)

Recently uploaded

Recently uploaded (8)

画像キャプションの自動生成

Editor's Notes