[DL輪読会]Let there be color

Let there be color!: Joint End-to-end Learning of
Global and Local Image Priors for Automatic Image
Colorization with Simultaneous Classification
GCI２期生篠原義明

ディープネットワークを用いた大域特徴と局所
特徴の学習による
白黒写真の自動色付け
GCI２期生篠原義明

Contents
•Abstract
•Model
•Experimetal Results & Discussions
•Additional

Why this paper?
• 選定理由：
• 古い白黒写真に色をつけることにもともと興味があった。
• 著者：飯塚里志* シモセラエドガー* 石川博（早稲田大学）
• SIGGRAPH2016で発表？

Purpose
白黒の画像を彩色する。

Related Works
• ユーザの入力と試行錯誤でに依存するモデル（[Xu et al. 2013],
[Chen et al. 2012]）
• 入力に対して参考となる画像をユーザが選択する必要があるモ
デル([Gupta et al. 2012], [Charpiat et al. 2008])
• [Liu et al. 2008]はweb検索を利用しているがユーザはクエリを入力する
必要がある
• 最新のもの[Cheng et al. 2015]はtrainingが小さいかつ性能の高い
セグメンテーションモデルを要求するため、セグメンテーショ
ンクラスが現れない画像に対しては性能が低い
提案手法はend-to-end

Feature of Model
・大域特徴（状況）と局所特徴（状況を所与としたテクスチャや
物体）を結合させて利用
・画像の色とラベルを用いて大域的特徴を効率的に学習
・解像度に関係なく利用可能
・ユーザに依る介入（パラメータ調整など）が不要
・end-to-endに学習が可能
・Style transferが可能
・評価はユーザテストに依った

Model Structure
• 低レベル特徴ネットワーク
• 中レベル特徴ネットワーク
• 大域特徴ネットワーク
• 色付けネットワーク
で構成される。
白黒画像を入力→1/2サイズの彩度画像を出力
彩度画像を2倍にスケーリングし，入力画像と統合してカラー画
像を生成する。

Low-Level Features Network（FCN)
・Max poolingの代わりにストライドを広げたConv. Layerを使用
・1x1 paddingでサイズを維持
・活性化関数はSigmoid
224
x224

Global Features Network
・Low-level features networkの入力は224x224である必要がある。

Mid-Level Features Network（FCN）
・出力はw/8 x h/8 x 256
512
256

Fusion Layer
各座標（u, v）毎に
256x1
256x1
256x512
256x1
Y^fusion = W/8 x H/8 x 256

Colorization Network
• CIE L*a*b*色空間（明度*補色*補色）
• a*, b*は[0,1]に正規化
• アウトプットをx２にアップサンプル
し、MSEを用いてBack prop.

Classification network
• 画像のグローバルな情報を学習しないため明らかな間違えが起きる。
これを防ぐためにコンテクスト
を判定させる。
N =205
512
相対的な重み
1/300 for training
Frobenius norm
誤差関数：

Learning
• Places Scene Dataset[Zhou et al. 2014]を244x244に前処理
• 状況のクラスは205個
• 256x256にリサイズし、ランダムにクロッピングと左右反転
• ネットワーク全体でBatch normalization
• ADADELTAで最適化
• 128batch for 200,000 iter.

Colorisation Results（再掲）

Evaluation
• 最新の手法とベースラインモデルと比較
人の目に依る評価
• ベースラインモデル
Conv.

Comparison with State of the Art
レンガの色岩と海の色遠景の山の色

User Study
224x224の画像を被験者に見せて
自然かどうかを聞いた。

Do we need Global Features?
Features Without Global Features
前頁の結果はこの様な画像に
依るものと考えられる。

Style Transfer
・Global featureへの入力元画像を変えることで
Style transferを実現。
・入力にはグレースケール画像のみを使用しても
Style transferが出来ている。
Dawn Dusk
Spring Fall Fall
Daytime

Colorizing The Past
古い白黒画像を入力すると加えられた修正や輪郭に関わらず・・・

Classification
・グレースケール画像を与えた時の分類精度を先行研究と比較
・分類特化の手法と比べても高精度

Color Space Selection
RGBとYUVとL*a*b*色空間の3つを試した
上記画像ではどれもかなり似ているがより難しいタスクにおいては
L*a*b*色空間が最もそれらしかった。

LImitations
・当然学習に使われていないタイプの画像には対応できない
・Style Tranferは類似のSemantic Levelのものでないと良い結果は出ない。
・そもそも色付は本質的に曖昧な問題（Global featureを設定する以外ユーザは操作出来ない）
このようなものは白黒画像だけからでは
人間もわからない

Next
http://hi.cs.waseda.ac.jp/~esimo/ja/research/sketch/

Computation Time
リアルタイムに近い計算が可能

[DL輪読会]Let there be color

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

[DL輪読会]Let there be color

Hinweis der Redaktion