【2017.03】cvpaper.challenge2017

cvpaper.challenge

Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Kuniaki Saito, Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada, “DualNet: Domain-Invariant Network for
Visual Question Answering”, in arXiv 1606.06108, 2016.
【1】
Keywords: VQA, DualNet, CNN, LSTM
新規性・差分
概要
Visual Question Answering (VQA; 画像に対する質問回答)のタ
スクを解決するDualNetを提案した。DualNetはHolistic
Feature [Zhang, 2016]やResNetの特徴を組み合わせて画像特
徴を記述する。⼀⽅、LSTMは質問⽂を固定⻑ベクトルに変換
し、双⽅の特徴を総合的に判断して回答を識別ベースで解決す
る。右図①②による特徴投影を統合することからDualNetと名
付けられた。
・CVPR 2016 WSにて⾏われたVisual Question Answering
のコンペティション、Abstract Art部⾨で勝者となった。
・複数回答可の場合では70%以上の確率で正答することが
できる。
Links
論⽂ https://arxiv.org/pdf/1606.06108.pdf
コンペティション
http://www.visualqa.org/static/slides/MIL_UT_slide.pdf
Holistic Feature https://arxiv.org/pdf/1511.05099.pdf

Andrew Shin, Katsunori Ohnishi, Tatsuya Harada, “Beyond Caption to Narrative: Video Captioning with
Multiple Sentences”, in ICIP, 2016.
【2】
Keywords: Video Captioning, IDT
新規性・差分
概要
動画の際の画像説明⽂⽣成についての研究。右図のような
構造で処理を⾏っており、Temporal Segmentation（動画
特徴のIDTにより異なる動画特徴の際にキーフレームとな
る画像を抽出）を⾏い、抽出された画像に対して画像説明
⽂を⽣成。最後はNLPベースの⼿法により⽂を整える（2
⽂⽬以降、A man => Heにするなど）。
・動画ベースの特徴を⽤いて動画中の画像を抽出すること
に成功、その後に画像説明⽂+NLPによる⽂章の整備
・動画として説明⽂をひとつ⽣成するのではなく、動画中
のシーンの切り替わりに着⽬して⽂章を⽣成するというア
イディア
Links
プロジェクト
ビデオの⼊⼒から、動画特徴が異
なる画像（動画中で変化のあった
フレーム）に対して画像説明⽂を
⾏う。最後にはNLPにて⽂章のつな
がりを考慮して整える。
Montreal, MPII, MS Videoに対する
BLEU値などは右表のとおりであ
る。BLEU4は推定⽂と正解⽂の単
語が4つ続けて正解しなくてはいけ
ないため、⾮常に低い値である。

Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada, “Image Captioning with Sentiment Terms via Weakly-
Supervised Sentiment Dataset”, in BMVC, 2016.
【3】
Keywords: Sentiment Dataset, Image Captioning
新規性・差分
概要
形容詞に着⽬した画像と⾔語表現を⾏った。形容詞に着⽬
してSNSから⽂章と画像を取り出したSentiment Dataset
を⽣成、同データにより学習することで形容詞の表現能⼒
が向上することが判明した。画像やキャプションはFlickr
やDevianArtから抽出、2.5Mの画像、28Mのコメントを含
んでいる。ここから、NLPによる構⽂解析により形容詞を
効果的に抽出。単語の誤りは2.9%しか⾒られなかったと
いう。
・Weak Supervisedにデータを構築し、形容詞に対する表
現能⼒を向上させる画像説明⽂の⼿法を提案した。
・同タスクを解決するSentiment Datasetを提案、⼀般的に
公開している
Links
論⽂
http://www.bmva.org/bmvc/2016/papers/paper053/
paper053.pdf
プロジェクト
上記が提案モデルである。物体認識と画像の雰囲気からその画像や物体を形
容する表現を学習。「〜（形容詞）な＊＊（名詞）」を上⼿に学習した。

Vasileios Belagiannis, Andrew Zisserman, “Recurrent Human Pose Estimation”, in arXiv 1605.02914,
2016.
【4】
Keywords: Pose Estimation, ResNet
新規性・差分
概要
Recurrent（再帰的）な姿勢モデルを提案し、学習や推定
を繰り返すごとに精度が向上するモデルを提案する。この
モデルはPfister[27]（Fusion Layer）やCarreira[9]
（Configuration, Context）の流れを継承している。
順伝播、再帰的モジュール（3層と5層もしくは7層の特徴
マップを結合・⼊⼒）によりネットワークを構成し、再帰
的モジュールではそれぞれ誤差を計算して最適化。
・再帰的なネットワークが、繰り返すごとに向上させて
いく
・End-to-endかつスクラッチで学習可能なモデル、補助
的な誤差関数を追加することで姿勢推定のパフォーマン
スが向上した
・キーポイントの調査⽅法を変更可能？である
Links
著者 http://www.robots.ox.ac.uk/~vb/
プロジェクト
http://www.robots.ox.ac.uk/~vgg/software/keypoint_detection/
提案⼿法。順伝
播・再帰的畳み込
み層を含み、全体
で7層。図中の例
は２回再帰的に繰
り返していて、そ
れぞれで誤差関数
（auxiliary loss）
を計算。
再帰的繰り返し・
追加学習・スケー
ルによるデータ拡
張などにより精度
を向上。MPII
Human Poseデー
タに対しては
Convolutional
Pose
Machines(CPM)と
Competitiveな精度
になった。

Andreas Veit et al., “Residual Networks Behave Like Ensembles of Relatively Shallow Networks”, in
arXiv:1605.06431, 2016.
【5】
Keywords:
新規性・差分
概要
・ResNetの解析論⽂。ResNetはアンサンブル学習と似た
ような振る舞いをしていることを⽰した。
・通常のfeed forward networkは(7)式のように合成関数として
表現できる。それに対しresnetの場合は(5)(6)(7)式のように表
現でき、図bのように考えられる。これは複数のネットワーク
の出⼒を最後に統合しているとみなすことができ、アンサンブ
ルと似たような振る舞いをすると考えられる。実験において
VGGではどの層を取り除いてもエラー率が上がるのに対し、
ResNetでは最初の層を除いてどの層を取り除いてもほエラー
率はほぼ変わらないことを⽰した。
Links

Klaus Greff et al, “NEURAL EXPECTATION MAXIMIZATION”, in workshop track ICLR, 2017.
【6】
Keywords:
新規性・差分
概要
・EMアルゴリズムとニューラルネットワークを組み合わ
せたクラスタリングフレームワークの提案。RNNを⽤いて
ることでデータからその直接統計モデルを学習し、⾮線形
な⼊⼒間の依存関係を表現可能。
・clusterをk, 分布のパラメータをθk,クラスの割り当ての
セットをZと仮定する。θが与えられた際のデータxnの尤度
を(1)式で表す。各データに対し分散固定のガウス分布を仮
定し(2)式で表す。平均はnetworkの出⼒から⽣成される。E-
stepにおいて(2)式を⽤いて事後確率を計算する。M-stepでは
Q関数として(3)式を定義。(3)式を解析的に解くことは困難
であるがfが微分可能であることから最急降下法を⽤いて(4)
式のようにパラメータの更新を⾏う。また、loss関数は(5)式
で定義される。
Links
論⽂ https://openreview.net/forum?id=BJMO1grtl

Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition. 2016.
【7】
Keywords: object detection
新規性・差分
概要
・⾼速かつ⽐較的単純な推定モデルの物体検出⼿法
・通常モデルでは45fps, fast verでは155fps
・画像を7×7グリッドに区切った時のそれぞれの領域での複数の
物体候補矩形, 矩形ごとの物体の有無に関するconfidene, 領域ご
との物体クラス尤度を出⼒
・confideneと領域のクラス尤度の積が⼤きいものを検出矩形と
する
・学習時はgrand truthの物体中⼼が含まれる領域の矩形とクラス
尤度のみを回帰, confidenceは全領域で回帰
・学習の単純化のためにロス関数には全て⾃乗誤差を⽤いる
・従来のregion baseの⼿法は候補領域の抽出と物体識別が
多段に⾏われていたのに対し, ⼀つのCNNに通すだけで物
体検出が完了するため⾼速かつ単純
・sliding window ではなく全体画像からの情報を元に各領
域推定するため⽂脈に強い
Links
論⽂
http://www.cv-foundation.org/openaccess/content_cvpr_2016/
papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

Andreas Geiger, Philip Lenz, Raquel Urtasun, “Are we ready for Autonomous Driving? The KITTI Vision
Benckmark Suite”, in CVPR, 2012.
【8】
Keywords: KITTI, Autonomous Driving Database
新規性・差分
概要
⾃動運転⽤のベンチマークKITTIベンチマーク。同データセットには
LiDAR、ステレオ、GPS、オドメトリなどのセンサ、物体ラベル・位
置・ステレオ・点群データなどの正解値が含まれている。今回は「な
ぜ、KITTIが評価されるか」「どのようにデータセットのアピールを
⾏っているか」について調べた。
・⾃動運転の発展のためにプラクティカルなデータセット
を公開し、さらには評価のためのプラットフォームを提供
していることが評価の対象となった
・データ量や質・アノテーション・タスクのバリエーショ
ンなど豊富である
・タスクが多く煩雑になりがちであるが、全てのタスクに
おいてベースラインを実装して評価を⾏った
Links
論⽂ http://www.cvlibs.net/publications/Geiger2012CVPR.pdf
プロジェクト http://www.cvlibs.net/datasets/kitti/
ベンチマークを考案しただけでなく、評価プラットフォームを作成
したことが⼤きい。さらに、複数のタスク（下に記載）に対応して
いること、データのアノテーションについて詳細に⾏われているこ
と、（それまでのデータとは異なり）総括的に⾃動運転のタスクを
解決するようなデータ構成（歩⾏者のみ、ステレオのみではない）
になっている。
KITTIで提供しているタスク
・ステレオ
・オプティカルフロー
・シーンフロー
・オドメトリ
・物体検出
・物体追跡
・道路⾯認識
・セマンティックセグメンテーション
なぜ、KITTIが評価されるか？

Antonio Torralba, Rob Fergus, William T. Freeman, “80 million tiny images: a large dataset for non-
parametric object and scene recognition”, in TPAMI, 2008.
【9】
Keywords: 80M Tiny Images
新規性・差分
概要
⼼理学的な知⾒に基づいて、32x32[pixel]のカラー画像を膨⼤に収集してデー
タを構成した。データには80M (79,302,017)枚の画像が含まれていて、
WordNetに従い75,062の名詞が割り当てられている。
⼈のシーン認識の能⼒は、256=>32pixelsで7%のみしか落ちないという結果
が出ている。コンピュータにも⼤量の低解像度の画像を学習させることで⼈
のようなアブストラクトな認識ができるのではないか、という発想。
・⼤量の低解像画像を⽤意すれば、シンプル
な特徴においても⼈間のように抽象的な画像
表現が可能であることを⽰した。
・このタスクを解くために、8000万枚もの画
像を⽤意した
・画像枚数が⾮常に多くなれば、Nearest
Neighborのようなシンプルな識別でもかなり
の精度が出せることを⽰した。
Links
論⽂
http://people.csail.mit.edu/torralba/publications/
80millionImages.pdf
プロジェクト
http://groups.csail.mit.edu/vision/TinyImages/
（左）⼈はカラー画像であれば
256=>32pixelsに解像度が下がっても7%
しか精度の現象が⾒られない。しかも、
セマンティックラベルについても推定可
能。
（下）データセットの構成について。
トータルの画像枚数、ワード数、ワー
ドごとの画像数、ワードネットの階層
数など。

Enes Kocabey, Mustafa Camurcu, Ferda Offi, Yusuf Aytar, Javier Marin, Antonio Torralba, Ingmar
Weber, “Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media”, in ICWSM,
2017.
【10】
Keywords: Face Recognition, BMI prediction
新規性・差分
概要
ソーシャルメディアより収集した顔画像とBMIを対応付け、顔画像から
BMI値（Body Mass Index）を推定することができる。データはVisualBMI
project ( http://www.visualbmi.com/ )から抽出、Redditにて進⾏中のダイ
エット(？)の⾝⻑や体重からBMI値(
https://www.reddit.com/r/progresspics/ )の対応付けを⾏う。⼈⼿で画像の
URLと顔画像をクリッピング、2103の顔画像のペア(計4206画像)やその
BMI値を計算。特徴記述はVGG-Faceと回帰モデルに従い、モデルはプロ
ジェクトページにて公開。
・顔画像からBMI値を推定するコンピュータを実現した。
・かならずしも最新の⼿法を提案したわけではないが、
VGG-Faceによる中間特徴や回帰モデルにて⼈間に匹敵す
るレベルのBMI値を推定することができた。
Links
論⽂
https://arxiv.org/pdf/
1703.03156.pdf
プロジェクト
http://
face2bmi.csail.mit.edu/
右の表はHumanと
Face-to-BMIの⽐較で
ある。Humanに匹敵
する精度を達成し
た。

Esteban Real, Sherry Moore, Andrew Selle, Saurabh Saxena, Yutaka Leon Suematsu, Quoc Le, Alex
Kurakin, “Large-Scale Evolution of Image Classifiers”, in arXiv 1703.01041, 2017.
【11】
Keywords: Genetic Algorithm, Deep Learning, CNN
新規性・差分
概要
遺伝的アルゴリズムがディープラーニングのアルゴリズム
を進化させる。進化的にネットワークアーキテクチャを発
展させて識別率が⾼くなるように改善を繰り返す。
PoorなLinear-Modelから開始して、畳み込みの追加、プー
リング、スキップコネクションなどディープラーニングの
あらゆる技を追加して評価、判断していく。
・進化的にディープラーニングの構造を変化させていく概念を提唱した
・パラメータ(Weight)を保存しながら進化・学習する⽅が効率が良いこと
が判明した
Links
論⽂
https://arxiv.org/pdf/
1703.01041v1.pdf
プロジェクト
突然変異の項
⽬は右に⽰す
とおりであ
る。

Roy Jevnisek, Shai Avidan, “Co-Occurrence Filter”, in CVPR, 2017.
【12】
Keywords: Co-Occurrence Filter, Bilateral Filter
新規性・差分
概要
バイラテラルフィルタをベースとしているが、ガウシア
ンによる重み付けの代わりに共起⾏列（Co-occurrence
Matrix）を⽤いることでエッジを保存しつつ物体境界を強
調する。⼆つのパッチのヒストグラムにより共起⾏列を計
算する（式６）。C(a, b)は⼆つのヒストグラムのco-occ.
valueのカウントである。
・バイラテラルフィルタの性質であったエッジ部分を保存
してノイズを除去する効果に⽌まらず、共起性に着⽬した
弱いエッジなどに着⽬した境界部分も抽出することに成功
した。
・評価はIterationごとのMean-Squared-Difference (MSD)
Links
論⽂
https://arxiv.org/
pdf/
1703.04111.pdf
プロジェクト
CoFの例。左側が⼊⼒で、右側が出⼒結果をグレースケールで⽰したもの。
エッジのみでなく、テクスチャの共起関係により重み付けして出⼒。
CoFをカラー画像に適⽤すると256^3 x 256^3の⾏列になり、実利⽤上、⾮
常に⼤きな⾏列になってしまう。そこで、(11)のTをk-meansによりk x kの
⾏列としてピクセル値の階層を削減した。
繰り返しを経るごとにテクスチャが滑らかに、エッジが保存され
ていることがわかる

Li Liu, Fumin Shen, Yuming Shen, Xianglong Liu, Ling Shao, “Deep Sketch Hashing: Fast Free-hand
Sketch-based Image Retrieval”, in CVPR, 2017. (spotlight oral)
【13】
Keywords: Sketch-based Image Retrieval (SBIR), Deep Sketch Hashing (DSH)
新規性・差分
概要
スケッチによる画像検索をバイナリハッシング、特に
Deep Sketch Hashing (DSH)により⾼速化する。⾃然画像
とそのSketch-Token（エッジ部分を取り出したもの）、⼿
書きスケッチとの重みを共有して学習することで、⼿書
きーSketch-Tokenー⾃然画像とドメインを共有することが
できる。DNNの出⼒にはHash値が割り当てられ、その後
Pairwise LossやFactorization Lossを計算してスケッチか
ら画像を検索できるようにする。
・初めてカテゴリレベル、End-to-Endの深層学習を可能と
した
・TU-BerlinやSketchyデータセットにおいてstate-of-the-
artな性能を実現
Links
GitHub https://github.com/ymcidence/DeepSketchHashing
プロジェクト

Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN”, in arXiv 1703.06870, 2017.【14】
Keywords: Mask R-CNN, Object Detection, Semantic Segmentation, Instance Segmentation
新規性・差分
概要
物体検出とセマンティックセグメンテーションの統合により直感的にはインスタ
ンスセグメンテーションを実⾏する「Mask R-CNN」を提案する。Mask R-CNNは
Faster R-CNNの改良版として位置付けられ、同様に2ステップ（F R-CNNでは
RPNとクラス識別）から構成される。右図はMask R-CNNのアーキテクチャであ
り、候補領域の抽出後はクラス識別とピクセルのセグメンテーションを並⾏して
⾏う。テストは200ms/image、学習は8GPUで1~2⽇程度。ROIの誤差関数は”L=
L_cls + L_box + L_mask” (per-pixel sigmoid, binary loss)により計算。
右はインスタンスセグメンテーション
（上）や物体検出（下）@MS COCOの結
果である。ResNet-101-C4, -FPN,
ResNeXt-101-FPNなど異なるアーキテク
チャでの⽐較も⾏った。いずれも
MSCOCOにてstate-of-the-art。最後には
PoseEstimationタスクにも適⽤。
Links
プロジェクト
著者 http://kaiminghe.com/

Tao Chen, Zhe Zhu, Ariel Shamir, Shi-Min Hu, Daniel Cohen-Or, “3-Sweep: Extracting Editable Objects
from a Single Photo”, in SIGGRAPH, 2013.
【15】
Keywords: Photo Modeling, Retouch
新規性・差分
概要
3回のマウス操作（ドラッグ）のみで2D画像の⼊⼒から
エッジ検出、ボリュームの抽出、物体除去や再利⽤・イン
ペインティングも可能。複雑な物体に対しても効果あり。
物体を抽出したあとは拡⼤縮⼩、回転操作やコピーなどが
できる。
・簡単な操作のみで2D画像中の物体をボリュームとして
抽出し、除去してシームレスに背景をインペイントした
り、コピーなどの操作が可能。
・動画をみるとわかりやすい。
Links
論⽂
https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwjym46gnPjSAhWEv7wKHdXXAVkQFggfMAA&url=http%3A%2F
%2Fprojects.collide.info%2Fsvn%2Fhr3dprinting%2FAssignment%2520Description%2FSIGASIA-2013-3sweep.pdf&usg=AFQjCNEVBuv4uQo7kaghM7kPAictt7O-
LA&sig2=YAsGFhlOG-RIPeq5cGoeVQ
YouTube https://www.youtube.com/watch?v=Oie1ZXWceqM

Edgar Simo-Serra, Satoshi Iizuka, Hiroshi Ishikawa, “Mastering Sketching: Adversarial Augmentation for
Structured Prediction”, in SIGGRAPH, 2017.
【16】
Keywords: Rough Sketch, Adversarial Nets
新規性・差分
概要
ラフスケッチの⾃動線画化に関する技術。右図は従来法との⽐較であり、左が
⼊⼒、中央左が[Favreau et al. 2016]による線画化であるが、パラメータチュー
ニングを⾏ったとしても⽋損が⽬⽴つ。中央右の[Simo-Serra et al. 2016]につ
いては余分な線が残ってしまう。右の提案⼿法ではより過不⾜なく線画を捉え
ることに成功した。GANに似たようなフレームワーク（線画をシンプルにする
ネットワークと識別を⾏うネットワーク）で学習することで、シンプルにしつ
つも必要な情報を残すことができる。また、教師が付与されていないデータに
ついても追加学習ができるようになったことで精度が向上した。誤差関数には
隣接する画素の差分ではなく、グローバルに誤差計算できるようになったた
め、教師なしでも誤差が計算できる。
・敵対的ネットワーク（識別と簡略化を同時に⾏う）により、
簡略化しすぎることなく線画を⽣成することができる
・教師ありでも教師なしでもラフスケッチと線画のペアから誤
差関数を算出可能となったことで、学習データを⼤量に増やす
ことができる
・⼀枚の画像における学習でも、性能が向上する
・線画と鉛筆スケッチ、相互に変換可能である
Links
プロジェクト
http://hi.cs.waseda.ac.jp/~esimo/ja/research/sketch/
逆変換（線画から鉛筆ス
ケッチ）も可能となっ
た。

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, “Realtime Multi-Person 2D Pose Estimation using
Part Affinity Fields”, in arXiv 1611.08050, 2016.
【17】
Keywords: Pose Estimation, Part Affinity Fields
新規性・差分
概要
2D姿勢推定の決定版とも⾔える⼿法であり、ベクトル場により画像
と解剖学的な関節位置を対応付け⾼精度かつ⾼速(10fps)な姿勢推定
を実現した。提案モデルは関節位置やその関係性を記述するモデルで
ある。
・MS COCO 2016 keypoints challengeやMPII Multi-
Person benchmarkにおいてstate-of-the-artなパフォーマン
ス（その上リアルタイム）
Links
コード https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation
デモ https://www.youtube.com/watch?v=pW6nZXeWlGM
著者 http://www.andrew.cmu.edu/user/zhecao/
関節位置を推定（confidence maps）し、PAFを計算。PAFに関しては相対的
な位置関係やベクトル⽅向まで把握して最終的な姿勢位置や複数⼈のインタ
ラクションを考慮した出⼒を⾏う。

Fujun Luan, Sylvain Paris, Eli Shechtman, Kavia Bala, “Deep Photo Style Transfer”, in arXiv pre-print
1703.07511, 2017.
【18】
Keywords: Style Transfer, Photo Transfer
新規性・差分
概要
それまでの画⾵変換は絵画に対して⾏われていたが、本論
⽂の提案ではリアルな写真どうしにおいて相互に変換がで
きるアプローチとした。絵画の際には歪みがあったとして
も抽象的な絵として受け取られていたが、リアルな写真で
は歪みが⼤きな影響を及ぼしてしまう。Photorealism
regularization（式4のL_m）を提案して局所的なカラーア
フィン変換の整合性をよくして歪みを防ぐ。
・⾊空間に強い影響を受けてリアルさを失うので、制約を
設けて⾃然に合成するようにしたことで、写真の画⾵変換
にも適⽤可能とした
・似ている画素同⼠を対応づけることでよりリアルな絵を
⽣成できる。建物-建物、空-空の領域など、意味が同じ領
域どうしが結合しやすくする（style distributionを把握した
上で変換を⾏う。これにはGram matrixがが使⽤される）
Links
論⽂ https://arxiv.org/pdf/1703.07511v1.pdf
プロジェクト
https://github.com/luanfujun/deep-photo-styletransfer/

Yuting Qiang, Yanwei Fu, Yanwen Guo, Zhi-Hua Zhou, Leonid Sigal, “Learning to Generate Posters of
Scientific Papers (by Probabilistic Graphical Models)”, in AAAI, 2016 (arXiv pre-print 1702.06228).
【19】
Keywords: Generative Model, Poster from Papers
新規性・差分
概要
学術論⽂（Papers）から学会発表⽤のポスターを⽣成しよ
うという試み。グラフィカルモデル、特にベイズ推論を⽤
いてデザインを⾃動で設計した。（１）コンテンツの抽
出：論⽂からの情報抽出（2）パネルレイアウト：コンテ
ンツをレイアウトにフィットさせる（3）図やテーブルの
配置：配置をうまいこと設定する。
・学術的な論⽂からポスターを⾃動⽣成するという初めて
の試みを実⾏した
・NJU-Fudan Paper-Poster dataset（論⽂と正解値として
ポスターの対応がつけられているデータ）を構築した
・右図は提案法によるポスター⽣成と実際に作成したポス
ターの⽐較である。
Links
論⽂
http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/
viewFile/11979/11563
ジャーナル版 https://arxiv.org/pdf/1702.06228.pdf
プロジェクト

Limin Wang, Yuanjun Xiong, Dahua Lin, Luc Van Gool, “UntrimmedNets for Weakly Supervised Action
Recognition and Detection”, in arXiv 1703.03329, 2017. (accepted by CVPR2017)
【20】
Keywords: Weakly Supervised Learning, CNN, Action Recognition, Action Detection
新規性・差分
概要
時間的なアノテーションが与えられていない状態で⾏動認
識モデルを学習するWeakly Supervised Learningをするた
めのUntrimmedNetsを提案した．Untrimmed Videoから
複数のClipを抽出し，Clipごとに特徴抽出する．Clipごとに
Classification Moduleで各クラスの識別スコアを算出し
た後，Selection Moduleで識別スコアに基いて⾏動インス
タンスを含むClipを選択することで映像全体のラベルを決
定する．Strong Supervisedな⼿法と⽐較しても⾼い精度を
達成した．
時間情報に関するラベルを⼀切⽤いないWeakly
SupervisedなAction Recognitionという問題設定を提案．
そして，それをUntrimmedNetsによりEnd-to-Endな学習を
可能にしている点に新規性がある．Weakly Supervisedだ
と精度は劣るケースが多いが，この論⽂では⾼い精度も実
現している点でインパクトが⼤きい．
Links
プロジェクト
認識精度
検出精度

XiaolongWang, Ali Farhadi, Abhinav Gupta, “Actions ~ Transformations”, in CVPR, 2016.
【21】
Keywords: Action Recognition, Siamese Network, Cross-category
新規性・差分
概要
単純なAppearance, Motionによる表現ではなく，明⽰的な
変換として⾏動を定義する論⽂．Preconditionを⾏動前の
状態，Effectを⾏動後の状態として定義し，⾏動を
PreconditionからEffectへの変換として定義している．⼆⼊
⼒を受け取るSiamese Networkを利⽤してこの定義に沿っ
た表現を実現．単なる認識問題だけでなく，学習していな
い⾏動に対する汎化を評価するためのCross-category
generaliztaionという問題を設定し，データセットも公開し
ている．
・⾏動を変換して定義している点が新しい．Siamese
NetworkによりEnd-to-Endな学習も実現できている
・Cross-category generalizationという問題も新たに定義
している．あるsuper classの中の⼀部のsub classを学習し
て，残りのsub classでsuper classを認識できるかをテス
ト．
Links
論⽂ http://www.cs.cmu.edu/~xiaolonw/papers/precondition_effect_CVPR16.pdf
プロジェクト http://www.cs.cmu.edu/~xiaolonw/actioncvpr.html

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2017.03】cvpaper.challenge2017

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 【2017.03】cvpaper.challenge2017

Ähnlich wie 【2017.03】cvpaper.challenge2017 (20)

【2017.03】cvpaper.challenge2017