CVPR2018 参加報告(速報版)2日目

CVPR2018参加報告(速報版)
2日目
京大助教→OSX(研究職に就職しました!!)
橋本敦史

使用上の注意
• これは橋本のメモ資料です．いわば「チラシの裏」です．この資料を
見てなんじゃこりゃと思われたかたには大変申し訳ありません．
（参考）もっと素敵な資料がCVPR Challengeから出ています
• 本スライドはチラ裏ですが，以下はまんま「チラシ」です．
• 弊社ではインターン生を募集しております．東京から遠隔にお住まいの方で
も長期休みを利用してフレキシブルにインターンしていただけます．東京に
お住まいの方でも，週に数回など，授業・研究の合間に働きながらスキルを
身に着けていただけます．
詳しくはこちら(怪しいURLですが，弊社のスタートアップ感の迸りです)

さらにチラシ
• 関西CVPRML勉強会，および，関東CV勉強会でも発表します．
• 関西CVPRML勉強会→self supervised learningを斜め読みします．
• 静止画に対する手法と動画に対する手法を始め，CVPR2018でSelf-supervised,
Unsupervisedと書いてある奴はできるだけ網羅したい．
• ただし，時間の都合で端折るものはあるかも．
• 関東CV→検討中．Graph Matchingかなー．論文読んで完璧に理解できれ
ば．

2日目朝のセッション(Session 2-1B)
• Machine Learning for Computer Vision III

Efficient Optimization for Rank-Based Loss
Functions, P. Mohapatra, et. al.
• rankingを学習するとき，lossどうする？ 0-1 loss? Average
Precision (AP)-loss? NDCG-loss?
• いや，Rank-based lossを使おう！0-1 loss程度に高速でNDCG-lossより精
度良い！
• すみません，rankingのlossに関する基礎的知識が不足していて
落ちました．
• 計算量はO(PlogP+NlogP+PlogN)≒O(NlogP)
• Dataset: Pascal Action dataset, Pascal VOC2007
• Pascal VOC2007: 精度は7%くらい向上．
• CIFAR-10: 精度は1%くらい(?)向上
Oral

Wasserstein Introspective Neural Networks,
K. Lee, et. al.
• 一つのCNNで(Generative Modelなしに)画像生成したい．
→ 従来: Introspective Neural Networks (INNs)
• cascades(INNの場合10-60)を1-5に減らしたい．
• Wasserstein Distanceがより安定した勾配を出すという報告
(ICCV2017)
• I have a Wasserstein distance, I have an INN, hmm, WINN!
• INN: ニセのnegativeを生成→neg-pos 判定を学習→得られたpos領
域の中でニセのnegativeを生成→繰り返す→positive領域だけで
サンプルを生成できるようになる (INN?)
• これをWasserstein lossと gradient penaltyでやる．
• まだGANのSOTAには劣るが，結構いい感じに生成ができた．
Oral

Taskonomy: Disentangling Task Transfer
Learning, A. R. Zamir, et. al.
• Vision Problemsには互いに関連がある．Task Transferの可能性．
• 計算論的に近さを測る!
→ fine-tuning時の精度向上幅によりAffinity Matrix(AM)を作成
→ 得られたAMをAHPという手法で正規化．
• 全task間の距離がわかれば，taskが分布するgeometryが得られる
→未知のタスクに対して，少数のサンプルで良いpre-training用
のタスク(の組み合わせ)が推定できる！
• Task Bank: 26 semantic, 2D, 3D, and tasks
• 全部pre-training済み，距離も評価済み→ 47,829 gpu時間かかる
• http://taskonomy.vision/api/
Oral, Best Paper
CVPR2018にてTaskonomyに
あるtaskを利用したself-supervised,
multi-domain系は全滅．

Maximum Classifier Discrepancy for Unsupervised
Domain Adaptation, Kuniaki Saito, et. al.
• CGとRealの間のUnsupervised Domain Adaptationは大事．
• Source Domainはlabel-rich
• Distributionを合わせていく，という従来手法がベース
• Problem
• 分布を合わせても識別境界付近で怪しくなる．
• Task specific Classifier (識別境界をモデル化したもの)を共有する
• Nクラス識別だとN(N-1)/2個のClassifierが必要で大変そう??
• Dataset (A->B): SVHN > MNIST, SYNSIG > GTSRB, NMIST> USPS,
MNIST* > USPS*, USPS > MNIST
• Semantic Segmentationでも実験，比較手法: DANN
Oral

Unsupervised Feature Learning via Non-Parametric
Instance Discrimination, Zhirong Wu, et. al.
• Clustering? Generative Modeling? Self-supervised?
• どうやってsemantic featureを得るの？
• どうやってclass labelを得る？
• Instance discrimination
• Memory Bankに全サンプルの特徴を保存
• ちょっと他のこと思考していて落ちました．
• 46.5%を達成． Split Brain(リンク先の奴ぽい?)に勝った
Spotlight

Multi-Task Adversarial Network for
Disentangled Feature Learning, Y. Liu et. al.
• Disentangled Feature Learning
• Style Labelに対して，識別できない，というAdversarial Lossを与え
る
• Style indicatorをconditionとすることで，Style変換ができるDecoder
を与える
• これで，Style-freeなEmbeddingができる．
• 図をみた方が簡単に理解できます．
Spotlight

Learning From Synthetic Data: Addressing Domain Shift
for Semantic Segmentation, S. Sankaranarayanan, et. al.
• Adaptation for Semantic Segmentation
• Domain ShiftをGAN使ってやる.
• ほとんど記憶に残っていないが，この2行で終わりだと思う．
Spotlight

Empirical Study of the Topology and
Geometry of Deep Networks, A. Fawzi, et. al.
• 識別境界の形を知りたい．
• 基本的に滑らか．というか滑らかさと汎化性能はめっちゃ関係ある←当た
り前?
• リアルイメージとAdversarial イメージだと，識別境界付近での振
る舞いに対して，経験的に傾向の違いがあるようなことを言って
いた？
• 理由がわからないが，理由はそもそも説明されていない>Empirical Study?
Spotlight

Boosting Domain Adaptation by Discovering
Latent Domains, Massimiliano Mancini, et. al.
• Multi-domain alignmentで，ドメイン認識する．>80%くらいを達成
(sketchだけ75%)
• dataset: PACS Office-31
• Domain Adaptationがboostされた…のか？
Spotlight

Shape From Shading Through Shape Evolution,
Dawei Yang, et. al.
• Shapeを合成して，学習データ生成に使えないか？
• 仮定として，shape → CG rendering → 学習，を意識．
• primitiveなshapeの組み合わせで偽物のデータを生成→識別器は本
物かどうか識別．
• 組み合わせ方を変えて，本物ぽくしていく(GAN的アプローチ，生
成器はprimitive modelを組み合わせる)．
• 実物の方の形状をshape from shadingで獲得する必要あり??とする
と，余計大変になってない？？？その辺がわかっていないかも．
Spotlight

Weakly Supervised Instance Segmentation
Using Class Peak Response, Y. Zhou, et. al.
• webvisionというデータセットがある?
• weakly supervisionによる領域分割の学習において，画像内に同じ
種類のインスタンスが複数ある場合，学習が難しい
• 例えば，スズメがたくさんいるシーンなど，
• response mapからvisual cuesを見つける > Peak Response Map
• 従来手法でそれくらいやっていないのか…？
Spotlight

Collaborative and Adversarial Network for
Unsupervised Domain Adaptation, W. Zhang
• Domain Invariantな特徴を抽出できるようにしたい．
• Domain Adversarial Loss < 今回，これ系めっちゃ多い．
• Pseudo Labeled Target Domain samples<これがどう生成されて，ど
う効いているのかよくわからない.
• Dataset Office-31 / ImageCLEF
Spotlight

Environment Upgrade Reinforcement Learning for
Non-Differentiable Multi-Stage Pipelines, S. Xie et. al.
• Multi-stage pipeline (openpose, Mask R-CNN)
• 物体検出→Semantic Segmentation
• End-to-endで学習できない?←そうだっけ？？そうかも！
• OpenPoseは最後にbone modelの探索をする
• Mask R-CNNは矩形毎に改めてSemantic Segmentationをする．
• Proposal(関節位置&向き or Region Proposal)ができたら，そこから
先はAgentがactionとして探索→良い出力にたどり着くようにする．
• ポリシーの上流がopenposeや Mask R-CNN, それらの出力が探索のための
actionの決定に直結→End-to-End!
Spotlight

Teaching Categories to Human Learners With
Visual Explanations, Oisin Mac Aodha, et. al.
• アノテーター(人間)にクラスを教える方法（人の訓練方法）
• どう画像の例を定位jするか．
• すでに正解がいくらかは与えられている状況を想定?
• その上で，どの正解を見せて訓練する?
→ 識別境界から離れた「easy pair」を見せる，など．詳細聞き逃し…(汗
• iNaturalistを利用，あと漢字と．Amazon Mechanical Turkで実験．
• 人が付けたラベルの精度，ベースライン(詳細不明だが，例示な
し？でもそれだとずるい？)だと分布の山が精度40%くらい
• 提案手法はピークが100%のところに来ているけど，それって差がありす
ぎるような…比較になってるの？
Spotlight

Break！
ウルグアイ v.s. サウジアラビア

ここからポスターセッション
• Finding Beans in Burgers: Deep Semantic-Visual Embedding With
Localization
• 目標: 自然言語で指定された物体の領域へのAttentionを生成する．
• 画像とテキストをそれぞれ特徴空間にEmbedする
• それぞれの特徴の組に対して適用するlossを提案．詳細わすれてしまいました…
• Adversarial とか Disentangling とかではなかったので，印象に残ってたのに…
• Feature Super-Resolution: Make Machine See More Clearly
• 画像ではなく，特徴マップに対して，super-resolutinをする，つまり，
より解像度の高い画像から得た特徴を生成するようにする．
• これって，どっちかというと蒸留の一種では？と思ったり．GAN付き
の蒸留．

• Knowledge Aided Consistency for Weakly Supervised Phrase
Grounding
• 物体領域ごと，物体名などは学習済みの状態で，そういった単語レベ
ルの対応付けを手がかりにフレーズの対応付けをする?
• そろそろ脳内HDDが一杯になってきたのか，覚えてない．
• ネットワークは結構ややこしい形状．
• こういうのは解けるときは非常にシンプルにとけると思われる．
• Who Let the Dogs Out? Modeling Dog Behavior From Visual Data
• 犬人称視点動画
• 犬の行動=camera motionをforecastするモデルを学習．
• 犬は人間の良いパートナー = 良いAgent ≒ドラえもん?
• Data Distillation: Towards Omni-Supervised Learning
• Soonって書いてあった，私が聞きに戻るの忘れた = privately no show?

• Long-Term On-Board Prediction of People in Traffic Scenes Under Uncertainty
• On-Board = bounding boxの中にいるかどうか，ということかな?
• 次のフレームでどこにその人がいるかを予測．
• Uncertaintyだからgaussianに時間発展?
• Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval
• 複数のModalityに対して，Encoderを学習
• Embedded featureはModalityが識別できないようにDiscriminator + Adversarial Lossをか
けられて学習される．
• 大分，Cross-modalなEmbeddingの手法が完成してきた印象.
• Learning to Localize Sound Source in Visual Scenes
• 音と画像の共起を使って，画像中の音源推定
• 道路が音を立てる，と判定．
• Objectnessは考慮してない？
• 音がならないときのサンプルからnegative方向へのfeedbackすることは原理的に難しいかも．

• Generative Adversarial Perturbations
• 昨年のPertubationsを作るgeneratorを状況に応じて細かく分けたような話．
• カテゴリspecific, 画像specific，…．
• Image to Image Translation for Domain Adaptation
• これもDomainが区別できないようにAdversarial Loss + AEwithGAN
• Source DomainもdecoderがついていてAEのloss (reconstruction loss)が計算されていた
→精度向上以外に必要な理由があるのか不明だったので著者に聞いた
→えーと，と考えた後で，embeddingをloss-lessにしたかったから，との回答．や
はり，情報欠損を少なくして精度の向上ということでOKかな．

昼休み！めっちゃ人が多い！

昼休み！めっちゃ人が多い！
スペイン v.s. イラン

• A Twofold Siamese Network for Real-Time Object Tracking
• 人が多かったのでさっとスルーしましたが，追跡モデルのon-line学習に
Siameseを使う的な話かな?
• Occlusion Aware Unsupervised Learning of Optical Flow,
• 無人だったの&文字が超絶多くて論文2ページ分くらいあったので，パス．
• RotationNet: Joint Object Categorization and Pose Estimation Using
Multiviews From Unsupervised Viewpoints
• 物体を色々な角度から撮影していくと，evidenceが溜まって精度が向上す
るようにしたもの
• view angleを離散化し，view angleとobject categoryを同時に推定することで，
angle毎に特徴量を貯めていく(未観測の場合の特徴量が設定されていて，
特徴量の長さはM(N+1)なのかな？ (Mはview, Nは単独視点での特徴量の長
さ)
• プロジェクトページ https://kanezaki.github.io/rotationnet/

• Optimizing Filter Size in Convolutional Neural Networks for Facial Action
Unit Recognition
• 同じ層に対して，異なるフィルターサイズからなるConv層で学習すれば，
フィルターの差分から，フィルターサイズ方向の微分が可能になるので，
それを使って，フィルターサイズも学習時に最適化する，という話．
• 結構力技に思える…大きいフィルタで学習しておいて，逆伝播時にフィル
タの中心のloss weightを大きくするとかしたら，周辺は不要なら枝刈りで
きたりするのではないかとか，色々．どうなんだろ?
• Ring loss: Convex Feature Normalization for Face Recognition
• Cos距離最適化とかだと，学習後，原点から放射状にサンプル点が分布．
• 原点から離れるほど分散が大きいなどの問題．
• L2-正規化特徴量のクラス内分散と半径Rの球面からの距離を最小化すると
ちょっと精度が良くなる．

• PoseTrack: A Benchmark for Human Pose Estimation and Tracking
• ICCV2017でやったWorkshopで作成したデータセットに対するBenchmarkの
論文．
• 色々なタスクの正解データが付けられている．
• なんか，Taskonomyでもカバーされているものが多そう?
• Exploit the Unknown Gradually: One-Shot VideoBased Person Re-
Identification by Stepwise Learning
• Convolutional Sequence to Sequence Model for Human Dynamics
• Pose forecasting
• Long Term Enc. と short term enc.を用意．1フレーム生成しては，その生成
結果をshort term enc.の入力に継ぎ足して，次のフレームを生成するよう
な構造．入力も出力もボーンモデルだから未来になってもあんまり入力が
ボケないのでうまくいくのかな？画像だったらreconstruction errorが大きく
て使えなさそうな気がするが，アプローチは納得できる．

• CosFace: Large Margin Cosine Loss for Deep Face Recognition, Hao Wang,
Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, Wei
Liu
• Cosign距離でlossを計算するときに，クラス感距離にマージンをつけるといいよ，
という話．
• 発想としてはSVMでのマージン最大化に近いのかな．まぁ，妥当．
• Encoding Crowd Interaction With Deep Neural Network for Pedestrian
Trajectory Prediction
• Social GANとかの話．Location Enc. と Motion Enc. を分けて2streamにし，後で合流
させると良いらしい．Motionを位置不変で学習すると探索空間が狭くなるから，
かな?
• Learning Latent Super-Events to Detect Multiple Activities in Videos
• 動作のtemporal localization
• 動作特徴から得られるスーパーイベントの尤度をガウスカーネルで(?)平滑化し，
近傍の平滑化結果を入力としてさらにエンコード = 時間コンテキストに関する特
徴になる．
• これを元の動作特徴とともに入力に加えることでActivitiesを識別．
• まずサブイベント(=Activities?)を出そうと思うところを，もっと曖昧なスーパーイベント
を出すことで解決している？？？
• 質問してみたがSuper Eventの心が全然わからなかったので残念…

• Human Appearance Transfer
• 初日の朝にSpotlightかoralかで発表があったものの連作．
• 体の三次元形状を点群で獲得．部位ラベルも獲得→別人が取っている姿勢
に変換！
• 点群と部位ラベルから，元の人物をその姿勢へTransfer!
• Good View Hunting: Learning Photo Composition From Dense View Pairs
• この間，映画のタイトルをもじった研究名を考えて思いつかなかったのに，
ここに一つ合ったから載せてみた．発表は聞いてないです，すみません．
• Independently Recurrent Neural Network (IndRNN): Building a Longer
and Deeper RNN
• めっちゃシンプルだけど，面白い！
• 要するに時間発展時の隠れ層の値の更新において，隠れ層のうち，自分以
外のノードとの依存関係を0にする(独立に再起)→重みが分散しないので，
より長期の予測が可能に！隠れ層に全結合なんていらんかったんや！的な
論文．確かに前後に散々複雑なネットワークがあるし，入力信号に対して
は非独立だから，これでいいかも．
• 実装: https://github.com/Sunnydreamrain/IndRNN_Theano_Lasagne

• Between-Class Learning for Image Classification
• 音声分野であるBetween-Class Learningを画像に適用
• 色を足し算しても意味ないから音声同様周波数領域での足し算
• 猫 0.7 犬 0.3の割合などで生成し，その割合をそのまま正解とした学習
• 結局畳み込みなんだから周波数領域で足し算すれば十分?
• 非常に手軽．
• 例えばGANじゃ駄目なんですか？というつまらない質問を原田先生にして
しまって，後悔しています…．GANできるくらい学習データあったら，こ
んなことしない．そりゃそうか．
• Joint Optimization Framework for Learning With Noisy Labels
• ノイズありありのデータセットでもできるだけ高い精度を出せるように私
用，という話．
• 得られたカテゴリの分布の重なりがなくなるようなlossを使う
• Geometry Guided Convolutional Neural Networks for Self-Supervised
Video Representation Learning
• Taskonomy論文で倒された典型的な論文では？

• Dimensionality's Blessing: Clustering Images by Underlying Distribution
• これもめっちゃ面白い．阪大松下研の論文．
• ☓次元の呪いで距離に意味がなくなる
• ○次元の呪いで同一カテゴリの分布がめっちゃきれいな球の平面に分布す
る．
• Affinity Matrixのi番目の行=i番目のサンプルと他のサンプルとの距離．
• めっちゃ距離が一定(しきい値固定)の集合をGreedyに抽出
→それだけですごく良いクラスタリングが完成．
• Spectral Clusteringだと，他のクラスタのサンプルとの位置関係とかまで入ってくるけ
ど，そんなのは本来重なっていない（せいぜい薄皮が交わるだけの)分布によるノイ
ズだから見る必要すらない，という発想．
• これって，十分な数のデータがないと辛かったりしそう．逆に数が多いと
メモリがNxN必要なだけに，それも辛そう
→クラスタリング部分がgreedyでもOKだから，小手先のテクニックで解決
できそうな雰囲気もあるけど．

• Eliminating Background-Bias for Robust Person Re-Identification
• No show
• Human-Centric Indoor Scene Synthesis Using Stochastic Grammar
• 多分，ドン引きするほど家の家具配置のデータがあって，ドン引きするほ
ど確率的にそれらを生成するモデル(依存関係)がhand-craftされている．

2日目午後のセッション(Session 2-2A)
• Video Analysis

Im2Flow: Motion Hallucination From Static
Images for Action Recognition, R. Gao et. al.
• 1枚の画像からOpt. Flowを予測→静止画でもtwo-stream!
• もちろん，動画からself-supervisedで学習は可能．
• 出力を3ch を sin, cos, Magnitudeとしたり，色々細かく苦労して
いるみたい．
• 論文にあまり無かった(?)情報として，背景がdiverseだと上手く
いかない．
• 人とかkineticな制約が強い物体でないとappearanceからmotionを予想で
きない？
• Appearance + Motionで2%くらい上がったかも．
Oral論文既読

Finding "It": Weakly-Supervised Reference-Aware
Visual Grounding in Instructional Videos, D. Huang, S.
Buch et. al.
• 教示ビデオの映像と文章から，名詞が以前の教示文のどの指示
の結果に対応するか & name entityに対応するbounding boxを特
定する&name entityが過去のどの文章(Action)に対応するか，を
求める．
• 前者: image grounding / 後者: reference resolution
• Action側→ここの教示文をLSTMに→各教示文のLSTMの結果を
LSTMに．各教示文の出力→教示文のembedding
• もう一つ，name entity > action embedding
• Dataset YouCook2 Dataset, RoboWatch
• 精度は26%くらい．
Oral論文既読
ずっと取り組んできたネタの最終型と思ってたのに彼らの方が
ずっと進んでいるのが悔しい… 昨年の発展バージョン

Actor and Action Video Segmentation From a
Sentence, K. Gavrilyuk et. al.
• 従来: 動作集合，Bounding Box (BB), 動作主体(人間限定)を出力
• 提案: 文章, 時空間領域分割, 動作主体(人間に限らず）を出力
• Image segmentation from a sentence → video segmentationへ
• Actor-action video segmentation
• Kalogeiton et al. ICCV17, “Joint actor-action detection …”
• 文章が付与されたDataset: A2D sentences, J-HMDB Sentences
• Video encoder: KineticsとImageNetでpre-trainされたI3Dを利用
• Textual Encoder Word2Vec is pre-trained on ???←メモをし損ねた
• decoding with dynamic filters (dynamic filterとはなんぞや??)
• かなりいい感じにできているように見えるが，failure caseも当然沢山
ありそう．
Oral

Egocentric Activity Recognition on a Budget,
Rafael Possas et. al.
• smart-glassesは十分に小さいバッテリーを持ってない，など，
制約が多い．
• visionとsensor,どっちを使う？そのばその場で決めたほうがバッ
テリー節約できる．
• 強化学習でactionは下記のどちらのモデルを使うか，rewardは電
力最小化と精度(重み付き).
• motion predictor
• vision predictor
• 強化学習使っただけ，とも思える…．手法の誤差をrewardとす
るフレームワーク自体は一般的なので，汎用性は高そう．特に
携帯などでは．
Oral

CNN in MRF: Video Object Segmentation via Inference
in a CNN-Based Higher-Order Spatio-Temporal MRF, L.
Bao et. al.
• 最初のフレームにsegmentationが与えられて，残りを全部やる，
という問題設定
• CNN in MRF
• ちょっといくらなんでも説明が足りない気が．
• CNNの出力をMRFで平滑化するってこと？
• 特徴量の類似性に従って平滑化項を入れる．
• 推定ではMRFを最適化するのにICM algorithmで近似．
• マスクを与える(data項に対応?) →3フレーム目以降は前のフ
レームの出力をマスクとする．最初のフレームに対するマスク
はgiven.
Spotlight

Action Sets: Weakly Supervised Action Segmentation
Without Ordering Constraints, A. Richard et. al.
• weak supervision: segmentがない, Action class setが与えられてい
る状況 (Actionの順番すらない!)
• どうやってframe毎のclass probabilityを学習する?
• クラスに対するpoisson distributionを仮定.
• ちょっと数式おいきれない…
• 理解しようとするなら論文読まないとだめですね．
• いや，ネットワーク構造みたら終わるDeepの研究に慣れちゃ駄目だ！
Spotlight

Low-Latency Video Semantic Segmentation, Yule
Li, Jianping Shi, Dhaka Lin
• Key-frameとそうじゃない場合で処理を分ける > low-latency
• Key frameでは画像からガッツリConvolutionを取ってくる．
• i-frameでは直前の時刻からの差分(特徴量に足し込む分)を抽出
(足し込むことが時間発展と等価になっている)
• Adaptive selection of Key frames:
• 外れてきている(deviation)と思われたらkey frameを挟む．
• どうやってdeviationの程度を測るのかは，この発表では不明?
Spotlight

Fine-Grained Video Captioning for Sports
Narrative, Huanyu Yu et. al.
• 3ポイントシュート，とか，細かい表現が増えているデータ
セットを作った．
• Contribution
1. Fine-grained Sports Narrative dataset (FSN dataset)
> 15000 sports HD videos, timestamps, fine-grained narration,
segmentation
2. Fine-grained Captioning Evaluation (FCE)
3. New networkの提案
• Spatio-temporal entity localization
Spotlight

End-to-End Learning of Motion Representation
for Video Understanding, Lijie Fan et. al.
• Two-streamの手法→ two stage learning →End-to-Endにしたい！
• Optical Flow Optimization: TV-L1 algorithm
• HMDB51 UCF101, それぞれ57.5%, 85.5%
Spotlight

Compressed Video Action Recognition, C. Wu
et. al.
• Videoは冗長，無駄にでかい！
• 圧縮したビデオを直接，Deep Networkに突っ込む！ ←以前に「それ誰
かやらない？」ってTweetしてた人がここにいます．やってくれてあり
がとう．
• keyframeからresnetでフルの特徴を取ってくる．I-frameでは
keyframeで得た特徴の差分を18層のresnetで学習する．
• CoViAR code is available online!
• https://github.com/chaoyuaw/pytorch-coviar
Spotlight

Features for Multi-Target Multi-Camera Tracking
and Re-Identification, Ergys Ristani, Carlo Tomasi
• weighted triplet loss
• よく使うのは hard triplet loss
• ICCV2017の手法の話聞いて，重み付きにしたら良いって思って
たら，二日後に重み付きの手法に出会った．
• 最近，こういうこと多い．
• つまり，hard以外を全部捨てるのがもったいないっていう貧乏性な発
想ですよね，わかります．
• ablation experiments: ablationって何?切除?切除実験?
• データセット: DukeMTMC
Spotlight

AVA: A Video Dataset of Spatio-Temporally
Localized Atomic Visual Actions, C. Gu et. al.
• AVAは新しいデータセット．
• Person-centric Actions
• 80 Atomic Actions in AVA
• Baseline Performance
• I3Dぽいやつ，J-HMDBなら76.7%だがAVAだと15.6%
• これ，チャレンジしたい人，絶賛募集したい．
Spotlight

Who's Better? Who's Best? Pairwise Deep
Ranking for Skill Determination, H. Doughty et. al.
• Skill Determination Problem
• 一対比較法でどっちが上手かをラベル付
• めちゃんこデータいるやんけ..．
• 教示付きpairに対して，segments→snippets → Network →
Pairwise rankingとpairwise similarity．
• similarityは優劣をぼかすことができるので，ラベルの曖昧性をハンド
リングしてる？
• Dataset: Epic Skills Dataset
• 一緒にこんなん見つけた: Epic Kitchen Dataset
Spotlight

MX-LSTM: Mixing Tracklets and Vislets to Jointly
Forecast Trajectories and Head Poses, I. Hasan et. al.
• people velocity と head poseから trajectoryを予測
• 歩きながらちらちら横を見たりする．head-poseと移動方向は一
致しない．
• MX-LSTM forecasts: Future trajectories, Future head poses.
Spotlight

• AMNet: Memorability Estimation With Attention
• 記憶のしやすさ(Memorability)のデータセットから学習．
• Web上でのデモ: https://amnet.kingston.ac.uk/
• A Closer Look at Spatiotemporal Convolutions for Action Recognition
• txwxhの3DConvするより，1xwxhとtx1x1の組み合わせ(2+1DConv)を重ねる方
がパラメタ数が少なくて学習しやすいし，実際精度も良いよ，という話．
• Real-World Anomaly Detection in Surveillance Videos
• Weakly-Supervised Action Segmentation With Iterative Soft Boundary
Assignment
• 正解として，順序付きの動作ラベル集合が与えられている（その順に動作
が起きる)
• 時刻tとt+dt での動作特徴を比較→確実に動作が違うなら，その動作の次の
ラベルを振る→徐々に動作特徴を獲得?，漸近的に際どいところを攻める．

• Instance Embedding Transfer to Unsupervised Video Object
Segmentation
• Taskonomyで消える系？
• Future Frame Prediction for Anomaly Detection – A New Baseline
• AEでのAnomaly Detectionに対して未来予測でAnomaly Detectionしてみた，
という論文
• つい先日，別のことを狙って同じ処理をして，Anomaly Detectionにしかな
らないし，精度もほとんど一緒ぽいから，と別の方向に舵を切ったところ
で良かった．
• Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and
ImageNet
• ImageNetでpre-trainingされた各種backboneが大流行したように，もうそろ
そろ，それの動作認識版があってもよいのでは？ということから，産総研
のスパコンぶん回して各種ネットワークを各種データセットでpre-training
したものをmodel zoo的に公開しているよ，という内容．

• Recognize Actions by Disentangling Components of Dynamics
• Towards Open-Set Identity Preserving Face Synthesis
• PoseFlow: A Deep Motion Representation for Understanding Human
Behaviors in Videos
• 通常のOptical Flowは高速に動く物体とか色々あって取りうる速度帯が広い．
• 人間そんなに早く動かない！動作認識に使うことに限れば，人間以外の部
分のOptical Flowはむしろ害悪じゃない？
• 人物マスクぽい特徴を出す部分とFlowを出す部分を作って学習→いい感じ．
• FFNet: Video Fast-Forwarding via Reinforcement Learning
• 動画の飛ばし見をするエージェントを強化学習で獲得する話．
• Attend and Interact: Higher-Order Object Interactions for Video
Understanding
• 全物体からの特徴量を入力とするblockをN個作成し，あとでそれを合流さ
せると，N次のInteraction(物体がN個関わるInteraction)を表現できる．

• Where and Why Are They Looking? Jointly Inferring Human Attention and
Intentions in Complex Tasks
• きっとY先生がフォローしてる？？？
• Referring Relationships
• Ranjay Krishna自らFirst Authorでポスターしてるのってレアな気がする．
• <主体– X – 客体> の形でqueryを投げると，画像中から主体と客体を検出．
• でも大事なのは，主体→客体にAttentionがShiftするのがめっちゃはっきり
可視化できていて，つまり”X”も可視化できているということ．
• Semantic Video Segmentation by Gated Recurrent Flow Propagation
• 毎フレーム，前のフレームのsegmentationと今のフレーム単体での
segmentationがずれている部分に対して，GRUの隠れそうをリセットする
ことで，segmentationが重なっている部分→過去の情報を活用，重なって
いない部分は単独フレームの結果と周辺情報に基づいて，segmentationで
きる．
• Instance Segmentationにも使える？って聞いたら，BoundingBox毎の処理と
かがあるので，少し工夫が必要だけど，多分いけるって発表者が言ってた．

• PoTion: Pose MoTion Representation for Action Recognition
• 各時刻毎に異なる色を，関節位置に付与することで，(x,y,t)空間の情報を2
次元平面にEncodingする．
• なんか0-Tを色の変化で表すって，去年のCVPRでも見た気がするから，そ
れを関節毎にしただけ？
• コンパクトで，学習も2D Convで済むから軽量なのは間違いないが，オン
ライン性がまったくないから，組み込み向けでもないし，使い所は難しそ
う．

CVPR2018 参加報告(速報版)2日目

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie CVPR2018 参加報告(速報版)2日目

Ähnlich wie CVPR2018 参加報告(速報版)2日目 (20)

Mehr von Atsushi Hashimoto

Mehr von Atsushi Hashimoto (8)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

CVPR2018 参加報告(速報版)2日目