10. Multi-Task Adversarial Network for
Disentangled Feature Learning, Y. Liu et. al.
• Disentangled Feature Learning
• Style Labelに対して,識別できない,というAdversarial Lossを与え
る
• Style indicatorをconditionとすることで,Style変換ができるDecoder
を与える
• これで,Style-freeなEmbeddingができる.
• 図をみた方が簡単に理解できます.
Spotlight
11. Learning From Synthetic Data: Addressing Domain Shift
for Semantic Segmentation, S. Sankaranarayanan, et. al.
• Adaptation for Semantic Segmentation
• Domain ShiftをGAN使ってやる.
• ほとんど記憶に残っていないが,この2行で終わりだと思う.
Spotlight
12. Empirical Study of the Topology and
Geometry of Deep Networks, A. Fawzi, et. al.
• 識別境界の形を知りたい.
• 基本的に滑らか.というか滑らかさと汎化性能はめっちゃ関係ある←当た
り前?
• リアルイメージとAdversarial イメージだと,識別境界付近での振
る舞いに対して,経験的に傾向の違いがあるようなことを言って
いた?
• 理由がわからないが,理由はそもそも説明されていない>Empirical Study?
Spotlight
26. • A Twofold Siamese Network for Real-Time Object Tracking
• 人が多かったのでさっとスルーしましたが,追跡モデルのon-line学習に
Siameseを使う的な話かな?
• Occlusion Aware Unsupervised Learning of Optical Flow,
• 無人だったの&文字が超絶多くて論文2ページ分くらいあったので,パス.
• RotationNet: Joint Object Categorization and Pose Estimation Using
Multiviews From Unsupervised Viewpoints
• 物体を色々な角度から撮影していくと,evidenceが溜まって精度が向上す
るようにしたもの
• view angleを離散化し,view angleとobject categoryを同時に推定することで,
angle毎に特徴量を貯めていく(未観測の場合の特徴量が設定されていて,
特徴量の長さはM(N+1)なのかな? (Mはview, Nは単独視点での特徴量の長
さ)
• プロジェクトページ https://kanezaki.github.io/rotationnet/
27. • Optimizing Filter Size in Convolutional Neural Networks for Facial Action
Unit Recognition
• 同じ層に対して,異なるフィルターサイズからなるConv層で学習すれば,
フィルターの差分から,フィルターサイズ方向の微分が可能になるので,
それを使って,フィルターサイズも学習時に最適化する,という話.
• 結構力技に思える…大きいフィルタで学習しておいて,逆伝播時にフィル
タの中心のloss weightを大きくするとかしたら,周辺は不要なら枝刈りで
きたりするのではないかとか,色々.どうなんだろ?
• Ring loss: Convex Feature Normalization for Face Recognition
• Cos距離最適化とかだと,学習後,原点から放射状にサンプル点が分布.
• 原点から離れるほど分散が大きいなどの問題.
• L2-正規化特徴量のクラス内分散と半径Rの球面からの距離を最小化すると
ちょっと精度が良くなる.
28. • PoseTrack: A Benchmark for Human Pose Estimation and Tracking
• ICCV2017でやったWorkshopで作成したデータセットに対するBenchmarkの
論文.
• 色々なタスクの正解データが付けられている.
• なんか,Taskonomyでもカバーされているものが多そう?
• Exploit the Unknown Gradually: One-Shot VideoBased Person Re-
Identification by Stepwise Learning
• Convolutional Sequence to Sequence Model for Human Dynamics
• Pose forecasting
• Long Term Enc. と short term enc.を用意.1フレーム生成しては,その生成
結果をshort term enc.の入力に継ぎ足して,次のフレームを生成するよう
な構造.入力も出力もボーンモデルだから未来になってもあんまり入力が
ボケないのでうまくいくのかな?画像だったらreconstruction errorが大きく
て使えなさそうな気がするが,アプローチは納得できる.
29. • CosFace: Large Margin Cosine Loss for Deep Face Recognition, Hao Wang,
Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, Wei
Liu
• Cosign距離でlossを計算するときに,クラス感距離にマージンをつけるといいよ,
という話.
• 発想としてはSVMでのマージン最大化に近いのかな.まぁ,妥当.
• Encoding Crowd Interaction With Deep Neural Network for Pedestrian
Trajectory Prediction
• Social GANとかの話.Location Enc. と Motion Enc. を分けて2streamにし,後で合流
させると良いらしい.Motionを位置不変で学習すると探索空間が狭くなるから,
かな?
• Learning Latent Super-Events to Detect Multiple Activities in Videos
• 動作のtemporal localization
• 動作特徴から得られるスーパーイベントの尤度をガウスカーネルで(?)平滑化し,
近傍の平滑化結果を入力としてさらにエンコード = 時間コンテキストに関する特
徴になる.
• これを元の動作特徴とともに入力に加えることでActivitiesを識別.
• まずサブイベント(=Activities?)を出そうと思うところを,もっと曖昧なスーパーイベント
を出すことで解決している???
• 質問してみたがSuper Eventの心が全然わからなかったので残念…
30. • Human Appearance Transfer
• 初日の朝にSpotlightかoralかで発表があったものの連作.
• 体の三次元形状を点群で獲得.部位ラベルも獲得→別人が取っている姿勢
に変換!
• 点群と部位ラベルから,元の人物をその姿勢へTransfer!
• Good View Hunting: Learning Photo Composition From Dense View Pairs
• この間,映画のタイトルをもじった研究名を考えて思いつかなかったのに,
ここに一つ合ったから載せてみた.発表は聞いてないです,すみません.
• Independently Recurrent Neural Network (IndRNN): Building a Longer
and Deeper RNN
• めっちゃシンプルだけど,面白い!
• 要するに時間発展時の隠れ層の値の更新において,隠れ層のうち,自分以
外のノードとの依存関係を0にする(独立に再起)→重みが分散しないので,
より長期の予測が可能に!隠れ層に全結合なんていらんかったんや!的な
論文.確かに前後に散々複雑なネットワークがあるし,入力信号に対して
は非独立だから,これでいいかも.
• 実装: https://github.com/Sunnydreamrain/IndRNN_Theano_Lasagne
33. • Eliminating Background-Bias for Robust Person Re-Identification
• No show
• Human-Centric Indoor Scene Synthesis Using Stochastic Grammar
• 多分,ドン引きするほど家の家具配置のデータがあって,ドン引きするほ
ど確率的にそれらを生成するモデル(依存関係)がhand-craftされている.
48. MX-LSTM: Mixing Tracklets and Vislets to Jointly
Forecast Trajectories and Head Poses, I. Hasan et. al.
• people velocity と head poseから trajectoryを予測
• 歩きながらちらちら横を見たりする.head-poseと移動方向は一
致しない.
• MX-LSTM forecasts: Future trajectories, Future head poses.
Spotlight
49. • AMNet: Memorability Estimation With Attention
• 記憶のしやすさ(Memorability)のデータセットから学習.
• Web上でのデモ: https://amnet.kingston.ac.uk/
• A Closer Look at Spatiotemporal Convolutions for Action Recognition
• txwxhの3DConvするより,1xwxhとtx1x1の組み合わせ(2+1DConv)を重ねる方
がパラメタ数が少なくて学習しやすいし,実際精度も良いよ,という話.
• Real-World Anomaly Detection in Surveillance Videos
• Weakly-Supervised Action Segmentation With Iterative Soft Boundary
Assignment
• 正解として,順序付きの動作ラベル集合が与えられている(その順に動作
が起きる)
• 時刻tとt+dt での動作特徴を比較→確実に動作が違うなら,その動作の次の
ラベルを振る→徐々に動作特徴を獲得?,漸近的に際どいところを攻める.
50. • Instance Embedding Transfer to Unsupervised Video Object
Segmentation
• Taskonomyで消える系?
• Future Frame Prediction for Anomaly Detection – A New Baseline
• AEでのAnomaly Detectionに対して未来予測でAnomaly Detectionしてみた,
という論文
• つい先日,別のことを狙って同じ処理をして,Anomaly Detectionにしかな
らないし,精度もほとんど一緒ぽいから,と別の方向に舵を切ったところ
で良かった.
• Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and
ImageNet
• ImageNetでpre-trainingされた各種backboneが大流行したように,もうそろ
そろ,それの動作認識版があってもよいのでは?ということから,産総研
のスパコンぶん回して各種ネットワークを各種データセットでpre-training
したものをmodel zoo的に公開しているよ,という内容.
51. • Recognize Actions by Disentangling Components of Dynamics
• Towards Open-Set Identity Preserving Face Synthesis
• PoseFlow: A Deep Motion Representation for Understanding Human
Behaviors in Videos
• 通常のOptical Flowは高速に動く物体とか色々あって取りうる速度帯が広い.
• 人間そんなに早く動かない!動作認識に使うことに限れば,人間以外の部
分のOptical Flowはむしろ害悪じゃない?
• 人物マスクぽい特徴を出す部分とFlowを出す部分を作って学習→いい感じ.
• FFNet: Video Fast-Forwarding via Reinforcement Learning
• 動画の飛ばし見をするエージェントを強化学習で獲得する話.
• Attend and Interact: Higher-Order Object Interactions for Video
Understanding
• 全物体からの特徴量を入力とするblockをN個作成し,あとでそれを合流さ
せると,N次のInteraction(物体がN個関わるInteraction)を表現できる.
52. • Where and Why Are They Looking? Jointly Inferring Human Attention and
Intentions in Complex Tasks
• きっとY先生がフォローしてる???
• Referring Relationships
• Ranjay Krishna自らFirst Authorでポスターしてるのってレアな気がする.
• <主体– X – 客体> の形でqueryを投げると,画像中から主体と客体を検出.
• でも大事なのは,主体→客体にAttentionがShiftするのがめっちゃはっきり
可視化できていて,つまり”X”も可視化できているということ.
• Semantic Video Segmentation by Gated Recurrent Flow Propagation
• 毎フレーム,前のフレームのsegmentationと今のフレーム単体での
segmentationがずれている部分に対して,GRUの隠れそうをリセットする
ことで,segmentationが重なっている部分→過去の情報を活用,重なって
いない部分は単独フレームの結果と周辺情報に基づいて,segmentationで
きる.
• Instance Segmentationにも使える?って聞いたら,BoundingBox毎の処理と
かがあるので,少し工夫が必要だけど,多分いけるって発表者が言ってた.