Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Unsupervised learning of object landmarks by factorized spatial embeddings

第43回 コンピュータビジョン勉強会@関東 ICCV2017読み会

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

Unsupervised learning of object landmarks by factorized spatial embeddings

  1. 1. Unsupervised learning of object landmarks by factorized spatial embeddings Takanori Ogata (@conta_)
  2. 2. 緒方 貴紀 (@conta_) Co-Founder / Chief Research Officer @ABEJA, Inc. 基礎研究から、プロダクト開発、クラウドからGPUマシンの組み立てまで なんでもやります。 Self Introduction
  3. 3. 画像の意味理解において、物体の変形や見え方を考慮するのは大事 Ex) 物体のPartsと全体像の関係性を利用したり、物体の大きさの変化に対応し た検出枠を予め準備したりすることで物体検出の精度向上に寄与することが知 られている Intro 3 SSD[Liu+, ECCV 2016]DPM[Felzenszwalb+, CVPR 2008]
  4. 4. Landmarkを検出するためのアルゴリズムを作るには、アノテーション データが必要 Landmark detection 4 https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/ http://cocodataset.org/#keypoints-challenge2017
  5. 5. => アノテーション無しに、Keyとなる特徴を得ることができないか??? Landmarkのアノテーション辛い問題 5 landmarkのアノテーションはすごく時間かかって辛い。。。
  6. 6. • 同一物体が移った画像群から、Unsupervisedに その物体の特徴を表すようなLandmarkを学習、 検出できるようなアルゴリズムの提案 • 対象物の見え方や変形が、共通の空間から射影 されると仮定して、CNNでimplicitにそういった landmarkを抽出できた • 学習で得られたLandmarkと、アノテーションされ たlandmarkを線形回帰することで、ベンチマーク ごとに一から学習させること無く、landmark detectionができた 概要 6
  7. 7. この論文は理論を気持ちで感じ取って、NNで解きます 7
  8. 8. 特定の物体(猫、鳥、犬 etc.)の特徴点は、ある共通の球面にマップされて て、そこから射影して画像上に現れていると考える Structure from viewpoint factorization 8
  9. 9. 𝑆上にある物体の表面がマップされてると考える 特定物体に共通する座標から画像上の点𝑞に対する射影である、 𝑞 = Φ%(𝑝; 𝑋)を考えたい Structure from viewpoint factorization 9 X: image Λ ⊂ ℝ6 𝑆 ⊂ ℝ7 𝑝, 𝑟 ∈ 𝑆 𝑞 ∈ Λ
  10. 10. 𝑞を𝑞′に移す変換𝑔はΦを使って次のように表せる Structure from viewpoint factorization 10 X: image Λ ⊂ ℝ6 𝑆 ⊂ ℝ7 𝑝, 𝑟 ∈ 𝑆 𝑞 ∈ Λ すると、下記の関係式が得られる 𝑔はこんな感じで表せる これを満たすΦを求めたい!
  11. 11. Q: どうやって求めるのか? Landmark detection networks 11 A: やっぱNNっしょ!
  12. 12. Φ(−; 𝑥)から、K個の離散点をsampleしてそれらの射影集合Φ(𝑥)を考える Landmark detection networks 12 簡略化 これによって、ある物体の画像からK個のimplicitな点を得ることができる
  13. 13. このΦをNNで表す際に、出力がscore mapになるようにする Landmark detection networks 13 𝑠𝑐𝑜𝑟𝑒 𝑚𝑎𝑝𝑠 Ψ(𝑥) ∈ 𝑅G×I×J Ψ(𝑥) Deep learning
  14. 14. このscore mapをprobability mapに変換するために、 softmaxオペレーター𝜎を各Ψの出力に対してかける Landmark detection networks 14 Ψ(𝑥) Deep learning σを各pixelごとに適用
  15. 15. Probability mapから最終的なlandmark座標𝑢M ∗ を求めるには、 各mapに対しての最大値を取って決める Landmark detection networks 15 重み付き平均的なやつ (x, y)
  16. 16. gによる変換後の画像xをΦに入れたときの出力と、変換前の画像をΦに入 れたときの出力をgで変換したものが等しくなるようにすれば、同じ画像か ら共通のlandmarkを手に入れることができる、という気持ち => siamese networkのような形で計算する Learning formulation 16 Loss functionをどう設計するか?
  17. 17. 前式(5)は直接landmarkの差を取っていたが、landmarkの誤差を取るの ではなく、直接probability mapsから計算できるように(6)式を代わりに lossとして利用する Probability maps loss 17 *実装では(6)式を展開して計算を簡略化
  18. 18. 先程の関数Ψ(𝑥) = (Ψ(𝑟_1; 𝑥), Ψ(𝑟_2; 𝑥), … , Ψ(𝑟_𝐾; 𝑥))の数は適当にKで決めて いる Þ K個すべての出力結果が同じになってしまう可能性がある 局所解を避けるために、 Diversity lossを導入 =>Score mapが重複しないようなLossを入れる Diversity loss 18 Ψ(r_1; x) Ψ(r_2; x) Ψ(r_K; x) : 局所解!!!!
  19. 19. Score mapが重複しない = 各Score mapの相関がなくなるようなlossを 考える Diversity loss 19
  20. 20. (7)は計算コストが、Kに対して爆発的に増加してしまうので、代わりに(8)を使う Score mapが重複しない = 各score mapの各点においてscoreが高くなるとこ ろがばらつくようになるのと同義と考えて、次のように置き換える Diversity loss 20
  21. 21. 実際はScore mapはDown samplingされるので、座標は下記のようにな る Diversity loss 21
  22. 22. 正則項 Score map画像変換による誤差 各Score mapの分散度合い Lossを統合すると 9 式になる Learning objective 22 Ψ(𝑥) なるべく分散するようにΨ(𝑥′) 𝒈 対応点が近くなるように 𝒙′ 𝒙
  23. 23. 詳細は省略 23 Implementation Detail gはThin Plate Spline(TPS)という 変換を利用
  24. 24. UT Zappos50k: 49525 shoes Cat dataset: 8609 images CelebA dataset: 200k celebrity images with 5 annotated landmarks 定性評価をVisualizeにて行った Experiments 24
  25. 25. UT Zappos50k Qualitative results 25
  26. 26. Cat Dataset Qualitative results 26
  27. 27. CelebA Dataset Qualitative results 27
  28. 28. UnsupervisedなLandmarkが実際に有用なものかをチェックするために 定性評価(Unsupervisedに出力したlandmarkをSupervisedにRegression)を 行った Facial Landmark Detectionに関して、 AFLW /MAFL/300-W Datasetにて実験 Quantitative results 28
  29. 29. CelebAでUnsupervisedな学習させて、 学習させるときにLandmarkのK の数を増やしていったときの実験結果 Kは増やせば増やすほど良くなる Quantitative results(Increasing K) 29
  30. 30. Supervised landmarkを増やしていったときの実験結果 UnsupervisedなlandmarkからSupervisedなLandmarkへ応用できるこ とがわかる Quantitative results(Increasing supervised label) 30
  31. 31. Networkはグローバルなので、各Datasetに対して、回帰することでそこそ こ高精度なに近い結果を得ることが可能 Quantitative results 31
  32. 32. 左は成功例、右は失敗例 Quantitative results 32
  33. 33. Demo 33
  34. 34. • 同一物体が移った画像群から、Unsupervisedにその物体の特徴を表 すようなLandmarkを学習、検出できるようなアルゴリズムの提案 • 対象物の見え方や変形が、共通の空間から射影されると仮定して、 CNNでimplicitにそういったlandmarkを抽出できた • 学習で得られたLandmarkと、アノテーションされたlandmarkを線形 回帰することで、ベンチマークごとに一から学習させること無く、 landmark detectionができた Conclusion 34
  35. 35. 考察 35
  36. 36. 実装したくなった? 36
  37. 37. Join Us! https://www.wantedly.com/companies/abeja 37

×