Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Multi-Modal and Multi-Domain Embedding Learning
for Fashion Retriev...
書誌情報
• 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli
• IEEE Transactions on Multim...
研究の目的
• ファッションに関する画像とテキストのデータ分析を行いたい
• ファッションに関するMulti-Domainデータを同じ空間に埋込みたい
3
やったこと
4
• Multi-domainかつMulti-modalなデータセットの表現学習のための
アーキテクチャとしてQuintuplet ranking lossと
Cross-view similarity ranking lossの...
データセット
5
Street Photos Product ImagesRunway Photos
・背景やポーズがバラバラ
・タグはユーザーが付与する
ためノイズが多い
・背景はステージ
・プロによる撮影
・シーズンやデザイナーのタグ
・背...
提案モデル (全体)
6
・Multi-Domainの学習と
Multi-Modalの学習の二段階に分ける
提案モデル (Step 1)
• Quintuplet-based ranking loss
– 同一ドメインでは通常のTriplet loss
– 異種ドメインはマージンをより大きくとる
7
提案モデル (Step 2)
• Cross-view similarity ranking loss
– 画像とテキストの関係を学習
– アンカーに画像とテキストのどちらを取るかにより重み付け
8
定量評価(Image-To-Image Retrieval)
9
• 評価指標:
– Mean Average Precision (MAP)
– Normalized Discounted Cumulative Gain (NDCG)
– F...
定量評価(Image-To-Image Retrieval)
10
定量評価(Image-To-Text Retrieval)
11
定量評価(Text-To-Image Retrieval)
12
定性評価(Street Photos)
13
定性評価(Runway Photos)
14
定性評価(Product Images)
15
Ablation Study 1
16
・Image-To-Image検索におけるStep2の効果
全ての画像ドメインにおいて、MAPの向上が見られる
・Step1とStep2の影響力
Step2のみだと著しく性能が低下。Step1が重要
St...
Ablation Study 2
17
・Step2のcross-view tripletの効果
Step1_Step2_Textの効果が大きい
Step2のテキストをアンカーにしたTriplet Lossが重要
・Step1をQuintupl...
ケーススタディ
18
・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング
・パーツ毎のアイテムや色に応じて分類ができている
まとめ
• Multi-domainかつMulti-modalなデータセットの表現学習のための
アーキテクチャとしてQuintuplet ranking lossと
Cross-view similarity ranking lossの二段階の...
ケーススタディ
20
ケーススタディ
21
Nächste SlideShare
Wird geladen in …5
×

[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

756 Aufrufe

Veröffentlicht am

2018/12/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Veröffentlicht in: Technologie
  • Login to see the comments

[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis Ryosuke Goto, ZOZO Research
  2. 2. 書誌情報 • 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli • IEEE Transactions on Multimedia – 18 October 2018 • URL: https://ieeexplore.ieee.org/document/8496862 – Supplementary materialあり 2
  3. 3. 研究の目的 • ファッションに関する画像とテキストのデータ分析を行いたい • ファッションに関するMulti-Domainデータを同じ空間に埋込みたい 3
  4. 4. やったこと 4 • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施
  5. 5. データセット 5 Street Photos Product ImagesRunway Photos ・背景やポーズがバラバラ ・タグはユーザーが付与する ためノイズが多い ・背景はステージ ・プロによる撮影 ・シーズンやデザイナーのタグ ・背景は白抜き ・カテゴリのタグがほとんど
  6. 6. 提案モデル (全体) 6 ・Multi-Domainの学習と Multi-Modalの学習の二段階に分ける
  7. 7. 提案モデル (Step 1) • Quintuplet-based ranking loss – 同一ドメインでは通常のTriplet loss – 異種ドメインはマージンをより大きくとる 7
  8. 8. 提案モデル (Step 2) • Cross-view similarity ranking loss – 画像とテキストの関係を学習 – アンカーに画像とテキストのどちらを取るかにより重み付け 8
  9. 9. 定量評価(Image-To-Image Retrieval) 9 • 評価指標: – Mean Average Precision (MAP) – Normalized Discounted Cumulative Gain (NDCG) – F1-Measure • 比較対象 – Canonical Correlation Analysis (CCA) – Deep Canonical Correlation Analysis (DCCA) – Deep Canonical Correlated Autoencoder (DCCAE) – 上記3つを、step1後のモデルで得た特徴を使って計算したもの(Quin_) – 上記3つを、pre-trained VGG16の特徴で計算したもの(VGG_)
  10. 10. 定量評価(Image-To-Image Retrieval) 10
  11. 11. 定量評価(Image-To-Text Retrieval) 11
  12. 12. 定量評価(Text-To-Image Retrieval) 12
  13. 13. 定性評価(Street Photos) 13
  14. 14. 定性評価(Runway Photos) 14
  15. 15. 定性評価(Product Images) 15
  16. 16. Ablation Study 1 16 ・Image-To-Image検索におけるStep2の効果 全ての画像ドメインにおいて、MAPの向上が見られる ・Step1とStep2の影響力 Step2のみだと著しく性能が低下。Step1が重要 Step1はStep2の良い初期値を与えていると考えられる ・Step1とStep2のJoint学習は可能か? Joint_Step1_Step2は提案手法に比べて性能が低い 二種類のsimilarityの学習でトレードオフが起きて悪影響
  17. 17. Ablation Study 2 17 ・Step2のcross-view tripletの効果 Step1_Step2_Textの効果が大きい Step2のテキストをアンカーにしたTriplet Lossが重要 ・Step1をQuintupletで学習する必要があるのか? Triplet_Step2やQuadruplet_Step2よりも性能が高い ・ドメイン毎にモデルを作るのではダメか? Quintupletとほぼ同等。ただし、ドメイン毎のモデルは 検索対象が同一ドメインになるため問題がとても簡単
  18. 18. ケーススタディ 18 ・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング ・パーツ毎のアイテムや色に応じて分類ができている
  19. 19. まとめ • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 19
  20. 20. ケーススタディ 20
  21. 21. ケーススタディ 21

×