Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Fashion Image Retrieval with Triplet loss 07/06/2018

76 Aufrufe

Veröffentlicht am

For M2 mid-term presentation 2019 summer

Veröffentlicht in: Technologie
  • Login to see the comments

Fashion Image Retrieval with Triplet loss 07/06/2018

  1. 1. マスター タイトルの書式設定 早稲田大学院 井上研究室 M2 石塚航希 画像群の性質を考慮した ドメイン間衣服画像検索の 実用化の検討
  2. 2. マスター タイトルの書式設定研究背景 2 オンラインショップやSNSの普及による 購買機会の増加 ユーザと販売者を効率的に結びつけることが 相互の利益につながる ★三井住友銀行 「アパレルEC市場の動向」 アパレルEC市場:1.5兆円超え EC化率:10.93% 傾向:実店舗販売減、EC販売増
  3. 3. マスター タイトルの書式設定研究背景 3 ファッション領域の特性 「購買行動はほとんど商品の見た目で決まる」 画像での検索や推薦が非常に重要
  4. 4. マスター タイトルの書式設定研究目的 4 SNS等の画像をクエリとする衣服画像の検索
  5. 5. マスター タイトルの書式設定研究目的 5 SNS等の画像をクエリとする衣服画像の検索
  6. 6. マスター タイトルの書式設定研究目的 6 検索 SNS等の画像をクエリとする衣服画像の検索
  7. 7. マスター タイトルの書式設定研究目的 7 検索 SNS等の画像をクエリとする衣服画像の検索 Street画像
  8. 8. マスター タイトルの書式設定研究目的 8 検索 SNS等の画像をクエリとする衣服画像の検索 Street画像 Shop画像
  9. 9. マスター タイトルの書式設定課題 9 Street画像とShop画像の性質が異なる Street画像 - 背景がバラバラ - 変形、隠れが多い - 光の状態が雑 Shop画像 - (背景が綺麗) - 商品がメイン - 光の状態が良い
  10. 10. マスター タイトルの書式設定データの性質について 10 Where to Buy It(2015) [1] ★ 背景やライティングがかなり洗練されている ★ 海外の通販サイトではこのパターンが多い Where to Buy It[ショップ画像]
  11. 11. マスター タイトルの書式設定データの性質について 11 DeepFashion(2016) [2] ★ ショップ画像の多様性が高い(背景・人の有無等) ★ 日本の通販(ZOZOTOWN・楽天等)に近い DeepFashion[ショップ画像] ZOZOTOWN ★ 少なくとも日本市場においてはこちらの方が有益 ★ 直接コーディネート推薦にもなりそう
  12. 12. マスター タイトルの書式設定手法:発想 12 特徴空間内で近くに配置する変換器を作る 特徴空間 変換器
  13. 13. マスター タイトルの書式設定 特徴空間 手法 13 𝒙 𝒏 𝒙 𝒑 𝒙 𝒂 𝒘𝒉𝒆𝒓𝒆 𝑫 𝒂, 𝒃 = 𝒂 − 𝒃 𝟐 𝟐 正解ペアと不正解ペア間 の距離に𝑚𝑎𝑟𝑔𝑖𝑛 だけ差 が出ることを期待 𝑳 𝒙 𝒂, 𝒙 𝒑, 𝒙 𝒏 = 𝐦𝐚𝐱[𝑫 𝒙 𝒂, 𝒙 𝒑 − 𝑫 𝒙 𝒂, 𝒙 𝒏 + 𝑚𝑎𝑟𝑔𝑖𝑛, 𝟎] Triplet-lossを用いる ※Tripletは「三つ組」という意味です
  14. 14. マスター タイトルの書式設定手法 14 𝒙 𝒏 𝒙 𝒑 𝒙 𝒂 𝒘𝒉𝒆𝒓𝒆 𝑫 𝒂, 𝒃 = 𝒂 − 𝒃 𝟐 𝟐 𝑳 𝒙 𝒂, 𝒙 𝒑, 𝒙 𝒏 = 𝐦𝐚𝐱[𝑫 𝒙 𝒂, 𝒙 𝒑 − 𝑫 𝒙 𝒂, 𝒙 𝒏 + 𝑚𝑎𝑟𝑔𝑖𝑛, 𝟎] Triplet-lossを用いる 特徴空間 正解ペアと不正解ペア間 の距離に𝑚𝑎𝑟𝑔𝑖𝑛 だけ差 が出ることを期待 ※Tripletは「三つ組」という意味です
  15. 15. マスター タイトルの書式設定手法:全体像 15 学習時 𝒙 𝒂 𝒙 𝒑 𝒙 𝒏 Triplet Loss Layer CNN CNN CNN パラメータ共有 shop street 画像
  16. 16. マスター タイトルの書式設定手法:全体像 16 学習時 検索時 𝒙 𝒂 𝒙 𝒑 𝒙 𝒏 Triplet Loss Layer CNN CNN CNN パラメータ共有 shop street 画像 𝒙 𝒒𝒖𝒆𝒓𝒚 vector 検索 CNN 𝒙 𝒈𝒂𝒍𝒍𝒆𝒓𝒚 vectorCNN
  17. 17. マスター タイトルの書式設定先行研究とその課題 17 FashionNet(2016) [2] ・DeepFashionデータセットの提供元が提案する手法 ・衣服の境界点(landmark)や属性のアノテーションを利用 人工的なアノテーションの作成は労力を要する
  18. 18. マスター タイトルの書式設定研究目的 18 切り取った画像のみから衣服を検索する ・素の画像以外で用いるアノテーションはbounding boxのみ ショップ画像内の多様性に対応する 手法の組み合わせによって精度の向上を目指す ・Attentionを利用することで背景等の影響を軽減
  19. 19. マスター タイトルの書式設定提案手法 19 VisNet(2017) [3]の知見 Attention機構を取り入れる + ・CNNネットワークの並列化
  20. 20. マスター タイトルの書式設定提案手法 20 VisNet(2017) [3]の知見 Attention機構を取り入れる + ・CNNネットワークの並列化
  21. 21. マスター タイトルの書式設定先行研究 21 VisNet(2017) [3] 深い(VGG)と浅いネットワークを並列に配置することで 高度な特徴と低レベルな特徴の両方を考慮できる それぞれの の内部構造を並列化CNN 𝒙 𝒂 𝒙 𝒑 𝒙 𝒏 Triplet Loss Layer CNN CNN CNN パラメータ共有 shop street 画像 WhereTo Buy Itデータセット(洗練された方) に対して効果を出した
  22. 22. マスター タイトルの書式設定実験 22 DeepFashionに対するCNNの並列化の効果検証 深い(VGG)と浅いネットワークを並列に配置することで 高度な特徴と低レベルな特徴の両方を考慮 feature image conv MaxPool dense L2-norm conv MaxPool VGG-16 conv conv dense L2-norm …
  23. 23. マスター タイトルの書式設定実験設定 23 データ:DeepFashionの【Tシャツ】カテゴリ Train(67%) Test(33%) 合計 商品数 4123 2032 6155 画像数 26290 4064 30354 Triplet数 38378 - - ※Testデータは各idにつきクエリ画像1枚、正解画像1枚とした 実験1: CNNはシングル構造でVGGのみ 実験2:VGGと並列に浅いネットワークを追加
  24. 24. マスター タイトルの書式設定定性的評価 クエリ画像 実験1: シングルCNN 実験2: 並列CNN 近 遠 ※赤枠内がクエリと同一アイテム 24
  25. 25. マスター タイトルの書式設定定性的評価 25 実験1: シングルCNN 実験2: 並列CNN
  26. 26. マスター タイトルの書式設定評価:top-kによる比較 26 上位K個の中にクエリと同じ製品画像がある割合 並列化は有効であると言えそう
  27. 27. マスター タイトルの書式設定まとめ&展望 27 まとめ 展望 衣服画像検索におけるCNN並列化の有効性を検証した Attention機構を組み込む ★Visual Attention Model(2017) ★ Learn to Pay Attention(2018) ・衣服画像検索タスクの中で提案されている ・一般的な画像認識タスクの中で提案されている 浅いCNNではなく色やエッジに基づく人工的な特徴量 も試す
  28. 28. マスター タイトルの書式設定実用化の検討 28 入力がショップ画像に近い場合もある street shop データ自体も多分こんな感じ End-to-Endに拘らなければシンプルに対処できる筈 image CNN street/shop判定 CNN CNN 𝑝𝑠𝑡𝑟𝑒𝑒𝑡 𝑝𝑠ℎ𝑜𝑝 分散表現 street shop 内分点
  29. 29. マスター タイトルの書式設定参考文献 29 [2]Ziwei Liu et al, 2016 “DeepFashion: Powering Robust Clothes Recognition and Retrieval with RichAnnotations ” [3]Zhonghao Wang et al, 2017 “Clothing Retrieval withVisualAttention Model” [4] Devashish Shankar et al, 2017 “Deep Learning based Large ScaleVisual Recommendation and Search for E-Commerce ” [5] Saumya Jetley et al, 2018 “LEARNTO PAY ATTENTION ” [1] M. Hadi Kiapour et al, 2015 “Where to Buy It: Matching Street Clothing Photos in Online Shops”
  30. 30. マスター タイトルの書式設定 早稲田大学院 井上研究室 M2 石塚航希 Appendix
  31. 31. マスター タイトルの書式設定Attentionモデル(検討中) 31 Learn to Pay Attention(2018) [5] Dropoutを応用したImpdropという構造を入れることで 背景の影響を減らす Visual Attention Model(2017) [4] ネットワーク途中の出力 を後半で再利用
  32. 32. マスター タイトルの書式設定方向性 32 ★ End-to-Endにこだわらない →実用性の検討とする ・shopっぽいかstreetっぽいかの識別を先に入れる ・データの分布としてshopっぽい画像とstreetっぽい 画像が混ざってそう。これはDeepFashionというより もファッション自体がそういうもの 散布図的なイメージを出して共通部分が多いと言う 先に学習データでいうshop/streetどっちに近いか を判定させて重み付け和としてベクトル化する。 これをDeepFashionと比較
  33. 33. マスター タイトルの書式設定 33 【スライドの要素で足りないもの】 ・同じクエリ画像を入れた場合の結果のgif作成 ・Shop画像がStreetに寄ってるかも? ・だからAttentionとかトリプレットの作り方大事よね的な要素

×