Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval

1.204 Aufrufe

Veröffentlicht am

Attentionモデルを利用して料理のレシピ――画像検索を行います。

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval

  1. 1. 1 2020/09/02 Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval 北海道大学 調和系研究室4年 小林 直也
  2. 2. 論文情報 2 Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval Jing-Jing Chen, Chong-Wah Ngo (City University of Hong Kong) Fu-Li Feng, Tat-Seng Chua(National University of Singapore) ・MM’18, October 22-26, 2018, Seoul, Republic of Korea
  3. 3. 概要 3 ・料理のレシピから対応する料理の画像を 検索することは、生来的に難しいタスクで ある。←料理のレシピに書かれている情報 は、完成品に至る過程であり、完成品その ものの描写ではないため。 ・この論文では、Attentionを利用して、テ キストと画像が、多次元空間で可能な限り 類似するようにすることで、レシピ↔画像 検索を行う。
  4. 4. 課題 4 ・レシピは、タイトル、材料のリスト、調理手順からなる。 ・タイトルや材料のリストは検索タスクにおいてキーワー ドとして扱える。 ・調理手順は、必ずしも完成品の画像に反映されるわけで はない。
  5. 5. 課題 5 ・調理手順は別々のユーザーが書いたもので、統一的な ルールはない。 →検索タスクにはほとんど意味のない文章(“Serve hot! Shared and enjoy!”)や、指示が曖昧な文章(“slice the steaks if you like”)も存在する。
  6. 6. 課題 6 ・上の2つのレシピは同じタイトルで、材料もほとんど同 じであるが、調理手順が異なるため、最終的な完成品の姿 が異なる。 →タイトルと材料だけに着目したシステムでは、これらを 識別することは不可能である。
  7. 7. システムの全体像 7 ・タイトル、材料のリスト、調理手順はそれぞれ重要度が 異なるので、別々にエンコードする。(最終的に結合) ・ペアになる画像は、ResNet-50を利用して特徴抽出する。 ・正しい組に対しては、レシピと画像のコサイン類似度を 最大化することを試みる。
  8. 8. タイトルのエンコーディング 8 ・レシピのタイトルは、レシピの特徴を直接的に表してい る。→Attentionの目的は、タイトル中の重要な語(スタイル や地域など)に高い重みを付けることである。 wt: タイトル中の単語 We: 行列(wt→xt) T: タイトルの単語数 GRU: bidirectional gated reccurent unit/双方向ゲート付き回帰型ユニット
  9. 9. タイトルのエンコーディング 9 ・一層のMLPを用いて、前で得られた表現htをさらに変換 する。Softmaxを用いて値が決められるαで、各単語の貢献 度が重み付けされる。 ht: タイトルの表現 Ww: 変換行列 bw: バイアス項 uw: コンテクストベクトル(ランダムに初期化) αt: utとuwの類似度, 重み ・最終的に得られるタイトルの表現は、
  10. 10. 材料のリストのエンコーディング 10 ・タイトルのエンコーディングと同じ方法 ・Attentionの目的は、目に見えない材料(水 など)や、完成品の見た目を変えない材料に 低い重みを割り当てることである。
  11. 11. 調理手順のエンコーディング 11 ・文レベルでエンコードする。 ・完成品の見た目に影響する度合いに応じて重み付けする。 st: 調理手順の文 L: 文の数 GRU: bidirectional gated reccurent unit/双方向ゲート付き回帰型ユニット Ws: 変換行列 bs: バイアス項 αi: 重み us: 文レベルのコンテクストベクトル
  12. 12. レシピの表現 12 ・600次元のftitle, fingredientと、1000次元の finstructionを結合して、レシピの表現とする。
  13. 13. 画像の表現 13 ・75750個の訓練画像を含むUMPC Food101 datasetを用いて、ResNet-50をファイン チューニングした。 ・ResNetのpool5を特徴として利用した。 ・fimageの次元は2048。
  14. 14. Joint Embedding 14 ・2つの表現の類似度の比較のため、WRとWvにより更に 表現を変換する。 ・コサイン類似度による損失関数を以下のように定める。 ΦR-, Φv-は対応しないレシピや画像
  15. 15. 実験 15 ・データセット: Recipe1M(1,029,720個のレ シピ 、887,536枚の画像) 一つ以上の画像を含まない67%のデータ は除いた。
  16. 16. Ablation studies 16 ・タイトル、材料のリスト、調理手順の3要素の、レシピ ↔画像検索における貢献度を調査した。 ・指標はMedR(低いほど良い)とR@K(高いほど良い) →調理手順の貢献度が他の要素より高い→材料だけにしか 着目しない研究は不十分であると分かる。
  17. 17. Ablation studies 17 ・タイトル、材料、調理手順によるレシピ→画像検索の例
  18. 18. Attentionの効果 18 ・5Kのデータセットで、Attentionを適用した場合と不使用 の場合のパフォーマンスを比較した。 →いずれの指標でも、Attentionが効果を発揮していること が分かる。
  19. 19. Attentionの効果 19 ・正しくAttentionされた例(上)と、間違ってAttentionされ た例(下)の影響を比較した。 下の例では、6番の調理手順が重視されているのが不適切。
  20. 20. 他手法との比較 20 CCA: canonical correlation analysis SAN: stacked attention network JNE: joint neural embedding +SR: レシピのカテゴリ分類に失敗するとペナルティが与えられる正則化項
  21. 21. 結論 21 ・先行研究に対して、材料だけでなく調理 手順を考慮に入れることがパフォーマンス 向上につながることを示した。 ・Attentionを使用して、材料や調理手順の 重要度を重み付けすることに効果があるこ とを示した。

×