SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
深層生成モデルを用いたユーザ意図に基づく
衣服画像の生成に関する研究
2023/02/07
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑情報工学分野 調和系工学研究室
学部4年 竹田悠哉
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
背景
意思伝達が難しいと想定される場面
もう少しコンサバな…
顧客→店員:うまく言語化できない
店員→顧客:イメージがわかない
[1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
双方が印象を理解するための印象表現手法が求められる
印象を表すファッション用語は個人の感覚に依存し曖昧[1]
→ 正確な意思伝達は言語のみでは困難な場合がある
(印象の例:かわいい、かっこいい、コンサバ、カジュアル、フェミニンなど)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
各々がその印象を知覚する対象の集合は異なるが、
共通している部分もある
印象の相互理解のためには、
まず共通項を埋めることが必要
印象表現の目標:
1. 共通項としての印象を学習
2. パーソナライズされた印象を表現
本研究では共通項としての印象を対象とする
(次段階でユーザごとに最適化)
背景・目的
ユーザAのかわいい
B
C
D
E
本研究で扱う
印象の領域
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
衣服画像の印象に基づく生成モデルを提案
印象タグに基づく条件付き生成モデルの学習により
ファッション画像から印象を抽出
印象で条件付けて画像を生成
研究概要
生成モデル
数値化
条件付き生成
生
成
器
seed
印象
かっこいい
1
4
「かっこいい」が
1の画像
「かっこいい」が
4の画像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
先行研究 5
• 服飾画像の印象でタグ付けされたデータ
セットを構築
• 印象推定器を作成
ResNet-50
研究 概要 モデル
服飾画像の
印象推定 [2]
Recommendation of
Compatible Outfits
Conditioned on Style [3]
• アウトドア、フォーマルなどのonline portalな分類
(≒印象)に基づく全身コーディネート推薦
• トップスと百分率で表した分類項目を与えると、
ボトムス、靴、アクセサリーをビームサーチで出力
Style-Compatibility-
Attention Network
+
Style Encoder Network
(ResNetベース)
検
索
Fashion Intelligence
System [4]
• ZOZO研究所等による印象に基づく検索システム
• 全身コーディネート画像とファッション特有の曖昧かつ
多様な表現を学習・解釈
• ファッションに関する選択・行動を支援
Visual-Semantic
Embedding
(CNN、BOWで写像)
定
量
化
深層学習で衣服の印象を扱った研究
[2]神戸瑞樹 (2020). 深層学習を用いた服飾画像の印象推定に関する研究.
[3] Banerjee, D., Dhakad, L., Maheshwari, H., Chelliah, M., Ganguly, N. and Bhattacharya (2022). A.: Recommendation of Compatible Outfits Conditioned on Style, Lecture
Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Vol.13185 LNCS, pp.35–50
[4] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto (2022) .Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags,
https://doi.org/10.1016/j.eswa.2022.119167.
推
薦
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
先行研究 6
• 属性のテクスト入力で操作可能な人物画像生成
• 既存の生成モデルでは難しい形や質感を高品質に再現
• 2ステージで生成;解析器が出力したマスク画像に
階層的コードブックを用いた生成器で服の質感を付与
解析器:U-netベース
生成器:VQVAE2ベース
研究 概要 モデル
TEXT2HUMAN [5]
ADGAN [6]
• ソース画像の属性による制御が可能な人物画像合成
• 属性は潜在空間に埋め込まれ(Pose Code, Style Code)、
Style Codeを編集することで制御・生成
• Style Block接続を備えた2つのエンコーディング経路
VGGエンコーダ+GAN
(StyleGANライク)
生
成
[5] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4).
https://doi.org/10.1145/3528223.3530104
[6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer
vision and pattern recognition
衣服画像生成では印象が反映されていない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
モデルの選定
衣服画像生成の先行研究
GANを利用
StyleGANを利用した画像生成
アーキテクチャと滑らかな潜在空間
手法
モデルの選定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
生成モデルにはGANを使用
VQVAEなどベクトル量子化を用いた生成モデルが成果を
上げているが、潜在空間が離散化されるのは本研究では
好ましくない
また、研究の目的に対して、超高画質の画像生成は不要
手法:モデル選定
深層生成モデル アーキテクチャ 推論
GAN
生成器 G(z)
識別器 D(x)
単体では不可能
(エンコーダを導入)
拡散モデル
逆過程
拡散過程
可能
𝑝(𝐱𝐫)𝚷𝐭𝐩(𝐱𝐭−𝟏|𝐱𝐭)
Π𝑡𝑞(𝐱𝐭|𝐱𝐭−𝟏)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
モデルの選定
衣服画像生成の先行研究
GANを利用
StyleGANを利用した画像生成
アーキテクチャと滑らかな潜在空間
手法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
StyleGANを利用した画像生成 10
潜在空間𝒲の性質により印象を反映した画像を生成
[7] Karras, T., & Aila, T. (n.d.). (2020). Analyzing and Improving the Image Quality of StyleGAN.
[8] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila (2020). Training Generative Adversarial Networks with Limited Data. NeurIPS.
StyleGAN2の生成器
synthesis
network
mapping
network
d-Latent
非線形写像 𝑓により
𝑧 をdisentanglement
歪んだ潜在空間
整った潜在空間
スタイルブロック:
コンテンツ情報(A)をもとに
スタイルに応じた画像を生成
条件
StyleGAN2 ADA(Adaptive Discriminator Augmentation)[7,8]
のアーキテクチャ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
目的:印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
印象タグ付きの衣服画像を用いた教師なし学習
実験:データセット
かわいい きれい かっこいい モテる セクシー おしゃれ
3 4 1 3 2 4
3 4 1 3 2 4
3 4 2 2 2 3
3 3 1 3 2 3
・・・
カジュアル ガーリー 甘い
1 0 0
1 0 0
0 0 0
0 0 0
・
・
・
タグA(6種類) タグB(142種類)
(71781点)
色違い
Fashion Impression Dataset [2]
• ECサイトの画像に対して、デザイナーの意見から厳選されたタグを、
ファッションの専門学校生52名でアノテーション
[2]神戸瑞樹. .(2020). 深層学習を用いた服飾画像の印
象推定に関する研究.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
ファッション用語の印象は、[1]のアンケート調査における
数量化Ⅲ類では図のようなマトリックスで可視化されている
先行研究をもとにデータセットを分析し、タグAのうち
「かわいい」「かっこいい」を使用し学習
実験:印象の選択
[1]友部 直美, 柳田 佳子『ファッションスタイルに対するファッ
ションイメージ用語の適合性に関する一考察』
かわいさ
活動性
タグAの相関行列
かわいい きれい かっこいい モテる セクシー おしゃれ
かわいい 1 0.1375 -0.1960 0.3887 0.1015 0.2466
きれい 0.1375 1 0.1369 0.2674 0.0907 0.2139
かっこいい
-0.1960
0.1369 1 0.0904 0.3346 0.2010
モテる 0.3887 0.2674 0.0904 1 0.3802 0.4261
セクシー 0.1015 0.0907 0.3346 0.3802 1 0.2789
おしゃれ 0.2466 0.2139 0.2010 0.4261 0.2789 1
かわいい
かっこいい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
カテゴリに基づく分類に分けて学習
実験:カテゴリ分類について
分類 カテゴリ データ数
トップス
カットソー 10719
ブラウス 10650
ニット 18693
コート 2481
ジャケット 2180
ブルゾン 1112
ワンピース ワンピース 9313
カテゴリを「トップス」「ワンピース」
に分け、 それぞれ学習
カットソー ブラウス
ワンピース
ブルゾン
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
目的:印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験:学習 16
systhesis
network
mapping
network
印象を付与
した画像
出力
入力
印象 (整数値)
反復回数:800000
バッチ数:16
最適化:Adam
学習率:0.0025
画像サイズ:256×256
データ拡張:ADA
学習設定
印象タグの入力
・単一の印象で
学習をおこなう
①かわいい:1,2,3,4
②かっこいい:1,2,3,4
条件付きでStyleGAN2 ADAを学習
Seed
印象タグ付きの衣服画像を用いた教師なし学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験結果
生成画像
変化の品質には幅がある
色や形、柄、装飾などが変化
同一の衣服において、印象に基づく
変化がなされることが適切
生成画像における品質の割合
(各72枚を手作業で分類)
変化が過剰なもの
変化に乏しいもの
印象 かわいい かっこいい
カテゴリ分類 トップス ワンピース トップス ワンピース
変化に乏しい 29.17% 45.83% 8.33% 33.33%
変化が適切 58.33% 41.67% 33.33% 45.83%
変化が過剰 12.50% 12.50% 58.33% 20.83%
条件値:1 条件値:4
入力値:1 条件値:4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験結果
生成画像
タグ:かわいい
トップス
ワンピース
1.当てはまらない 2.どちらかというと
当てはまらない
3.どちらかというと
当てはまる
4. 当てはまる
・色合いが明るく
・ウエストが締まり、
肩紐が細く
変化
・色合いが明るく
・ウエストが締まり、
袖が短く
・下部にプリーツ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
実験結果
生成画像
タグ:かっこいい
1.当てはまらない 2.どちらかというと
当てはまらない
3.どちらかというと
当てはまる
4. 当てはまる
・色合いが濃く
・襟が付き,全体的に
角ばったフォルムに
変化
・服地の青色が濃く
トップス
ワンピース
1と4の生成画像を用いてアンケートを実施
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
目的:印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
目的:生成モデルが付与した印象が見た目として現れているか調査
20代男女14名(各7名ずつ)にアンケート調査を実施
質問形式は次スライド①~④の4種類
計28問(①4問、②8問、③8問、④8問)
①②は印象の4択で、選択肢は[1]のPCAをもとに選定
アンケート調査
かわいさ
活動性
かわいい
かっこいい
エレガント
アクティブ
「印象を付与」の例
[1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
アンケート調査:質問形式
③ ある印象がどのくらい変化したと思うか回答
意図:付加された印象がわかるか、どれくらいか
④ 足した印象を開示した上で、どの程度感じるか回答
意図:付加された印象に同意が得られるか
① データセットの画像の印象を4択で回答
目的:回答者の印象に対する理解の調査
② 足された印象を4択で回答
目的:付加された印象がわかるか
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
集計方法
①、②は、印象を選択肢から回答
→そのまま4択として集計
③、④は、追加した印象が増加した
ように感じた割合
→2択にして正答率として集計
概観
正答率は全体として71~79%(95%信頼区間)
かわいいの方が、かっこいいより高い
トップスの方が、ワンピースより高い
クイズ形式の③の方が、
同意を問う形式の④より高い
全体としての数字にユーザーごとの
大きな偏りはなかった
アンケート調査:結果
回答者ごとの正答率
印象、質問形式、カテゴリごとの正答率
① ② ③
④
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
かわいい
正答率が高かったものは
細部の変化が大きい
プリーツの追加
ウエストが絞られる
正答率が低かったものは
大域的に変化
服地の色や柄の変化
ベルトの追加
丈が短くなる
アンケート調査:印象の違いによる結果
Q24:かわいいを足して生成、かわいいという印象が
足されたと感じるか?
Q17:ある印象を足して生成、かっこいいという印象が
足されたと思うか?
全員正解だった設問(形式③)
全員正解だった設問(形式④)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
かわいい
正答率が高かったものは
細部の変化が大きい
プリーツの追加
ウエストが絞られる
正答率が低かったものは
大域的に変化
服地の色や柄の変化
ベルトの追加
丈が短くなる
アンケート調査:印象の違いによる結果
Q23:かわいいを足して生成、かわいいという印象が
足されたと感じるか?
Q5:ある印象を足して生成、どの印象が足されたと思うか?
正答率が低かった設問(形式②)
正答率が低かった設問(形式④)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
アンケート調査:印象の違いによる結果
かっこいい
かわいいよりも正答率が低い
ワンピースが特に低い
<理由として考えられること>
Q26:かっこいいを足して生成、かっこいいという印象が
足されたと感じるか?
かっこいいとワンピースの相性
ワンピースというカテゴリが
かわいい寄りである
明確な記号の有無
形やプリーツといった、多くの人が
同意する特徴が少ない可能性がある
正答率が低かった設問(形式②)
正答率が低かった設問(形式④)
Q5:ある印象を足して生成、どの印象が足されたと思うか?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
アンケート調査:印象の違いによる結果
かっこいい
かわいいよりも正答率が低い
ワンピースが特に低い
<理由として考えられること>
かっこいいとワンピースの相性
ワンピースというカテゴリが
かわいい寄りである
明確な記号の有無
形やプリーツといった、多くの人が
同意する特徴が少ない可能性がある
データセットにおける
ワンピースの印象内訳
(上:かわいい、
下:かっこいい)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
まとめと展望
生成モデルで印象を付与できるか、第一弾の検証として、
印象による条件付き生成の手法による結果をアンケート調査
生成結果に対するアンケートは、正答率100%がある一方、
あまり賛同を得られない設問もあった
→生成モデルでの印象の付与に一定の有効性
他の印象での検証
手法の改良:生成における印象の付与の改善
学習時に細部の変化が大きくなるような項を追加
潜在空間の解析と利用
マルチラベルでの安定した学習と生成
マルチモーダルモデル
画像を入力とする
まとめ
展望

Weitere ähnliche Inhalte

Was ist angesagt?

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset IntroductionShinagawa Seitaro
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Tatsuya Yokota
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究Satoshi Hara
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)Masakazu Iwamura
 

Was ist angesagt? (20)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
 

Ähnlich wie 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmeticharmonylab
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...harmonylab
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 

Ähnlich wie 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 (20)

A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
修士論文
修士論文修士論文
修士論文
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料harmonylab
 
CKL_about_panf2022.pdf
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdfharmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
CKL_about_panf2022.pdf
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
 

Kürzlich hochgeladen

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Kürzlich hochgeladen (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 深層生成モデルを用いたユーザ意図に基づく 衣服画像の生成に関する研究 2023/02/07 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑情報工学分野 調和系工学研究室 学部4年 竹田悠哉
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 背景 意思伝達が難しいと想定される場面 もう少しコンサバな… 顧客→店員:うまく言語化できない 店員→顧客:イメージがわかない [1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144 双方が印象を理解するための印象表現手法が求められる 印象を表すファッション用語は個人の感覚に依存し曖昧[1] → 正確な意思伝達は言語のみでは困難な場合がある (印象の例:かわいい、かっこいい、コンサバ、カジュアル、フェミニンなど)
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 各々がその印象を知覚する対象の集合は異なるが、 共通している部分もある 印象の相互理解のためには、 まず共通項を埋めることが必要 印象表現の目標: 1. 共通項としての印象を学習 2. パーソナライズされた印象を表現 本研究では共通項としての印象を対象とする (次段階でユーザごとに最適化) 背景・目的 ユーザAのかわいい B C D E 本研究で扱う 印象の領域
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 衣服画像の印象に基づく生成モデルを提案 印象タグに基づく条件付き生成モデルの学習により ファッション画像から印象を抽出 印象で条件付けて画像を生成 研究概要 生成モデル 数値化 条件付き生成 生 成 器 seed 印象 かっこいい 1 4 「かっこいい」が 1の画像 「かっこいい」が 4の画像
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 先行研究 5 • 服飾画像の印象でタグ付けされたデータ セットを構築 • 印象推定器を作成 ResNet-50 研究 概要 モデル 服飾画像の 印象推定 [2] Recommendation of Compatible Outfits Conditioned on Style [3] • アウトドア、フォーマルなどのonline portalな分類 (≒印象)に基づく全身コーディネート推薦 • トップスと百分率で表した分類項目を与えると、 ボトムス、靴、アクセサリーをビームサーチで出力 Style-Compatibility- Attention Network + Style Encoder Network (ResNetベース) 検 索 Fashion Intelligence System [4] • ZOZO研究所等による印象に基づく検索システム • 全身コーディネート画像とファッション特有の曖昧かつ 多様な表現を学習・解釈 • ファッションに関する選択・行動を支援 Visual-Semantic Embedding (CNN、BOWで写像) 定 量 化 深層学習で衣服の印象を扱った研究 [2]神戸瑞樹 (2020). 深層学習を用いた服飾画像の印象推定に関する研究. [3] Banerjee, D., Dhakad, L., Maheshwari, H., Chelliah, M., Ganguly, N. and Bhattacharya (2022). A.: Recommendation of Compatible Outfits Conditioned on Style, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Vol.13185 LNCS, pp.35–50 [4] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto (2022) .Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags, https://doi.org/10.1016/j.eswa.2022.119167. 推 薦
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 先行研究 6 • 属性のテクスト入力で操作可能な人物画像生成 • 既存の生成モデルでは難しい形や質感を高品質に再現 • 2ステージで生成;解析器が出力したマスク画像に 階層的コードブックを用いた生成器で服の質感を付与 解析器:U-netベース 生成器:VQVAE2ベース 研究 概要 モデル TEXT2HUMAN [5] ADGAN [6] • ソース画像の属性による制御が可能な人物画像合成 • 属性は潜在空間に埋め込まれ(Pose Code, Style Code)、 Style Codeを編集することで制御・生成 • Style Block接続を備えた2つのエンコーディング経路 VGGエンコーダ+GAN (StyleGANライク) 生 成 [5] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4). https://doi.org/10.1145/3528223.3530104 [6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition 衣服画像生成では印象が反映されていない
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 モデルの選定 衣服画像生成の先行研究 GANを利用 StyleGANを利用した画像生成 アーキテクチャと滑らかな潜在空間 手法 モデルの選定
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 生成モデルにはGANを使用 VQVAEなどベクトル量子化を用いた生成モデルが成果を 上げているが、潜在空間が離散化されるのは本研究では 好ましくない また、研究の目的に対して、超高画質の画像生成は不要 手法:モデル選定 深層生成モデル アーキテクチャ 推論 GAN 生成器 G(z) 識別器 D(x) 単体では不可能 (エンコーダを導入) 拡散モデル 逆過程 拡散過程 可能 𝑝(𝐱𝐫)𝚷𝐭𝐩(𝐱𝐭−𝟏|𝐱𝐭) Π𝑡𝑞(𝐱𝐭|𝐱𝐭−𝟏)
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 モデルの選定 衣服画像生成の先行研究 GANを利用 StyleGANを利用した画像生成 アーキテクチャと滑らかな潜在空間 手法
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. StyleGANを利用した画像生成 10 潜在空間𝒲の性質により印象を反映した画像を生成 [7] Karras, T., & Aila, T. (n.d.). (2020). Analyzing and Improving the Image Quality of StyleGAN. [8] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila (2020). Training Generative Adversarial Networks with Limited Data. NeurIPS. StyleGAN2の生成器 synthesis network mapping network d-Latent 非線形写像 𝑓により 𝑧 をdisentanglement 歪んだ潜在空間 整った潜在空間 スタイルブロック: コンテンツ情報(A)をもとに スタイルに応じた画像を生成 条件 StyleGAN2 ADA(Adaptive Discriminator Augmentation)[7,8] のアーキテクチャ
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 目的:印象に基づく衣服画像生成の検証 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察 実験 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 印象タグ付きの衣服画像を用いた教師なし学習 実験:データセット かわいい きれい かっこいい モテる セクシー おしゃれ 3 4 1 3 2 4 3 4 1 3 2 4 3 4 2 2 2 3 3 3 1 3 2 3 ・・・ カジュアル ガーリー 甘い 1 0 0 1 0 0 0 0 0 0 0 0 ・ ・ ・ タグA(6種類) タグB(142種類) (71781点) 色違い Fashion Impression Dataset [2] • ECサイトの画像に対して、デザイナーの意見から厳選されたタグを、 ファッションの専門学校生52名でアノテーション [2]神戸瑞樹. .(2020). 深層学習を用いた服飾画像の印 象推定に関する研究.
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 ファッション用語の印象は、[1]のアンケート調査における 数量化Ⅲ類では図のようなマトリックスで可視化されている 先行研究をもとにデータセットを分析し、タグAのうち 「かわいい」「かっこいい」を使用し学習 実験:印象の選択 [1]友部 直美, 柳田 佳子『ファッションスタイルに対するファッ ションイメージ用語の適合性に関する一考察』 かわいさ 活動性 タグAの相関行列 かわいい きれい かっこいい モテる セクシー おしゃれ かわいい 1 0.1375 -0.1960 0.3887 0.1015 0.2466 きれい 0.1375 1 0.1369 0.2674 0.0907 0.2139 かっこいい -0.1960 0.1369 1 0.0904 0.3346 0.2010 モテる 0.3887 0.2674 0.0904 1 0.3802 0.4261 セクシー 0.1015 0.0907 0.3346 0.3802 1 0.2789 おしゃれ 0.2466 0.2139 0.2010 0.4261 0.2789 1 かわいい かっこいい
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 カテゴリに基づく分類に分けて学習 実験:カテゴリ分類について 分類 カテゴリ データ数 トップス カットソー 10719 ブラウス 10650 ニット 18693 コート 2481 ジャケット 2180 ブルゾン 1112 ワンピース ワンピース 9313 カテゴリを「トップス」「ワンピース」 に分け、 それぞれ学習 カットソー ブラウス ワンピース ブルゾン
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 目的:印象に基づく衣服画像生成の検証 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察 実験
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験:学習 16 systhesis network mapping network 印象を付与 した画像 出力 入力 印象 (整数値) 反復回数:800000 バッチ数:16 最適化:Adam 学習率:0.0025 画像サイズ:256×256 データ拡張:ADA 学習設定 印象タグの入力 ・単一の印象で 学習をおこなう ①かわいい:1,2,3,4 ②かっこいい:1,2,3,4 条件付きでStyleGAN2 ADAを学習 Seed 印象タグ付きの衣服画像を用いた教師なし学習
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験結果 生成画像 変化の品質には幅がある 色や形、柄、装飾などが変化 同一の衣服において、印象に基づく 変化がなされることが適切 生成画像における品質の割合 (各72枚を手作業で分類) 変化が過剰なもの 変化に乏しいもの 印象 かわいい かっこいい カテゴリ分類 トップス ワンピース トップス ワンピース 変化に乏しい 29.17% 45.83% 8.33% 33.33% 変化が適切 58.33% 41.67% 33.33% 45.83% 変化が過剰 12.50% 12.50% 58.33% 20.83% 条件値:1 条件値:4 入力値:1 条件値:4
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験結果 生成画像 タグ:かわいい トップス ワンピース 1.当てはまらない 2.どちらかというと 当てはまらない 3.どちらかというと 当てはまる 4. 当てはまる ・色合いが明るく ・ウエストが締まり、 肩紐が細く 変化 ・色合いが明るく ・ウエストが締まり、 袖が短く ・下部にプリーツ
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 実験結果 生成画像 タグ:かっこいい 1.当てはまらない 2.どちらかというと 当てはまらない 3.どちらかというと 当てはまる 4. 当てはまる ・色合いが濃く ・襟が付き,全体的に 角ばったフォルムに 変化 ・服地の青色が濃く トップス ワンピース 1と4の生成画像を用いてアンケートを実施
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 目的:印象に基づく衣服画像生成の検証 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察 実験
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 目的:生成モデルが付与した印象が見た目として現れているか調査 20代男女14名(各7名ずつ)にアンケート調査を実施 質問形式は次スライド①~④の4種類 計28問(①4問、②8問、③8問、④8問) ①②は印象の4択で、選択肢は[1]のPCAをもとに選定 アンケート調査 かわいさ 活動性 かわいい かっこいい エレガント アクティブ 「印象を付与」の例 [1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 アンケート調査:質問形式 ③ ある印象がどのくらい変化したと思うか回答 意図:付加された印象がわかるか、どれくらいか ④ 足した印象を開示した上で、どの程度感じるか回答 意図:付加された印象に同意が得られるか ① データセットの画像の印象を4択で回答 目的:回答者の印象に対する理解の調査 ② 足された印象を4択で回答 目的:付加された印象がわかるか
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 集計方法 ①、②は、印象を選択肢から回答 →そのまま4択として集計 ③、④は、追加した印象が増加した ように感じた割合 →2択にして正答率として集計 概観 正答率は全体として71~79%(95%信頼区間) かわいいの方が、かっこいいより高い トップスの方が、ワンピースより高い クイズ形式の③の方が、 同意を問う形式の④より高い 全体としての数字にユーザーごとの 大きな偏りはなかった アンケート調査:結果 回答者ごとの正答率 印象、質問形式、カテゴリごとの正答率 ① ② ③ ④
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 かわいい 正答率が高かったものは 細部の変化が大きい プリーツの追加 ウエストが絞られる 正答率が低かったものは 大域的に変化 服地の色や柄の変化 ベルトの追加 丈が短くなる アンケート調査:印象の違いによる結果 Q24:かわいいを足して生成、かわいいという印象が 足されたと感じるか? Q17:ある印象を足して生成、かっこいいという印象が 足されたと思うか? 全員正解だった設問(形式③) 全員正解だった設問(形式④)
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 かわいい 正答率が高かったものは 細部の変化が大きい プリーツの追加 ウエストが絞られる 正答率が低かったものは 大域的に変化 服地の色や柄の変化 ベルトの追加 丈が短くなる アンケート調査:印象の違いによる結果 Q23:かわいいを足して生成、かわいいという印象が 足されたと感じるか? Q5:ある印象を足して生成、どの印象が足されたと思うか? 正答率が低かった設問(形式②) 正答率が低かった設問(形式④)
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 アンケート調査:印象の違いによる結果 かっこいい かわいいよりも正答率が低い ワンピースが特に低い <理由として考えられること> Q26:かっこいいを足して生成、かっこいいという印象が 足されたと感じるか? かっこいいとワンピースの相性 ワンピースというカテゴリが かわいい寄りである 明確な記号の有無 形やプリーツといった、多くの人が 同意する特徴が少ない可能性がある 正答率が低かった設問(形式②) 正答率が低かった設問(形式④) Q5:ある印象を足して生成、どの印象が足されたと思うか?
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 アンケート調査:印象の違いによる結果 かっこいい かわいいよりも正答率が低い ワンピースが特に低い <理由として考えられること> かっこいいとワンピースの相性 ワンピースというカテゴリが かわいい寄りである 明確な記号の有無 形やプリーツといった、多くの人が 同意する特徴が少ない可能性がある データセットにおける ワンピースの印象内訳 (上:かわいい、 下:かっこいい)
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 まとめと展望 生成モデルで印象を付与できるか、第一弾の検証として、 印象による条件付き生成の手法による結果をアンケート調査 生成結果に対するアンケートは、正答率100%がある一方、 あまり賛同を得られない設問もあった →生成モデルでの印象の付与に一定の有効性 他の印象での検証 手法の改良:生成における印象の付与の改善 学習時に細部の変化が大きくなるような項を追加 潜在空間の解析と利用 マルチラベルでの安定した学習と生成 マルチモーダルモデル 画像を入力とする まとめ 展望

Hinweis der Redaktion

  1. 深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
  2. 1.1 一般消費者における印象 1.2 専門家の共通認識としての印象 ・最終的には各々の印象 ・まずは,共通項の部分を ・コミュニケーションの円滑化には,まず共通認識→パーソナライズ ・本研究では~
  3. 研究の概要図 印象付与後の画像の例が欲しい 具体的なseedや生成方法は後のスライドで
  4. [4] Peebles, W., Zhang, R., Torralba, A., Efros, A. A., Berkeley, U. C., & Ai, F. (n.d.). GAN-Supervised Dense Visual Alignment. (2022) [5] Alaluf, Y., Patashnik, O., & Cohen-Or, D. (2022). ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement. 6691–6700. https://doi.org/10.1109/iccv48922.2021.00664 (2021) [6] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto, Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags, https://doi.org/10.1016/j.eswa.2022.119167. (2022)
  5. [2] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4). https://doi.org/10.1145/3528223.3530104 [3] Hou, Y., Vig, E., Donoser, M., & Bazzani, L. (2022). Learning Attribute-driven Disentangled Representations for Interactive Fashion Retrieval. 12127–12137. https://doi.org/10.1109/iccv48922.2021.01193 [6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition
  6. [8] Karras, T., & Aila, T. (n.d.). Analyzing and Improving the Image Quality of StyleGAN. (2020) [9] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila Training Generative Adversarial Networks with Limited Data. NeurIPS. (2020)
  7. 印象が反映されない,衣服の変化が大きすぎる(色や形が別の商品と 言えるほど変化したり,カテゴリーが変わったりする)といった生成における 問題点の解消や,モード崩壊を防ぐため
  8. 角度や微妙な照明の違いで同じに見える 母集団:71539 信頼レベル90%、許容誤差5% →271.2 < 72 * 4 (= 288)
  9. かっこいいの方が低いものが多い 低いものは色は変わっていても細部の変化が少ない? p3p4を見ると,かっこいいのワンピースが特に低い →かっこいいとワンピースが,そもそも相性が悪い?(ワンピースというカテゴリーが既にかわいい寄り) 「かわいい」にはリボンが付くといった明確に記号があるが,「かっこいい」の
  10. かっこいいの方が低いものが多い 低いものは色は変わっていても細部の変化が少ない? p3p4を見ると,かっこいいのワンピースが特に低い →かっこいいとワンピースが,そもそも相性が悪い?(ワンピースというカテゴリーが既にかわいい寄り) 「かわいい」にはリボンが付くといった明確に記号があるが,「かっこいい」の
  11. アプリとして使う上で必要と思われること ピクセル値の変化や識別ネットワークでの数値化により生成画像の変化の度合いを取得 ルールベースやヒューリスティックで条件付けに用いる数値を改良 展望は目的に照らし合わせて