14. 実験(Art Renditions)
14
• Art Renditions
被写体のオリジナルの芸術作品をレンダリングすることが可能
プロンプト例):
a painting of a [V] [class noun] in the style of [famous painter]
a statue of a [V] [class noun] in the style of [famous sculptor]
またDreamBoothの類似手法として以前発表された「An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion(Gal et al.)」があります。
この手法は、狙った画像を生成できるようにテキストプロンプトを最適化する方法です。
比較を行うと我々の手法では、被写体の同一性を保つことに重点を置いていることがわかりました。
その証拠として具体的には小さいですが「猫の彫刻」において詳細なパターンが残っていることが挙げあられます。
さらにこれらのユニークなオブジェクトを同じ意味で様々なバリエーションを生成できることを見出しています。
これはGal et al.の方法では出力領域は固定されている、つまり元のモデルの表現力によって制限されている一方で、我々のアプローチがモデルの出力領域内に被写体を埋め込む点で違いが発生しています。このため我々の手法の方が様々なバリエーションを生成できます。
Gal et al.の論文で示された結果のほとんどは、被写体そのものを高忠実に細部を再現して合成するのではなく、被写体に関連する異なる属性を合成することに焦点を合わせている。
ここまでDreamBoothのメリットを述べてきましたがしかしいくつかの限界があります。
一つ目は図のようにプロンプトを正確に再現できない問題です。図の(a)では「in the ISS」と「on the moon」でモデルに生成を行うと、月やISSのような風景が出力できないことがわかると思います。これは「moon」や「ISS」のような生成モデルがこれらの文脈に対して強い事前情報を持っていないか、主語と文脈の両方を一緒に表現することがモデルにとって難しいタスクである、などの理由が論文では考察されています。
2つ目は被写体の出力が変わる問題です。図の(b)ではバックパックの色が変わっていることがわかります。これを「文脈の色と被写体の色がもつれる」と呼んでおり、文脈が稀な時に発生することがあると論文では言われています。
3つ目は過学習の問題です。これは(c)の生成画像が入力画像に似ているという問題で、いくつかの事例で観察されています。
またこの図以外にも問題点として、入力した被写体が希少な事例や複雑な被写体では生成画像のバリエーションが少ないことが確認されました。これはモデルの事前分布が関連していると論文では推察されています。