文献紹介：Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

!"#$%"&'#()*+,#$(-$#.&/"&0*(,&"1(
-0&*"#$2)345#*"#.(637"&50.%7(
8$%*+90$5#$+(90$(8#:";<)
!"#$%&#$'()*'+,&#-.//0'12#$%*'3./4".'5&../66*'7&.8)9'
!"%.:&8%*';<=!>?>?
橋口凌大木全潤（名工大玉木研）
英語論文紹介>?>@A?BA@C

概要
nTransformerアーキテクチャをベース
としたTextVQAのための新しいモデル
の提案
• Multimodal Multi-Copy Mesh
(M4C)
• 3つのモダリティを自然に融合しモ
デル化できる
• ポインタを用いたマルチステップ
デーコーダで予測する
n従来手法を著しく凌駕する

従来手法との違い
n従来手法
• OCRトークンを解答クラスタの出力空間に含める [12#$%D*'E/).F=1>?@C]
• OCRトークンを入力特徴と出力解答空間に追加する [729%.&D*'F;5+!>?@G]
• 一方のモダリティに着目し条件を付けて別のモダリティと融合する
n提案手法
• 各モダリティを共通埋め込み空間に投影し、全て均質に扱う
• Transformerアーキテクチャをベースとした反復推論を行う

M4Cの構造
n入力
• 質問
• 画像
n特徴量の抽出
• 質問単語
• 画像中の視覚オブジェクト
• 画像中のテキスト
n表現
• 質問の単語特徴のリスト
• 物体検出器からの視覚オブジェクト特徴のリスト
• OCRシステムに基づくOCRトークン特徴のリスト

M4Cの構造
n単語の埋め込み
• 事前学習されたBERTモデルを使用 [Devlin+, NAACL2019]
• 単語をd次元の特徴ベクトルに埋め込む
nオブジェクトの埋め込み
• 事前学習されたFaster R-CNNを使用 [Ren+, NeurIPS2015]
• Faster R-CNNから抽出した特徴と画像中の位置情報を使用
• 線形変換でd次元に投影

M4Cの構造
nOCRトークンの埋め込み
• 外部OCRシステムで画像からOCRトークンを取得
• OCRトークンの特徴
• 300次元のFastTextベクトルを抽出 [H"I&#"J9K2D*'+;L>?@M]
• Faster R-CNNで抽出した外観特徴
• トークン内にどのような文字が存在するかをキャプチャする604次元のピラミッド
型ヒストグラムベクトル (PHOC) [+6,&N´&#D*' =+7F>?@O]
• OCRトークンの相対的なバウンディングボックスの座標に基づいた位置特徴
• 4つの特徴をd次元に線形投影

M4Cの構造
n全てのリストに対してtransformerを適用する
n全てのモダリティ間で均一Attentionすることができる
n前に推論された単語とtransformerからの出力をダイナミックポイントネットワークに通す
n推論される単語はOCRトークンか頻繁に使われる単語のどちらか

!"#の構造
n選択する語彙を予測する
• 訓練セットに頻繁に出てくる!個の解答単語
• "個の#$%トークン
nこの&つを連結したスコアから最大値の単語を選択する
n選択した単語
• #$%トークンなら次の予測ステップの入力としてそのまま使う
• 解答単語なら𝑤!
"#$
を入力として使う
• さらにステップ'に対応する位置埋め込みベクトル
• 予測の種類(#$%)*!#$+のタイプ埋め込みベクトルを追加する

学習
n3/&8%/.PQ".82#$を使用する RL&,:D*'E/).F=1>?@ST
n解答語彙とU;!トークンがかぶることを考慮
• ソフトマックス損失からマルチラベルシグモイド損失を使う

実験
nVつのデータセットで実験を行う
• 3/W0<X+ R12#$%D*';<=!>?@G T
• 画像内のテキストを推論するように人間が書いた質問と
それに対して人間がアノテーションした@?個の回答を持つ
• 13P<X+'RY).K&#D*'F;;<>?@GT
• 複数ソースから集められた自然画像を持つ
• 各質問に、@つまたは>つの真の回答を持つ
• 回答候補は用意されず、+EL1という正式な評価手法を持つ
• U!;P<X+'R729%.&D*'F;5+!>?@GT
• 本の表紙の画像を持ち、本に関する質問を持つ
• 各質問は@つの答えを持ち、それは表紙の画像から推測できる

実験 $%&'()*+,
n視覚的な物体の検出
• Y&90/.'!P;EE検出器R!/#D*'E/).F=1>?@BT
n画像上のテキストトークンの抽出
• !"9/00& U;!'1Z90/,RH".29Z)KD*'[55>?@CT
• 多言語版の!"9/00&P,6
• 英語版の!"9/00&P/#

実験 $%&'()*+,
nL"!!+との比較と段階的な実装での実験結果
n一番下は3/W0<X+チャレンジ>?@Gの優勝手法との比較
M4Cモデル
＋
豊富な
OCRトークン
反復
推論

実験 $%&'()*+,
n結果の考察
• エラーが起こる際の原因はU;!の失敗
• U;!の改善で制度の上昇の余地
• その他改善できそうな点
• 質問に基づいて画像内のテキストを動的に認識
• オブジェクトとテキストの関係の解決
• 画像内の大きなテキストの塊の理解

実験 $-%.)*+,
n3/W0<X+と同じ設定で学習
n>つ以上のU;!トークンを組み合わせて回答できている
n従来手法（1+E＋13+*'<3+）を大きく上回る結果を得た

実験 $/#0.)*+,
n3/W0<X+*と同じ設定で学習
n従来手法を大きく超える結果を得た
n複数の単語を解答に持つものが多いデータセットのため、
反復デコーディングの恩恵が大きい

実験
n反復推論の効果の可視化
• 本実験では@>回の反復を行った
• どのデータセットにおいても
精度の向上への寄与が
確認できた

まとめ
n3/W0<X+タスクのための新たなモデル7O;の提案
n7O;は以下のような特徴を持つ
• 画像中のテキストに対しての豊かな表現
• すべてのモダリティを共同でモデル化
• 反復的なデコーディングによる回答予測
nこれらを用いることで、3/W0<X+タスクのためのVつのデータセットで
先行研究を大きく超える結果を得られた

文献紹介：Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie 文献紹介：Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

Ähnlich wie 文献紹介：Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA (20)

Mehr von Toru Tamaki

Mehr von Toru Tamaki (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

文献紹介：Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA