【DL輪読会】Vision-Centric BEV Perception: A Survey

http://deeplearning.jp/
Vision-Centric BEV Perception: A Survey
小林範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Vision-Centric BEV Perception: A Survey
https://arxiv.org/abs/2208.02797
タイトル：
著者： Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming Wang, Yu
Qiao, Ruigang Yang, Dinesh Manocha, Xinge Zhu
• Vision-centric BEV （Bird eye view） perception に関する最初のサーベイ論文。
• Vision中心のBEVの最新の関連手法を提示し、コアアイデアと下流の視覚タスクを基に明確に
分類している。
概要：
2
• 画像から、3D物体検出やBEVを作成する手法に興味があるため。
• Tesla AI day 2022が面白かったため。
選定理由：

アジェンダ
1. イントロダクション
2. 背景
3. ジオメトリベースのPV2BEV
4. ネットワークベースのPV2BEV
5. 拡張
6. まとめ
3

１. イントロダクション
イントロダクション
4
• BEV（Bird eye view）により、動的な物体や静的な街並みなど、周囲の情景を正確かつ包括的に把握することができる。
• BEVは、自律走行車が安全かつ効果的な運転判断を行うために必要不可欠である。
• 近年、鳥瞰図（BEV）で行われる3次元知覚が注目されているのには、主に2つの理由がある。
① BEVによる世界の表現、特に交通シナリオは、豊富な意味情報、正確な位置特定、絶対的なスケールを含んでおり、
行動予測、運動計画など、多くの下流実世界アプリケーションで直接展開することができる。
② BEVは異なる視点、モダリティ、時系列、エージェントからの情報を融合させる物理的に解釈可能な方法を提供する。

イントロダクション
5
• BEVは、ジオメトリベースとネットワーク
ベースの2つに大別される。
• カメラの物理的な原理をフルに活用し、解釈可能な方法でビューを変換する方法。（ホモグラフィ変換などを含む）
ジオメトリベース
• MLPやTransfomerのネットワークで推定する。Transformerでは、BEVクエリを直接構築する。cross attentionメ
カニズムによってフロントビュー画像上で対応する特徴を検索することにより、トップダウン型を採用している。異なる下流タ
スクに対応するため、疎、密、またはハイブリッドなクエリが提案されている。
ネットワークベース

本論文の貢献
6
① 本論文は透視図と鳥瞰図間のビュー変換を解決するための最近の進歩をレビューする最初のサーベイ論文である。
② Vision中心のBEVの最新の関連手法を提示し、コアアイデアと下流の視覚タスクを基に明確に分類している。また、
これらの手法の性能と限界に関する詳細な分析・比較を行う。
③ マルチタスク学習、BEVとの融合、経験的学習など、BEV知覚手法の拡張を提案し、関連手法の実装と開発を
促進する。

１. 背景
7
• Vision-centric BEV perception とは、入力画像列 I 𝜖 𝑅𝑁×𝑉×𝐻×𝑊×3
が与えられたとき、アルゴリズムがこれらのPV
（透視図, Perspective View）入力を BEV に変換する必要があるという考え方である。
• アルゴリズムは、これらのPV入力をBEV特徴量に変換し、鳥瞰図における物体の3次元バウンディングボックスや周辺環
境の意味マップを検出するような知覚タスクを行う必要がある。
• ここで、N, V, H, W はフレーム数とビュー数、入力画像の高さと幅である。
• LiDARベースのアプローチと比較して、 Vision-centricな方法は、画像から豊かな意味情報を得ることができるが、正確
な深度測定が不足している。この問題に効果的に対処するための統一的な表現を得るために、最近の研究では通常、
PVをBEV特徴に変換するビュー変換を採用している。
2.1 Vision-centric BEV perceptionのタスク定義

２. 背景
8
• 3次元物体検出は、3DVisionのコアタスクの1つである。このタスクは、「画像ベース」、「LiDARベース」、「マルチモダリティベース」に分け
ることができる。
2.1.1 3D物体検出
• この手法は、3D Visionにおいて大きな成功を収めている。LiDAR が提供する周囲の 3D 環境の正確な測定により、画像ベースの手
法よりもはるかに優れた性能を示し、多くのよく研究された経験がある。例えば、ポイントベースの手法とボクセルベースの手法に分類され、
ボクセルベースの手法は、実際にはBEV知覚としてさらに単純化することができる。
画像ベース
• 複数の画像から物体のカテゴリと3次元バウンディングボックスを予測する必要がある。以前の手法は、一般的に透視ビューの特徴から
直接予測を行うため、簡単な処理であるが、実際には多視点カメラのための複雑な後処理が必要である。また、複数のビューや時間的
に連続したフレームからのステレオキューを活用することも困難である。そこで、この分野が注目され、効率と性能の両面で大きな進歩を
遂げている。
LiDARベース
• RGB画像は、物体の色や形、質感などの豊富な情報を含んでいるが、正確な深度情報を提供することはできないので、LiDARで補
完することができる。また、レーダーは粗い定位信号しか得られないが、LiDARは物体の動きを感知することができる。これらのセンサーを
いかに効果的に活用するかは、3DVisionの長年の課題である。
マルチモダリティ3D検出

２. 背景
9
• BEVに基づくマップセグメンテーションには、MLPに基づく手法と、Transformerに基づく手法という二つの研究ラインが存在する。前者
では、PONが単眼画像を入力としてマップを推定する。Transformerベースのアプローチでは、Image2Map が画像からのマップ生成
をシーケンス-シーケンス変換問題として定式化し、Transformerベースのネットワークを利用してエンドツーエンドでマップ生成を実行す
る。GitNet は2段階のフレームワークを設計しており、まず透視図においてセグメンテーションを行い、次にTransformerを用いてBEV
特徴を処理する。
2.1.2 BEVのセグメンテーション
• BEVによる地図生成に加え、遠近効果を緩和するために、BEVの車線を検出する様々な手法が提案されている。
• 3DLaneNetは、CNNを活用し、車線の3次元位置をエンドツーエンドで予測する先駆的な手法である。GEN-LaneNetは、まず画
像を仮想トップビューに投影し、次に車線位置を回帰する2段階のフレームワークを設計し、凹凸路での車線検出を大幅に向上させ
• Persformer は、Transformerのようなアーキテクチャを利用し、フロントビューの特徴からより良いBEVの特徴を生成し、2Dと3Dの
車線を同時に予測することができる。
マップセグメンテーション
レーンセグメンテーション

２. 背景
10
• KITTI、nuScenes、Waymo Open Dataset (WOD) は、BEVベースの3D知覚に最も影響力のある3つのベンチマークである。
• nuScenesデータセットは、360度の水平FOVをカバーする6台の較正済みカメラによる、Vision centric perceptionのための最も頻繁
に使用されるデータセットである。
• 3つのデータセット以外にも、Argoverse、H3D、Lyft L5などのベンチマークもBEVベース知覚に利用することが可能。
2.2 Dataset

２. 背景
11
• BEV検出のための評価基準を以下にまとめている。（以下３つは、物体検出タスクと同様。）
2.3 Common Evaluation Metrices
2.4 データセット固有の指標
KITTI 3Dの指標
Average Orientation Similarity B(r)はリコール r における全ての検出結果の集合、∆Θ𝑖 は検出時の方向予測とグランドトゥルースの
方向の差、δ𝑖は同一物体に対する重複予測を罰するためのペナルティ項。
すべてのAPメトリクスは、各難易度と各クラスについて独立して計算される。

２. 背景
12
Waymo Open Dataset の指標

２. 背景
13
nuScenes の指標
nuScenes Detection Score

３. ジオメトリベースPV2BEV
14
3 ジオメトリベースPV2BEV
• PVからBEVへの変換の従来からの解決策は、幾何学的投影関係を利用することである。この種の手法をジオメトリベー
スのアプローチと呼んでいる。
• これまでの研究は、2つのビューの間のギャップをどのように埋めるかによって、ホモグラフベースの方法と深度ベースの手法
の2つのグループに分けられる。

15
3.1.1 ホモグラフベースBEV 概要
• ホモグラフを用いた手法は、透視図と鳥瞰図との間の平坦な地面の物理的なマッピングに依存しており、解釈性が良い。
• IPMは、画像投影や特徴量投影の役割を担っている。マッピングは、行列の乗算によって計算される。PVからBEVへの実変換は非論
理的であるため、IPMは問題の一部しか解けない。PVの全特徴量マップに対する効果的なBEVマッピングはまだ未解決である。
• IPMに基づく手法は、すべての点が地上にあることを前提に構築されている。これを避けるためには、2次元の画素や特徴を3次元空間
に持ち上げる深度が必要である。
• このような観点から、PV-BEV変換のための重要な手法として、深度ベースの手法がある。

16
3.2 深度ベースPV2BEV
• 深度ベースのPV2BEV手法は、3D表現に基づいて構築される。
• ポイントベース手法とボクセルベース手法、IPMベース手法との組み合わせの３つのタイプに分けることができる。

17
3.2.1 ポイントベースのビュー変換
• 深度推定を直接利用して、ピクセルを点群に変換し、連続した3次元
空間に散布する方式。この方法は、単眼での深度推定とLiDARによる
3D検出を統合する。
• このパイプラインは通常、2ステージ間の勾配切断のため、学習時や展開時に複雑になることがある。
• そのため、E2E Pseudo-LiDAR は、全体をエンドツーエンドで学習できるように、Change-of-Representation (CoR) モジュールを
提案している。しかし、特に大規模な屋外シーンでは、これらの側面においてボクセルベースの方法よりも本質的に劣ることが示されている。
問題点
例）
• Pseudo-LiDARは、まず深度マップを疑似LiDARポイントに変換
し、それを最先端のLiDARベースの3D検出器に送り込む。
• Pseudo-LiDAR++ は、ステレオ深度推定ネットワークと損失関
数で深度精度を向上させる。
• AM3Dは、擬似点群を補完的なRGB特徴で装飾することを提案し
ている。
• PatchNetは、深度マップと3次元座標の差異を分析し、3次元座
標を入力データの追加チャネルとして統合することで、同様の結果を
得ることを提案している。

18
3.2.2 ボクセルベースのビュー変換
• ボクセルは3次元空間を離散化し、特徴変換のための規則的な構造を構築することで、3次元シーン理解のためのより効
率的な表現を提示する。具体的には、この方式では、一般に、深度ガイダンスを用いて直接対応する3D位置に2D特徴
を散布する。
• 初期の手法は、OFT のように、分布が一様である、すなわち、
光線に沿ったすべての特徴が同じであると仮定している。
• 等間隔に配置された 3D 格子上に定義された 3D ボクセル特
徴マップを構築し、対応する画像特徴マップを投影した領域上の
特徴を蓄積してボクセルを埋める。
• 次に、ボクセルの特徴を縦軸に沿って合計することで正投影特
徴マップを求め、次に深層畳み込みニューラルネットワークが3次
元物体検出のためのBEV特徴を抽出する。

19
3.2.2 ボクセルベースのビュー変換
画像特徴マップを 3D 空間へマッピングする仕組み
• ボクセルが画像空間内でどのような映るかがわかったところで、画像空間における特徴マップを
3D 空間にマッピングしていく。
• 中心座標が (x, y, z) のボクセルの特徴マップ g(x, y, z) は、上記で求めたバウンディング
ボックスに含まれる範囲の特徴マップに対して Average pooling（平均プーリング）をかけ
ることで求めることができる。
• 特徴マップのテンソルを繰り返し足し合わせる処理は計算量増大の原因になってしまう。そこで、提案手法では Integral images（積分
画像）による高速化を図っている。ピクセル (u, v) の Integral map を F(u, v) は、再帰関数の利用により下式のように表すことができる。
• 積分特徴マップ F が与えられると、バウンディングボックス座標 (u1,v1) と (u2,v2) で定義される領域に対応する出力特徴 g(x,y,z) は、
次式で与えられる。

20
3.2.3 深度監視
• 予測された深度分布を用いて2次元特徴を持ち上げる（３次
元にする）場合、深度分布の精度が重要である。
• CaDDN (図6)は、LiDARの投影点から得られる疎な深度マッ
プを補間し、それを利用して深度分布の予測を監視する。
• この手法では、この深度監視と、分布予測を促す損失関数が重
要であることが示されている。

21
3.2.3 深度監視
• 両眼型3D検出の手法であるDSGNやLIGA-Stereo
（図7）も同様の深度監視に依存しており、スパースな
LiDAR深度マップがより有効である。
• 深度ラベルを使用しない他の作品は、疎なインスタンス注
釈からそのような3Dローカライゼーションまたは深度情報を
学習することしかできず、ネットワーク学習にとってより困難
である。

22
3.2.4 IPMベース手法との組み合わせ
• IPMに基づく手法は、平坦な地面のシナリオでうまく機能し、学習するパラメータがごくわずかでも効率的に実行される。
• 明示的な深度予測と監視に依存しない方法は、垂直方向に沿った特徴集約に適している。
例）
• PanopticSeg は、両方の利点を利用し、パノプティックセグメンテーションのための高密度変換モジュールを提案する。このモジュールは、
IPMに続いてエラー修正を用いた平面変換器により平面BEV特徴を生成し、体積格子を用いて中間3D空間をモデル化し、これをフ
ラット化して垂直BEV特徴を生成する。
3.2.5 ステレオマッチングのためのマルチビュー統合
• 単眼での深度推定に加え、ステレオマッチングにより、カメラのみでの知覚においてより正確な深度情報を予測することができる。その中で
も、両眼設定は最も一般的でよく研究されているものであり、適切な多視点設定を確立するために、大きな重複領域と小さな水平オフ
セットのみを特徴としている。
• これに対し、2眼の場合の深度推定には、より重要なメリットがある。DSGN や LIGA-Stereo などの最近の両眼法では，ステレオマッ
チングと深度推定に平面スイープ表現を用いることが一般的である。そして、平面スイープ特徴量からボクセルと BEV 特徴をサンプリング
し、その上で 3 次元検出を行う。
• また、ImVoxelNetのようなマルチビュー設定をターゲットとする他の方法は、隣接する領域間で重複領域も大きくなる室内シーンにおい
て、このようなボクセルベースの定式化の有効性を示している。また、連続するフレームについても、時間的に隣接する2枚の画像も条件
を満たすことができる。

23
3.2.6 まとめ
• 深度ベースのビュー変換手法は、通常、明示的な3D表現、量子化されたボクセル、または連続した3D空間に散在する点
群に基づいて構築される。
• ポイントベース方式は、深度予測を擬似LiDAR表現に変換し、カスタムネットワークを用いて3D検出を行う。
• ボクセルベースの手法は、一様な深度ベクトルまたは明示的に予測された深度分布を使用して、2D特徴を3Dボクセル
空間に持ち上げ、そこでBEVベースの知覚を実行する。
• しかし、一般化できるエンドツーエンドの学習が困難なため、モデルの複雑さと性能の低さに悩まされている。最近の手法で
は、計算の効率性と柔軟性から、ボクセルベースの手法が注目されている。このボクセルベースの手法は、カメラのみを用
いた手法において、様々なタスクで広く採用されている。深度監視は、正確な深度分布が透視図の特徴を鳥瞰図に変換
するときに不可欠な手がかりを提供することができるので、このような深度ベースの手法にとって重要である。また、DfM、
BEVDet4D、MVFCOS3D++で分析したように、時間モデリングにおける手法の潜在的利点を探ることは有望な方向性
である。

24
3.2.6 まとめ
• 深度ベース手法の比較

４. ネットワークベースのPV2BEV
25
4 ネットワークベースPV2BEV
• MLPベースとTransformerベースに分かれる。
• Transformerベースは、スパースクエリとデンスクエリ、ハイブリッドクエリに分かれる。
• スパースとデンスの違いは、各クエリに3次元空間またはBEV空間における空間位置があらかじめ割り当てられているかどうか。

26
4.1 MLPベースPV2BEV
• MLPに基づく手法は、透視図から鳥瞰図への変換をモデル化するための一般的なマッピング関数としてMLPを利用する。
• MLP は理論的には普遍的な近似関数であるが、深度情報の欠如やオクルージョンなどのために、ビュー変換を推論する
ことはまだ困難である。さらに、マルチビュー画像は通常、個別に変換され、レイトフュージョン方式で融合されるため、MLP
ベースの手法では活用することができない。
MLPベース手法のPON

27
4.1 MLPベースPV2BEV
• ネットワークベースのPV-to-BEV手法のセマンティックセグメンテーション精度。

28
4.2 TransformerベースPV2BEV
• Transformerを用いたBEV。MLPベースとTransformerベースのテンソルマッピングには、3つの大きな違いがある。
① 重み付け行列は推論中に固定されるため、MLPで学習したマッピングはデータに依存しない。対照的に、Transformerにおけるcross
attentionは、重み付け行列が入力データに依存するデータ依存性を持つ。このデータ依存性により、Transformerはより表現力が
豊かになる。一方で学習は困難になる。
② cross attentionは順列不変である。すなわち、Transformer は入力の順序を区別するために位置エンコーディングを必要とするが、
MLPは順列に敏感である。
③ MLPベースの手法で行われるように、ビュー変換を前方から処理するのではなく、Transformerベースの手法は、クエリを構築し、
Attentionメカニズムを通して対応する画像特徴を検索することにより、トップダウン型を採用している。

29
4.2.1 スパースクエリベースの手法
• クエリ埋め込みにより、画像特徴の密な変換を明示的に行うことなく、ネットワークが直接スパースな知覚結果を生成することが可能。
この設計は、3次元物体検出のような物体中心の知覚タスクで可能であるが、セグメンテーションのような密な知覚タスクに拡張すること
は容易でない。
• 単一の画像からBEV空間におけるローカル道路網を表す有向グラフを抽出するために、スパースクエリベースのフレームワークに従う。こ
の方法は、センターラインとダイナミックオブジェクトの2組のスパースクエリを用いることで、3Dオブジェクトも共同で検出することができ、オ
ブジェクトとセンターラインの間の依存関係がネットワークによって利用されることが可能である。
STSU
• 最小サイクルを保存することにより道路網のトポロジーを考慮し、STSUを改良したもの。
TopologyPL
• DETR3Dの複雑な特徴サンプリング手順を軽減するために、PETR はカメラパラメータから得られる3D位置埋め込みを2Dマルチ
ビュー特徴にエンコードし、スパースクエリが直接素のcross attentionにおける位置認識画像特徴と対話できるようにして、よりシンプ
ルなフレームワークを実現している。
PETR
• DETR3D はSTSUと同様のパラダイムを提案するが、マルチカメラ入力の3D検出に焦点を当て、cross attentionを形状に基づく特徴
サンプリング処理に置き換える。まず、学習可能なスパースクエリから3D参照点を予測し、次にキャリブレーション行列を使用して参照点を
画像平面に投影し、最後にエンドツーエンド3Dバウンディングボックス予測のために対応するマルチビューマルチスケール画像特徴をサンプリ
ングする。
DETR3D

30
• 3D検出のための極座標化を提案し、バウンディングボックスのパラメータ化、ネットワーク予測、損失計算をすべて極座標系で再定式
化することで、誘導バイアスとしてサラウンドビューカメラのビュー対称性を利用して最適化と性能アップを図る。また、DETR3Dにおける
文脈情報の不足の問題を緩和するために、投影された参照点の特徴以外の文脈の特徴を利用する。
• 別の2D検出フレームワークであるSparseRCNNに基づいて、疎な提案ベースのマルチカメラ3D検出方法を設計し、各提案は、学習可
能な3D境界ボックスとインスタンス特性をエンコードする学習可能な特徴ベクトルを含んでいる。Cross attentionに基づく特徴量相互
作用を置き換えるために、提案ボックスから抽出されたRoI特徴量で提案特徴量を更新するスパース特徴量サンプリングモジュールと動
的インスタンス相互作用ヘッドが提案される。
PETRv2
• 3次元位置埋め込みを時間領域へ拡張することにより、時間情報を利用するもの。DETR3Dにおける不十分な特徴集約に対処し、
重複領域における知覚結果を改善するために、Graph-DETR3D は、グラフ構造学習により各オブジェクトクエリーに対して様々な画
像情報を集約することでオブジェクト表現を強化する。同様に、ORA3D もDETR3Dのオーバーラップ領域における性能の向上に焦点
を合わせている。これは、ステレオ視差監視と敵対的学習により、オーバーラップ領域の表現学習を正則化するものである。
PolarDETR
SRCN3D

31
• DETR、DETR3D、PETR、Dense query base 手法のパラダイム比較。
• DETR3Dの複雑な特徴サンプリング手順を軽減す
るために、PETR はカメラパラメータから得られる3D
位置埋め込みを2Dマルチビュー特徴にエンコードし、
スパースクエリが直接素のcross attentionにおける
位置認識画像特徴と対話できるようにして、よりシン
プルなフレームワークを実現している。
PETR
• 学習可能なスパースクエリから3D参照点を予測し、
次にキャリブレーション行列を使用して参照点を画
像平面に投影し、最後にエンドツーエンド3Dバウン
ディングボックス予測のために対応するマルチビュー
マルチスケール画像特徴をサンプリングする。
DETR3D
DETR
• Transformerを用いた２Dの物体検出。

32
4.2.2 デンスクエリベースの手法
• デンスクエリベースの手法では、各クエリは3次元空間またはBEV空間における空間位置があらかじめ割り当てられている。
• クエリの数はラスタライズ空間の空間解像度によって決定され、通常、スパースクエリベースの手法におけるクエリの数よりも大
きくなる。密なBEV表現は、3D検出、セグメンテーション、および動き予測などの複数の下流タスクのための密なクエリと画
像特徴との間の相互作用を通じて実現することができる。
• Tesla は、まず、位置エンコーディングとコンテキストサマリを用いて、BEV空間における密なBEVクエリを生成する。次に、クエリとマルチ
ビュー画像特徴との間のcross attention により、ビュー変換を実施する。BEVクエリと画像特徴間の素のcross attentionは、カメラパ
ラメータを考慮することなく実行される。
• CVT は、cross attentionの幾何学的推論を容易にするために、画像特徴にカメラの固有および外部キャリブレーションから得られる位
置埋め込みを装備する、cross attention モジュールを提案する。各変換デコーダ層におけるAttentionの演算は、膨大なクエリとキーエ
レメント数で大きなメモリ複雑性を必要とするため、通常、メモリ消費を抑えるために画像解像度やBEV解像度が制限され、これによっては、
多くの場合、モデルのスケーラビリティを阻害する可能性がある。
高密度なクエリベースの手法の問題点を解決するために、多くの取り組みがなされている。
例）Deformable attention は、deformable convolution の疎な空間サンプリングとAttentionの関係モデリング能力を
組み合わせ、疎な位置にのみ注意を向けることにより、Attentionのメモリ消費を著しく減少させることができる。
メモリ消費量が大きい点が問題

33
• BEVFormer は、BEV平面上に位置する密なクエリとマルチビュー画像特徴との間の相互作用のために、変形可能な
Attentionを採用する。さらに、履歴BEVクエリのセットを設計し、クエリと履歴クエリ間の変形可能なAttentionを通じて、
時間的な手がかりを利用することができる。
• Ego3RT は高密度なクエリを偏光BEVグリッド上に配置し、クエリとマルチビュー画像特徴を相互作用させるために変形
可能なAttentionに依存している。偏光BEV特徴はグリッドサンプリングにより直交特徴に変換され、下流タスクに利用さ
れる。
• BEVSegFormerでは、クエリの特徴から直接参照点を予測するのではなく、カメラパラメータとクエリの事前定義された
3次元位置を利用して、変形可能なAttentionで特徴サンプリングのための2次元参照点を計算している。
• PersFormerは画像上の参照点を計算するためにIPMに依存する。このような設計により、ネットワークはガイダンスのた
めの幾何学的事前分布を持つ画像上の適切な領域をより良く特定することができるが、これはキャリブレーション行列に
対してより敏感である危険性がある。

34
• メモリ消費量を削減する有力な方法として、3次元幾何学的な制約を用いた
Cross Attentionに基づくインタラクションの簡略化がある。
• Image2Map は、まず単眼画像における垂直走査線と、カメラ中心から始
まるBEV平面上の光線との間に1-1の関係を仮定することにより、単眼BEVセ
グメンテーションのためのフレームワークを提案する。そして、ビューの変換は、1次
元の配列間変換問題の集合として定式化され、画像中の垂直走査線を1本
ずつ変換エンコーダに渡してメモリ表現を作成し、BEV極線に復号化する。
• カメラキャリブレーションが固定されている場合、BEVクエリからピクセル位置への固定マッピングとなる。この演算子は、固定サンプリ
ングオフセットと類似性に基づくAttentionの重みを持つ変形可能なattentionと見なすことができる。そして、BEVから2次元へのルック
アップテーブルによるインデックス付け手法を提案し、高速な推論を行う。
• CoBEVT は変形可能なAttentionを採用する代わりに、fused axial attention（FAX）と呼ばれる新しいAttentionの変形を提
案し、計算量を減らし、高レベルの文脈情報と領域特徴の両方を取得できる。具体的には、まず特徴マップを3次元の非重複ウィンドウ
に分割し、各ローカルウィンドウ内のAttentionによるローカルAttentionと、異なるウィンドウ間のAttentionによるGlobal Attention
を行う。

35
• Polarの距離次元における制約のないオブジェクトのスケール変
動を扱うために、マルチスケールPolar表現学習を提案している。
• PolarDETRと同様に、バウンディングボックス予測は、極座標系
で行われる（図12）。
• LaRa は、まずマルチビュー画像特徴を潜在空間にエンコードし、
次にcross attenitonモジュールで潜在表現を照会してBEV特
徴を得ることで、計算領域を制御している。コンパクトな潜在空
間は、入力サイズや出力解像度から切り離されているため、精
密な制御が可能である。
• さらに、視覚的特徴を補強し、特徴と潜在ベクトル間のcross
attentionを誘導するために、校正行列から導かれる光線ベー
スの位置埋め込みが提案されている。

36
4.2.3 ハイブリッドクエリベースの手法
• スパースクエリに基づく手法は、オブジェクト中心のタスクには適しているが、明示的な密なBEV表現を導出できないため、
BEVセグメンテーションのような密な知覚タスクには適さない。そこで、PETRv2ではハイブリッドクエリを設計し、スパースオブ
ジェクトクエリに加えて、デンスセグメンテーションクエリを提案している。各セグメンテーションクエリは特定のパッチ
（16×16）のセグメンテーションを担当する。
4.2.4 スパースクエリ vs デンスクエリ
• スパースクエリに基づく手法は、物体検出タスクにおいて有望な結果を得るが、その3次元表現はエゴ座標フレームに対す
る幾何学的構造を持たないため、地図分割のような密な予測タスクを行うことは困難である。
• これに対し、空間分布を明示したデンスクエリは、BEV空間に対して密で統一的な表現を提供し、異なる知覚ヘッドを容
易に採用できる可能性がある。しかし、多数のBEVクエリの下では膨大な計算コストがかかるため、高解像度の特徴マップ
を実現するためには、Attentionメカニズムをより効率的にすることが必要である。
• 効率的なTransformerアーキテクチャは、過去数年の間に集中的に関心を集めてきた。しかし、これらの研究は、キーと
クエリが同じ要素集合から得られるSelf Attentionに焦点を当てており、2つの集合から得られるcross attentionにおけ
る有効性は、まだ十分に検討されていない。

37
4.2.5 幾何学的な手がかり
• 概念的には、TransformerベースのPV-to-BEV手法は、Attentionメカニズムのみに依存してビュー変換を行うことができ、
必ずしも幾何学的処理は必要ではない。
• しかし、順列不変の性質により、Transformerは画像領域とBEVピクセル間の空間的関係を認識しないため、ネットワーク
の収束が遅く、データ量が多くなる。現在では、3次元幾何学的な制約を利用して、高速な収束やデータ効率を実現しよう
とする手法が増加している。
• クエリの3次元座標が与えられた場合、カメラキャリブレーション行列はBEV空間から画像平面へのマッピングを定義し、
視覚特徴とクエリを相互作用させるための良い手掛かりとなる。
• キャリブレーション行列は、transformerに基づくPV-to-BEV法のほとんどで様々な方法で活用されている。
• カメラ投影行列に依存して、特徴サンプリングのための2次元参照点を計算し、ネットワークが画像上の適切な領域に
注意を向ける。
• キャリブレーション行列を利用するもう一つの方法は、カメラジオメトリに基づいて各画像垂直走査線をBEVに予め割り
当て、global cross attentionを列方向Attentionに簡略化することである。この方法もまた、計算を大幅に節約
することができる。
キャリブレーションマトリックス

38
4.2.5 幾何学的な手がかり
• TransformerベースのPV-to-BEV手法は、ビュー変換のために必ずしもピクセル単位の深度を必要としないが、深度情
報はTransformerのジオメトリ的推論にとって依然として重要である。
• nuScenesオブジェクト検出ベンチマークにおいて、ほとんどのTransformerベースの手法は深度事前学習の恩恵を受け、
クエリと画像特徴間の関連付けを確立するために有用な深度を考慮した2D特徴を提供する。
• 深度予測は、投影されたLiDARポイントまたはオブジェクト単位の深度ラベルから、正解の深度を得ることができる Vision
centric3D検出を支援するために、共同で最適化することができる。
• MonoDTR と MonoDETR は、深度を考慮した特徴を生成し、Transformerの位置エンコーディングのためにピクセル
ごとの深度を予測する別のモジュールを設計している。MonoDTRは次に、アンカーベースの検出ヘッドのためにコンテキスト
特徴と深度特徴を統合するためにTransformerを使用し、MonoDETRは、オブジェクトクエリを深度特徴と相互作用さ
せるために、深度 Cross Attention を備えたTransformerデコーダを提案することによって、2D画像から直接3D予測
をデコードするために深度を考慮したようにTransformerを修正する。
深度情報

39
4.2.6 まとめ
• スパースクエリベースの手法は、BEV空間を明示的に表現できないため、密な知覚タスク（道路セグメンテーションなど）を
考慮する場合には、通常、デンスクエリが採用される。
• 深度ベースのビュー変換手法で観察されるように、時間情報もまた、Transformerベースの手法にとって重要である。時間
的統合を用いた手法は一般的にmAPとmAVEにおいてシングルフレーム手法を大きく上回る。
• 各カメラの知覚範囲は鋭角軸を持つため、垂直軸に基づく直交座標を非直交軸に基づく極座標に置き換えることが提案さ
れており、さらなる研究のための興味深い方向性となると考えられる。
• Transformerに基づく視点投影は、ますます人気が高まっている。畳み込みバックボーンを置き換える特徴抽出器や、アン
カーベース、アンカーフリーヘッドを置き換える検出ヘッドとしての役割も果たすことが可能。

40
4.2.6 まとめ
• 表4 は、nuScenesのセグメンテーションタスクに対するTransformerベースのPV-to-BEV手法の結果を示している。

41
4.2.6 まとめ
• 表5は、KITTI と nuScenes の3D物体検出のTranformerベースのPV-to-BEV手法の結果を示している。

5. 拡張
42
5.1 BEV下でのマルチタスク学習
• BEV 表現は、物体検出、地図分割、予測、運動計画など、多くの下流タスクに役
立つ。バックボーンネットワークを共有することで、計算コストを大幅に削減し、効率を
向上させることができる。
• まず密なBEVクエリによりマルチビュー画像をBEV平面上に投影する。次にエンドツーエンドの3Dオブジェクト検出とマップセグメンテー
ションのために、共有BEV特徴マップ上で変形可能DETR とマスクデコーダなどの異なるタスク固有のヘッドを採用する。
FIERY
• マルチカメラ映像からの時空間BEV表現を用いて、知覚と予測を一つのネッ
トワークに統合するフレームワークを最初に提案した。
BEVerse
• 将来の状態を生成するために、各タイムスタンプと残差の推定を行う。
BEVerse は、メモリ消費を抑えるために、将来の状態を効率的に生成する反
復フローを設計し、3D検出、Semantic Mapの再構成、および動き予測の
タスクを共同で行っている。
BEVFormer

5. 拡張
43
5.1 BEV下でのマルチタスク学習
• 3Dオブジェクト検出とBEVセグメンテーションの共同学習は、通常、改善をもたらさないことが分かっている。
• 異なる知覚タスク間の依存関係を調査し、共同改善を達成するためには、BEV表現は、マルチセンサー、マルチフレーム、マ
ルチエージェントの融合に便利な方法を提供し、包括的な情報を活用することで、自動運転における知覚に大きく役立つ。

5. 拡張
44
5.2.1 マルチモダリティ・フュージョン
• カメラ、LiDAR、レーダーの3種類のセンサーメリットとデメリット。
カメラ
メリットデメリット
LiDAR
レーダー
色、テクスチャ、エッジなどの外観特徴が豊富。照明の影響を受けやすく、深度情報に乏しい。
正確な深度情報と豊富なジオメトリ―的特徴を持つ。テクスチャ情報に乏しい。
LiDARよりも感知範囲が広く、移動体の速度を直接捉え
点群は非常にまばらでノイズが多いため、形状やスケールの
視覚的特徴を抽出することが困難。

5. 拡張
45
• 画像と点群の融合は、データレベルの融合と特徴レベルの融合に分類することができる。
• データレベルの融合は、キャリブレーション行列を用いて、画素の特徴を点に結びつける。
• 特徴レベルの融合は、PVの画像特徴と3DやBEVの点群特徴を抽出し、2種類の高次元特徴を直接融合させる。
３つの融合方法
① 深度誘導に依存し、3次元空間での融合を操作する。
② 融合段階で画像の高密度な意味情報と空間形状情報を完全に保持し、推論を高速化するために効率的なBEVプーリング操作を
提案。
③ センサーフュージョンによる3D物体検出のために、クエリベースのモダリティに依存しない特徴サンプラーとTransformerデコーダを採用。
融合の対象

5. 拡張
46
• UVTR は、予測された深度スコアと幾何学的制約に従って、画像平面から特徴をサンプリングしてボクセル空間を構築する。
AutoAlign は、明示的なカメラ投影なしに、ピクセルと3Dボクセル間の意味的整合性を適応的に整列し、自己教師付き学習により
クロスモーダル特徴相互作用を誘導する。これは、AutoAlignにおけるグローバルワイズアテンションとは異なるものである。
• AutoAlignV2 は、クロスモーダル特徴の自動アライメントをガイドするために決定論的投影行列を使用し、モダリティ間のスパースサン
プリングを実装している。そして、各ボクセルについて、画像特徴と関連する点群特徴の関係を簡単に確立することができる。また、3次
元空間での融合処理も行う。
• Frustum PointNets と CenterFusion は、検出された2Dオブジェクトの画像特徴を対応する3D位置に変換し、それぞれ
LiDAR検出とレーダー検出と融合するために、フラスタム投影を利用します。2番目のカテゴリの手法は、マルチモーダル入力から抽出さ
れたBEV特徴量に対して融合処理を行うものである。

5. 拡張
47
• BEV-Fusionは、融合段階で画像の高密度な意味情報と空間形状情報を完全に保持し、推論を高速化するために効率的なBEV
プーリング操作を提案している。
• RRFは、投影とバイリニアサンプリングにより画像特徴の3次元ボリュームを定義し、ラスタライズされたRadar BEV画像を連結し、最終的
にBEV融合特徴マップを得るために垂直次元を減少させる。
• FISHINGNetは、カメラ、LiDAR、Radarの特徴をそれぞれ単一の、共通の、トップダウンの意味的グリッド表現に変換し、これらの特徴
を集約してBEVの意味的グリッド予測に利用する。第3のBEV融合手法は、3次元参照点をクエリーとして初期化し、利用可能なすべて
のモダリティから特徴を抽出し、融合演算を行うことで3次元検出タスクをターゲットとするものである。

5. 拡張
48
• FUTR3D は、センサーフュージョンによる3D物体検出のために、クエリベースのモダリティに依存しない特徴サンプルと
Transformerデコーダを採用している。
• TransFusion は、標準的な3Dと2Dのバックボーンを使用して、LiDAR BEV特徴マップと画像特徴マップを抽出し、
クエリの初期化には前者（LiDAR BEV特徴マップ）に依存する。次に、垂直方向に沿って画像特徴を凝縮し、
cross attentionを使ってBEV平面上に特徴を投影し、LiDAR BEV特徴と融合させる。

5. 拡張
49
5.2.2 時間軸の融合
• 時間融合も以下の理由により、ロバストで信頼性の高いシステムにとって重要な要素である。
① 連続した観測データを蓄積することで、カメラの視野依存性に起因する自己閉塞や外部閉塞の影響を緩和し、閉塞
の激しい物体を検出して信頼性の高い道路地図を生成するのに役立つ。
② 時間的手がかりは、速度、加速度、ステアリングなどの物体の時間的属性を推定するために必要であり、カテゴリ分類
や運動予測に有益である。
③ 単一画像からの深度推定は当然ながら非定型で困難であるが、連続画像によって形成されるステレオ幾何学は、絶
対深度推定に重要な指針となり、よく研究された理論的基礎を提供する。
• 連続した画像フレームに存在する時間情報の利点を考慮し、多くの研究は、生の入力を連結し、画像から抽出した特徴
を連結し、あるいはRNNやTransformerを用いて映像理解を行うが、3次元知覚に対してこれらのステップを取ることは
ほとんどない。これは、自車両の移動に伴ってカメラの姿勢が変化するため、連続した透視図表現が厳密な物理的対
応関係を持たないためである。このため、PVの時間的特徴を直接融合しても、3次元位置の正確な把握には限界がある。
• BEV表現は単語座標への変換が容易である。連続したビジョンセントリックデータを物理的に融合するための橋渡し役として
機能する。

5. 拡張
50
• PETRv2 は、BEV特徴マップをラッピングする代わりに、パースペクティブビューと3次元座標マップに対して直接ラッピング処理を行う。ま
ず、前フレームの3次元座標をエゴモーションに基づいて現在時刻に変換し、前フレームの位置符号化を生成する。次に、2つのフレーム
の2D画像特徴と3D座標は、Transformerデコーダのために一緒に連結され、ここで、疎なオブジェクトクエリは、時間情報を得るために
現在と以前の特徴の両方と相互作用することができる。
• UniFormer は、以前のフレームからのPV特徴を統一された仮想ビューに変換し、cross attentionを用いて過去と現在のすべての
特徴を融合し統合する。
• DfMでは、深度推定における時間的手がかりの重要性を理論的に分析し、より早い段階から時間的手がかりを利用することで、より良い
深度推定によるPV2BEV変換の促進を選択する。単一の画像からの単眼的理解に頼るのではなく、時間的に隣接する画像からのステレ
オ幾何学的手がかりを統合する。また、ステレオ推定では対応できないケースに対応するため、単眼推定とステレオ推定のバランスを適応的
にとる単眼補正手法を提案する。正確な深度推定に基づき、2次元画像の特徴を3次元空間に持ち上げ、そこに存在する3次元物体を
検出する。
• BEVDet4D は、まず、エゴモーションに基づいて、以前のフレームから現在の時間にBEV特徴マップをワープして、同じ座標系に特徴を
置き、次に、チャンネル次元に沿って整列した特徴マップを連結して検出ヘッドに供給する。移動する物体は、異なるタイムスタンプで異な
るグリッド位置を持つことができるため、同じ物理的位置を持つ異なる時刻のBEV特徴は、同じ物体に属さないかもしれない。
• BEVFormer は、異なる時刻の同じオブジェクトの関連付けをより良く構築するために、現在のBEV特徴をクエリとして、以前のBEV特
徴をキーと値として、self-attention層を介して特徴間の時間的なつながりをモデル化する。

5. 拡張
51
• ステレオ推定では対応できない場合、単眼推定とステレオ推定を適応的にバランスさせる単眼補正を提案する。DfMは、
正確な深度推定に基づき、2次元画像の特徴を3次元空間に持ち上げ、そこに存在する3次元物体を検出する。
• 下表に示すように、空間のみの3次元空間から空間-時間4次元空間にモデルを持ち上げると、特に速度と姿勢の予
測において、全体の検出性能が大幅に改善される。しかし、ほとんどの時間モデルは、最大4つ前のフレームしか利用
せず、長距離の履歴情報はほとんど無視されている。例えば、BEVFormerの性能はフレーム数が4より大きくなると横
ばいになり始める。これは長距離の情報がうまく利用されていないことを意味する。

5. 拡張
52
5.2.3 マルチエージェントフュージョン
• 最近の文献では、シングルエージェントのシステムがほとんどであり、完全な交通シーンにおけるオクルージョンの処理と不
鮮明な物体の検出が困難である。
• しかし、Vehicle-to-Vehicle (V2V)通信技術の発展により，近隣の自律走行車両間でセンサデータをブロード
キャストし、同じシーンの複数の視点を提供することにより、この問題を克服することが可能になった。
• マルチエージェントデータからカメラ特徴を融合するために、まず、自身の姿勢と送信者の姿勢に基づいて他のエージェント
からのBEV特徴を幾何学的に歪め、fused axial attention 機構を用いて、複数のエージェントから受け取ったBEV
特徴の情報をTransformerにより融合させる方法が提案されている。
• しかし、マルチエージェントを含む利用可能な実世界データセットがないため、提案フレームワークはシミュレーションデータ
セット上でのみ検証されており、実世界での汎化能力はまだ不明であり、さらなる検討が必要である。

5. 拡張
53
5.3.1 知覚の解像度
• 透視図から鳥瞰図への視点変換を行うため、これら2つの視点に対する知覚範囲の設定は、性能と効率とのトレードオフ
となる。近年、グラフィックスカードの計算能力の飛躍的な向上に伴い、透視図画像の解像度や鳥瞰図グリッドサイズは
大幅に増加している。透視画像解像度の増加は、性能を大幅に向上させることができるが、推論速度にも影響を与える。
• これらの BEV ベースの手法は、νScene 上で LiDAR ベースの手法に迫る成果を上げているが、高入力解像度による
計算負荷の高さは、導入時の深刻な問題であり、今後の検討課題である。
• 知覚範囲がLiDARベースの検出器における設定と常に一致しているため、BEV知覚解像度に対するグリッドサイズの影
響を主に考察している。しかし、これらの一般的な設定は、高速道路でのケースなど、いくつかの実用的なシナリオでは十
分ではなく、これも将来の研究を必要とする潜在的な問題である。
5.3 経験的ノウハウ

5. 拡張
54
5.3.2 ネットワークデザイン
• 検出性能のもう一つの重要な要因は、異なる特徴抽出バックボーンと検出ヘッドを使用することである。この種の方法は、
通常、遠近法理解のための十分な意味的監督の欠如に悩まされている。そこで、ほとんどの手法では、3D検出または
深度推定のための単眼ベースの手法で事前に学習したPVバックボーンを使用している。
• 検出ヘッドに関しては、Transformerベースの方法は通常、完全にエンドツーエンド設計を達成するために、DETR3D
または transformable DETRヘッドを使用している。
5.3.3 補助的なタスク
• 画像、動画、LiDAR点群など、学習時に利用可能な様々なデータモダリティがあるため、より良い表現学習のための補助
タスクの設計も最近の研究のホットスポットになっている。
• 深度推定、単眼2D・3D検出、2D車線検出などの古典的な補助タスクに加え、ステレオから単眼学習、 LiDARからス
テレオ学習など、クロスモダリティ設定から知識抽出するスキームもいくつか考案されている。
• しかし、この新しいトレンドはまだ小規模なデータセットでの実験に焦点を当てており、大量の学習データがこのような学習ア
プローチの利点を弱める可能性がある大規模なデータセットでの検証と開発をさらに進める必要がある。

5. 拡張
55
5.3.4 トレーニング内容
• 学習ベースの認識における共通の問題について。まず、これらの手法のほとんどはビュー変換と異なるモダリティを含むため、
data augmentation はPV画像とBEVの両方に適用することができる。以下に示すように、最近の手法では、通常、3
種類のdata augmentationを利用する（GM、IDA、BDA）。その中でも、BEVの増強は、このパラダイムにとって特に
重要。さらに、LiDARベースのアプローチと同様に、クラスが不均衡な問題について、いくつかの手法は、ロングテールのカテ
ゴリのサンプル数を増やすためにCBGS を利用している。

６. まとめ
まとめ
56
• PV2BEVの変換を解くための最近の研究を包括的にまとめたサーベイ論文。
• 関連する手法をコアアイデアと下流のビジョンタスクに基づいて明確に分類し、紹介・議論している。
• また、さらなる研究と実装を促進するために、性能と応用シナリオの詳細な比較と分析を行い、ビジョンセントリック
なBEV知覚の豊富な拡張も提案されている。
感想
• 体系的、全体像を掴める。
• 個別の手法の詳細については、ぞれぞれの論文を確認したい。

Appendix
参考文献
• T. Roddick and R. Cipolla, “Predicting semantic map representations from images using pyramid occupancy networks,” in
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 11 138–11 147.
• A. Saha, O. Mendez, C. Russell, and R. Bowden, “Translating images into maps,” in 2022 IEEE International Conference
on Robotics and Automation (ICRA). IEEE, 2022.
• Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.-G. Jiang, “Polarformer: Multi-camera 3d object detection with
polar transformer,” ArXiv, p. abs/2206.15398, 2022.
• T. Roddick, A. Kendall, and R. Cipolla, “Orthographic feature transform for monocular 3d object detection,” arXiv preprint
arXiv:1811.08188, 2018.
• S. Chen, , X.Wang, T. Cheng, Q. Zhang, C. Huang, andW. Liu, “Polar parametrization for vision-based surround-view 3d
detection,” arXiv:2206.10965, 2022.
• Y. Li, Y. Chen, X. Qi, Z. Li, J. Sun, and J. Jia, “Unifying voxel-based representation with transformer for 3d object
detection,” CoRR, 2022.
• Z. Liu, H. Tang, A. Amini, X. Yang, H. Mao, D. Rus, and S. Han, “Bevfusion: Multi-task multi-sensor fusion with unified
bird’s-eye view representation,” CoRR, 2022.
57

【DL輪読会】Vision-Centric BEV Perception: A Survey

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

【DL輪読会】Vision-Centric BEV Perception: A Survey