6. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. イントロダクション
本論文の貢献
6
① 本論文は透視図と鳥瞰図間のビュー変換を解決するための最近の進歩をレビューする最初のサーベイ論文である。
② Vision中心のBEVの最新の関連手法を提示し、コアアイデアと下流の視覚タスクを基に明確に分類している。また、
これらの手法の性能と限界に関する詳細な分析・比較を行う。
③ マルチタスク学習、BEVとの融合、経験的学習など、BEV知覚手法の拡張を提案し、関連手法の実装と開発を
促進する。
57. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• T. Roddick and R. Cipolla, “Predicting semantic map representations from images using pyramid occupancy networks,” in
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 11 138–11 147.
• A. Saha, O. Mendez, C. Russell, and R. Bowden, “Translating images into maps,” in 2022 IEEE International Conference
on Robotics and Automation (ICRA). IEEE, 2022.
• Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.-G. Jiang, “Polarformer: Multi-camera 3d object detection with
polar transformer,” ArXiv, p. abs/2206.15398, 2022.
• T. Roddick, A. Kendall, and R. Cipolla, “Orthographic feature transform for monocular 3d object detection,” arXiv preprint
arXiv:1811.08188, 2018.
• S. Chen, , X.Wang, T. Cheng, Q. Zhang, C. Huang, andW. Liu, “Polar parametrization for vision-based surround-view 3d
detection,” arXiv:2206.10965, 2022.
• Y. Li, Y. Chen, X. Qi, Z. Li, J. Sun, and J. Jia, “Unifying voxel-based representation with transformer for 3d object
detection,” CoRR, 2022.
• Z. Liu, H. Tang, A. Amini, X. Yang, H. Mao, D. Rus, and S. Han, “Bevfusion: Multi-task multi-sensor fusion with unified
bird’s-eye view representation,” CoRR, 2022.
57