マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
西佑希
マルチエージェント深層強化学習による
自動運転車両の追越行動の獲得に
関する研究

2
研究背景
• 加速する自動運転車の開発
– 様々な運転タスクがエンドツーエンドで行われることが期待
• 交差点の右左折
• 高速道路の合流
• 追越し
• 特に追越し操作はルール化が困難[1]
– 追越しされる車両の数
– 関係車両間の相対速度
– 関係車両間の距離
• 自律的に経験を収集できる学習ベースの追越行動獲得
が有効
– 対向車のいない高速道路での追越しを扱う研究[2]が多い
• 一般道路等での対向車の存在も扱う必要性
[1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory
planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018,
Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001.
[2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep
Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755.
交通状況のバリエーションが多い

3
研究目的
• 対向車が存在する追越場面における，学習ベースによ
る追越行動の獲得
– 追越車，低速走行車，対向車をマルチエージェントで学習
• 獲得したい追越行動
– 安全性と走行効率性のトレードオフを考慮
– 協調による安全性，走行効率性の向上
低速走行車
追越車
対向車
安全性
• 車間距離が大きい
• 衝突しない
走行効率性
• 低速走行車への追従
時間が短い
追従追越し
車間距離
協調：減速で
車間距離広く

4
研究の方向性
精緻なシミュレータ
（Autoware[3]など）
実車両
・
・
・
直接的な実利用
選定
走行制御1,2,…
セキュリティ1,2,…
センサ1,2,…
GPS1,2,…
マルチエージェントでの追越行動獲得ができるか
と協調的な追越行動の効果を検証
[3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08

• 追越行動の実装手法は主に3つ
– ルールベース（例：MOBIL[4]）
• 多様な運転，交通状況に対して効率的なルールの設計が困難
– 最適化ベース（例：MPC[5]）
• 状況が複雑になるにつれて計算量が増加
– 学習ベース（例：深層強化学習による追越車単体の加速度・
舵角制御[6]）
• ルールの設計なしで多様な状況に対応できる可能性
• 多様な状況になりうる追越しタスクでは学習ベースが
有効
• シングルエージェントの学習では，協調的な行動獲得
が困難
→マルチエージェント深層強化学習による追越行動獲得
追越行動の実装手法 5
[4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007).
[5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving
Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019)
[6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR,
Vol.abs/1803.10056 (2018).

6
想定する交通状況
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車，追越車，対向車
• DSRC通信，C-V2Xによる広域通信（～1㎞）
– 車車間，路車間通信による周辺車両の情報取得可能
低速走行車
追越車
対向車
位置や速度情報の共有

7
シミュレータ
• シミュレータの種類は2つ
– 交通シミュレータ（例：CARLA[7]）
• 大規模な交通シミュレート
• センサー，GPSなどの設定もできるものがある
– 運転シミュレータ（例：METADRIVE[8]）
• 実際の運転操作をシミュレート
• ハンドル，ペダル，ディスプレイなどを用いる
• 小規模な交通状況を扱う
• 対向車線を走行しての追越しを扱う
– 交通シミュレータによっては扱えない
→ 本研究では，上記の状況を扱えるHarmo Traffic Simulator[9]
を用いる
[7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5.
[8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable
Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022).
[9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).

マルチエージェント深層強化学習による追越行動
• 協調的な追越行動
低速走行車や対向車の減速
→ 追越しのためのギャップ生成
→ 追越車の早期追越し（低速走行車への追従時間が短くなる）
→ 車両全体での走行速度向上
8
低速走行車（減速）
追越車
対向車
（減速）
広いギャップ

マルチエージェント深層強化学習による追越行動
• マルチエージェント深層強化学習による進行方向の加
速度制御
– 追越車，低速走行車，対向車が学習対象
– 追越操舵はモデルベース
• 車両間で位置，速度，方位情報の共有
– 車両の行動にあたる加速度は共有していない
9
低速走行車（減速）
追越車
対向車
（減速）
広いギャップ

マルチエージェント深層強化学習
• マルチエージェント深層強化学習手法MADDPG[10]が
ベース
– 全Actorの情報を集めて評価できるCriticを学習時のみ使用
[10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural
Information Processing Systems, Vol.30, Curran Associates, Inc. (2017).
[11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine
Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018).
[12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the
35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018).
10
o1
𝜋1
Actor(車両) 1
・・・
Critic
a1 oN
Actor N
aN
o1,…,oN a1,…,aN
q1,q2
o：観測
a：行動
𝜋：方策
q：状態行動価値
アルゴリズムの拡張
TD3[11]：qを2つ出力し，minimumを
とることで過大評価を避ける
SAC[12]：方策𝜋のエントロピー最大化
で探索の促進
𝜋𝑁

シミュレータ学習アルゴリズム
状態
行動
状態の計算
方策から行動
（進行方向加速度）の決定
シミュレートして
次状態と報酬の計算
規定ステップ
or
車両の衝突
Yes
エピソードリセットして
車両の配置
状態、行動、報酬、次状態
をバッファへ保存
次状態
報酬
バッファからサンプリング
して学習
学習頻度
ステップ
Yes
No
No
シミュレータと学習のフロー 11

強化学習設定
• 観測空間（車両が得る情報）
– 自車両の速度，方位
– 他車両との相対位置，相対速度，相対方位
• 行動空間
– 進行方向加速度（-0.3G~0.3G）
• 報酬設計
– 速度報酬（ 𝑣𝑡：現在速度，𝑣𝑚𝑎𝑥：最大速度）
𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥
– 衝突ペナルティ
𝑟𝑐 = −100
– 車間距離ペナルティ（ 𝑑𝑠：停止距離， 𝑑𝑓：車間距離）
𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 衝突時間ペナルティ（ 𝑡𝑙𝑖𝑚𝑖𝑡：通常制動回避下限，
𝑇𝑇𝐶：Time to Collision）
𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
Actor単体の報酬：R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
最終的な全体報酬：（𝑅1 + ⋯ + 𝑅𝑁）/N
次ページ以降で
詳細
12

強化学習設定
• 前方車両との車間距離ペナルティ𝑟𝑓（ 𝑑𝑠：停止距離，
𝑑𝑓：車間距離）
𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 停止距離𝑑𝑠は以下の式，条件で算出
𝑑𝑠 = 𝑡 ×
𝑣
3.6
+
𝑣2
254×𝜇
• 現在速度 𝑣[km/h]
• 危険を感じてからブレーキを踏むまでの平均的な反応時間
𝑡 = 0.75[sec]
• 乾いた路面での摩擦係数 𝜇 = 0.7
低1
追2
対3
追1
対2
対1
前方前方
前方前方
13

強化学習設定
• 対向車との衝突時間ペナルティ 𝑟𝑜 （ 𝑡𝑙𝑖𝑚𝑖𝑡：通常制動
回避下限，𝑇𝑇𝐶：Time to Collision）
𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
– 通常制動回避下限
• 運転手の制動によって前方車両との衝突を回避できる限界の時間
𝑡𝑙𝑖𝑚𝑖𝑡 ＝0.0167 × ∆𝑣 + 1.000（ ∆𝑣 は相対速度）
– Time To Collision
• 前方車両との衝突までの時間
𝑇𝑇𝐶 =
𝑑
∆𝑣
（𝑑は対向車との距離）
14
低速走行車
追越車
対向車
距離𝑑，相対速度∆𝑣

ルールベースの追越行動
学習ベースとの比較に用いる
1. 低速走行車を追従
– IDM（Intelligent Driver Model）による加速度制御
2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡（𝑇𝑇𝐶 =
𝑑
∆𝑣
, 𝑡の値は実験で5つ設定）のとき追越し
– Frenet Optimal Trajectoryによる追越経路生成
– Pure Pursuitによる操舵角制御
15
低速走行車
意思決定領域（25m）
対向車
距離𝑑，相対速度∆𝑣
追従追越し

環境設定
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車1台（最大25㎞/h）
– 追越車2台，対向車3台（最大40㎞/h）
• 「追越車と低速走行車」「対向車」それぞれ6か所の
開始地点
– 計400エピソード（学習時もテスト時も）
– エピソードリセット（衝突，300ステップ到達）時に開始地点
から走行開始
対向車
低速走行車
追越車
16

実験安全性，走行効率性の検証
• 検証内容
– 学習後の協調的な走行による安全性と走行効率性
• 検証方法
– ルールベース走行
• 追越しのタイミング（𝑇𝑇𝐶>𝑡）を決定する時間閾値𝑡を5つ設定
– 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0（安全性低い←---→高い）
– 車間距離，衝突時間に関するペナルティ係数を変更して学習
報酬：R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
17
K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール安全性
学習① 1 1 0 0 1 : 100 : 0 : 0 低
学習② 1 1 1 1 1 : 100 : 5 : 1
学習③ 1 1 5 5 1 : 100 : 25 : 5
学習④ 1 1 10 10 1 : 100 : 50 : 10
学習⑤ 1 1 15 15 1 : 100 : 75 : 15
学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高

18
評価指標
• 各指標で比較（全400エピソード）
– 全車両の平均走行速度
– 早期追越しエピソード数
• 対向車が低速走行車とすれ違う前に追越ししたエピソード
– 衝突エピソード数
– 前方車両至近距離エピソード数
• 前方車両との車間距離ペナルティが与えられたエピソード
– 対向車両至近距離エピソード数
• 対向車との衝突時間ペナルティが与えられたエピソード
低速走行車
追越車
対向車
早期追越し

19
学習中の報酬推移
• 3試行の平均をプロット（ペナルティ係数0のみ1試
行）
• 学習中，過去300エピソードでの平均報酬が最大と
なったときのモデルを使用してテスト
学習中の累積割引報酬の推移
縦軸：累積割引報酬
横軸：学習ステップ

実験結果
走行累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67（①） 36.88（①） 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53（③） 36.40（③） 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65（②） 36.39（②） 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
20
400エピソード中

実験結果
走行累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67（①） 36.88（①） 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53（③） 36.40（③） 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65（②） 36.39（②） 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
21
時間閾値𝑡が小さいほど早期追越しエピソー
ド数は増えるが，衝突や至近距離エピソード
も増える
早期追越しエピソード数が多いほど平均走行
速度は大きくなっている

実験結果
走行累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67（①） 36.88（①） 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53（③） 36.40（③） 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65（②） 36.39（②） 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
22
ペナルティ係数が大きいほど衝突や至近距離
エピソード数が少ない傾向にある
ペナルティ係数が15より大きいと早期追越し
ができず，平均走行速度が小さくなる

実験結果
走行累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67（①） 36.88（①） 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53（③） 36.40（③） 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65（②） 36.39（②） 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
23
ルールベースと学習ベースの比較
至近距離エピソード数を10に抑えつつ，
平均走行速度の向上

24
対向車両至近距離エピソード詳細
ルール②
学習④
対向車両との衝突時間ペナルティ
のヒストグラム
（係数K𝑜 = 1で合わせた）
1エピソードの中で
ペナルティが与えられた
ステップ数のヒストグラム
計498ステップ
計10ステップ

走行比較
• ルールベース 𝑡 = 12.0： 35.66km/h
– 追越車が低速走行車の後ろを走行し，自由走行できていない
• 学習後： 37.12km/h
– 低速走行車が減速し，追越車が早期追越しにより自由走行
25

実験まとめ
• 学習後は早期追越しエピソード数が多くなる
– 低速走行車や対向車の減速により，追越車の追越しのための
ギャップがうまれたため
→ 平均走行速度向上
• 安全性に関するペナルティにより，衝突，前方車両や
対向車両との車間距離が近いエピソード数を抑えた
→ マルチエージェント深層強化学習による協調的な走
行の効果を示した
26

結論
• マルチエージェント深層強化学習を用いた協調的な追
越行動を提案
• Harmo Traffic Simulatorでの追越行動を実装
• 学習による協調的な追越行動の獲得
– 早期追越しによる走行速度向上
– 安全性に関するペナルティで衝突や至近車間距離のエピソー
ド数を抑えた
27

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

Ähnlich wie マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 (20)

Mehr von harmonylab

Mehr von harmonylab (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究