SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
西佑希
マルチエージェント深層強化学習による
自動運転車両の追越行動の獲得に
関する研究
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
研究背景
• 加速する自動運転車の開発
– 様々な運転タスクがエンドツーエンドで行われることが期待
• 交差点の右左折
• 高速道路の合流
• 追越し
• 特に追越し操作はルール化が困難[1]
– 追越しされる車両の数
– 関係車両間の相対速度
– 関係車両間の距離
• 自律的に経験を収集できる学習ベースの追越行動獲得
が有効
– 対向車のいない高速道路での追越しを扱う研究[2]が多い
• 一般道路等での対向車の存在も扱う必要性
[1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory
planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018,
Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001.
[2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep
Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755.
交通状況のバリエーションが多い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
研究目的
• 対向車が存在する追越場面における,学習ベースによ
る追越行動の獲得
– 追越車,低速走行車,対向車をマルチエージェントで学習
• 獲得したい追越行動
– 安全性と走行効率性のトレードオフを考慮
– 協調による安全性,走行効率性の向上
低速走行車
追越車
対向車
安全性
• 車間距離が大きい
• 衝突しない
走行効率性
• 低速走行車への追従
時間が短い
追従 追越し
車間距離
協調:減速で
車間距離広く
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究の方向性
精緻なシミュレータ
(Autoware[3]など)
実車両
・
・
・
直接的な実利用
選定
走行制御1,2,…
セキュリティ1,2,…
センサ1,2,…
GPS1,2,…
マルチエージェントでの追越行動獲得ができるか
と協調的な追越行動の効果を検証
[3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 追越行動の実装手法は主に3つ
– ルールベース(例:MOBIL[4])
• 多様な運転,交通状況に対して効率的なルールの設計が困難
– 最適化ベース(例:MPC[5])
• 状況が複雑になるにつれて計算量が増加
– 学習ベース(例:深層強化学習による追越車単体の加速度・
舵角制御[6])
• ルールの設計なしで多様な状況に対応できる可能性
• 多様な状況になりうる追越しタスクでは学習ベースが
有効
• シングルエージェントの学習では,協調的な行動獲得
が困難
→マルチエージェント深層強化学習による追越行動獲得
追越行動の実装手法 5
[4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007).
[5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving
Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019)
[6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR,
Vol.abs/1803.10056 (2018).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
想定する交通状況
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車,追越車,対向車
• DSRC通信,C-V2Xによる広域通信(~1㎞)
– 車車間,路車間通信による周辺車両の情報取得可能
低速走行車
追越車
対向車
位置や速度情報の共有
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
シミュレータ
• シミュレータの種類は2つ
– 交通シミュレータ(例:CARLA[7])
• 大規模な交通シミュレート
• センサー,GPSなどの設定もできるものがある
– 運転シミュレータ(例:METADRIVE[8])
• 実際の運転操作をシミュレート
• ハンドル,ペダル,ディスプレイなどを用いる
• 小規模な交通状況を扱う
• 対向車線を走行しての追越しを扱う
– 交通シミュレータによっては扱えない
→ 本研究では,上記の状況を扱えるHarmo Traffic Simulator[9]
を用いる
[7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5.
[8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable
Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022).
[9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習による追越行動
• 協調的な追越行動
低速走行車や対向車の減速
→ 追越しのためのギャップ生成
→ 追越車の早期追越し(低速走行車への追従時間が短くなる)
→ 車両全体での走行速度向上
8
低速走行車(減速)
追越車
対向車
(減速)
広いギャップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習による追越行動
• マルチエージェント深層強化学習による進行方向の加
速度制御
– 追越車,低速走行車,対向車が学習対象
– 追越操舵はモデルベース
• 車両間で位置,速度,方位情報の共有
– 車両の行動にあたる加速度は共有していない
9
低速走行車(減速)
追越車
対向車
(減速)
広いギャップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習
• マルチエージェント深層強化学習手法MADDPG[10]が
ベース
– 全Actorの情報を集めて評価できるCriticを学習時のみ使用
[10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural
Information Processing Systems, Vol.30, Curran Associates, Inc. (2017).
[11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine
Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018).
[12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the
35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018).
10
o1
𝜋1
Actor(車両) 1
・・・
Critic
a1 oN
Actor N
aN
o1,…,oN a1,…,aN
q1,q2
o:観測
a:行動
𝜋:方策
q:状態行動価値
アルゴリズムの拡張
TD3[11]:qを2つ出力し,minimumを
とることで過大評価を避ける
SAC[12]:方策𝜋のエントロピー最大化
で探索の促進
𝜋𝑁
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレータ 学習アルゴリズム
状態
行動
状態の計算
方策から行動
(進行方向加速度)の決定
シミュレートして
次状態と報酬の計算
規定ステップ
or
車両の衝突
Yes
エピソードリセットして
車両の配置
状態、行動、報酬、次状態
をバッファへ保存
次状態
報酬
バッファからサンプリング
して学習
学習頻度
ステップ
Yes
No
No
シミュレータと学習のフロー 11
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 観測空間(車両が得る情報)
– 自車両の速度,方位
– 他車両との相対位置,相対速度,相対方位
• 行動空間
– 進行方向加速度(-0.3G~0.3G)
• 報酬設計
– 速度報酬( 𝑣𝑡:現在速度,𝑣𝑚𝑎𝑥: 最大速度)
𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥
– 衝突ペナルティ
𝑟𝑐 = −100
– 車間距離ペナルティ( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離)
𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 衝突時間ペナルティ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動回避下限,
𝑇𝑇𝐶:Time to Collision)
𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
Actor単体の報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
最終的な全体報酬:(𝑅1 + ⋯ + 𝑅𝑁)/N
次ページ以降で
詳細
12
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 前方車両との車間距離ペナルティ𝑟𝑓( 𝑑𝑠:停止距離,
𝑑𝑓:車間距離)
𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 停止距離𝑑𝑠は以下の式,条件で算出
𝑑𝑠 = 𝑡 ×
𝑣
3.6
+
𝑣2
254×𝜇
• 現在速度 𝑣[km/h]
• 危険を感じてからブレーキを踏むまでの平均的な反応時間
𝑡 = 0.75[sec]
• 乾いた路面での摩擦係数 𝜇 = 0.7
低1
追2
対3
追1
対2
対1
前方 前方
前方 前方
13
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 対向車との衝突時間ペナルティ 𝑟𝑜 ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動
回避下限,𝑇𝑇𝐶:Time to Collision)
𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
– 通常制動回避下限
• 運転手の制動によって前方車両との衝突を回避できる限界の時間
𝑡𝑙𝑖𝑚𝑖𝑡 =0.0167 × ∆𝑣 + 1.000( ∆𝑣 は相対速度)
– Time To Collision
• 前方車両との衝突までの時間
𝑇𝑇𝐶 =
𝑑
∆𝑣
(𝑑は対向車との距離)
14
低速走行車
追越車
対向車
距離𝑑,相対速度∆𝑣
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ルールベースの追越行動
学習ベースとの比較に用いる
1. 低速走行車を追従
– IDM(Intelligent Driver Model)による加速度制御
2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡(𝑇𝑇𝐶 =
𝑑
∆𝑣
, 𝑡の値は実験で5つ設定)のとき追越し
– Frenet Optimal Trajectoryによる追越経路生成
– Pure Pursuitによる操舵角制御
15
低速走行車
意思決定領域(25m)
対向車
距離𝑑,相対速度∆𝑣
追従 追越し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
環境設定
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車1台(最大25㎞/h)
– 追越車2台,対向車3台(最大40㎞/h)
• 「追越車と低速走行車」「対向車」それぞれ6か所の
開始地点
– 計400エピソード(学習時もテスト時も)
– エピソードリセット(衝突,300ステップ到達)時に開始地点
から走行開始
対向車
低速走行車
追越車
16
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 安全性,走行効率性の検証
• 検証内容
– 学習後の協調的な走行による安全性と走行効率性
• 検証方法
– ルールベース走行
• 追越しのタイミング(𝑇𝑇𝐶>𝑡)を決定する時間閾値𝑡を5つ設定
– 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0(安全性低い←---→高い)
– 車間距離,衝突時間に関するペナルティ係数を変更して学習
報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
17
K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール 安全性
学習① 1 1 0 0 1 : 100 : 0 : 0 低
学習② 1 1 1 1 1 : 100 : 5 : 1
学習③ 1 1 5 5 1 : 100 : 25 : 5
学習④ 1 1 10 10 1 : 100 : 50 : 10
学習⑤ 1 1 15 15 1 : 100 : 75 : 15
学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
評価指標
• 各指標で比較(全400エピソード)
– 全車両の平均走行速度
– 早期追越しエピソード数
• 対向車が低速走行車とすれ違う前に追越ししたエピソード
– 衝突エピソード数
– 前方車両至近距離エピソード数
• 前方車両との車間距離ペナルティが与えられたエピソード
– 対向車両至近距離エピソード数
• 対向車との衝突時間ペナルティが与えられたエピソード
低速走行車
追越車
対向車
早期追越し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
学習中の報酬推移
• 3試行の平均をプロット(ペナルティ係数0のみ1試
行)
• 学習中,過去300エピソードでの平均報酬が最大と
なったときのモデルを使用してテスト
学習中の累積割引報酬の推移
縦軸:累積割引報酬
横軸:学習ステップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
20
400エピソード中
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
21
400エピソード中
時間閾値𝑡が小さいほど早期追越しエピソー
ド数は増えるが,衝突や至近距離エピソード
も増える
早期追越しエピソード数が多いほど平均走行
速度は大きくなっている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
22
400エピソード中
ペナルティ係数が大きいほど衝突や至近距離
エピソード数が少ない傾向にある
ペナルティ係数が15より大きいと早期追越し
ができず,平均走行速度が小さくなる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
23
400エピソード中
ルールベースと学習ベースの比較
至近距離エピソード数を10に抑えつつ,
平均走行速度の向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
対向車両至近距離エピソード詳細
ルール②
学習④
対向車両との衝突時間ペナルティ
のヒストグラム
(係数K𝑜 = 1で合わせた)
1エピソードの中で
ペナルティが与えられた
ステップ数のヒストグラム
計498ステップ
計10ステップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行比較
• ルールベース 𝑡 = 12.0: 35.66km/h
– 追越車が低速走行車の後ろを走行し,自由走行できていない
• 学習後: 37.12km/h
– 低速走行車が減速し,追越車が早期追越しにより自由走行
25
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 まとめ
• 学習後は早期追越しエピソード数が多くなる
– 低速走行車や対向車の減速により,追越車の追越しのための
ギャップがうまれたため
→ 平均走行速度向上
• 安全性に関するペナルティにより,衝突,前方車両や
対向車両との車間距離が近いエピソード数を抑えた
→ マルチエージェント深層強化学習による協調的な走
行の効果を示した
26
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結論
• マルチエージェント深層強化学習を用いた協調的な追
越行動を提案
• Harmo Traffic Simulatorでの追越行動を実装
• 学習による協調的な追越行動の獲得
– 早期追越しによる走行速度向上
– 安全性に関するペナルティで衝突や至近車間距離のエピソー
ド数を抑えた
27

Weitere ähnliche Inhalte

Was ist angesagt?

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

Was ist angesagt? (20)

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
 

Ähnlich wie マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 

Ähnlich wie マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 (20)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
 
修士論文
修士論文修士論文
修士論文
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
RAPiD
RAPiDRAPiD
RAPiD
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 西佑希 マルチエージェント深層強化学習による 自動運転車両の追越行動の獲得に 関する研究
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 研究背景 • 加速する自動運転車の開発 – 様々な運転タスクがエンドツーエンドで行われることが期待 • 交差点の右左折 • 高速道路の合流 • 追越し • 特に追越し操作はルール化が困難[1] – 追越しされる車両の数 – 関係車両間の相対速度 – 関係車両間の距離 • 自律的に経験を収集できる学習ベースの追越行動獲得 が有効 – 対向車のいない高速道路での追越しを扱う研究[2]が多い • 一般道路等での対向車の存在も扱う必要性 [1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018, Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001. [2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755. 交通状況のバリエーションが多い
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 研究目的 • 対向車が存在する追越場面における,学習ベースによ る追越行動の獲得 – 追越車,低速走行車,対向車をマルチエージェントで学習 • 獲得したい追越行動 – 安全性と走行効率性のトレードオフを考慮 – 協調による安全性,走行効率性の向上 低速走行車 追越車 対向車 安全性 • 車間距離が大きい • 衝突しない 走行効率性 • 低速走行車への追従 時間が短い 追従 追越し 車間距離 協調:減速で 車間距離広く
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究の方向性 精緻なシミュレータ (Autoware[3]など) 実車両 ・ ・ ・ 直接的な実利用 選定 走行制御1,2,… セキュリティ1,2,… センサ1,2,… GPS1,2,… マルチエージェントでの追越行動獲得ができるか と協調的な追越行動の効果を検証 [3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 追越行動の実装手法は主に3つ – ルールベース(例:MOBIL[4]) • 多様な運転,交通状況に対して効率的なルールの設計が困難 – 最適化ベース(例:MPC[5]) • 状況が複雑になるにつれて計算量が増加 – 学習ベース(例:深層強化学習による追越車単体の加速度・ 舵角制御[6]) • ルールの設計なしで多様な状況に対応できる可能性 • 多様な状況になりうる追越しタスクでは学習ベースが 有効 • シングルエージェントの学習では,協調的な行動獲得 が困難 →マルチエージェント深層強化学習による追越行動獲得 追越行動の実装手法 5 [4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007). [5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019) [6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR, Vol.abs/1803.10056 (2018).
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 想定する交通状況 • 対向車の存在と追越しの必要性を擁する状況 – 片側1車線 – 低速走行車,追越車,対向車 • DSRC通信,C-V2Xによる広域通信(~1㎞) – 車車間,路車間通信による周辺車両の情報取得可能 低速走行車 追越車 対向車 位置や速度情報の共有
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 シミュレータ • シミュレータの種類は2つ – 交通シミュレータ(例:CARLA[7]) • 大規模な交通シミュレート • センサー,GPSなどの設定もできるものがある – 運転シミュレータ(例:METADRIVE[8]) • 実際の運転操作をシミュレート • ハンドル,ペダル,ディスプレイなどを用いる • 小規模な交通状況を扱う • 対向車線を走行しての追越しを扱う – 交通シミュレータによっては扱えない → 本研究では,上記の状況を扱えるHarmo Traffic Simulator[9] を用いる [7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5. [8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022). [9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習による追越行動 • 協調的な追越行動 低速走行車や対向車の減速 → 追越しのためのギャップ生成 → 追越車の早期追越し(低速走行車への追従時間が短くなる) → 車両全体での走行速度向上 8 低速走行車(減速) 追越車 対向車 (減速) 広いギャップ
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習による追越行動 • マルチエージェント深層強化学習による進行方向の加 速度制御 – 追越車,低速走行車,対向車が学習対象 – 追越操舵はモデルベース • 車両間で位置,速度,方位情報の共有 – 車両の行動にあたる加速度は共有していない 9 低速走行車(減速) 追越車 対向車 (減速) 広いギャップ
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習 • マルチエージェント深層強化学習手法MADDPG[10]が ベース – 全Actorの情報を集めて評価できるCriticを学習時のみ使用 [10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural Information Processing Systems, Vol.30, Curran Associates, Inc. (2017). [11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018). [12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the 35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018). 10 o1 𝜋1 Actor(車両) 1 ・・・ Critic a1 oN Actor N aN o1,…,oN a1,…,aN q1,q2 o:観測 a:行動 𝜋:方策 q:状態行動価値 アルゴリズムの拡張 TD3[11]:qを2つ出力し,minimumを とることで過大評価を避ける SAC[12]:方策𝜋のエントロピー最大化 で探索の促進 𝜋𝑁
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレータ 学習アルゴリズム 状態 行動 状態の計算 方策から行動 (進行方向加速度)の決定 シミュレートして 次状態と報酬の計算 規定ステップ or 車両の衝突 Yes エピソードリセットして 車両の配置 状態、行動、報酬、次状態 をバッファへ保存 次状態 報酬 バッファからサンプリング して学習 学習頻度 ステップ Yes No No シミュレータと学習のフロー 11
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 観測空間(車両が得る情報) – 自車両の速度,方位 – 他車両との相対位置,相対速度,相対方位 • 行動空間 – 進行方向加速度(-0.3G~0.3G) • 報酬設計 – 速度報酬( 𝑣𝑡:現在速度,𝑣𝑚𝑎𝑥: 最大速度) 𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥 – 衝突ペナルティ 𝑟𝑐 = −100 – 車間距離ペナルティ( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離) 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓 – 衝突時間ペナルティ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動回避下限, 𝑇𝑇𝐶:Time to Collision) 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶 Actor単体の報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜 最終的な全体報酬:(𝑅1 + ⋯ + 𝑅𝑁)/N 次ページ以降で 詳細 12
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 前方車両との車間距離ペナルティ𝑟𝑓( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離) 𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓 – 停止距離𝑑𝑠は以下の式,条件で算出 𝑑𝑠 = 𝑡 × 𝑣 3.6 + 𝑣2 254×𝜇 • 現在速度 𝑣[km/h] • 危険を感じてからブレーキを踏むまでの平均的な反応時間 𝑡 = 0.75[sec] • 乾いた路面での摩擦係数 𝜇 = 0.7 低1 追2 対3 追1 対2 対1 前方 前方 前方 前方 13
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 対向車との衝突時間ペナルティ 𝑟𝑜 ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動 回避下限,𝑇𝑇𝐶:Time to Collision) 𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶 – 通常制動回避下限 • 運転手の制動によって前方車両との衝突を回避できる限界の時間 𝑡𝑙𝑖𝑚𝑖𝑡 =0.0167 × ∆𝑣 + 1.000( ∆𝑣 は相対速度) – Time To Collision • 前方車両との衝突までの時間 𝑇𝑇𝐶 = 𝑑 ∆𝑣 (𝑑は対向車との距離) 14 低速走行車 追越車 対向車 距離𝑑,相対速度∆𝑣
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ルールベースの追越行動 学習ベースとの比較に用いる 1. 低速走行車を追従 – IDM(Intelligent Driver Model)による加速度制御 2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡(𝑇𝑇𝐶 = 𝑑 ∆𝑣 , 𝑡の値は実験で5つ設定)のとき追越し – Frenet Optimal Trajectoryによる追越経路生成 – Pure Pursuitによる操舵角制御 15 低速走行車 意思決定領域(25m) 対向車 距離𝑑,相対速度∆𝑣 追従 追越し
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 環境設定 • 対向車の存在と追越しの必要性を擁する状況 – 片側1車線 – 低速走行車1台(最大25㎞/h) – 追越車2台,対向車3台(最大40㎞/h) • 「追越車と低速走行車」「対向車」それぞれ6か所の 開始地点 – 計400エピソード(学習時もテスト時も) – エピソードリセット(衝突,300ステップ到達)時に開始地点 から走行開始 対向車 低速走行車 追越車 16
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 安全性,走行効率性の検証 • 検証内容 – 学習後の協調的な走行による安全性と走行効率性 • 検証方法 – ルールベース走行 • 追越しのタイミング(𝑇𝑇𝐶>𝑡)を決定する時間閾値𝑡を5つ設定 – 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0(安全性低い←---→高い) – 車間距離,衝突時間に関するペナルティ係数を変更して学習 報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜 17 K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール 安全性 学習① 1 1 0 0 1 : 100 : 0 : 0 低 学習② 1 1 1 1 1 : 100 : 5 : 1 学習③ 1 1 5 5 1 : 100 : 25 : 5 学習④ 1 1 10 10 1 : 100 : 50 : 10 学習⑤ 1 1 15 15 1 : 100 : 75 : 15 学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 評価指標 • 各指標で比較(全400エピソード) – 全車両の平均走行速度 – 早期追越しエピソード数 • 対向車が低速走行車とすれ違う前に追越ししたエピソード – 衝突エピソード数 – 前方車両至近距離エピソード数 • 前方車両との車間距離ペナルティが与えられたエピソード – 対向車両至近距離エピソード数 • 対向車との衝突時間ペナルティが与えられたエピソード 低速走行車 追越車 対向車 早期追越し
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 学習中の報酬推移 • 3試行の平均をプロット(ペナルティ係数0のみ1試 行) • 学習中,過去300エピソードでの平均報酬が最大と なったときのモデルを使用してテスト 学習中の累積割引報酬の推移 縦軸:累積割引報酬 横軸:学習ステップ
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 20 400エピソード中
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 21 400エピソード中 時間閾値𝑡が小さいほど早期追越しエピソー ド数は増えるが,衝突や至近距離エピソード も増える 早期追越しエピソード数が多いほど平均走行 速度は大きくなっている
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 22 400エピソード中 ペナルティ係数が大きいほど衝突や至近距離 エピソード数が少ない傾向にある ペナルティ係数が15より大きいと早期追越し ができず,平均走行速度が小さくなる
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 23 400エピソード中 ルールベースと学習ベースの比較 至近距離エピソード数を10に抑えつつ, 平均走行速度の向上
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 対向車両至近距離エピソード詳細 ルール② 学習④ 対向車両との衝突時間ペナルティ のヒストグラム (係数K𝑜 = 1で合わせた) 1エピソードの中で ペナルティが与えられた ステップ数のヒストグラム 計498ステップ 計10ステップ
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行比較 • ルールベース 𝑡 = 12.0: 35.66km/h – 追越車が低速走行車の後ろを走行し,自由走行できていない • 学習後: 37.12km/h – 低速走行車が減速し,追越車が早期追越しにより自由走行 25
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 まとめ • 学習後は早期追越しエピソード数が多くなる – 低速走行車や対向車の減速により,追越車の追越しのための ギャップがうまれたため → 平均走行速度向上 • 安全性に関するペナルティにより,衝突,前方車両や 対向車両との車間距離が近いエピソード数を抑えた → マルチエージェント深層強化学習による協調的な走 行の効果を示した 26
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結論 • マルチエージェント深層強化学習を用いた協調的な追 越行動を提案 • Harmo Traffic Simulatorでの追越行動を実装 • 学習による協調的な追越行動の獲得 – 早期追越しによる走行速度向上 – 安全性に関するペナルティで衝突や至近車間距離のエピソー ド数を抑えた 27