Weitere ähnliche Inhalte
Ähnlich wie 深層強化学習による自動運転車両の経路探索に関する研究 (20)
深層強化学習による自動運転車両の経路探索に関する研究
- 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
深層強化学習による自動運転車両の
経路探索に関する研究
2022/02/07
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑系工学講座 調和系工学研究室
学部4年 清水雅之
- 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
研究背景
• 近年は情報技術の発展に伴い、リアルタイムな交通
状況を容易に入手できるようになった
– 例) JARTIC
• 現在の交通状況をもとにして最短経路を提案してく
れるサービスも普及してきている
– 例) ATIS
• しかし、実際の交通では現在の交通状況だけでは不
十分で時間変化を扱う必要がある
交通状況提供サービス例(JARTIC) 高速道路情報(ATIS)
- 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
従来研究
• 事前に目的地までの経路を探索するアプローチ
– 蟻コロニー最適化を用いた経路探索に関する研究[1]
• マップ形状に変化のある問題に強い
– リアルタイム交通状況を利用した緊急車両の経路探索に関
する研究[2]
• Google MapsのDistance Matrix APIを利用し,リアルタイム交
通情報に基づいた経路探索
• 逐次的に経路を探索していくアプローチ
– 深層強化学習を用いた経路探索に関する研究[3]
• 目的地まで各交差点で次にどの方向に進むのかを学習
– 交差点ごとに現在の交通状況から算出した走行時間使って
最短時間経路を探索するダイクストラ法
[1] Shahrizul Anuar Abu Nahar, Fazida Hanim Hashim ,Modelling and Analysis of an Efficient Traffic Network Using Ant Colony
Optimization Algorithm Third International Conference on Computational Intelligence, Communication Systems and Networks, IEEE.
pp. 32–36. (2011)
[2] N. Rathore, P. K. Jain and M. Parida, A ROUTING MODEL FOR EMERGENCY VEHICLES USING THE REAL TIME TRAFFIC DATA, 2018
IEEE International Conference on Service Operations and Logistics, and Informatics (SOLI), pp. 175-179. (2018)
[3] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep
Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
- 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究目的
研究目的
短い時間で目的地へ到達できる経路探索手法を検討する
扱う状況
• 各車両の現在の位置や速度の情報が入手可能
– 各車両の今後の動きはわからない
• 各交差点で現在の交通状況に関する情報をもとにし
て目的地に早く到達するには次にどの方向に進むか
を学習していく
- 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
逐次決定型の経路探索アプローチ
右折?
左折?
直進?
交通状況の情報 意思決定
対象車
直進しよう
各交差点で
…
G
S
• 各交差点に進入するたびに現時点での交通状況に基づいて目的地まで
の到達時間を最小化するように次の進行方向を決定
• 交差点ごとの行動決定規則を獲得するために深層強化学習を用いる
• 逐次決定型の経路探索のメリット
目的地が定まっていない(突然変わる)
交通状況が著しく変動
- 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
本研究のソフトウェアシミュレーション環境
RLlib
強化学習ライブラリ
学習車の行動を決める
FLOW
深層強化学習フレームワーク
強化学習に用いる報酬の計算、車両の制御
SUMO(Simulation of Urban MObility)
交通シミュレータ
車両のシミュレーションを行う
ネットワークの交通流や車両の
現在地の情報を抽出
ネットワークの交通流や車両の
現在地の情報、報酬
学習車の行動を示す値
値を実際の行動に変換
DQN+double DQN[4]+ dueling network[5]+ prioritized
experience replay[6]
[4]Tom Schaul, John Quan, Ioannis Antonoglou, David Silver: Prioritized Experience Replay, arXiv:1511.05952 [cs.LG].(2016)
[5]Hado van Hasselt, Arthur Guez, David Silver :Deep Reinforcement Learning with Double Q-learning, arXiv:1509.06461
[cs.LG]. (2016)
[6]Ziyu Wang, Tom Schaul, Matteo Hassel, Hado van Hasselt, Marc Lanctot, Nando de Freitas :
Dueling Network Architectures for Deep Reinforcement Learning, arXiv:1511.06581 [cs.LG]. (2016)
- 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
学習プロセス
1. マップの生成と車両の初期化を行ってシミュレーションを開始
3. 観測した情報をもとに交差点を次にどの方向に進むべきかを
ニューラルネットワークで推論、次の交差点まで移動、報酬を計算
2. 学習対象車は各交差点に差し掛かったら現在の交通状況に関する情
報を観測
5. 学習車の目的地への到達判定
シミュレーションを終了
4. その時の状態遷移をバッファに保存
True
ミニバッチ分バッファから状態
遷移をサンプリング、
ニューラルネットワークを更新
False
- 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
強化学習の適用
𝑇𝑠𝑡
: 𝑠𝑡でのトータルの走行時間
𝑠𝑡: tステップ目における状態
𝑠𝑡 𝑠𝑡+1
𝑟𝑡 = - (𝑇𝑠𝑡+1
− 𝑇𝑠𝑡
)
𝑇𝑠𝑡+1
𝑇𝑠𝑡
1step
学習車 学習車以外の車両
報酬
𝑟𝑡 = − (𝑇𝑠𝑡+1
− 𝑇𝑠𝑡
)
観測空間
ネットワークの各エッジ上にいる車両の数
ネットワークの各エッジの推定走行時間
学習車の現在位置
目的地の位置
行動空間
3(右折、左折、直進の3パターン)
各エッジの推定走行時間
𝑡𝑒 =
𝑙𝑒
𝑣𝑒
𝑖𝑓 𝑛𝑒 > 0
𝑙𝑒
𝑚𝑒
𝑖𝑓 𝑛𝑒 = 0
𝑙𝑒: エッジの長さ
𝑣𝑒: エッジ上の車両の平均走行距離
𝑚𝑒: エッジの制限速度
𝑛𝑒: エッジ上に存在する車両の数
- 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
実験
【実験目的】
深層強化学習を用いることで複数の交通状況においても目的地
まで早く到達できる経路探索が実現可能かを検証すること
– 地図の形状や交通状況、出発地点と目的地点の変動など
の検証項目の中で交通状況を扱う
【実験方法】
• シンプルな地図で意図的な渋滞を発生させる交通状況を使用
• 今回設定した2つの交通状況を混ぜて学習
• 以下の手法と深層強化学習との比較を行う
– 事前に各エッジの距離情報をもとに最短距離経路を選択
するダイクストラ法
– 各交差点で現在の交通状況に応じて逐次決定型のダイク
ストラ法
- 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
実験設定
エッジ1
このマップを使用する理由
• 渋滞の発生個所と迂回路が明確になっている
• 距離の最短経路と迂回路が大きく2通りに絞ら
れている
エッジ数 エッジの長さ(m) エッジの制限速度
(km/h)
82 min: 62.53
Max: 158.83
36
車種 最大加速度
(m/𝒔𝟐
)
最大減速度
(m/𝒔𝟐
)
最高速度
(m/s)
普通の車 2.0 5.0 20.0
トラック 1.0 5.0 5.0
• 車両数:101台(内学習車1台)
• 非学習車の出発地点と目的地及び、行動は各交通状況で固定
• 車両はエッジ1か2を必ず通る設定
車両設定
エッジ2
- 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
実験設定
S
G
交通状況1
ポイント1
下を経由したルートを選択することで目的地まで短
い時間で到達できる
学習車を除く車両がポイント1を経由して各目的地ま
で走行する場合に発生する交通状況
- 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
実験設定
S
G
交通状況2
ポイント2
学習車を除く車両がポイント2を経由して各目的地ま
で走行する場合に発生する交通状況
上を経由したルートを選択することで目的地まで短
い時間で到達できる
- 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験設定
モデルの設定[7]
入力層 168
隠れ層1 150
隠れ層2 100
Dueling Network 4
出力層 3
活性化関数 relu
モデルの設定[7]
学習率 0.001
探索率ε 1.0→0.05
ターゲットネットワークの更新頻度 3000
割引率γ 0.99
経験再生のバッファサイズ 10000
ミニバッチサイズ 32
優先度付き経験再生のパラメータ α 0.6
優先度付き経験再生のパラメータ β 0.4→1.0
以下の設定で10000episode学習
• 1episode: 車両が目的地に到達or 1000秒経過
• 1step:交差点から次の交差点
• ニューラルネットワークの構造及びハイパーパラメータ:
下図の通り
[7] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep
Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
- 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験 交通状況1,2を混ぜて学習
学習中のエピソード平均走行時間 学習中のエピソード平均走行距離
学習当初はランダムな行動を多く取ることもあり、目的地に到達する
時間がかかってしまう
しかし、学習が進むにつれて徐々に車両の通るルートが改善され目的
地までの走行時間は小さくなっていっている
最終的には、時間のダイクストラ法と同程度の走行時間で収束した
走行距離に関しても学習が進むにつれて短くなっているが、最終的に
は距離と時間のダイクストラ法のどちらよりも大きくなった
- 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験 結果
ルート 走行時間
(s)
走行距離
(m)
ダイクストラ
(距離)
139 875
ダイクストラ
(時間)
139 875
RL 131 886
交通状況1で走行させた場合の
走行距離と走行時間
ルート 走行時間
(s)
走行距離
(m)
ダイクストラ
(距離)
328 875
ダイクストラ
(時間)
182 1100
RL 132 1150
交通状況2で走行させた場合の
走行距離と走行時間
各交通状況において時間のダイクストラ、距離のダイクスト
ラと比較して深層強化学習によって得られたモデルを使用し
た場合の方が目的地まで早く到達できる経路探索が実現でき
ていることが確認できた
- 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験
S
交通状況1
― RLルート ― ダイクストラ(時間、距離)
G
エッジ1
エッジ1では渋滞が発生しており、下の道を通ること
で走行時間も走行距離も上を通る場合よりも短く目
的地まで到達可能
- 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験
S
交通状況1
― RLルート ― ダイクストラ(時間、距離)
G
エッジ1
走行距離はダイクストラ法を用いた方が小さいがRL
ルートに比べて交差点を曲がる回数が多く、その度に
少しの減速をしているため走行時間が少し伸びている
- 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験
S
G
交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離)
エッジ2
エッジ2では渋滞が発生しており、上の道を通って
目的地まで走行することで、走行距離は伸びるが、
走行時間はポイント2を通る場合よりも短くなる
- 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
実験
S
G
交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離)
ポイント2
ダイクストラ法を用いた場合は渋滞の発生するポイ
ント2を通るルートが選択されるため大幅に走行時間
が伸びてしまう
シミュレーション開始時点では、渋滞が発
生していないため、ダイクストラ(時間)と
ダイクストラ(距離)は同じルート
- 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
考察
• 逐次的に現在の交通状況を利用したダイクストラ法
と比較して、短い時間で到達できる経路探索が実現
できた
• 探索、行動の評価、経験の蓄積のプロセスの中で学
習を行っていく深層強化学習を用いることにより、
今後の交通状況を加味した逐次的な経路探索が行え
る可能性を示した
- 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
まとめ
• 時間的に変化する交通状況の中で目的地まで短い時
間で到達できる経路探索の実現に向けた手法の検証
を行った
• 2パターンの交通状況を混ぜて学習させた場合にそれ
ぞれの交通状況においてダイクストラ法と比較して
短い走行時間で目的地まで到達する経路探索が実現
できていることが確認できた
• 今後は複数の交通状況の下で学習を行っていき、更
には学習していない状況にも適用できるかを検証し
ていく
– 出発地点と目的地の変動、更にはマップの形状の変化に対
する検証を行っていく
– 学習した車両が複数台いた場合の移動時間への影響の検証
も行っていく
- 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
研究業績
発表予定 国内学会 口頭発表(1件)
• ○清水 雅之, 横山 想一郎, 山下 倫央, 川村 秀憲, 自動運転車両
の経路探索に向けた深層強化学習の適用, 社会システムと情報技
術研究ウィーク(WSSIT2022), 2022.
Hinweis der Redaktion
- マップの規模が大きくなったときにどのくらいまで適用できる?など
シンプルマップからこの規模のマップになったときにどれくらい学習に変化
マップをいかに全部を埋め込まなくてもいいようにする必要がある
複雑なものをシンプルなものに落とし込む
- 報酬決定