SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
深層強化学習による自動運転車両の
経路探索に関する研究
2022/02/07
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑系工学講座 調和系工学研究室
学部4年 清水雅之
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
研究背景
• 近年は情報技術の発展に伴い、リアルタイムな交通
状況を容易に入手できるようになった
– 例) JARTIC
• 現在の交通状況をもとにして最短経路を提案してく
れるサービスも普及してきている
– 例) ATIS
• しかし、実際の交通では現在の交通状況だけでは不
十分で時間変化を扱う必要がある
交通状況提供サービス例(JARTIC) 高速道路情報(ATIS)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
従来研究
• 事前に目的地までの経路を探索するアプローチ
– 蟻コロニー最適化を用いた経路探索に関する研究[1]
• マップ形状に変化のある問題に強い
– リアルタイム交通状況を利用した緊急車両の経路探索に関
する研究[2]
• Google MapsのDistance Matrix APIを利用し,リアルタイム交
通情報に基づいた経路探索
• 逐次的に経路を探索していくアプローチ
– 深層強化学習を用いた経路探索に関する研究[3]
• 目的地まで各交差点で次にどの方向に進むのかを学習
– 交差点ごとに現在の交通状況から算出した走行時間使って
最短時間経路を探索するダイクストラ法
[1] Shahrizul Anuar Abu Nahar, Fazida Hanim Hashim ,Modelling and Analysis of an Efficient Traffic Network Using Ant Colony
Optimization Algorithm Third International Conference on Computational Intelligence, Communication Systems and Networks, IEEE.
pp. 32–36. (2011)
[2] N. Rathore, P. K. Jain and M. Parida, A ROUTING MODEL FOR EMERGENCY VEHICLES USING THE REAL TIME TRAFFIC DATA, 2018
IEEE International Conference on Service Operations and Logistics, and Informatics (SOLI), pp. 175-179. (2018)
[3] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep
Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究目的
研究目的
短い時間で目的地へ到達できる経路探索手法を検討する
扱う状況
• 各車両の現在の位置や速度の情報が入手可能
– 各車両の今後の動きはわからない
• 各交差点で現在の交通状況に関する情報をもとにし
て目的地に早く到達するには次にどの方向に進むか
を学習していく
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
逐次決定型の経路探索アプローチ
右折?
左折?
直進?
交通状況の情報 意思決定
対象車
直進しよう
各交差点で
…
G
S
• 各交差点に進入するたびに現時点での交通状況に基づいて目的地まで
の到達時間を最小化するように次の進行方向を決定
• 交差点ごとの行動決定規則を獲得するために深層強化学習を用いる
• 逐次決定型の経路探索のメリット
目的地が定まっていない(突然変わる)
交通状況が著しく変動
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
本研究のソフトウェアシミュレーション環境
RLlib
強化学習ライブラリ
学習車の行動を決める
FLOW
深層強化学習フレームワーク
強化学習に用いる報酬の計算、車両の制御
SUMO(Simulation of Urban MObility)
交通シミュレータ
車両のシミュレーションを行う
ネットワークの交通流や車両の
現在地の情報を抽出
ネットワークの交通流や車両の
現在地の情報、報酬
学習車の行動を示す値
値を実際の行動に変換
DQN+double DQN[4]+ dueling network[5]+ prioritized
experience replay[6]
[4]Tom Schaul, John Quan, Ioannis Antonoglou, David Silver: Prioritized Experience Replay, arXiv:1511.05952 [cs.LG].(2016)
[5]Hado van Hasselt, Arthur Guez, David Silver :Deep Reinforcement Learning with Double Q-learning, arXiv:1509.06461
[cs.LG]. (2016)
[6]Ziyu Wang, Tom Schaul, Matteo Hassel, Hado van Hasselt, Marc Lanctot, Nando de Freitas :
Dueling Network Architectures for Deep Reinforcement Learning, arXiv:1511.06581 [cs.LG]. (2016)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
学習プロセス
1. マップの生成と車両の初期化を行ってシミュレーションを開始
3. 観測した情報をもとに交差点を次にどの方向に進むべきかを
ニューラルネットワークで推論、次の交差点まで移動、報酬を計算
2. 学習対象車は各交差点に差し掛かったら現在の交通状況に関する情
報を観測
5. 学習車の目的地への到達判定
シミュレーションを終了
4. その時の状態遷移をバッファに保存
True
ミニバッチ分バッファから状態
遷移をサンプリング、
ニューラルネットワークを更新
False
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
強化学習の適用
𝑇𝑠𝑡
: 𝑠𝑡でのトータルの走行時間
𝑠𝑡: tステップ目における状態
𝑠𝑡 𝑠𝑡+1
𝑟𝑡 = - (𝑇𝑠𝑡+1
− 𝑇𝑠𝑡
)
𝑇𝑠𝑡+1
𝑇𝑠𝑡
1step
学習車 学習車以外の車両
報酬
𝑟𝑡 = − (𝑇𝑠𝑡+1
− 𝑇𝑠𝑡
)
観測空間
ネットワークの各エッジ上にいる車両の数
ネットワークの各エッジの推定走行時間
学習車の現在位置
目的地の位置
行動空間
3(右折、左折、直進の3パターン)
各エッジの推定走行時間
𝑡𝑒 =
𝑙𝑒
𝑣𝑒
𝑖𝑓 𝑛𝑒 > 0
𝑙𝑒
𝑚𝑒
𝑖𝑓 𝑛𝑒 = 0
𝑙𝑒: エッジの長さ
𝑣𝑒: エッジ上の車両の平均走行距離
𝑚𝑒: エッジの制限速度
𝑛𝑒: エッジ上に存在する車両の数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
実験
【実験目的】
深層強化学習を用いることで複数の交通状況においても目的地
まで早く到達できる経路探索が実現可能かを検証すること
– 地図の形状や交通状況、出発地点と目的地点の変動など
の検証項目の中で交通状況を扱う
【実験方法】
• シンプルな地図で意図的な渋滞を発生させる交通状況を使用
• 今回設定した2つの交通状況を混ぜて学習
• 以下の手法と深層強化学習との比較を行う
– 事前に各エッジの距離情報をもとに最短距離経路を選択
するダイクストラ法
– 各交差点で現在の交通状況に応じて逐次決定型のダイク
ストラ法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
実験設定
エッジ1
このマップを使用する理由
• 渋滞の発生個所と迂回路が明確になっている
• 距離の最短経路と迂回路が大きく2通りに絞ら
れている
エッジ数 エッジの長さ(m) エッジの制限速度
(km/h)
82 min: 62.53
Max: 158.83
36
車種 最大加速度
(m/𝒔𝟐
)
最大減速度
(m/𝒔𝟐
)
最高速度
(m/s)
普通の車 2.0 5.0 20.0
トラック 1.0 5.0 5.0
• 車両数:101台(内学習車1台)
• 非学習車の出発地点と目的地及び、行動は各交通状況で固定
• 車両はエッジ1か2を必ず通る設定
車両設定
エッジ2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
実験設定
S
G
交通状況1
ポイント1
下を経由したルートを選択することで目的地まで短
い時間で到達できる
学習車を除く車両がポイント1を経由して各目的地ま
で走行する場合に発生する交通状況
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
実験設定
S
G
交通状況2
ポイント2
学習車を除く車両がポイント2を経由して各目的地ま
で走行する場合に発生する交通状況
上を経由したルートを選択することで目的地まで短
い時間で到達できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験設定
モデルの設定[7]
入力層 168
隠れ層1 150
隠れ層2 100
Dueling Network 4
出力層 3
活性化関数 relu
モデルの設定[7]
学習率 0.001
探索率ε 1.0→0.05
ターゲットネットワークの更新頻度 3000
割引率γ 0.99
経験再生のバッファサイズ 10000
ミニバッチサイズ 32
優先度付き経験再生のパラメータ α 0.6
優先度付き経験再生のパラメータ β 0.4→1.0
以下の設定で10000episode学習
• 1episode: 車両が目的地に到達or 1000秒経過
• 1step:交差点から次の交差点
• ニューラルネットワークの構造及びハイパーパラメータ:
下図の通り
[7] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep
Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験 交通状況1,2を混ぜて学習
学習中のエピソード平均走行時間 学習中のエピソード平均走行距離
学習当初はランダムな行動を多く取ることもあり、目的地に到達する
時間がかかってしまう
しかし、学習が進むにつれて徐々に車両の通るルートが改善され目的
地までの走行時間は小さくなっていっている
最終的には、時間のダイクストラ法と同程度の走行時間で収束した
走行距離に関しても学習が進むにつれて短くなっているが、最終的に
は距離と時間のダイクストラ法のどちらよりも大きくなった
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験 結果
ルート 走行時間
(s)
走行距離
(m)
ダイクストラ
(距離)
139 875
ダイクストラ
(時間)
139 875
RL 131 886
交通状況1で走行させた場合の
走行距離と走行時間
ルート 走行時間
(s)
走行距離
(m)
ダイクストラ
(距離)
328 875
ダイクストラ
(時間)
182 1100
RL 132 1150
交通状況2で走行させた場合の
走行距離と走行時間
各交通状況において時間のダイクストラ、距離のダイクスト
ラと比較して深層強化学習によって得られたモデルを使用し
た場合の方が目的地まで早く到達できる経路探索が実現でき
ていることが確認できた
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験
S
交通状況1
― RLルート ― ダイクストラ(時間、距離)
G
エッジ1
エッジ1では渋滞が発生しており、下の道を通ること
で走行時間も走行距離も上を通る場合よりも短く目
的地まで到達可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験
S
交通状況1
― RLルート ― ダイクストラ(時間、距離)
G
エッジ1
走行距離はダイクストラ法を用いた方が小さいがRL
ルートに比べて交差点を曲がる回数が多く、その度に
少しの減速をしているため走行時間が少し伸びている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験
S
G
交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離)
エッジ2
エッジ2では渋滞が発生しており、上の道を通って
目的地まで走行することで、走行距離は伸びるが、
走行時間はポイント2を通る場合よりも短くなる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
実験
S
G
交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離)
ポイント2
ダイクストラ法を用いた場合は渋滞の発生するポイ
ント2を通るルートが選択されるため大幅に走行時間
が伸びてしまう
シミュレーション開始時点では、渋滞が発
生していないため、ダイクストラ(時間)と
ダイクストラ(距離)は同じルート
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
考察
• 逐次的に現在の交通状況を利用したダイクストラ法
と比較して、短い時間で到達できる経路探索が実現
できた
• 探索、行動の評価、経験の蓄積のプロセスの中で学
習を行っていく深層強化学習を用いることにより、
今後の交通状況を加味した逐次的な経路探索が行え
る可能性を示した
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
まとめ
• 時間的に変化する交通状況の中で目的地まで短い時
間で到達できる経路探索の実現に向けた手法の検証
を行った
• 2パターンの交通状況を混ぜて学習させた場合にそれ
ぞれの交通状況においてダイクストラ法と比較して
短い走行時間で目的地まで到達する経路探索が実現
できていることが確認できた
• 今後は複数の交通状況の下で学習を行っていき、更
には学習していない状況にも適用できるかを検証し
ていく
– 出発地点と目的地の変動、更にはマップの形状の変化に対
する検証を行っていく
– 学習した車両が複数台いた場合の移動時間への影響の検証
も行っていく
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
研究業績
発表予定 国内学会 口頭発表(1件)
• ○清水 雅之, 横山 想一郎, 山下 倫央, 川村 秀憲, 自動運転車両
の経路探索に向けた深層強化学習の適用, 社会システムと情報技
術研究ウィーク(WSSIT2022), 2022.

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 

Ähnlich wie 深層強化学習による自動運転車両の経路探索に関する研究

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Ähnlich wie 深層強化学習による自動運転車両の経路探索に関する研究 (20)

A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
修士論文
修士論文修士論文
修士論文
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
RAPiD
RAPiDRAPiD
RAPiD
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 

深層強化学習による自動運転車両の経路探索に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 深層強化学習による自動運転車両の 経路探索に関する研究 2022/02/07 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 清水雅之
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 研究背景 • 近年は情報技術の発展に伴い、リアルタイムな交通 状況を容易に入手できるようになった – 例) JARTIC • 現在の交通状況をもとにして最短経路を提案してく れるサービスも普及してきている – 例) ATIS • しかし、実際の交通では現在の交通状況だけでは不 十分で時間変化を扱う必要がある 交通状況提供サービス例(JARTIC) 高速道路情報(ATIS)
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 従来研究 • 事前に目的地までの経路を探索するアプローチ – 蟻コロニー最適化を用いた経路探索に関する研究[1] • マップ形状に変化のある問題に強い – リアルタイム交通状況を利用した緊急車両の経路探索に関 する研究[2] • Google MapsのDistance Matrix APIを利用し,リアルタイム交 通情報に基づいた経路探索 • 逐次的に経路を探索していくアプローチ – 深層強化学習を用いた経路探索に関する研究[3] • 目的地まで各交差点で次にどの方向に進むのかを学習 – 交差点ごとに現在の交通状況から算出した走行時間使って 最短時間経路を探索するダイクストラ法 [1] Shahrizul Anuar Abu Nahar, Fazida Hanim Hashim ,Modelling and Analysis of an Efficient Traffic Network Using Ant Colony Optimization Algorithm Third International Conference on Computational Intelligence, Communication Systems and Networks, IEEE. pp. 32–36. (2011) [2] N. Rathore, P. K. Jain and M. Parida, A ROUTING MODEL FOR EMERGENCY VEHICLES USING THE REAL TIME TRAFFIC DATA, 2018 IEEE International Conference on Service Operations and Logistics, and Informatics (SOLI), pp. 175-179. (2018) [3] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究目的 研究目的 短い時間で目的地へ到達できる経路探索手法を検討する 扱う状況 • 各車両の現在の位置や速度の情報が入手可能 – 各車両の今後の動きはわからない • 各交差点で現在の交通状況に関する情報をもとにし て目的地に早く到達するには次にどの方向に進むか を学習していく
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 逐次決定型の経路探索アプローチ 右折? 左折? 直進? 交通状況の情報 意思決定 対象車 直進しよう 各交差点で … G S • 各交差点に進入するたびに現時点での交通状況に基づいて目的地まで の到達時間を最小化するように次の進行方向を決定 • 交差点ごとの行動決定規則を獲得するために深層強化学習を用いる • 逐次決定型の経路探索のメリット 目的地が定まっていない(突然変わる) 交通状況が著しく変動
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 本研究のソフトウェアシミュレーション環境 RLlib 強化学習ライブラリ 学習車の行動を決める FLOW 深層強化学習フレームワーク 強化学習に用いる報酬の計算、車両の制御 SUMO(Simulation of Urban MObility) 交通シミュレータ 車両のシミュレーションを行う ネットワークの交通流や車両の 現在地の情報を抽出 ネットワークの交通流や車両の 現在地の情報、報酬 学習車の行動を示す値 値を実際の行動に変換 DQN+double DQN[4]+ dueling network[5]+ prioritized experience replay[6] [4]Tom Schaul, John Quan, Ioannis Antonoglou, David Silver: Prioritized Experience Replay, arXiv:1511.05952 [cs.LG].(2016) [5]Hado van Hasselt, Arthur Guez, David Silver :Deep Reinforcement Learning with Double Q-learning, arXiv:1509.06461 [cs.LG]. (2016) [6]Ziyu Wang, Tom Schaul, Matteo Hassel, Hado van Hasselt, Marc Lanctot, Nando de Freitas : Dueling Network Architectures for Deep Reinforcement Learning, arXiv:1511.06581 [cs.LG]. (2016)
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 学習プロセス 1. マップの生成と車両の初期化を行ってシミュレーションを開始 3. 観測した情報をもとに交差点を次にどの方向に進むべきかを ニューラルネットワークで推論、次の交差点まで移動、報酬を計算 2. 学習対象車は各交差点に差し掛かったら現在の交通状況に関する情 報を観測 5. 学習車の目的地への到達判定 シミュレーションを終了 4. その時の状態遷移をバッファに保存 True ミニバッチ分バッファから状態 遷移をサンプリング、 ニューラルネットワークを更新 False
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 強化学習の適用 𝑇𝑠𝑡 : 𝑠𝑡でのトータルの走行時間 𝑠𝑡: tステップ目における状態 𝑠𝑡 𝑠𝑡+1 𝑟𝑡 = - (𝑇𝑠𝑡+1 − 𝑇𝑠𝑡 ) 𝑇𝑠𝑡+1 𝑇𝑠𝑡 1step 学習車 学習車以外の車両 報酬 𝑟𝑡 = − (𝑇𝑠𝑡+1 − 𝑇𝑠𝑡 ) 観測空間 ネットワークの各エッジ上にいる車両の数 ネットワークの各エッジの推定走行時間 学習車の現在位置 目的地の位置 行動空間 3(右折、左折、直進の3パターン) 各エッジの推定走行時間 𝑡𝑒 = 𝑙𝑒 𝑣𝑒 𝑖𝑓 𝑛𝑒 > 0 𝑙𝑒 𝑚𝑒 𝑖𝑓 𝑛𝑒 = 0 𝑙𝑒: エッジの長さ 𝑣𝑒: エッジ上の車両の平均走行距離 𝑚𝑒: エッジの制限速度 𝑛𝑒: エッジ上に存在する車両の数
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 実験 【実験目的】 深層強化学習を用いることで複数の交通状況においても目的地 まで早く到達できる経路探索が実現可能かを検証すること – 地図の形状や交通状況、出発地点と目的地点の変動など の検証項目の中で交通状況を扱う 【実験方法】 • シンプルな地図で意図的な渋滞を発生させる交通状況を使用 • 今回設定した2つの交通状況を混ぜて学習 • 以下の手法と深層強化学習との比較を行う – 事前に各エッジの距離情報をもとに最短距離経路を選択 するダイクストラ法 – 各交差点で現在の交通状況に応じて逐次決定型のダイク ストラ法
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 実験設定 エッジ1 このマップを使用する理由 • 渋滞の発生個所と迂回路が明確になっている • 距離の最短経路と迂回路が大きく2通りに絞ら れている エッジ数 エッジの長さ(m) エッジの制限速度 (km/h) 82 min: 62.53 Max: 158.83 36 車種 最大加速度 (m/𝒔𝟐 ) 最大減速度 (m/𝒔𝟐 ) 最高速度 (m/s) 普通の車 2.0 5.0 20.0 トラック 1.0 5.0 5.0 • 車両数:101台(内学習車1台) • 非学習車の出発地点と目的地及び、行動は各交通状況で固定 • 車両はエッジ1か2を必ず通る設定 車両設定 エッジ2
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 実験設定 S G 交通状況1 ポイント1 下を経由したルートを選択することで目的地まで短 い時間で到達できる 学習車を除く車両がポイント1を経由して各目的地ま で走行する場合に発生する交通状況
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 実験設定 S G 交通状況2 ポイント2 学習車を除く車両がポイント2を経由して各目的地ま で走行する場合に発生する交通状況 上を経由したルートを選択することで目的地まで短 い時間で到達できる
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験設定 モデルの設定[7] 入力層 168 隠れ層1 150 隠れ層2 100 Dueling Network 4 出力層 3 活性化関数 relu モデルの設定[7] 学習率 0.001 探索率ε 1.0→0.05 ターゲットネットワークの更新頻度 3000 割引率γ 0.99 経験再生のバッファサイズ 10000 ミニバッチサイズ 32 優先度付き経験再生のパラメータ α 0.6 優先度付き経験再生のパラメータ β 0.4→1.0 以下の設定で10000episode学習 • 1episode: 車両が目的地に到達or 1000秒経過 • 1step:交差点から次の交差点 • ニューラルネットワークの構造及びハイパーパラメータ: 下図の通り [7] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験 交通状況1,2を混ぜて学習 学習中のエピソード平均走行時間 学習中のエピソード平均走行距離 学習当初はランダムな行動を多く取ることもあり、目的地に到達する 時間がかかってしまう しかし、学習が進むにつれて徐々に車両の通るルートが改善され目的 地までの走行時間は小さくなっていっている 最終的には、時間のダイクストラ法と同程度の走行時間で収束した 走行距離に関しても学習が進むにつれて短くなっているが、最終的に は距離と時間のダイクストラ法のどちらよりも大きくなった
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験 結果 ルート 走行時間 (s) 走行距離 (m) ダイクストラ (距離) 139 875 ダイクストラ (時間) 139 875 RL 131 886 交通状況1で走行させた場合の 走行距離と走行時間 ルート 走行時間 (s) 走行距離 (m) ダイクストラ (距離) 328 875 ダイクストラ (時間) 182 1100 RL 132 1150 交通状況2で走行させた場合の 走行距離と走行時間 各交通状況において時間のダイクストラ、距離のダイクスト ラと比較して深層強化学習によって得られたモデルを使用し た場合の方が目的地まで早く到達できる経路探索が実現でき ていることが確認できた
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験 S 交通状況1 ― RLルート ― ダイクストラ(時間、距離) G エッジ1 エッジ1では渋滞が発生しており、下の道を通ること で走行時間も走行距離も上を通る場合よりも短く目 的地まで到達可能
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験 S 交通状況1 ― RLルート ― ダイクストラ(時間、距離) G エッジ1 走行距離はダイクストラ法を用いた方が小さいがRL ルートに比べて交差点を曲がる回数が多く、その度に 少しの減速をしているため走行時間が少し伸びている
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験 S G 交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離) エッジ2 エッジ2では渋滞が発生しており、上の道を通って 目的地まで走行することで、走行距離は伸びるが、 走行時間はポイント2を通る場合よりも短くなる
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 実験 S G 交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離) ポイント2 ダイクストラ法を用いた場合は渋滞の発生するポイ ント2を通るルートが選択されるため大幅に走行時間 が伸びてしまう シミュレーション開始時点では、渋滞が発 生していないため、ダイクストラ(時間)と ダイクストラ(距離)は同じルート
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 考察 • 逐次的に現在の交通状況を利用したダイクストラ法 と比較して、短い時間で到達できる経路探索が実現 できた • 探索、行動の評価、経験の蓄積のプロセスの中で学 習を行っていく深層強化学習を用いることにより、 今後の交通状況を加味した逐次的な経路探索が行え る可能性を示した
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 まとめ • 時間的に変化する交通状況の中で目的地まで短い時 間で到達できる経路探索の実現に向けた手法の検証 を行った • 2パターンの交通状況を混ぜて学習させた場合にそれ ぞれの交通状況においてダイクストラ法と比較して 短い走行時間で目的地まで到達する経路探索が実現 できていることが確認できた • 今後は複数の交通状況の下で学習を行っていき、更 には学習していない状況にも適用できるかを検証し ていく – 出発地点と目的地の変動、更にはマップの形状の変化に対 する検証を行っていく – 学習した車両が複数台いた場合の移動時間への影響の検証 も行っていく
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 研究業績 発表予定 国内学会 口頭発表(1件) • ○清水 雅之, 横山 想一郎, 山下 倫央, 川村 秀憲, 自動運転車両 の経路探索に向けた深層強化学習の適用, 社会システムと情報技 術研究ウィーク(WSSIT2022), 2022.

Hinweis der Redaktion

  1. マップの規模が大きくなったときにどのくらいまで適用できる?など シンプルマップからこの規模のマップになったときにどれくらい学習に変化 マップをいかに全部を埋め込まなくてもいいようにする必要がある 複雑なものをシンプルなものに落とし込む
  2. 報酬決定