Weitere ähnliche Inhalte Ähnlich wie 自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究 (20) 自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究7. 作成した実験システム
• 中央集中型
– 制御用PCで行動決定
– 高さ6mの位置から赤外線カメラで全RCカー
の位置を同時に推定
– 1/12スケールRCカーを使用
– Raspberry Piはモーターの出力値を制御用PC
から受信
– ラウンドアバウトでの譲り合い検証
• 自律分散型
– Raspberry Piで行動決定
– RCカーのカメラで高さ約2.5mの位置のマー
カーを撮影し位置推定
– 1/10スケールのRCカーを使用
– PCを通じて、他車の情報を受信
– 交差点での譲り合いを検証
札幌市エレクトロニクスセンター
工学部オープンラボ
6m位置のカメラ
走行コース
7
10. Deep Q-Networkの適用 10
ラウンドアバウトで
合流する車の例
合流車 B
優先車 A
要素 内容 例
状態
(𝑠)
エージェントの行動に
よって変化した環境
車Aの速度
合流点までの距離
車Bの速度・・・
行動
(𝑎)
出力に応じてエージェン
トが行う行動
高速走行
低速走行・・・
報酬
(𝑟)
エージェントが期待され
る行動をとったときに加
点、逆の行動をとったと
きに減点
通過時+1
事故時−1・・・
Q-learningの設定項目
エピソード
エージェントが学習を行う一続きの環境
エピソード終了時が𝑡 = 𝑛の時
Q(s,a)=𝑟𝑡 + 𝛾𝑟𝑡+1 + 𝛾2
𝑟𝑡+2 + ⋯ + 𝛾 𝑛
𝑟𝑛
= 𝑟 + 𝛾 max
𝑎′
𝑄(𝑠′,𝑎′)
𝑄(𝑠, 𝑎)は深層ネットワークで実現される
DQN
10
5
2 高速
低速
停止
15. 実験結果1
優先車Aの行動 全体
停止 低速 高速
合流車が離
れている時
0% 0.15% 18.04% 18.19%
合流車が近
いとき
6.84% 0.00% 74.97% 81.81%
15
DQN出力によって選ばれた行動
合流車が近いときの例
合流点から1.2m以下の距離
合流車 B
優先車 A
合流車Bの進むタイミング 全体
優先車Aあり 優先車Aなし
割合 18.18% 81.82% 100%
18.18%の状況で優先車Aよりも先に
合流車Bが合流地点を通過している。
優先車Aがいるときに
合流車Bが合流地点を通過した例
17. 作成した実験システム
• 中央集中型
– 制御用PCで行動決定
– 高さ6mの位置から赤外線カメラで全RCカー
の位置を同時に推定
– 1/12スケールRCカーを使用
– Raspberry Piはモーターの出力値を制御用PC
から受信
– ラウンドアバウトでの譲り合い検証
• 自律分散型
– Raspberry Piで行動決定
– RCカーのカメラでマーカーを撮影し位置推定
– 1/10スケールのRCカーを使用
– PCを通じて、他車の情報を受信
– 交差点での譲り合いを検証
札幌市エレクトロニクスセンター
工学部オープンラボ
6m位置のカメラ
走行コース
17
21. DQNに使用する状態
合流車B
合流車C
先行車A’
制御車A
合流車D
DQN制御範囲
交差点の直前
0.5m
対象 内容 値
優先車A
(優先車D
について
も同様)
Aの速度 0~1[𝑚/𝑠]
交差点通過までの距離 0~6[𝑚]
優先車A,A1,A2,,,の台数 1~5[台]
優先車A,A1,A2,,,の
進行方向
ワンホット
ベクトル
先行車A’
A’の速度 0~1[𝑚/𝑠]
制御車から先行車
までの距離
0~3[𝑚]
合流車B
(合流車C
について
も同様)
Bの速度 0~1[𝑚/𝑠]
交差点通過までの距離 0~6[𝑚]
優先車B,B1,B2,,,の台数 1~5[台]
優先車B,B1,B2,,,の
進行方向
ワンホット
ベクトル
出力:交差点の直前で
①発進
②停止
21
23. 学習の経過
-1.8
-1.6
-1.4
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
50 70 90 110 130 150
行動価値
エピソード経過時間[step]
30万学習時点でのエピソード中の行動価値の変化
発進 停止 t_Q 報酬
-2
-1.5
-1
-0.5
0
0.5
0 50000 100000 150000 200000 250000 300000 350000
行動価値
学習回数[step]
最終的に停止を選んだ行動価値例
系列1 系列2発進 停止
-1.4
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0 50000 100000 150000 200000 250000 300000 350000
行動価値
学習回数[step]
最終的に発進を選んだ行動価値例
系列1 系列2発進 停止
約1万 ステップの走行ログからオフラインで学習
行動価値の収束が見られ、
30 万回学習時点でのNNを使用。
23
25. 0
62.5
125
187.5
250
312.5
375
1 2 3 平均
一台当たりの平均走行距離[m]
実験番号
一台当たりの平均走行距離
DQN使用 DQN非使用
実験結果 25
合計30分の走行で
エピソードが349回存在
31回の譲り合いを行った
譲り合いの行動は確認できたが、
走行距離の大きな変化は
見られなかった
交差点内存在時間
DQN使用 931.8秒
DQN非使用 961.4秒
交差点に限定すると
交通流量は向上
そのほかの交通流量が向上しない
実験設定になってしまっていた
27. 研究実績
・国際学会 口頭発表 査読なし
1)○Ichitaro Ogawa, Soichiro Yokoyama, Tomohisha Yamashita, Hidenori Kawamura, Akira Sakatoku, Tadashi Yanagihara,
Tomohiko Ogishi, and Hideaki Tanaka: Implementation of Mutual Concessions of Autonomous Cars Using Deep Q-
Network , The 16th ITS Asia-Pacific Forum FUKUOKA 2018 (ITSAP 2018) , 110 , Hakata(2018)
・国内学会 口頭発表 査読なし
1)○小川一太郎, 横山想一郎, 山下倫央, 川村秀憲, 酒徳哲, 柳原正, 田中英明 : Deep Q-NetworkによるRCカー群の運
動制御を実現する協調学習の提案,第31回人工知能学会全国大会(JSAI), 3I2-OS13b-5, 愛知(2017)
2)○小川一太郎, 横山想一郎, 山下倫央, 川村秀憲, 酒徳哲, 大岸智彦, 柳原正, 田中英明 : ラウンドアバウトにおける
Deep Q-Networkを用いた自動運転車のゆずりあいの獲得, 社会システムと情報技術研究ウィーク2018(WSSIT),
DOCMAS3, 虻田郡留寿都村(2018)
3)○小川 一太郎 , 横山 想一郎 , 山下 倫央 , 川村 秀憲 , 酒徳 哲 , 柳原 正 , 大岸 智彦 , 田中 英明 : Deep Q-Network
を用いた自動運転車のゆずりあいによる交通流の効率化 , 第32回人工知能学会全国大会(JSAI) , 3Z2-04 , 鹿児島
(2018),全国大会 学生奨励賞 受賞
4)○Ichitaro Ogawa, Yoshiki Hosokawa, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Warabino,
Akira Sakatoku, Tadashi Yanagihara, Tomohiko Ogishi, Hideaki Tanaka : Proposal of Mutual Concession Cars using Deep
Q-Network, GTC JAPAN, 2018-1229, Tokyo(2018)
5)○小川一太郎,横山想一郎,山下倫央,川村秀憲,酒徳哲,柳原正,蕨野貴之 ,大岸智彦,田中英明:自動運転車の
ためのDeep Q-Networkを用いた譲り合いの獲得,社会システムと情報技術研究ウィーク2019(WSSIT),AI9,虻田
郡留寿都村(2019),発表予定
27