AI(強化学習)でロボットに学習させてみた

ＡＩ(強化学習)で
ロボットに学習させてみた

ＡＩってなに？強化学習ってなに？
ＡＩ＝人間のやることを機械にまねさせること
何をすれば良いか分かっている
⇒玉を皿に置きたい！
どうやったら良いか分からない
⇒とりあえずやってみる！！
何度もやると次第にうまくなる
⇒一度できると改善してうまくなる！！！
強化学習＝例えば、けん玉の練習
強化学習＝試行錯誤を通して自らの経験を元に学習
する方法

Deep Learningはよく聞くけど…
事例：AlphaGoが人間より強くなった
⇒碁の状態数は10 あるが、DLで過去事例から学習したのは10 程度
⇒DLでは学習データ以上に強くならないため、 AlphaGo同士で強化学習
することで学習データ(人間の経験)よりも強くなった。
学習方法できること、できないこと
Deep
Learning
詰込型の学習＝試験勉強と同じ。問題を多く解いて傾向を把握
データに合わせてパターンを抽出してくれる
問題と答えのセットを用意しておかないと学習できない
教えたこと(学習したデータ)以上のことはできない
強化学習
経験型の学習＝試行錯誤を通して問題に合わせた行動を学習
できる範囲(行動、認識)の組み合わせから目的を達成する
事前の学習データが不要。自らの経験を学習データとする
実環境では学習時間がかかる。別個体との結果共有が難しい
Deep Learning と強化学習の組合わせが主流
172 ９

で、ロボットに何を学習させたの？
赤いボールを青い箱まで持っていく行動を学習
カラーカメラで状況把握
2個のモーターで移動
グリッパでボールを
つかむ

どうやって学習したの？
1.画像から色を抽出 2.位置と幅を計算
x座標⇒左
幅⇒遠い
3.状態に番号を付ける
左中央右
なしＳ1 Ｓ２Ｓ３
遠いＳ４Ｓ５Ｓ６
近いＳ７Ｓ８Ｓ９
前進Ａ１
後退Ａ２
左回転Ａ３
右回転Ａ４
前進後退
回転
①画像からボールがどう見えるか(状態)を決める
②行動を決める
選択可能な行動を決めて番号を付ける
③何をするか決める
1.目標を決める
「ボールが中央で近い(Ｓ８)」状態
を目標とする
2.目標に達した時の褒め方を決める
目標にまでに行った行動に対して、
どれくらい褒めるかを決める

何をすれば学習したことになるの？
学習前：状態に対する行動の価値が同じ
ボールの
状態
行動
なし遠い近い
左中右左中右左中右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 48 73 83 79 96 89 93 0 92
後退 A2 49 77 85 86 93 90 93 0 93
左回転 A3 85 93 87 89 91 91 95 0 92
右回転 A4 48 75 94 85 92 93 93 0 95
ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
学習後：状態ごとに得点の高い行動をする
状態と行動の表に対して、良い行動に得点を付ける
得点は目標到達時に与えられる報酬から設定する
①最初はランダムな行動をとる
②運よく目標に到達すると褒められる（報酬が与えられる）
③報酬を元に目標到達に行った行動に対して、得点を与える
④次第に得点の高い行動を行うようになる

報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
カメラ画像
状態と行動の履歴
初期状態
・カメラには何も映らない
・この時はS2の状態とする
行動１回目
・とりあえず前進してみた
学習初期はランダムに行動するしかないが、
この例は最短でうまくいく場合を示している。

ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
①
カメラ画像
行動１回目の後
・まだ、カメラには何も映らない
行動２回目
・とりあえず左回転してみた

ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
①
②
カメラ画像
行動２回目の後
・ボールが遠くの左に見えた
行動３回目
・とりあえず、また左回転してみた

ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
①
② ③
カメラ画像
行動３回目の後
・ボールが遠くの真ん中に見えた
行動４回目
・とりあえず、前進してみた

ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
①
② ③
④ ⑤
カメラ画像
行動４回目の後
・ボールが近くの真ん中に見えた(Ｓ８)
・目標状態に達したため、報酬が与えられる
・目標状態に遷移するまでが1回の学習となり、
ロボットを別の場所からスタートさせて学習
を繰り返す

ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
①
② ③
④ ⑤
カメラ画像
ボールの
状態
行動
なし遠い近い
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 ４ 0 0 10 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 ６ 0 8 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
目標到達時：報酬を元に得点を与える

強化学習でロボットに学習させてみた結果
赤いボールを青い箱まで持っていく行動を学習
・動画は次ページ参照か
https://youtu.be/7fUrinWahZs
・動画では、
ボールを探す ⇒ ボールを持つ ⇒ 青い箱を探す ⇒ 青い箱に行く
を複数の報酬を用いて学習結果も共有して実現した。

AI(強化学習)でロボットに学習させてみた

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

Recently uploaded

Recently uploaded (7)

AI(強化学習)でロボットに学習させてみた