レポート深層学習Day4

レポート深層学習 Day4
1.強化学習
① 強化学習とは
長期的に報酬を最大化できるように環境の中で行動を選択できるエージェントを作る
ことを目標とする機械学習の一つ
→行動の結果として与えられる利益（報酬）をもとに行動を決定する原理を改善してい
く仕組み
② 強化学習の応用例
災害用ロボットを例にとると、
環境：障害物がたくさんある凸凹した地面
エージェント：周りの環境に応じて前進の仕方を考えるコンピューター
行動：場面に応じて歩く・ジャンプ等から最適な行動を選ぶ
報酬：前に進めた距離
③ 探索と利用のトレードオフ
事前に環境に対する知識が十分にあった場合、
最適な行動を選択することは可能である
が、強化学習ではそういう前提を置かず、自ら行動をとりながらデータを集め最適な行
動をとれるように学習していく。
過去のデータから最適な行動のみを選択した場合、
よりよい選択ができない→探索不足
未知の行動のみをとるようにすると過去の経験を活かせない→利用不足
これが探索と利用のトレードオフ

強化学習のイメージ
④ 強化学習の差分
通常の教師ありなし学習と強化学習ととの違いは、
全社がデータに含まれるパターンを
探すことが目的なのに対し、後者では優れた方策を見つけることである。
⑤ 行動価値関数
歴史的には計算速度の向上により大規模な強化学習が行えるようになった。
関数近似法と Q 学習を組み合わせる手法も登場した。
価値関数には状態価値関数（ある状態の価値に着目）と行動価値関数（状態と価値を組
み合わせた価値に着目）の二つがある。
⑥ 方策関数
方策関数とは方策ベースの強化学習においてある状態でとる行動の確率を与える関数
⑦ 方策勾配法
方策をモデル化して最適化する手法が方策反復法
方策の良さを、平均報酬や割引報酬和を用いて、行動価値関数 Q(s,a)の定義を行う
方策勾配定理が成り立つ

参考サイト
（参考）Q 学習の式を理解する｜ぷもん｜note
Q 学習で重要な行動価値関数の数式は以下の様にあらわされる。
αは学習率であり、新しい値をどの程度更新させるかである。
γは割引率であり、
得られる報酬が同じであっても今に近いほど価値が高いと評価する
ためのものである。将来得られる報酬の現在価値を求めることが出来る。
実装
（参考）超簡単な強化学習(Q 学習)の Python コード実装例で一気に理解！【迷路を解く】
| DSE 総研オンライン｜データサイエンス教育総合研究所 (dse-souken.com)
を参考に、次のグラフのゴールの最短経路を求めることを強化学習で求めてみた。
目視では 0→4 が最短経路とわかるが、移動できる地点に報酬を 1、移動できないとこ
ろを 0、ゴールに 10000 を設定し、
Q 関数の更新を 1 万回くらい返す。これによりスタ
ート 0 から価値が高い経路を順に進むことで最短距離を進むことができる。
#必要なモジュールをインポート
import numpy as np
gamma = 0.9#将来価値の割引。小さいほど行動直後の利益を重視。また、この割引率の存在
が効率的な学習の鍵となる。
0 １
２
0
３
0
３
4

alpha = 0.1#学習率。大きいと 1 回の学習による値の更新が急激となる。小さいほど更新がゆ
るやかとなる。後で詳述。
#報酬の設定
#各場所から移動できる箇所に報酬 1 を与え、それ以外を 0 とすることで移動できる方向を指示
#以下の行列の各行が場所に対応。0 行目は迷路の位置 0、1 行目が迷路の位置 1
#ゴールの報酬を大きく設定する
reward = np.array([[0,1,1,0,10000],
[1,0,0,0,10000],
[1,0,0,1,10000],
[1,0,1,0,10000],
[1,0,0,1,0]])
#Q 値(行動価値)の初期値を設定。今回は 0 を初期値とする。
Q = np.array(np.zeros([5,5]))
#Q 学習を実装し、各位置における行動価値を算出
#以下の学習を実行すると、行動価値 Q を求められる。Q の各行が位置に対応し、たとえば 0 行 1
列目の値は 0 から 1 に移動する行動の価値となる。
#p_state の p は present(現在)、n_state,n_actions の n は next(次)の n
for i in range(10000):#1 万回繰り返し学習を行う
p_state = np.random.randint(0,5)#現在の状態をランダムに選択
n_actions = []#次の行動の候補を入れる箱
for j in range(5):
if reward[p_state,j] >= 1:#reward の各行が 1 以上のインデックスを取得
n_actions.append(j)#これで p_state の状態で移動できる場所を取得
n_state = np.random.choice(n_actions)#行動可能選択肢からランダムに選択
#Q 値の更新。学習率が小さいほど現在の行動価値が重視され、更新がゆるやかとなる
#ここで Q 学習に用いる「たった一つの数式」を利用して行動価値を学習していく
Q[p_state,n_state] = (1-
alpha)*Q[p_state,n_state]+alpha*(reward[p_state,n_state]+gamma*Q[n_state,
np.argmax(Q[n_state,])])
#最短ルート表示関数の定義。Q 値が最も高い行動を append で追加しているだけ
def shortest_path(start):#0～4 の数字を入力。好きなところからスタート可能

path = [start]#path に経路を追加していく
p_pos = start#p_pos は現在位置(position の略)
n_pos = p_pos#n_pos(次の位置）にいったん p_pos を代入
while(n_pos != 4):#n_pos がゴール（4）になるまで繰り返し行動を選択
n_pos = np.argmax(Q[p_pos,])#各位置の行動価値が最も高い行動を選択
path.append(n_pos)#経路を path に追加
p_pos = n_pos#行動後が次の p_pos となる
return path
print(Q)
print(shortest_path(0))#スタートを 0 として最短経路を表示
出力
[[ 0. 47365.42115137 47365.25695414 0. 52627.9403871 ]
[47365.07951408 0. 0. 0. 52628.04683935]
[47365.10598893 0. 0. 47364.32659956 52628.07782184]
[47364.9629401 0. 47365.07147812 0. 52628.0624987 ]
[47365.6191127 0. 0. 47365.40229523 0. ]]
[0, 4]

2.Alpha Go
①Alpha Go の構造

②Alpha Go の学習ステップ
１、教師あり学習による RollOutPolicy と PolicyNet の学習
対局サイトの棋譜データから 3000 万局面分の教師を用意し、教師と同じ着手ができる
よう学習。具体的には、教師が着手した手を 1 とし残りを 0 とした 19×19 次元の配列
を教師とし、それを分類問題として学習。
２、強化学習による PolicyNet の学習
現状の PolicyNet と PolicyPool からランダムに選択された PolicyNet と対局シミュレー
ション結果を用いて方策勾配法で学習。PolicyPool とは、PolicyNet の強化学習の過程
を 500Iteraion ごとに記録し保存しておいたもの。この学習を minibatch size 128 で 1
万回実施
３、強化学習による ValueNet の学習
PolicyNet を使用して対局シミュレーションを行い、
その結果の勝敗を教師として学習。
教師データ作成の手順
１、まず SL PolicyNet(教師あり学習で作成した PolicyNet)で N 手まで打つ。
２、N+1 手目の手をランダムに選択し、その手で進めた局面を S（N+1）とする。
３、S（N+1）から RLPolicyNet（強化学習で作成した PolicyNet）で終局まで打ち、そ
の勝敗報酬を R とする。
S(N+1）と R を教師データ対とし、損失関数を平均二乗誤差とし、回帰問題として学習
した。この学習を minibatch size 32 で 5000 万回実施。

③モンテカルロ木探索
ある局面から最終局面までランダムシミュレーションを多数回行いその勝敗に基づい
て着手の優劣を決定する。
一定回数のシミュレーションを実施したら、
その手の着手後の局面からまたシミュレー
ションを行うことを繰り返す。
④AlphaGo(Lee) と AlphaGoZero の違い
１、教師あり学習を一切行わず、強化学習のみで作成
２、特徴入力からヒューリスティックな要素を排除し、石の配置のみにした
３、PolicyNet と ValueNet を１つのネットワークに統合した
４、Residual Net（後述）を導入した５、モンテカルロ木探索から RollOut シミュレー
ションをなくした
⑤AlphaGoZero

⑥ResidualNetwork
ネットワークにショートカット構造を追加して、勾配の爆発、消失を抑える効果を狙っ
たもの
⑧ Alpha Go Zero の学習法
Alpha Go の学習は自己対局による教師データの作成、学習、ネットワークの更新の３
ステップで構成される
自己対局による教師データの作成
現状のネットワークでモンテカルロ木探索を用いて自己対局を行う。まず 30 手までラ
ンダムで打ち、そこから探索を行い勝敗を決定する。自己対局中の各局面での着手選択
確率分布と勝敗を記録する。教師データの形は（局面、着手選択確率分布、勝敗）が１
セットとなる。
学習
自己対局で作成した教師データを使い学習を行う。Network の Policy 部分の教師に着
手選択確率分布を用い、Value 部分の教師に勝敗を用いる。損失関数は Policy 部分は
CrossEntropy、Value 部分は平均二乗誤差。
ネットワークの更新
学習後、現状のネットワークと学習後のネットワークとで対局テストを行い、学習後の
ネットワークの勝率が高かった場合、
学習後のネットワークを現状のネットワークとす
る。

3. 軽量化・高速化技術
① 高速化
複数の計算資源を使用して並列的にニューラルネットワークを構成し効率の良い学習
を行う。
・データ並列化
親モデルを各ワーカーにコピーした上で、データ分割し各ワーカーに計算させる。
（同期型）各ワーカーの勾配の平均を親のパラメーターを更新
（非同期型）各ワーカーの勾配をパラメーターサーバーに PUSH しておき、計算が終
わったワーカーはパラメーターサーバーから POP したモデルに対して学習していく
非同期型の方が計算が早いものの、学習が不安定になりがち。同期型の方が精度がよい
ことが多い（アンサンブル学習のようなもの）
・モデル並列型
親モデル自体を分割し、各ワーカーに学習させる。モデルが大きいときはこれがよい。
・GPU による高速化
単純な作業を大量に並列処理するには CPU よりも GPU の方が向いているため、ニュ
ーラルネットワークの学習には最適。
② モデルの軽量化
モデルの精度を維持しつつパラメータや演算愛数を低減する方法
・量子化
通常のパラメータの 64 bit 浮動小数点を 32 bit など下位の精度に落とすことでメモリ
と演算処理の削減を行う。計算の高速化や省メモリ化を図れる。精度が落ちる欠点はあ
るものの、実際には大きく性能が落ちることがないことをデータが示している。
・蒸留
規模の大きなモデルの知識（すでに学習済みの経験）を使って、軽量なモデルを作る。
具体的には、
学習済みのモデルのアウトプットを教師として軽量なモデルに学習させる。
・プルーニング
モデルの精度にあまり寄与していないニューロンを削減する手法。
削減しすぎると精度
が落ちる為、どの程度削減するかの閾値の設定には注意が必要。

参考サイトによる学習
モデルの軽量化についてディープラーニングを軽量化する「モデル圧縮」３手法｜エンジ
ニアコラム | 株式会社 Laboro.AI より学習した（画像等も参照させていただいた）
。
ここでは現場のデバイス（エッジデバイス）に AI を実装する必要があるため、エッジ
デバイスの処理能力には限界があり、できる限り計算量を落とす必要があるため、
モデ
ルの軽量化は必須となる。
① プルーニング
ノードや重みを削減することでパラメーター数を現象させる方法である。
手法としては
重みの絶対値が小さい手法が一般的である。
一般的にはプルーニングだけでは精度が落
ちるため、プルーニング後に再学習を行うことで精度を維持できるようである。
② 量子化
量子化とは重みなどのパラメーターをより小さいビットで表現することでモデルの軽
量化を図る方法である。ビットを制限することで使用メモリを削減できる。
通常は 32bit を使用するのが一般的であるが、8bit の量子化であれば 1％程度の性能低
下で済むようである。
③ 蒸留
蒸留とは大きなモデルやアンサンブルモデルを教師モデルとして、
その知識を小さいモ

デルの学習に利用する方法である。
ハードウェアの性能向上で処理能力を高めるだけでなく、
使用する場面に応じた制約が
あることから、モデルの軽量化等の工夫が重要であることが分かった。

4.応用技術
① MobileNets
ディープラーニングの問題点である精度を高めるためにネットワークが深くなり計算
量が増え計算リソースが必要になる点について、画像認識において軽量化・高速化・高
精度化を実現したものである。
一般的な畳み込みレイヤーは、
入力の大きさ×カーネルの大きさ×出力の大きさだけの
計算量になる。
これを MobileNets では、DepthwiseConvolution と PointwiseConvolution の組み合わ
せで軽量化を実現している。
Depthwise Convolution：入力マップのチャネルごとに畳み込みを実施。出力は入力マ
ップのチャネルと同じ数になる。
PointwiseConvolution：入力マップのポイントごとに畳み込みを実施する。カーネルは
1×１のフィルタを使う。

Depthwise Convolution
Pointwise Convolution
これにより、H×W×K×K×C×M の計算量を、H×W×C×K×K ＋ H×W×C×
M に落とすことが出来る。

② DenseNet
DenseNet とは前方の出力をすべて後方の入力にするように接続した DenseBlock を複
数組み合わせたものであり、勾配消失を避け、情報の伝達も十分に行えるようにしたも
のである。
③ BachNorm
レイヤー間を流れるデータの分布をミニバッチ単位で平均０分散１となるように正規
化したもの。学習時間の短縮や初期値への依存低減、過学習の抑制効果がある。
問題点として、BatchSize が小さい場合は学習が収束しないことがあるため、
LayerNormalization などの正規化手法が使われることが多い。

上記の立方体は、H,W は一画像の１チャンネルの画像を１列のデータにしたもの。
それがチャンネル数の C と N 枚の画像が並んでいるデータだとする。
BatchNorm は同じチャンネルのデータ、 LayerNorm は同じ画像のデータ、
InstanceNorm はあるチャンネルの１枚の画像のデータごとに正規化を行う方法である。
BatchNorm は Batch サイズが小さいときに効果が薄くなってしまうが、LayerNorm に
することでミニバッチの数に依存しない学習ができる。
④ WaveNet
生の音声波形を生成するモデル。
時系列データに対して畳み込みを適用するが、左図の様に畳み込むのではなく、
左図の
ように層が進むにつれてリンクを話すようにつなげていることで、
多くの入力を一つに
アウトプットにリンクさせることが出来る。

確認問題
Depthwise Convolution はカーネルのフィルタ数をなしにして、入力のチャンネルごと
に出力を行うため、
（い）H×W×C×K×K×
Pointwise Convolution は、カーネルのフィルタは１マスと考えるて畳み込みを行うた
め、H×W×C×M

層が深くなるにつれて畳み込むリンクを離すことにより、
多くの入力データを出力につ
なげることができるため、効率的に学習できるようになっている。俺を Dilated
convolution と呼んでいる。パラメータ数に対する受容野が広い。

5. Transformer
Transformer の前に Seq2seq の復習を行う。
 Encoder-Decoder モデルとも呼ばれる
 入力系列が Encode(内部状態に変換)され、内部状態から Decode(系列に変換)する
 実応用上も、入力・出力共に系列情報なものは多い
 翻訳 (英語→日本語)
 音声認識 (波形→テキスト)
 チャットボット (テキスト→テキスト)
ベースは RNN
時間方向への再帰構造となっている。
文章も時系列ととらえて入力データとする。例えば文章生成

文章を作る場合、これまでの文脈から次にどのような単語を出力するかであるが、
文脈にあった単語を選ぶ必要がある。直言の単語だけではなく、これまでの単語を
すべて含めて次の単語を予測する必要がある。
これは同時確率となるが、
それを事後確率に分解して表現することにより計算でき
るようにしている。

翻訳の場合は日本語から英語へ翻訳する必要があるため、
Seq2seq という Encoder-
Decoder モデルを利用する。
Encoder で入力された文章を一定の意味を表すベクトルに変換し、
Decoder で異な
る言語へ復元する。
Decoder 側で正解と比較して損失関数を求めて逆伝播させて言
えば、学習することが可能となる。
実装
サンプルのコードを実行し、流れを体験した。
まず TanakaCorpus という英語-日本語の対訳コーパスから、
入力の英語文、
教師データ
の日本語分を読み込み、単語単位で list 化する。

文章を単語 ID のリストに変換す。
その後テンソルへ変換し、
Encodr、Decoder、Encodr-Decoder クラスを定義し、
学
習する。

訓練モデルからの生成。文章によっては意味をなさない訳のケースもあるが、大半
がそれなりに読める翻訳ができていた。

transformer について
RNN を利用した Seq2seq の課題として、文章が長くなると表現力が足りなくなる
ことがある。これは Attention というどの程度ある単語に注目すべきか評価する指
標を入れることで解決することができる。
transformer は RNN を使わず Attention だけを使ったもの。
構造は以下の通り。

まず Encoder 側から。
全データを投入し、自己注意機構（下図の右）を利用して各単語をエンコードして
いく。
ただし、このままだと文を構成する単語の順序情報がないため、位置情報を保持し
たまま順伝播させ、各単語に対する Attention をまとめて計算する。

それを 8 個を並列につないで計算させ最後に統合する。
続いて Decoder
異なるのは未来の情報（正解の文章の先に来る単語）をマスキングする。

なお、RNN を用いないため語順情報がないことから、単語の位置情報をエンコー
ドする工夫を入れている。
実装
データの準備は前回の例と同じなので省略
① Posiition Encoding

② Multihead Attention
Scaled Dot-Product Attention、Multi-Head Attention クラスの実装

③ Position-Wise Feed Forward Network
単語列の位置ごとに独立して処理する 2 層のネットワークである Position-Wise
Feed Forward Network を定義
④ Masking
Transformer では Attention に対して２つのマスクを定義する。
一つは key 側の系列の PAD トークンに対して Attention を行わないようにするマ
スク、もう一つは Decoder 側で SelfAttention を行う際に、各時刻で未来の情報に
対する Attention を行わないようにするマスク。

次に Encoder,Decoder モデルを定義する。
訓練

生成サンプル。
何度か生成を実行してみたが、RNN を使用したモデルと比較して、あまり大きな
違いは感じなかったものの、評価の数字としては RNN を使用したモデルよりも良
いようだ。
大きく質が違わないと感じたのは、人間が認知するほどの変化ではなかったか、イ
ンプットに使用した文章の質ではこの訳のレベルが源内なのではないかと考えら
れる。

6. 物体検知・セグメンテーション
 物体認識タスクの種類
分類、物体検知、意味領域分割、個体領域分割
① 分類
画像に対して単一または複数のクラスラベルを振る
② 物体検知
Bounding Box
③ 意味領域分割
各ピクセルに対してクラスラベルを振る
④ 個体領域分割
各ピクセルに対してクラスラベルを振る
 代表的データセット
いずれも物体検出コンペティションで用いられたデータセット
目的に応じて学習に使用するデータセットを変える必要がある。
例えばクラス数が大きいことが本当に必要なのか？よく見たらラベル付けが適切
でない可能性もある。
種類クラス Train＋Val BOX/画像特徴
VOC12 20 11,540 2.4
ILSVRC17 200 476,668 1.1 アイコン的な画像
MS COCO18 80 123,287 7.3 たくさんのものが写って
いる
OICOD18 500 1,743,042 7.0 たくさんのものが写って
いる
 評価指標
予測
真値
Positive Negative
Positive True Positive False Negative
Negative False Positive True Negative

Precision=TP/(TP+FP) 適合率：どれだけ P と予測したものが正しかったか
Recall=TP/(TP+FN) 再現性：どれだけ P を取りこぼしがなく予測できたか
PR 曲線
confidence を小さい値から大きい値まで変化させて、precision と recall を計算しそれ
をプロットしていく。
閾値を上げていくと、当然、P と予測したものの数は増えるので正解率は下がってくる
ため、Precision は小さくなる。一方、取りこぼしはなくなるので Recall は上がる。
よって、グラフとしては、左上から右下へ向かう曲線となる。
そしてそのグラフの下の面積で性能を評価する。
 IoU：Intersection ocer Union
物体検出における予測精度の評価

 物体検知の大枠
 AlexNet の登場を皮切りに、SIFT→DCNN へ変化
 物体検知には大きく２種類ある
 ２段階検出器
 候補領域の検出とクラス推定を別々に行う。
 相対的に精度が高い
 相対的に計算量が大きく推論も遅い傾向
 １段階検出器
 候補領域の検出とクラス推定を同時に行う
 相対的に精度が低い傾向
 相対的に計算量が小さく推論も早い傾向
 SSD：Single Shot Detector
 VGG16
 SSD の構造

デフォルトボックスの数は多い。
デフォルトボックスの数が多いことへの対応としては。
Non-Maximum Suppression：重なりの大きい領域を抑制する
Hard Negative Mining：confidrnce の順に負と正の比が 3:1 になるように選択

 Semanintic Segmentation
 Semantic Segmentation とは入力された画像に何が写っているかをピクセ
ルごとにクラス分けするアルゴリズムのことである。
 クラス分類までは他の物体検知を同じように畳み込みをしていくが、最後
に Up-sampling の壁と呼ばれるように、
解像度を落とした情報から元の画
像の解像度に戻す必要がある点である。
 そこで工夫する点としては、VGG16 であれば最後のクラス分類を確率で
出力する際の結合層部分を、画像の 2 次元の特徴を表したヒートマップを
出力することにした点である。

 次にヒートマップを基の画像の大きさに復元するのだが、その際には
Stride だけピクセル感覚を空けたり、周囲に余白を作ったりした上で畳み
込み演算を行う。

 当然、途中で失われた情報を復元できるわけではないため、厳密な輪郭は
復元できないため、畳み込みでえられた出力によって保管することで、正
しい輪郭を復元ができるようになる。

 このような工夫で有名なモデルが U-Net である。
 特徴としては Skip-connection 時にはチャネル方向への結合である点であ
る。
 Unpooling というpooling時にどの位置かといった情報を残す工夫もある。

レポート深層学習Day4

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie レポート深層学習Day4

Ähnlich wie レポート深層学習Day4 (10)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

レポート深層学習Day4