24. 遞歸神經網路最佳化原理
24
遞歸神經網路模型
最佳化目標函式
2 2
ˆy w h b
21
ˆ, , ,
2
F W V U B y y
1 0 1 1h v h u x b
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
2 1 2 1h v h u x b
此遞歸神經網路模型採用下列設定:
核心函式:線性函式
目標函式:最小平方誤差
輸入層:2x1大小矩陣
輸出層:1x1大小矩陣
25. 函式切線斜率(對 偏微分)
遞歸神經網路最佳化原理
梯度下降法應用於遞歸神經網路之權重和誤差項
25
遞歸神經網路
模型
目標函式
w
修正方式
2
F
w w w h
w
2 2 2
2
F
b b b
b
2
2
ˆ
ˆ
1
F F y
w y w
h
h
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
w
2 2
ˆ
ˆ
1 1
F F y
b y b
2 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
函式切線斜率(對 偏微分)2b
修正方式2b
26. 遞歸神經網路最佳化原理
梯度下降法應用於遞歸神經網路之權重和誤差項
26
遞歸神經網路
模型
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)
目標函式
v u
修正方式 修正方式u
1 0
F
v v v w h v h
v
2 1
F
u u u w x v x
u
2
2
1 1 1
1 0 1 0
ˆ
ˆ
1 1
1
hF F y
v y h v
v h h v v h
w w
v v v
w h v h w h v h
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
v
2 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
2
2
2 1
2 1 2 1
ˆ
ˆ
1
1
hF F y
u y h u
u x v u x
w
u
w x v x w x v x
27. 遞歸神經網路最佳化原理
梯度下降法應用於遞歸神經網路之權重和誤差項
27
遞歸神經網路
模型
函式切線斜率(對 偏微分)
目標函式
1b
修正方式
1 1 1
1
1
F
b b b w v
b
2
1 2 1
1 1
1
ˆ
ˆ
1
1 1 1
hF F y
b y h b
b v b
w
b
w v w v
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
1b
2 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
29. 遞歸神經網路最佳化原理
29
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
1 1 1 1 1
權重和誤差項修正前
x1 x2 y
0.1 0.2 0.3
2 2
ˆ 1 2.3 1 3.3y w h b
2 2 21 1 1
ˆ, , , 3.3 0.3 3
2 2 2
3
F W V U B y y
1 0 1 1 1 0 1 0.1 1 1.1h v h u x b
2 1 2 1 1 1.1 1 0.2 1 2.3h v h u x b
第1回合,第1筆資料
輸入值和輸出值(真值)
h0:0
學習率:0.1
30. 遞歸神經網路最佳化原理
30
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
1 1 1 1 1
權重和誤差項修正前
權重和誤差項修正後
x1 x2 y
0.1 0.2 0.3
1 1 1 1 0.1 3 1 1 1 0.4b b w v
2 1 1 0.1 3 1 0.2 1 0.1 0.91u u w x v x
1 0 1 0.1 3 1 1.1 1 0 0.67v v w h v h
第1回合,第1筆資料
輸入值和輸出值(真值)
u v b1 w b2
0.91 0.67 0.4 0.31 0.7
2 1 0.1 3 2.3 0.31w w h
2 2 1 0.1 3 0.7b b
h0:0
學習率:0.1
31. 遞歸神經網路最佳化原理
31
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.91 0.67 0.4 0.31 0.7
權重和誤差項修正前
x1 x2 y
0.2 0.3 0.4
2 2
ˆ 0.31 1.063 0.7 1.030y w h b
2 2 21 1 1
ˆ, , , 1.030 0.4 0.630
2 2 2
0.630
F W V U B y y
1 0 1 1 0.67 0 0.91 0.2 0.4 0.582h v h u x b
2 1 2 1 0.67 0.582 0.91 0.3 0.4 1.063h v h u x b
第1回合,第2筆資料
輸入值和輸出值(真值)
h0:0
學習率:0.1
32. 遞歸神經網路最佳化原理
32
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.91 0.67 0.4 0.31 0.7
權重和誤差項修正前
權重和誤差項修正後
x1 x2 y
0.2 0.3 0.4
1 1 1 0.4 0.1 0.630 0.31 1 0.67 0.367b b w v
2 1 0.91 0.1 0.630 0.31 0.3 0.67 0.2 0.902u u w x v x
1 0 0.67 0.1 0.630 0.31 0.582 0.67 0 0.659v v w h v h
第1回合,第2筆資料
輸入值和輸出值(真值)
u v b1 w b2
0.902 0.659 0.367 0.243 0.637
2 0.31 0.1 0.630 1.063 0.243w w h
2 2 0.7 0.1 0.630 0.637b b
h0:0
學習率:0.1
33. 遞歸神經網路最佳化原理
33
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.902 0.659 0.367 0.243 0.637
權重和誤差項修正前
x1 x2 y
0.3 0.4 0.5
2 2
ˆ 0.243 1.148 0.637 0.916y w h b
2 2 21 1 1
ˆ, , , 0.916 0.5 0.416
2 2 2
0.416
F W V U B y y
1 0 1 1 0.659 0 0.902 0.3 0.367 0.638h v h u x b
2 1 2 1 0.659 0.638 0.902 0.4 0.367 1.148h v h u x b
第1回合,第3筆資料
輸入值和輸出值(真值)
h0:0
學習率:0.1
34. 遞歸神經網路最佳化原理
34
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.902 0.659 0.367 0.243 0.637
權重和誤差項修正前
權重和誤差項修正後
x1 x2 y
0.3 0.4 0.5
1 1 1 0.367 0.1 0.416 0.243 1 0.659 0.351b b w v
2 1 0.902 0.1 0.416 0.243 0.4 0.659 0.3 0.895u u w x v x
1 0 0.659 0.1 0.416 0.243 0.638 0.659 0 0.652v v w h v h
第1回合,第3筆資料
輸入值和輸出值(真值)
u v b1 w b2
0.895 0.652 0.351 0.195 0.595
2 0.243 0.1 0.416 1.148 0.195w w h
2 2 0.637 0.1 0.416 0.595b b
h0:0
學習率:0.1
35. 遞歸神經網路最佳化原理
35
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.895 0.652 0.351 0.195 0.595
權重和誤差項修正前
x1 x2 y
0.1 0.2 0.3
2 2
ˆ 0.195 0.817 0.595 0.755y w h b
2 2 21 1 1
ˆ, , , 0.755 0.3 0.455
2 2 2
0.455
F W V U B y y
1 0 1 1 0.652 0 0.895 0.1 0.351 0.440h v h u x b
2 1 2 1 0.652 0.440 0.895 0.2 0.351 0.817h v h u x b
第2回合,第1筆資料
輸入值和輸出值(真值)
h0:0
學習率:0.1
36. 遞歸神經網路最佳化原理
36
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.895 0.652 0.351 0.195 0.595
權重和誤差項修正前
權重和誤差項修正後
x1 x2 y
0.1 0.2 0.3
1 1 1 0.351 0.1 0.455 0.195 1 0.652 0.336b b w v
2 1 0.895 0.1 0.455 0.195 0.2 0.652 0.1 0.893u u w x v x
1 0 0.652 0.1 0.455 0.195 0.440 0.652 0 0.648v v w h v h
第2回合,第1筆資料
輸入值和輸出值(真值)
u v b1 w b2
0.893 0.648 0.336 0.158 0.550
2 0.195 0.1 0.455 0.817 0.158w w h
2 2 0.595 0.1 0.455 0.550b b
h0:0
學習率:0.1
37. 遞歸神經網路最佳化原理
37
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.893 0.648 0.336 0.158 0.550
權重和誤差項修正前
x1 x2 y
0.2 0.3 0.4
2 2
ˆ 0.158 0.937 0.55 0.698y w h b
2 2 21 1 1
ˆ, , , 0.698 0.4 0.298
2 2 2
0.298
F W V U B y y
1 0 1 1 0.648 0 0.893 0.2 0.336 0.515h v h u x b
2 1 2 1 0.648 0.515 0.893 0.3 0.336 0.937h v h u x b
第2回合,第2筆資料
輸入值和輸出值(真值)
h0:0
學習率:0.1
38. 遞歸神經網路最佳化原理
38
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.893 0.648 0.336 0.158 0.550
權重和誤差項修正前
權重和誤差項修正後
x1 x2 y
0.2 0.3 0.4
1 1 1 0.336 0.1 0.298 0.158 1 0.648 0.328b b w v
2 1 0.893 0.1 0.298 0.158 0.3 0.648 0.2 0.891u u w x v x
1 0 0.648 0.1 0.298 0.158 0.515 0.648 0 0.646v v w h v h
第2回合,第2筆資料
輸入值和輸出值(真值)
u v b1 w b2
0.891 0.646 0.328 0.130 0.520
2 0.158 0.1 0.298 0.937 0.130w w h
2 2 0.550 0.1 0.298 0.520b b
h0:0
學習率:0.1
39. 遞歸神經網路最佳化原理
39
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.891 0.646 0.328 0.130 0.520
權重和誤差項修正前
x1 x2 y
0.3 0.4 0.5
2 2
ˆ 0.130 1.070 0.520 0.659y w h b
2 2 21 1 1
ˆ, , , 0.659 0.5 0.159
2 2 2
0.159
F W V U B y y
1 0 1 1 0.646 0 0.891 0.3 0.328 0.596h v h u x b
2 1 2 1 0.646 0.596 0.891 0.4 0.328 1.070h v h u x b
第2回合,第3筆資料
輸入值和輸出值(真值)
h0:0
學習率:0.1
40. 遞歸神經網路最佳化原理
40
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
0.891 0.646 0.328 0.130 0.520
權重和誤差項修正前
權重和誤差項修正後
x1 x2 y
0.3 0.4 0.5
1 1 1 0.328 0.1 0.159 0.130 1 0.646 0.325b b w v
2 1 0.891 0.1 0.159 0.130 0.4 0.646 0.3 0.890u u w x v x
1 0 0.646 0.1 0.159 0.130 0.596 0.646 0 0.645v v w h v h
第2回合,第3筆資料
輸入值和輸出值(真值)
u v b1 w b2
0.890 0.645 0.325 0.113 0.504
2 0.130 0.1 0.159 1.070 0.113w w h
2 2 0.520 0.1 0.159 0.504b b
h0:0
學習率:0.1
41. 遞歸神經網路最佳化原理
41
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
u v b1 w b2
1.069 0.727 0.129 0.542 0.021
權重和誤差項修正前
x1 x2 y
0.3 0.4 0.5
2 2
ˆ 0.542 0.884 0.021 0.5y w h b
2 2 21 1 1
ˆ, , , 0.5 0.5 0
2 2 2
0
F W V U B y y
1 0 1 1 0.727 0 1.069 0.3 0.129 0.450h v h u x b
2 1 2 1 0.727 0.450 1.069 0.4 0.129 0.884h v h u x b
輸入值和輸出值(真值)
h0:0
學習率:0.1
依此類推,經過1769回合
第1769回合,第3筆資料
42. 遞歸神經網路實作
42
遞歸神經網路模型
最佳化目標函式
2 2
ˆy w h b
21
ˆ, , ,
2
F W V U B y y
1 0 1 1h v h u x b
x1
h1h0
x2
h2
y
w
v v
uu
b1 b1
b2
2 1 2 1h v h u x b
此遞歸神經網路模型採用下列設定:
核心函式:線性函式
目標函式:最小平方誤差
輸入層:2x1大小矩陣
輸出層:1x1大小矩陣
54. 多個時間點單一輸出
54
遞歸神經網路模型
最佳化目標函式
1 1 2
ˆy w h b
2
1 1 1
1
ˆ, , ,
2
F W V U B y y
1 0 1 1h v h u x b
2 1 2 1h v h u x b
此遞歸神經網路模型採用下列設定:
核心函式:線性函式
目標函式:最小平方誤差
輸入層:2x1大小矩陣
輸出層:2x1大小矩陣
x1
h1h0
x2
h2
y2
w
v v
uu
b1 b1
b2
y1
w
b2
2 2 2
ˆy w h b
2
2 2 2
1
ˆ, , ,
2
F W V U B y y
55. 函式切線斜率(對 偏微分)
多個時間點單一輸出─交通預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
55
遞歸神經網路
模型
目標函式
w
1 1 1 1
1 1
1 1
1 1
ˆ
ˆ
1
F F y
w y w
h
h
2
1 1 1
2
1
1
ˆ, , ,
2
1
2
F W V U B y y
1 1 1 1
2 1 1 2
1
1
ˆ
ˆ
1 1
F F y
b y b
1 1 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
函式切線斜率(對 偏微分)2b
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)v u
1 1 1 1 1
1 1 1
1 0
1 0
ˆ
ˆ
1
F F y h
v y h v
w h
w h
1 1 1 1 1
1 1 1
1 1
1 1
ˆ
ˆ
1
F F y h
u y h u
w x
w x
56. 多個時間點單一輸出─交通預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
56
函式切線斜率(對 偏微分)1b
1 1 1 1 1
1 1 1 1 1
1
1
ˆ
ˆ
1 1
F F y h
b y h b
w
w
遞歸神經網路
模型
目標函式
2
1 1 1
2
1
1
ˆ, , ,
2
1
2
F W V U B y y
1 1 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
57. 函式切線斜率(對 偏微分)
多個時間點單一輸出─交通預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
57
遞歸神經網路
模型
目標函式
w
修正方式
1 2
1 1 2 2
2 2
F F
h hw ww w w
1 2
2 2 1 2
2 2 2
2 2
F F
b b
b b b
2 2 2 2
2 2
2 2
2 2
ˆ
ˆ
1
F F y
w y w
h
h
2
2 2 2
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
w
2 2 2 2
2 2 2 2
2
2
ˆ
ˆ
1 1
F F y
b y b
2 2 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
函式切線斜率(對 偏微分)2b
修正方式2b
58. 多個時間點單一輸出─交通預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
58
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)v u
修正方式 修正方式u
1 2
1 0 2 1 0
+
2
+
2
F F
v vv v
w h w h v h
v
1 2
1 1 2 2 1
+
2
+
2
F F
u uu u
w x w x v x
u
2 2 2 2 2
2 2 2
1 1 1
2 2
2 1 0 2 1 0
ˆ
ˆ
1 1
1
F F y h
v y h v
v h h v v h
w w
v v v
w h v h w h v h
v
2 2 2 2 2
2 2 2
2 1
2
2 2 1 2 1
ˆ
ˆ
1
1
F F y h
u y h u
u x v u x
w
u
w x v x w x v x
遞歸神經網路
模型
目標函式
2
2 2 2
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
2 2 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
59. 多個時間點單一輸出─交通預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
59
函式切線斜率(對 偏微分)1b
修正方式
1 2
1 21 1
1 1 1
1
2 2
F F
w w vb b
b b b
2 2 2 2 2
1 2 2 2 1
1 1
2
1
2 2
ˆ
ˆ
1
1 1 1
F F y h
b y h b
b v b
w
b
w v w v
1b
遞歸神經網路
模型
目標函式
2
2 2 2
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
2 2 2
ˆy w h b
1 0 1 1h v h u x b
2 1 2 1h v h u x b
70. 同一時間點多個輸入
70
遞歸神經網路模型
最佳化目標函式
2 2
ˆy w h b
21
ˆ, , ,
2
F W V U B y y
1 0 1 1,1 2 1,2 1h v h u x u x b
2 1 1 2,1 2 2,2 1h v h u x u x b
此遞歸神經網路模型採用下列設定:
核心函式:線性函式
目標函式:最小平方誤差
輸入層:2x2大小矩陣
輸出層:1x1大小矩陣
h1h0 h2
y
w
v v
u1
b1 b1
b2
u2 u1 u2
x1,1 x1,2 x2,2x2,1
71. 函式切線斜率(對 偏微分)
同一時間點多個輸入─財金預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
71
遞歸神經網路
模型
目標函式
w
修正方式
2
F
w w w h
w
2 2 2
2
F
b b b
b
2
2
ˆ
ˆ
1
F F y
w y w
h
h
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
w
2 2
ˆ
ˆ
1 1
F F y
b y b
2 2
ˆy w h b
1 0 1 1,1 2 1,2 1h v h u x u x b
2 1 1 2,1 2 2,2 1h v h u x u x b
函式切線斜率(對 偏微分)2b
修正方式2b
72. 函式切線斜率(對 偏微分)
同一時間點多個輸入─財金預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
72
函式切線斜率(對 偏微分) 2u
修正方式 修正方式2u
2 2 2 2,2 1,2
2
F
u u u w x v x
u
2
2 2 2
2 2,2 2 1,2
2
2,2 1,2 2,2 1,2
ˆ
ˆ
1
1
hF F y
u y h u
u x v u x
w
u
w x v x w x v x
遞歸神經網路
模型
目標函式
2 2
ˆy w h b
1 0 1 1,1 2 1,2 1h v h u x u x b
2 1 1 2,1 2 2,2 1h v h u x u x b
1u
1u
1 1 1 2,1 1,1
1
F
u u u w x v x
u
2
1 2 1
1 2,1 1 1,1
1
2,1 1,1 2,1 1,1
ˆ
ˆ
1
1
hF F y
u y h u
u x v u x
w
u
w x v x w x v x
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
73. 同一時間點多個輸入─財金預測為例
梯度下降法應用於遞歸神經網路之權重和誤差項
73
函式切線斜率(對 偏微分) 函式切線斜率(對 偏微分)v 1b
修正方式 修正方式1b
1 0
F
v v v w h v h
v
2
2
1 1 1
1 0 1 0
ˆ
ˆ
1 1
1
hF F y
v y h v
v h h v v h
w w
v v v
w h v h w h v h
v
遞歸神經網路
模型
目標函式
2 2
ˆy w h b
1 0 1 1,1 2 1,2 1h v h u x u x b
2 1 1 2,1 2 2,2 1h v h u x u x b
2
2
1
ˆ, , ,
2
1
2
F W V U B y y
1 1 1
1
1
F
b b b w v
b
2
1 2 1
1 1
1
ˆ
ˆ
1
1 1 1
hF F y
b y h b
b v b
w
b
w v w v
84. 分類應用
84
遞歸神經網路模型
最佳化目標函式
1 3 2,1
ˆy w h b
1 0 1 1,1 2 1,2 1h v h u x u x b
2 1 1 2,1 2 2,2 1h v h u x u x b
此遞歸神經網路模型採用下列設定:
核心函式:線性函式
目標函式:交叉熵(Cross-Entropy)
輸入層:3x2大小矩陣
輸出層:1x2大小矩陣
2
1
, , ,
ˆ ˆln 1 ln 1i i i i
i
F W V U B
y y y y
3 2 1 3,1 2 3,2 1h v h u x u x b
2 3 2,2
ˆy w h b
h1h0 h2
y1
v v
u1
b1 b1
u2 u1 u2
x1,1 x1,2 x2,2x2,1
h3
y2
w2
v
b1
u1 u2
x3,2x3,1
w1
b2,1 b2,2
85. 函式切線斜率(對 偏微分)
分類應用─語意辨識為例
梯度下降法應用於遞歸神經網路之權重和誤差項
85
遞歸神經網路模型
目標函式
w
修正方式
1 1 2 2
3
1 1 2 2
ˆ ˆ
ˆ ˆ ˆ ˆ1 1
F
w w
w
y y y y
w h
y y y y
2, 2, 2,
2,
ˆ
ˆ ˆ1
i i
i i i
i i i
y yF
b b b
b y y
1 2
1 2
1 1 2 2
3 3
1 1 2 2
1 1 2 2
3
1 1 2 2
ˆ ˆ
ˆ ˆ
ˆ ˆ
ˆ ˆ ˆ ˆ1 1
ˆ ˆ
ˆ ˆ ˆ ˆ1 1
y yF F F
w y w y w
y y y y
h h
y y y y
y y y y
h
y y y y
w
函式切線斜率(對 偏微分)2,ib
修正方式
1 3 2,1
ˆy w h b
1 0 1 1,1 2 1,2 1h v h u x u x b
2 1 1 2,1 2 2,2 1h v h u x u x b
3 2 1 3,1 2 3,2 1h v h u x u x b
2 3 2,2
ˆy w h b
2
1
, , ,
ˆ ˆln 1 ln 1i i i i
i
F W V U B
y y y y
1 2
2, 1 2, 2 2,
ˆ ˆ
ˆ ˆ
ˆ
1
ˆ ˆ1
ˆ
ˆ ˆ1
i i i
i i
i i
i i
i i
y yF F F
b y b y b
y y
y y
y y
y y
2,ib