SlideShare ist ein Scribd-Unternehmen logo
1 von 48
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
時系列予測Transfomers の精度向上手法
Tsuyoshi Ishizone(石曽根毅), Meiji University Nakamura Lab.
本日の輪読内容
• Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
– NeurIPS’22 採択(Rating: 7, 7, 4, 4)
– 著者:Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(清華大学)
– 概要:時系列予測 Transformers の Attention を非定常性を考慮した De-stationary Attention
に置き換えることでベンチマークデータセットに対して精度向上を確認
– 選書理由:時系列予測で難しい非定常性を Attention ブロックで入れており,
Encoder-Decoder 構造の Transformers 全般に適用できる汎用性に興味を抱いたため
• WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
– NeurIPS’22 採択(Rating: 7, 7, 6, 5)
– 著者:Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo(KAIST AI)
– 概要:各時点・サンプル別に過学習を動的に抑制することで時系列予測手法の精度向上を確認
– 選書理由:シンプルな手法だが流行りの時系列予測手法では軒並み精度が向上しており,
汎用性の高さに興味を抱いたため
2
時系列予測
• 問題設定
– 時系列データ {{𝑥𝑡
𝑖
}𝑡=1
𝑇
}𝑖=1
𝑁
が given(𝑖: sample index)
– 過去の系列から将来の系列を予測
• 本日扱う手法の立ち位置(右図)
5
Transformer [Vaswani+, NIPS’17],
LogTrans [Li+, NeurIPS’21],
Informer [Zhou+, AAAI’21],
Reformer [Litaev+, ICLR’20],
Pyraformer [Liu+, ICLR’22],
Autoformer [Wu+, NeurIPS’21],
FEDformer [Zhou+, ICML’22],
ETSformer [Woo+, arXiv, 22]
Transformer 系列
LSTNet [Lai+, SIGIR’18],
DeepAR [Salinas+, Int. J. Forecast., 20]
N-BEATS [Oreshkin+, ICLR’20],
N-HiTS [Challu+, arXiv, 22]
損失ベース時系列予測手法
Non-Stationary Transformers (1本目)
WaveBound (2本目)
Non-stationary Transformers:
Exploring the Stationarity in Time Series Forecasting
7
本論文の貢献
• 近年の時系列予測手法の課題である over-stationarization(過定常化)問題 を解決!
– “定常” な時系列
• (強)定常:任意の同時分布 𝑝(𝑥𝑡−𝑤, ⋯ , 𝑥𝑡) が時間に依存しない
• 弱定常:平均ベクトル 𝑬 𝒙𝒕 と分散共分散行列 𝑽[𝒙𝒕] が時間に依存しない
– (今回はわかりやすさのため弱定常で説明するが,厳密には強定常のことを定常という)
– ほとんどの時系列は非定常
• 時間区間に依存して分布シフトが起きているイメージ
• 非定常な時系列は扱いづらいので,前処理で定常化を行うことが多い
• 弱定常の場合,正規化をイメージすれば良い
– 過定常化(over-stationarization)
• 定常化した時系列に基づく予測モデルでは,非定常性による予測の差異を捉えきれないこと
8
提案枠組み
• Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える
9
Normalization / De-normalization
• Normalization
– 変数別に sequence length 方向に正規化
𝑖: sample size, 𝑆: sequence length
• De-normalization
– 予測を保存しておいた統計量から非正規化
10
De-stationary Attention
11
(あるべき) 非定常な attention:
定常な key 𝐾′, query 𝑄′ との関係式:
(標準偏差が変数に依らないと仮定した正規化の式)
(Query の線形性)
Scaling scalar Shifting vector
De-stationary Attention
12
非定常な key 𝐾, query 𝑄 と定常な key 𝐾′, query 𝑄′ との関係式:
Scaling scalar Shifting vector
Scaling scalar と Shifting vector を非定常な原系列 𝑥 から計算:
提案枠組み(再掲)
• Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える
13
実験内容
• データセット(いずれも時系列予測のベンチマークデータセット)
• ベースライン手法
– 深層時系列予測手法:Autoformer, Pyraformer, Informer, LogTrans, Reformer, LSTNet
– 単変量時系列予測手法:N-HiTS, N-BEATS, ARIMA
• 評価指標
– MSE(平均二乗誤差),MAE(平均絶対誤差)
14
主結果
• 提案枠組みを時系列予測 Transformers 導入すると,いずれの手法でも予測誤差を削減
15
元データと予測の相対的定常性
• 時系列の定常度を ADF 検定統計量で評価(smaller ADF → higher 定常度)
• 原系列と予測系列の ADF 検定統計量の比率で相対的な定常度を評価(97~103% が好ましい)
• 通常の正規化 (Series Stationarization) や発展的な正規化 (RevIN) と異なり,
提案法 (De-stationary Attention) は原系列と同等の定常度を持つ予測が可能
→ 定常度を保存した(過定常化を抑制した)予測モデルによって予測精度が向上したと考えられる
16
WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
17
本論文の概要
• 貢献:学習時の 時系列パターンの過学習を抑制!
• 提案法:学習損失を下げる下界を時点ごとに動的に決め,損失を近づける
– Cf.) flooding [Ishida+, ICML’20]: 学習損失を下げる下界を事前に決め,損失の時間平均を近づける
– Cf.) flooding (modified): 学習損失を下げる下界を事前に決め,時間ごとに損失を近づける
18
経験リスクの比較
19
手法 経験リスク
通常
flooding (original)
flooding (modified)
WaveBound
(提案法)
N: サンプル数
M: 予測時点数
K: 次元数
時間平均
(事前に決める)
損失の下界
時点別の損失
(動的に決める)
損失の下界
提案法:WaveBound
20
損失の下界を計算するためのネットワーク
予測モデル (Source network) の指数移動平均(EMA)でパラメータを決定
予測モデルの学習損失がテスト損失より下に
束縛できるよう ϵ ≪ 1 を導入
主結果
• データセット
– NS Transformers と同様の
ベンチマーク6つ
• 多くの時系列予測手法で予
測誤差の削減を確認
21
ECL データセットでの予測誤差比較
• Flooding では予測誤差が振動している
→ Flooding では一様な損失下界であり時間依存性を反映していない.
学習データへの過適合を抑えきれておらず,予測が不安定になりやすい
• WaveBound では予測誤差の振動が抑えられている
→ WaveBound は学習データへの過適合を抑え,予測を安定させる効果
22
ETTh1 データセットでの損失曲面比較
• Filter normalization [Li+, NIPS’18] で損失曲面を可視化
• WaveBound を使用した方がより flat な曲面を形成
→ flat な損失曲面の方が汎化性能が高いことが一般に知られており [Park+, ICLR’22],
WaveBound によって汎化性能が引き上げられたと考えられる
23
まとめ・感想
• 時系列予測 Transfomers の予測精度を向上させる試みを2つ紹介
– Non-stationary Transfomers:過定常化を抑制する注意機構を導入
– WaveBound:汎化誤差を抑えるための損失下界を適応的に決定
• Non-stationary Transformers
– 平均・分散を非定常に調整した注意機構を提案しており,より高次の統計量にも議論は拡張できそう
– Encoder-Decoder に入力する前の正規化(定常化)はマスト
• 正規化時に input length S=96 を固定しており,
非定常に焦点を当てている論文なので区間幅 S に関する議論を深めて欲しかった
• WaveBound
– Appendix で時系列生成モデルや時空間予測モデルに対する精度向上の事例もあり,今後の発展を期待
• Teacher-Student モデルの枠組みに近いため,蒸留分野からの発展がありそう
24
まとめ・感想
• 汎用的な時系列基盤モデルの構築は難しい
– 画像や言語では大規模事前学習済みモデルからの転移学習 / fine-tuning である程度性能が出る
– 時系列では,非定常性(分布シフト)と過学習の容易さからまだ難しい
• 時系列で汎化が難しいのも非定常性が一因
• 今回紹介した論文は非定常性と汎化に立ち向かっており,今後の発展が期待される
– 表現空間に落とすとしたら区間ごとに1つの表現とすることになるが,区間の区切り方が非自明
• 周波数空間に落とし込めば異なる区間幅でも1つの表現にできるが,非定常性からどこまでの区間を周波数
変換すべきかが非自明
• 他分野への波及
– 動画像は系列データであるが,画像 (computer vision) 側から大規模モデルが発展
• 時系列と動画像の multi-modal な表現によって,センサ時系列の非定常性を汲み取れる可能性
– 世界モデルの世界が動的に変わる場合(工学応用ではあまりなさそう,RL の非工学応用?),
非定常性を取り入れた内部モデルが発展してくる可能性 25
References (時系列予測 Transformers)
• [Vaswani+, NIPS’17] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin.
Attention is all you need. In NIPS, 2017.
• [Li+, NeurIPS’19] S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan. Enhancing the locality and breaking the
memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019.
• [Zhou+, AAAI’21] H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang. Informer: Beyond efficient
transformer for long sequence time-series forecasting. In AAAI, 2021.
• [Kitaev+, ICLR’20] N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In ICLR, 2020.
• [Liu+, ICLR’22] S. Liu, H. Yu, C. Liao, J. Li, W. Lin, A. XLiu, and S. Dustdar. Pyraformer: Low-complexity pyramidal attention
for long-range time series modeling and forecasting. In ICLR, 2022.
• [Wu+, NeurIPS’21] H. Wu, J. Xu, J. Wang, and M. Long. Autoformer: Decomposition transformers with Auto-Correlation for
long-term series forecasting. In NeurIPS, 2021.
• [Zhou+, ICML’22] T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin. FEDformer: Frequency enhanced decomposed
transformer for long-term series forecasting. In ICML, 2022.
• [Woo+, arXiv, 22] G. Woo, C. Liu, D. Sahoo, A. Kumar, and S. C. H. Hoi. Etsformer: Exponential smoothing transformers for
time-series forecasting. arXiv preprint arXiv:1406.1078, 2022.
26
References (Others)
• [Lai+, SIGIR’18] G. Lai, W. Chang, Y. Yang, and H. Liu. Modeling long- and short-term temporal patterns with deep neural networks. In SIGIR, 2018.
• [Salinas+, Int. J. Forecast., 20] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski. DeepAR: Probabilistic forecasting with autoregressive
recurrent networks. Int. J. Forecast., Vol. 36, 3, pp.1181-1191, 2020.
• [Oreshkin+, ICLR’20] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio. N-BEATS: neural basis expansion analysis for interpretable time series
forecasting. In ICLR, 2020.
• [Challu+, arXiv, 22] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski. N-hits: Neural hierarchical interpolation for
time series forecasting. arXiv preprint arXiv:2201.12886, 2022.
• [Ishida+, ICML’20] T. Ishida, I. Yamane, T. Sakai, G. Niu, and M. Sugiyama. Do We Need Zero Training Loss After Achieving Zero Training Error? In
ICML, 2020.
• [Li+, NIPS’18] H. Li, Z. Xu, G. Taylor, C. Studer, and T. Goldstein. Visualizing the Loss Landscape of Neural Nets. In NIPS, 2018.
• [Park+, ICLR’22] N. Park and S. Kim. How do vision transformers work? In ICLR, 2022.
• [Ogasawara+, IJCNN’10] E. Ogasawara, L. C. Martinez, D. de Oliveira, G. Zimbrão, G. L. Pappa, and M. Mattoso. Adaptive Normalization: A novel data
normalization approach for non-stationary time series. In IJCNN, Barcelona, Spain, 2010, pp. 1-8, doi: 10.1109/IJCNN.2010.5596746.
• [Passalis+, IEEE TNNLS’20] N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj, and A. Iosifidis. Deep Adaptive Input Normalization for Time Series
Forecasting. In IEEE TNNLS, vol. 31, no. 9, pp. 3760-3765, Sept. 2020, doi: 10.1109/TNNLS.2019.2944933.
• [Kim+, ICLR’22] T. Kim, J. Kim, Y. Tae, C. Park, J. Choi, and J. Choo. Reversible Instance Normalization for Accurate Time-Series Forecasting
against Distribution Shift. In ICLR, 2022.
27
ご清聴ありがとうございました!
28
Appendix
29
時系列データの定常化
• Adaptive Normalization [Ogasawara+, IJCNN’10]
– 移動平均 → 排反区間に分割 → 外れ値除去 → 区間別に正規化
• DAIN [Passalis+, IEEE TNNLS’20]
– Adaptive Shift,Adaptive Scaling を NN で sample-wise で求める
• RevIN [Kim+, ICLR’22]
– 入力系列を Instance Normalization → 予測器で予測 → De-normalization した損失で誤差伝播
30
RevIN [Kim+, ICLR’22]
31
データセット
• ETT (Electricity Transformer Temperature): 中国69地点・2年間 (2016~2018) の変圧器の油温や電
力負荷 (ETTh1 & ETTh2: hourly, ETTm1 & ETTm2: every 15 minutes)
• ECL (Electricity): 321顧客・2年間 (2012~2014) の電力使用量 (hourly)
• Exchange: 8カ国・27年間 (1990~2016) の為替レート (daily)
• Traffic:サンフランシスコ港862箇所・48ヶ月 (2015~2016) の道路占有率 (hourly)
• Weather: 全米1600箇所・4年間 (2010~2013) の21気象指標 (every 10 minutes)
• ILI: 米国・20年間 (2002~2021) のインフルエンザ様疾患患者 (weekly)
32
NS Transformers の主結果
• Ours (vanilla Transformer w/
proposed.) が最良
– Vanilla Transformer に提案法を導
入しただけでも,
既存法を凌駕することの証左
33
NS Transformers の他正規化手法との比較
• 既存法 (RevIN) とナイーブな標準化
(Series Stationarization) を凌駕
34
NS Transformers の Ablation Study
• 提案法 (Stat+DeAttn) が最良な
ケースが多い
– Stat: 定常化・非定常化
– DeFF: 正規化時の平均・分散を
Transformer のFeed-Forward NN
に入力
– DeAttn:Attention を
De-stationary Attention に置換
35
NS Transformers の査読者との議論
• Attention 後の MLP に正規化時の平均・分散を入れるだけではダメなのか?
– 提案法は過定常化問題の知見に基づくものである
• Scaling scalar τ, Shifting vector Δ は正規化時の平均・分散を直接使ってはダメなのか?
– データに依存した deep features であるため MLP を通す必要がある
• 正規化したものを “定常化時系列” と述べるのは不適切では?
– 「定常度合いを高めること」を定常化 (stationarization) として述べる
36
Filter-wise Normalization [Li+, NIPS’18]
• 各層の各フィルタ別に正規化した2つのランダムベクトルを用いて,
3次元的に損失曲面を可視化する手法
37
非定常性を扱う RevIN [Kim+, ICLR’22] との組み合わせ
• RevIN 単体よ
りも誤差の減
少を確認
38
EMA Model 単体との比較
• EMA model 単体(Without Bound)より,target network として EMA model を用いる提案法
(WaveBound (Indiv.))の方が予測誤差減少
39
WaveBound 査読者との議論
• α,εはどうやって選ぶのか?
– α:0.99, 0.999, 0.9999 から選択.実験では更新速度確保のため 0.99 を選択
– ε:0.01, 0.001 から選択. εに対する堅牢性を確認済み
• 時系列予測モデル(TSF)で過適合が起きていることの証左は?
– 合成データセットに対して TSF は容易に過適合が生じることを確認
• 計算コスト・メモリコストは?
– 学習時間は 1.1~1.5 倍,学習時に必要なメモリは数%上昇
• 学習時に損失が高ければ EMA 損失も高くなり,bound にならないのでは?
– EMA モデルは原モデルのアンサンブルとして機能するため,査読者が心配する状況は滅多にない
– εを導入することで irreducible error に近づけられる
40
LogTrans [Li+, NeurIPS’19]
• 長期依存性を捉えるため,遠くの情報は徐々に疎にして attention する
41
Informer [Zhou+, AAAI’20]
• 長期系列を予測できるようにするため,層を経るたびに MaxPool して情報を圧縮
42
Reformer [Kitaev+, ICLR’20]
• attention の計算を同じハッシュ値の要素をまとめることで簡略化
• ハッシュ値はランダムな回転行列をかけた時の所属領域で決定 43
Pyraformer [Liu+, ICLR’22]
• 徐々に時間解像度を引き上げて attention を行っていく
44
Autoformer [Wu+, NeurIPS’21]
• フーリエ変換(FFT)して attention を取ることで,周期的な類似性を捉えた予測が可能に
45
FEDformer [Zhou+, ICML’22]
• M 周波数モードを強調する FEB-fと
M 周波数モードでの注意機構である
FEA-f を導入
46
ETSformer [Woo+, arXiv, 22]
• 指数移動平均で attention weight を決める Exponential Smoothing Attention 機構と
top-K 周波数の情報に縮約した Frequency Attention 機構を導入
47
LSTNet [Lai+, SIGIR’18]
• 深層モデル(CNN+LSTM)と自己回帰モデル(AR)を組み合わせた予測
48
DeepAR [Salinas+, Int. J. Forecast., 20]
• AR パラメータを RNN で構成して時系列予測
49
N-BEATS [Oreshkin+, ICLR’20]
• 各ブロックで予測
(forecast)と現時点の最
良推定(backcast)を計
算し,情報を統合
50
N-HiTS [Challu+, arXiv, 22]
• N-BEATS に multi-rate signal sampling を導入
• 異なるカーネルサイズで MaxPool することで所望の scale の情報を各ブロックで学習 51

Weitere ähnliche Inhalte

Was ist angesagt?

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健Preferred Networks
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 

Was ist angesagt? (20)

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

Ähnlich wie 【DL輪読会】時系列予測 Transfomers の精度向上手法

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)Shu Tanaka
 
Deep uncertainty quantification a machine learning approach for weather fore...
Deep uncertainty quantification  a machine learning approach for weather fore...Deep uncertainty quantification  a machine learning approach for weather fore...
Deep uncertainty quantification a machine learning approach for weather fore...harmonylab
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 

Ähnlich wie 【DL輪読会】時系列予測 Transfomers の精度向上手法 (16)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)
 
Deep uncertainty quantification a machine learning approach for weather fore...
Deep uncertainty quantification  a machine learning approach for weather fore...Deep uncertainty quantification  a machine learning approach for weather fore...
Deep uncertainty quantification a machine learning approach for weather fore...
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Kürzlich hochgeladen (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

【DL輪読会】時系列予測 Transfomers の精度向上手法

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ 時系列予測Transfomers の精度向上手法 Tsuyoshi Ishizone(石曽根毅), Meiji University Nakamura Lab.
  • 2. 本日の輪読内容 • Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting – NeurIPS’22 採択(Rating: 7, 7, 4, 4) – 著者:Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(清華大学) – 概要:時系列予測 Transformers の Attention を非定常性を考慮した De-stationary Attention に置き換えることでベンチマークデータセットに対して精度向上を確認 – 選書理由:時系列予測で難しい非定常性を Attention ブロックで入れており, Encoder-Decoder 構造の Transformers 全般に適用できる汎用性に興味を抱いたため • WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting – NeurIPS’22 採択(Rating: 7, 7, 6, 5) – 著者:Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo(KAIST AI) – 概要:各時点・サンプル別に過学習を動的に抑制することで時系列予測手法の精度向上を確認 – 選書理由:シンプルな手法だが流行りの時系列予測手法では軒並み精度が向上しており, 汎用性の高さに興味を抱いたため 2
  • 3. 時系列予測 • 問題設定 – 時系列データ {{𝑥𝑡 𝑖 }𝑡=1 𝑇 }𝑖=1 𝑁 が given(𝑖: sample index) – 過去の系列から将来の系列を予測 • 本日扱う手法の立ち位置(右図) 5 Transformer [Vaswani+, NIPS’17], LogTrans [Li+, NeurIPS’21], Informer [Zhou+, AAAI’21], Reformer [Litaev+, ICLR’20], Pyraformer [Liu+, ICLR’22], Autoformer [Wu+, NeurIPS’21], FEDformer [Zhou+, ICML’22], ETSformer [Woo+, arXiv, 22] Transformer 系列 LSTNet [Lai+, SIGIR’18], DeepAR [Salinas+, Int. J. Forecast., 20] N-BEATS [Oreshkin+, ICLR’20], N-HiTS [Challu+, arXiv, 22] 損失ベース時系列予測手法 Non-Stationary Transformers (1本目) WaveBound (2本目)
  • 4. Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting 7
  • 5. 本論文の貢献 • 近年の時系列予測手法の課題である over-stationarization(過定常化)問題 を解決! – “定常” な時系列 • (強)定常:任意の同時分布 𝑝(𝑥𝑡−𝑤, ⋯ , 𝑥𝑡) が時間に依存しない • 弱定常:平均ベクトル 𝑬 𝒙𝒕 と分散共分散行列 𝑽[𝒙𝒕] が時間に依存しない – (今回はわかりやすさのため弱定常で説明するが,厳密には強定常のことを定常という) – ほとんどの時系列は非定常 • 時間区間に依存して分布シフトが起きているイメージ • 非定常な時系列は扱いづらいので,前処理で定常化を行うことが多い • 弱定常の場合,正規化をイメージすれば良い – 過定常化(over-stationarization) • 定常化した時系列に基づく予測モデルでは,非定常性による予測の差異を捉えきれないこと 8
  • 6. 提案枠組み • Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える 9
  • 7. Normalization / De-normalization • Normalization – 変数別に sequence length 方向に正規化 𝑖: sample size, 𝑆: sequence length • De-normalization – 予測を保存しておいた統計量から非正規化 10
  • 8. De-stationary Attention 11 (あるべき) 非定常な attention: 定常な key 𝐾′, query 𝑄′ との関係式: (標準偏差が変数に依らないと仮定した正規化の式) (Query の線形性) Scaling scalar Shifting vector
  • 9. De-stationary Attention 12 非定常な key 𝐾, query 𝑄 と定常な key 𝐾′, query 𝑄′ との関係式: Scaling scalar Shifting vector Scaling scalar と Shifting vector を非定常な原系列 𝑥 から計算:
  • 10. 提案枠組み(再掲) • Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える 13
  • 11. 実験内容 • データセット(いずれも時系列予測のベンチマークデータセット) • ベースライン手法 – 深層時系列予測手法:Autoformer, Pyraformer, Informer, LogTrans, Reformer, LSTNet – 単変量時系列予測手法:N-HiTS, N-BEATS, ARIMA • 評価指標 – MSE(平均二乗誤差),MAE(平均絶対誤差) 14
  • 12. 主結果 • 提案枠組みを時系列予測 Transformers 導入すると,いずれの手法でも予測誤差を削減 15
  • 13. 元データと予測の相対的定常性 • 時系列の定常度を ADF 検定統計量で評価(smaller ADF → higher 定常度) • 原系列と予測系列の ADF 検定統計量の比率で相対的な定常度を評価(97~103% が好ましい) • 通常の正規化 (Series Stationarization) や発展的な正規化 (RevIN) と異なり, 提案法 (De-stationary Attention) は原系列と同等の定常度を持つ予測が可能 → 定常度を保存した(過定常化を抑制した)予測モデルによって予測精度が向上したと考えられる 16
  • 14. WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting 17
  • 15. 本論文の概要 • 貢献:学習時の 時系列パターンの過学習を抑制! • 提案法:学習損失を下げる下界を時点ごとに動的に決め,損失を近づける – Cf.) flooding [Ishida+, ICML’20]: 学習損失を下げる下界を事前に決め,損失の時間平均を近づける – Cf.) flooding (modified): 学習損失を下げる下界を事前に決め,時間ごとに損失を近づける 18
  • 16. 経験リスクの比較 19 手法 経験リスク 通常 flooding (original) flooding (modified) WaveBound (提案法) N: サンプル数 M: 予測時点数 K: 次元数 時間平均 (事前に決める) 損失の下界 時点別の損失 (動的に決める) 損失の下界
  • 17. 提案法:WaveBound 20 損失の下界を計算するためのネットワーク 予測モデル (Source network) の指数移動平均(EMA)でパラメータを決定 予測モデルの学習損失がテスト損失より下に 束縛できるよう ϵ ≪ 1 を導入
  • 18. 主結果 • データセット – NS Transformers と同様の ベンチマーク6つ • 多くの時系列予測手法で予 測誤差の削減を確認 21
  • 19. ECL データセットでの予測誤差比較 • Flooding では予測誤差が振動している → Flooding では一様な損失下界であり時間依存性を反映していない. 学習データへの過適合を抑えきれておらず,予測が不安定になりやすい • WaveBound では予測誤差の振動が抑えられている → WaveBound は学習データへの過適合を抑え,予測を安定させる効果 22
  • 20. ETTh1 データセットでの損失曲面比較 • Filter normalization [Li+, NIPS’18] で損失曲面を可視化 • WaveBound を使用した方がより flat な曲面を形成 → flat な損失曲面の方が汎化性能が高いことが一般に知られており [Park+, ICLR’22], WaveBound によって汎化性能が引き上げられたと考えられる 23
  • 21. まとめ・感想 • 時系列予測 Transfomers の予測精度を向上させる試みを2つ紹介 – Non-stationary Transfomers:過定常化を抑制する注意機構を導入 – WaveBound:汎化誤差を抑えるための損失下界を適応的に決定 • Non-stationary Transformers – 平均・分散を非定常に調整した注意機構を提案しており,より高次の統計量にも議論は拡張できそう – Encoder-Decoder に入力する前の正規化(定常化)はマスト • 正規化時に input length S=96 を固定しており, 非定常に焦点を当てている論文なので区間幅 S に関する議論を深めて欲しかった • WaveBound – Appendix で時系列生成モデルや時空間予測モデルに対する精度向上の事例もあり,今後の発展を期待 • Teacher-Student モデルの枠組みに近いため,蒸留分野からの発展がありそう 24
  • 22. まとめ・感想 • 汎用的な時系列基盤モデルの構築は難しい – 画像や言語では大規模事前学習済みモデルからの転移学習 / fine-tuning である程度性能が出る – 時系列では,非定常性(分布シフト)と過学習の容易さからまだ難しい • 時系列で汎化が難しいのも非定常性が一因 • 今回紹介した論文は非定常性と汎化に立ち向かっており,今後の発展が期待される – 表現空間に落とすとしたら区間ごとに1つの表現とすることになるが,区間の区切り方が非自明 • 周波数空間に落とし込めば異なる区間幅でも1つの表現にできるが,非定常性からどこまでの区間を周波数 変換すべきかが非自明 • 他分野への波及 – 動画像は系列データであるが,画像 (computer vision) 側から大規模モデルが発展 • 時系列と動画像の multi-modal な表現によって,センサ時系列の非定常性を汲み取れる可能性 – 世界モデルの世界が動的に変わる場合(工学応用ではあまりなさそう,RL の非工学応用?), 非定常性を取り入れた内部モデルが発展してくる可能性 25
  • 23. References (時系列予測 Transformers) • [Vaswani+, NIPS’17] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention is all you need. In NIPS, 2017. • [Li+, NeurIPS’19] S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019. • [Zhou+, AAAI’21] H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In AAAI, 2021. • [Kitaev+, ICLR’20] N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In ICLR, 2020. • [Liu+, ICLR’22] S. Liu, H. Yu, C. Liao, J. Li, W. Lin, A. XLiu, and S. Dustdar. Pyraformer: Low-complexity pyramidal attention for long-range time series modeling and forecasting. In ICLR, 2022. • [Wu+, NeurIPS’21] H. Wu, J. Xu, J. Wang, and M. Long. Autoformer: Decomposition transformers with Auto-Correlation for long-term series forecasting. In NeurIPS, 2021. • [Zhou+, ICML’22] T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin. FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. In ICML, 2022. • [Woo+, arXiv, 22] G. Woo, C. Liu, D. Sahoo, A. Kumar, and S. C. H. Hoi. Etsformer: Exponential smoothing transformers for time-series forecasting. arXiv preprint arXiv:1406.1078, 2022. 26
  • 24. References (Others) • [Lai+, SIGIR’18] G. Lai, W. Chang, Y. Yang, and H. Liu. Modeling long- and short-term temporal patterns with deep neural networks. In SIGIR, 2018. • [Salinas+, Int. J. Forecast., 20] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. Int. J. Forecast., Vol. 36, 3, pp.1181-1191, 2020. • [Oreshkin+, ICLR’20] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio. N-BEATS: neural basis expansion analysis for interpretable time series forecasting. In ICLR, 2020. • [Challu+, arXiv, 22] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski. N-hits: Neural hierarchical interpolation for time series forecasting. arXiv preprint arXiv:2201.12886, 2022. • [Ishida+, ICML’20] T. Ishida, I. Yamane, T. Sakai, G. Niu, and M. Sugiyama. Do We Need Zero Training Loss After Achieving Zero Training Error? In ICML, 2020. • [Li+, NIPS’18] H. Li, Z. Xu, G. Taylor, C. Studer, and T. Goldstein. Visualizing the Loss Landscape of Neural Nets. In NIPS, 2018. • [Park+, ICLR’22] N. Park and S. Kim. How do vision transformers work? In ICLR, 2022. • [Ogasawara+, IJCNN’10] E. Ogasawara, L. C. Martinez, D. de Oliveira, G. Zimbrão, G. L. Pappa, and M. Mattoso. Adaptive Normalization: A novel data normalization approach for non-stationary time series. In IJCNN, Barcelona, Spain, 2010, pp. 1-8, doi: 10.1109/IJCNN.2010.5596746. • [Passalis+, IEEE TNNLS’20] N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj, and A. Iosifidis. Deep Adaptive Input Normalization for Time Series Forecasting. In IEEE TNNLS, vol. 31, no. 9, pp. 3760-3765, Sept. 2020, doi: 10.1109/TNNLS.2019.2944933. • [Kim+, ICLR’22] T. Kim, J. Kim, Y. Tae, C. Park, J. Choi, and J. Choo. Reversible Instance Normalization for Accurate Time-Series Forecasting against Distribution Shift. In ICLR, 2022. 27
  • 27. 時系列データの定常化 • Adaptive Normalization [Ogasawara+, IJCNN’10] – 移動平均 → 排反区間に分割 → 外れ値除去 → 区間別に正規化 • DAIN [Passalis+, IEEE TNNLS’20] – Adaptive Shift,Adaptive Scaling を NN で sample-wise で求める • RevIN [Kim+, ICLR’22] – 入力系列を Instance Normalization → 予測器で予測 → De-normalization した損失で誤差伝播 30
  • 29. データセット • ETT (Electricity Transformer Temperature): 中国69地点・2年間 (2016~2018) の変圧器の油温や電 力負荷 (ETTh1 & ETTh2: hourly, ETTm1 & ETTm2: every 15 minutes) • ECL (Electricity): 321顧客・2年間 (2012~2014) の電力使用量 (hourly) • Exchange: 8カ国・27年間 (1990~2016) の為替レート (daily) • Traffic:サンフランシスコ港862箇所・48ヶ月 (2015~2016) の道路占有率 (hourly) • Weather: 全米1600箇所・4年間 (2010~2013) の21気象指標 (every 10 minutes) • ILI: 米国・20年間 (2002~2021) のインフルエンザ様疾患患者 (weekly) 32
  • 30. NS Transformers の主結果 • Ours (vanilla Transformer w/ proposed.) が最良 – Vanilla Transformer に提案法を導 入しただけでも, 既存法を凌駕することの証左 33
  • 31. NS Transformers の他正規化手法との比較 • 既存法 (RevIN) とナイーブな標準化 (Series Stationarization) を凌駕 34
  • 32. NS Transformers の Ablation Study • 提案法 (Stat+DeAttn) が最良な ケースが多い – Stat: 定常化・非定常化 – DeFF: 正規化時の平均・分散を Transformer のFeed-Forward NN に入力 – DeAttn:Attention を De-stationary Attention に置換 35
  • 33. NS Transformers の査読者との議論 • Attention 後の MLP に正規化時の平均・分散を入れるだけではダメなのか? – 提案法は過定常化問題の知見に基づくものである • Scaling scalar τ, Shifting vector Δ は正規化時の平均・分散を直接使ってはダメなのか? – データに依存した deep features であるため MLP を通す必要がある • 正規化したものを “定常化時系列” と述べるのは不適切では? – 「定常度合いを高めること」を定常化 (stationarization) として述べる 36
  • 34. Filter-wise Normalization [Li+, NIPS’18] • 各層の各フィルタ別に正規化した2つのランダムベクトルを用いて, 3次元的に損失曲面を可視化する手法 37
  • 35. 非定常性を扱う RevIN [Kim+, ICLR’22] との組み合わせ • RevIN 単体よ りも誤差の減 少を確認 38
  • 36. EMA Model 単体との比較 • EMA model 単体(Without Bound)より,target network として EMA model を用いる提案法 (WaveBound (Indiv.))の方が予測誤差減少 39
  • 37. WaveBound 査読者との議論 • α,εはどうやって選ぶのか? – α:0.99, 0.999, 0.9999 から選択.実験では更新速度確保のため 0.99 を選択 – ε:0.01, 0.001 から選択. εに対する堅牢性を確認済み • 時系列予測モデル(TSF)で過適合が起きていることの証左は? – 合成データセットに対して TSF は容易に過適合が生じることを確認 • 計算コスト・メモリコストは? – 学習時間は 1.1~1.5 倍,学習時に必要なメモリは数%上昇 • 学習時に損失が高ければ EMA 損失も高くなり,bound にならないのでは? – EMA モデルは原モデルのアンサンブルとして機能するため,査読者が心配する状況は滅多にない – εを導入することで irreducible error に近づけられる 40
  • 38. LogTrans [Li+, NeurIPS’19] • 長期依存性を捉えるため,遠くの情報は徐々に疎にして attention する 41
  • 39. Informer [Zhou+, AAAI’20] • 長期系列を予測できるようにするため,層を経るたびに MaxPool して情報を圧縮 42
  • 40. Reformer [Kitaev+, ICLR’20] • attention の計算を同じハッシュ値の要素をまとめることで簡略化 • ハッシュ値はランダムな回転行列をかけた時の所属領域で決定 43
  • 41. Pyraformer [Liu+, ICLR’22] • 徐々に時間解像度を引き上げて attention を行っていく 44
  • 42. Autoformer [Wu+, NeurIPS’21] • フーリエ変換(FFT)して attention を取ることで,周期的な類似性を捉えた予測が可能に 45
  • 43. FEDformer [Zhou+, ICML’22] • M 周波数モードを強調する FEB-fと M 周波数モードでの注意機構である FEA-f を導入 46
  • 44. ETSformer [Woo+, arXiv, 22] • 指数移動平均で attention weight を決める Exponential Smoothing Attention 機構と top-K 周波数の情報に縮約した Frequency Attention 機構を導入 47
  • 45. LSTNet [Lai+, SIGIR’18] • 深層モデル(CNN+LSTM)と自己回帰モデル(AR)を組み合わせた予測 48
  • 46. DeepAR [Salinas+, Int. J. Forecast., 20] • AR パラメータを RNN で構成して時系列予測 49
  • 47. N-BEATS [Oreshkin+, ICLR’20] • 各ブロックで予測 (forecast)と現時点の最 良推定(backcast)を計 算し,情報を統合 50
  • 48. N-HiTS [Challu+, arXiv, 22] • N-BEATS に multi-rate signal sampling を導入 • 異なるカーネルサイズで MaxPool することで所望の scale の情報を各ブロックで学習 51

Hinweis der Redaktion

  1. WaveBound, Non-stationary Transformers の二本立て
  2. 定常化の手法
  3. 世界として気象を扱うなど 世界モデルは現状工学的な応用が主であるが,非工学に拡張してきたときに起こりそう
  4. 非定常性が必要なシナリオの議論