SlideShare ist ein Scribd-Unternehmen logo
1 von 37
BERTを理解するための
TRANSFORMER 雰囲気理解
◎_gucciiiii
2019/05/23
Transformerとは?
• 系列変換モデルの一種
入力も出力も時系列データとなるモデル
 エンコーダ + デコーダの構造
 Seq2Seqとかがその例
• 再帰や畳み込みを一切使わないモデル
 並列処理ができ,学習の高速化を実現
• 話題のBERTで活用されているモデル
2
論文情報
• 論文名: Attention Is All You Need
 要するに「必要なのはAttentionだけ」
• 著者: A. Vaswani et al. (Google Brain)
• 出典: NIPS 2017
3
本スライドの構成
雰囲気中速(爆速🙅♂️)理解を図るために,
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
という流れで見ていきます.
4
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
5
1. NLPにおけるNNの
歴史的経緯
6
1. NLPにおけるNNの歴史的経緯①
• 系列変換モデルは再帰ニューラルネットに
依存してきた
 再帰は並列計算を妨げる
 対症療法の考案:
 Factorization Trick [1]やConditional Computation [2]
直接解決しているわけではない!
7
1. https://arxiv.org/abs/1703.10722
2. https://arxiv.org/abs/1511.06297
3. (image) https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/
1. NLPにおけるNNの歴史的経緯②
• 系列変換モデルではCNNも代替的に使われて
きた
 計算を並列化できるため
 距離に応じた依存関係の計算コストがかかる
 ConvS2S: O(n), ByteNet: O(log n)
長文だと大域的な依存関係をつかみにくい!
8
* より広い文脈を考慮できれば,より広い単語間の関係性が見られるメリット
1. NLPにおけるNNの歴史的経緯③
• 再帰系モデルは並列計算を妨げる
• 畳み込み系は大域的な依存関係を計算する
コストが高い
 再帰も畳み込みを用いない,並列OK & 計
算コストが少なく済むモデルが欲しい
9
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
10
2. ATTENTION
1. Attentionとは?
2. Attentionのバリエーション
3. Self Attentionとは?
4. Attentionの利点・欠点
11
2. Attention①
• そもそもAttentionとは?
 距離に関係なく依存関係をモデリングできる手法
 系列変換モデルやエンコーダモデルにも適用される
 注意機構とも呼ばれる
12
「どの単語にどの程度注意を払うべきか?」
Image: https://www.quora.com/How-does-an-attention-
mechanism-work-in-deep-learning
2. Attention②
• Attentionの重み計算方法による分類
1. Additive Attention(加法注意)
2. Dot-Product Attention(内積注意)
13
重みつき
線形和
* 図ではhについてtではなくt-1が参照さ
れている
2. Attention③
• Attentionの重み計算方法による分類
14
ここの求め方!
• 内積注意
 「時刻tのデコーダの隠れ
層の状態と,位置sでのエ
ンコーダの隠れ層の状態」
との内積
• 加法注意
 隠れ層を1層設けて計算
 が となるパ
ターンが2つくらいある
*Attentionの重み計算手法は色々とありすぎるので,深く考える必要なし?
2. Attention④
• Self Attention
(自己注意)
 エンコーダモデ
ルで使われる特徴
量抽出機構
 計算方法は普通
のAttentionとほぼ
同じ
15
image: https://arxiv.org/abs/1703.03130
2. Attention⑤
• Key-Value Attention
 隠れ層を「Key + Value」に分けて考える
 モデルの表現力が向上
16
* 計算上は,key=valueとして扱うことが多い
Image: https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-2-cf81bf32c73d
2. Attention⑥
• Attentionの利点
 位置に関わらず依存関係をO(1)で捉えられる
 LSTMやGRU等は長期記憶に弱い
• Attentionの欠点
 スコアの重み計算コストが通常O(n^2)以上になる
 Attentionはあくまでもモデルの補助的な役割
 CNNベースのモデルも計算量の問題あり
Attentionだけでモデルを作れば良いのでは?
17
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
18
3. TRANSFORMERの概要
モデルの概要と
BERTでの使われ方について
19
3. Transformerの概要①
• Seq2Seqと同じ枠組み
• スタック型自己注意 + 位
置ごとのFFNからなる
 BERTはエンコーダ部分
を活用している
 本発表ではデコーダ部分
は無視
20
Image: https://arxiv.org/abs/1706.03762
N=6
3. Transformerの概要②
• エンコーダ部は以下からなる
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
5. 位置ごとのFFN
6. 残差接続の加算 & 層正規化
21
3. Transformerの概要②
• エンコーダ部は以下からなる
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
5. 位置ごとのFFN
6. 残差接続の加算 & 層正規化
22
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
23
4. TRANSFORMERのキモ
1. スケール化内積注意
2. Multi-Head Attention
3. 位置エンコーディング
24
4. Transformerのキモ①
• スケール化内積注意
 隠れ層の次元が大きくなると,内積が大きく
なる
 勾配が小さくなり,学習が進まない
 スコアを で除算してあげることで解決
25
4. Transformerのキモ②
• Multi-Head Attention
 Attentionを複数に分割して計
算
 CNNでチャンネル数を増やす
ノリと同じ?
 モデルの表現力が増す
26
Image: https://arxiv.org/abs/1706.03762
4. Transformerのキモ③
• 位置エンコー
ディング
 Transformer単体
では時系列を考慮
できない
 畳み込みや再帰
を使っていないた
め
 正弦波を入力の
埋め込みベクトル
に足し合わせるこ
とで解決!
27
モデルの次元: d_model
入力トークンの位置
3. Transformerのキモ④
• エンコーダ部の流れを再確認
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化

5. 位置ごとのFFN

6. 残差接続の加算 & 層正規化
28
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
29
5. 実験結果
1. 計算コスト比較
2. 翻訳性能比較
30
5. 実験結果① 計算コスト比較
• Self Attentionが優れている: n < dのとき
31
層あたり計算量
逐次処理を最小限にする
並列可能な計算量
依存関係の最大経路長計算コスト
RecurrentとConvの算出方法がいまいちわからん?(誰か教えて)
5. 実験結果② 翻訳性能比較
• BLEUスコア
 機械翻訳の自動評価指標.高いほどよい.
 Transformerは計算コストが小さい上に,高い性
能を出せている.
32
まとめ
33
まとめ
• TransformerはAttention + もろもろで作ら
れた系列変換モデル
 Positional Encoding
 位置ごとのフィードフォワード
• 計算量が少ない・高性能なモデル
• BERTはエンコーダ部分を活用している
34
付録: Position-wise FFN
• 位置ごとに全結合層に自己注意の出力ベクトルを
渡す
• 単に特徴量を抽出 & 磨くため?
35
image: https://jalammar.github.io/illustrated-transformer/
付録:層正規化
36
• 層正規化は「チャンネル方向」に正規化処
理を行う
 バッチ正規化は,「バッチ方向」に正規
化処理を行う
image: https://arxiv.org/abs/1803.08494
付録: BLEUスコア
• Bilingual Evaluation Understudyの略
• スコアが高いほど自然な翻訳
37
• BP: brevity Penalty
翻訳文が短文のとき,
その文についてペナル
ティを課す
• Nグラム精度
翻訳文とコーパスの参
照文がどれだけ一致し
ているか

Weitere ähnliche Inhalte

Was ist angesagt?

深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門Hayato Maki
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIShota Imai
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...西岡 賢一郎
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 

Was ist angesagt? (20)

深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 

Ähnlich wie Transformerを雰囲気で理解する

[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告Hiroyuki TOKUNAGA
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generationnlab_utokyo
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料直久 住川
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phraseTatsuya Shirakawa
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)広樹 本間
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma広樹 本間
 
Janog37 Pattern BoF
Janog37 Pattern BoFJanog37 Pattern BoF
Janog37 Pattern BoFMiya Kohno
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
プログラマ人生論
プログラマ人生論プログラマ人生論
プログラマ人生論ymmt
 
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...Deep Learning JP
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~Takuya Ono
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
リテラル文字列型までの道
リテラル文字列型までの道リテラル文字列型までの道
リテラル文字列型までの道Satoshi Sato
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crfShuyo Nakatani
 

Ähnlich wie Transformerを雰囲気で理解する (20)

[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
 
Scrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pubScrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pub
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
 
Janog37 Pattern BoF
Janog37 Pattern BoFJanog37 Pattern BoF
Janog37 Pattern BoF
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
プログラマ人生論
プログラマ人生論プログラマ人生論
プログラマ人生論
 
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
Spock's world
Spock's worldSpock's world
Spock's world
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
リテラル文字列型までの道
リテラル文字列型までの道リテラル文字列型までの道
リテラル文字列型までの道
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
 

Transformerを雰囲気で理解する

Hinweis der Redaktion

  1. 距離でスケールしてしまう
  2. わかりやすいAttention written in PyTorch: https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb 詳しくは勉強会で後々やると思います