SlideShare a Scribd company logo
1 of 10
Download to read offline
Transformerを用いた
言語処理技術の発展
2023/03/25 機械学習の社会実装勉強会 第21回
- 対話型AIの最近の発展
- LLM(Large Language Model)の概要
- Transformer以前のモデルの問題点
- Transformerの基本
今回の内容
最近の対話型AIの発展 (GPT-4関連)
Sparks of Artificial General Intelligence: Early experiments with GPT-4
https://arxiv.org/abs/2303.12712
GPT-4 Technical Report
https://arxiv.org/abs/2303.08774
最近の対話型AIの発展 (2023/3時点)
- Open AI
- Chat GPT: 対話型AI, 現時点の最新はGPT-4を使用
- Microsoft
- Open AI と協業しGPTシリーズをベースとしたモデルを製品に組み込む
- Microsoft 365 Copilot
- GitHub Copilot X
- 新しいBing
- Google
- BARD: 対話型AI, 米国, 英国にてプレビュー
- 大規模なデータセットを用いて学習された深層学習モデル
- Transfomer の登場により急速に発展
- GPTシリーズ (OpenAI)
- BERT, PaLM, T5(Google)
- NLP(自然言語処理)の多様なタスクに適用
- 生成、理解、翻訳、要約
- 人間とコンピュータ間のコミュニケーションが大きく改善
LLM (Large Language Model) の概要
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT: Improving Language Understanding by Generative Pre-Training
- ニューラルネットワークの一種
- 自然言語処理において最も重要な技術の一つ
- 元論文、”Attention Is All You Need” によって提唱
- Self-attention の導入 (RNN+Attentionが従来の主流)
- RNN, CNNなど従来のモデルよりも高速で精度が高い
- 多くのLLMのベースとして使用
Transformer概要
"Attention is All You Need" (Vaswani et al., 2017)
https://arxiv.org/abs/1706.03762
- 逐次処理(1単語ずつ処理)
- 勾配消失、勾配爆発により長距離依存の解析が難しい※
従来のモデル (RNN)の問題点
RNNを用いたEncoder-Decoder architecture
https://arxiv.org/abs/2102.03218
- Encoder: 入力テキスト(x1,x2,x3, ...)を受け取り固定長のベクトルに変換
- Decoder: エンコーダーからベクトルを受け取り出力テキスト (y1,y2,y3, …)を生成
※勾配消失に対する改善モデルとして
LSTM(Long Short-Term Memory) や GRUがある
Transformerの基本
- Self-attention
- シーケンスデータ内の単語の関連性を理解
- 並列処理が可能
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
https://arxiv.org/abs/1706.03762
1. The animal didn't cross the street because it was too tired
2. The animal didn't cross the street because it was too wide
Decoder
Encoder
まとめ
- Transformerは、自然言語処理において重要な技術の一つ
- 従来のモデルの問題点(長距離の依存関係処理、逐次処理)を解決
- Transformerを用いた言語処理の進化は、LLMの急速な発展を引き起こした
- MicrosoftやGoogleが各社ビジネスツールへLLMを組み込むなど、
汎用AIの第一歩を踏み出した
- 今後もTransformerをベースにしたLLMおよび汎用AIの発展が期待される
参考資料
- Attention is All You Need (Vaswani et al., 2017)
- https://arxiv.org/abs/1706.03762
- 日本語による解説
- https://deeplearning.hatenablog.com/entry/transformer
- The Illustrated Transformer
- http://jalammar.github.io/illustrated-transformer/
- Transformer model for language understanding (tensorflow を用いたチュートリアル)
- https://www.tensorflow.org/tutorials/text/transformer
- Hugging Face Transformers ライブラリ
- https://huggingface.co/transformers/
- Transformer Neural Networks - EXPLAINED! (Attention is all you need)
- https://www.youtube.com/watch?v=TQQlZhbC5ps
- 【図解】Attentionとは?わかりやすく、そして深く解説|自然言語処理
(NLP)
- https://nlpillustration.tech/?p=185
- 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説
- https://nlpillustration.tech/?p=2171

More Related Content

What's hot

Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
 

What's hot (20)

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 

Similar to 15. Transformerを用いた言語処理技術の発展.pdf

OSC Hiroshima 2013
OSC Hiroshima 2013OSC Hiroshima 2013
OSC Hiroshima 2013
Yuya Adachi
 

Similar to 15. Transformerを用いた言語処理技術の発展.pdf (20)

local launch small language model of AI.
local launch small language model of AI.local launch small language model of AI.
local launch small language model of AI.
 
Windows ChatGPT Bing AI
Windows ChatGPT Bing AIWindows ChatGPT Bing AI
Windows ChatGPT Bing AI
 
Windows ChatGPT Bing AI.pptx
Windows ChatGPT Bing AI.pptxWindows ChatGPT Bing AI.pptx
Windows ChatGPT Bing AI.pptx
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
ElectraとpQRNNについて
ElectraとpQRNNについてElectraとpQRNNについて
ElectraとpQRNNについて
 
4 rhtn tohayash-multus
4 rhtn tohayash-multus4 rhtn tohayash-multus
4 rhtn tohayash-multus
 
Netmf-180224
Netmf-180224Netmf-180224
Netmf-180224
 
GitLab Prometheus
GitLab PrometheusGitLab Prometheus
GitLab Prometheus
 
.NET 最新ロードマップと今押さえておきたい技術要素
.NET 最新ロードマップと今押さえておきたい技術要素.NET 最新ロードマップと今押さえておきたい技術要素
.NET 最新ロードマップと今押さえておきたい技術要素
 
OSC Hiroshima 2013
OSC Hiroshima 2013OSC Hiroshima 2013
OSC Hiroshima 2013
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
 
.NET Coreのいろは
.NET Coreのいろは.NET Coreのいろは
.NET Coreのいろは
 
OSC Tokyo/Fall NETMF 161105
OSC Tokyo/Fall NETMF 161105OSC Tokyo/Fall NETMF 161105
OSC Tokyo/Fall NETMF 161105
 
振り返ってみようOSS
振り返ってみようOSS振り返ってみようOSS
振り返ってみようOSS
 
2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF
 
GTFSオープンデータで公共交通をアップデート
GTFSオープンデータで公共交通をアップデートGTFSオープンデータで公共交通をアップデート
GTFSオープンデータで公共交通をアップデート
 
Trat_sprint2
Trat_sprint2Trat_sprint2
Trat_sprint2
 
20180831 [DeLTA TECH] 新・深層の世紀 〜第3集 ディープラーニング・時代はAIを求めた 〜
20180831 [DeLTA TECH] 新・深層の世紀 〜第3集 ディープラーニング・時代はAIを求めた 〜20180831 [DeLTA TECH] 新・深層の世紀 〜第3集 ディープラーニング・時代はAIを求めた 〜
20180831 [DeLTA TECH] 新・深層の世紀 〜第3集 ディープラーニング・時代はAIを求めた 〜
 
Implementation Approach of Artifical Intelligence
Implementation Approach of Artifical IntelligenceImplementation Approach of Artifical Intelligence
Implementation Approach of Artifical Intelligence
 
Trat_sprint3
Trat_sprint3Trat_sprint3
Trat_sprint3
 

More from 幸太朗 岩澤

More from 幸太朗 岩澤 (14)

14. BigQuery ML を用いた多変量時系列データの解析.pdf
14. BigQuery ML を用いた多変量時系列データの解析.pdf14. BigQuery ML を用いた多変量時系列データの解析.pdf
14. BigQuery ML を用いた多変量時系列データの解析.pdf
 
BigQuery ML for unstructured data
BigQuery ML for unstructured dataBigQuery ML for unstructured data
BigQuery ML for unstructured data
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf
 
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
 
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
 
Vertex AI Pipelinesで BigQuery MLのワークフローを管理
Vertex AI Pipelinesで BigQuery MLのワークフローを管理Vertex AI Pipelinesで BigQuery MLのワークフローを管理
Vertex AI Pipelinesで BigQuery MLのワークフローを管理
 
7. Vertex AI Model Registryで BigQuery MLのモデルを管理する
7. Vertex AI Model Registryで BigQuery MLのモデルを管理する7. Vertex AI Model Registryで BigQuery MLのモデルを管理する
7. Vertex AI Model Registryで BigQuery MLのモデルを管理する
 
6. Vertex AI Workbench による Notebook 環境.pdf
6. Vertex AI Workbench による Notebook 環境.pdf6. Vertex AI Workbench による Notebook 環境.pdf
6. Vertex AI Workbench による Notebook 環境.pdf
 
5. Big Query Explainable AIの紹介
5. Big Query Explainable AIの紹介5. Big Query Explainable AIの紹介
5. Big Query Explainable AIの紹介
 
4. CycleGANの画像変換と現代美術への応用
4. CycleGANの画像変換と現代美術への応用4. CycleGANの画像変換と現代美術への応用
4. CycleGANの画像変換と現代美術への応用
 
3. Vertex AIを用いた時系列データの解析
3. Vertex AIを用いた時系列データの解析3. Vertex AIを用いた時系列データの解析
3. Vertex AIを用いた時系列データの解析
 
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
 
1. BigQueryを中心にした ML datapipelineの概要
1. BigQueryを中心にした ML datapipelineの概要1. BigQueryを中心にした ML datapipelineの概要
1. BigQueryを中心にした ML datapipelineの概要
 

Recently uploaded

Recently uploaded (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

15. Transformerを用いた言語処理技術の発展.pdf