Suche senden
Hochladen
LDA等のトピックモデル
•
36 gefällt mir
•
12,498 views
Mathieu Bertin
Folgen
Kunst & Fotos
Melden
Teilen
Melden
Teilen
1 von 21
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
トピックモデルの話
トピックモデルの話
kogecoo
LDA入門
LDA入門
正志 坪坂
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
形態素解析
形態素解析
Works Applications
Empfohlen
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
トピックモデルの話
トピックモデルの話
kogecoo
LDA入門
LDA入門
正志 坪坂
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
形態素解析
形態素解析
Works Applications
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
劣微分
劣微分
ShintaUrakami
パターン認識と機械学習入門
パターン認識と機械学習入門
Momoko Hayamizu
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
コサインクラスタリング
コサインクラスタリング
osamu morimoto
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
Katsuya Ito
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
オントロジー工学に基づく知識の体系化と利用
オントロジー工学に基づく知識の体系化と利用
Kouji Kozaki
機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
ナレッジグラフ推論チャレンジの紹介
ナレッジグラフ推論チャレンジの紹介
KnowledgeGraph
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
hiro5585
機械学習 入門
機械学習 入門
Hayato Maki
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
Yusuke Fukasawa
Weitere ähnliche Inhalte
Was ist angesagt?
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
劣微分
劣微分
ShintaUrakami
パターン認識と機械学習入門
パターン認識と機械学習入門
Momoko Hayamizu
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
コサインクラスタリング
コサインクラスタリング
osamu morimoto
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
Katsuya Ito
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
オントロジー工学に基づく知識の体系化と利用
オントロジー工学に基づく知識の体系化と利用
Kouji Kozaki
機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
ナレッジグラフ推論チャレンジの紹介
ナレッジグラフ推論チャレンジの紹介
KnowledgeGraph
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
hiro5585
機械学習 入門
機械学習 入門
Hayato Maki
Was ist angesagt?
(20)
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
劣微分
劣微分
パターン認識と機械学習入門
パターン認識と機械学習入門
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
コサインクラスタリング
コサインクラスタリング
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
オントロジー工学に基づく知識の体系化と利用
オントロジー工学に基づく知識の体系化と利用
機械学習の理論と実践
機械学習の理論と実践
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
ナレッジグラフ推論チャレンジの紹介
ナレッジグラフ推論チャレンジの紹介
不均衡データのクラス分類
不均衡データのクラス分類
グラフィカルモデル入門
グラフィカルモデル入門
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
機械学習 入門
機械学習 入門
Andere mochten auch
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
Yusuke Fukasawa
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
Yusuke Fukasawa
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
Yusuke Fukasawa
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
Yusuke Fukasawa
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
Kouhei Nakaji
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
Yusuke Fukasawa
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
Yusuke Fukasawa
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
Masayuki Isobe
RではじめるTwitter解析
RではじめるTwitter解析
Takeshi Arabiki
Andere mochten auch
(10)
Twitterテキストのトピック分析
Twitterテキストのトピック分析
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
RではじめるTwitter解析
RではじめるTwitter解析
LDA等のトピックモデル
1.
トピックモデル 難しい話 考え方、アウトプットイメージ、履歴、ツール、事例 超難しい話 ベイズ統計、生成モデル、サンプリング
超難しい話 Dirichlet分布 1
2.
トピックモデルのアウトプット
言葉 トピック 言葉 文書 (または顧客) トピックの定義 ぞれぞれのトピックに対してどうい う言葉が大事 トピック 文書 (または顧客) トピックの割合 それぞれのユーザに ついて、どういうトピッ クが大事 2
3.
履歴の概要 ●LSA (1988) フレームワーク:線型代数学 (マトリクス対角化)
文書 出典: http://en.wikipedia.org/wiki/Latent_semantic_analysis 言葉 ・問題: アウトプットは使いにくい 3
4.
履歴の概要 ●PLSA (1999) 確率理論のフレームワーク
文書 トピック 言葉 出典: http://en.wikipedia.org/wiki/PLSA 言葉数 文書数 ・モデル学習: EMアルゴリズム ・問題: 過剰適合が多い (特に文書群が小さい場合) 4
5.
履歴の概要 ●LDA(2003) 最初の本物のトピックモデル
ベイズ統計フレームワーク ある言葉 文書に トピックに のトピック 言葉 トピックの分布 言葉の分布 ハイパー ハイパー パラメーター パラメーター 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 言葉数 文書数 トピック数 5
6.
LDAの展開 LDAに基づくモデル: ●パチンコモデル: トピックの間の関連を考慮 例えば、トピック「データ分析」があるなら、トピック「コンピューター」もある可能性が高いけど、トピック 「ファッション」の確率が低い ●作者・トピックモデル: 作者によりトピックの確率が変わる ●関連トピックモデル:
モデルの関連を考慮 例えば:html資料のハイパーリンク、論文の引用 LDAは言葉だけでなく、運用範囲は今研究中 例えば:画像処理 6
7.
LDAツール:
MALLET MALLETとは、「MAchine Learning for Language Toolkit」 http://mallet.cs.umass.edu/index.php Andrew McCallum, of the University of Massachusetts Amherst 無料、オープンソース、Javaベース 7
8.
難しい話 考え方、履歴、アウトプットイメージ、ツール、事例 超難しい話 ベイズ統計、生成モデル、サンプリング
超難しい話 Dirichlet分布 8
9.
ベイズ統計の基本原則 考え方:データの構造について強気で仮説を立つ E → H
の代わりに、H → E をモデル化する H E E: データ、観測出来る情報 例えば: 文書群 H: 隠れてる情報 例えば:トピックの定義、文書ごとのトピック割合 :生成モデル、全ての情報の構造 (仮説に基づく) 計算したいこと: P( H | E) データから、トピックを計算 でも、そのままで計算しにくい 𝑷(𝑯) ベイズルール: P(H | E) = * P(E | H) ∝ P(H) * P(E | H) 𝑷(𝑬) 事後確率 事前確率 尤度 仮説する 生成モデルから 簡単で計算する 9
10.
LDAの生成モデル 仮説: あるロボットが文書群を作りました。 そのロボットは生成モデルを使って文書ずつ、言葉ずつ、文書群を書きました For (1:K)
: トピックを生成 β For each文書 : 文書のトピック分布を生成 θ For each 言葉 : トピックをランダムで選択 Z 言葉をランダムで選択 W 10 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
11.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% 各トピック= 全ての有り得る言葉に対しての確率分布 11
12.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% For each文書 : 文書のトピック分布を生成 文書 トピック1 トピック1 トピック3 1 56% 24% 20% 12
13.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% For each文書 : 文書のトピック分布を生成 文書 トピック1 トピック2 トピック3 1 56% 24% 20% この分布によりランダム抽出 For each 言葉 : トピックをランダムで選択: トピック1 13
14.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% For each文書 : この分布によりランダム抽出 文書のトピック分布を生成 文書 トピック1 トピック2 トピック3 1 56% 24% 20% For each 言葉 : トピックをランダムで選択: トピック1 言葉をランダムで選択: “限定” 14
15.
モンテカルロの基本原則 P(β 、 θ
、 Z | W) を計算したい。 それは多次元と連続値の確率密度なので正しく計算出来ない → サンプリングを使って確率密度を近似する For each サンプル: 生成モデルを使って{β 、 θ 、 Z}を生成 生成モデルを元に生成された{β、 θ、 Z}の事前確率を計算 → P (β、 θ、 Z ) 生成モデルと{β 、 θ 、 Z}により W の尤度を計算 → P (W | β、 θ、 Z ) 事前確率と尤度からサンプルの事後確率を計算 P(β 、 θ 、 Z | W) ∝ P (β、θ、Z) * P (W | β、θ、Z ) サンプルが多かったら多いほど事後確率の分布に近づく 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 15
16.
難しい話 考え方、履歴、アウトプットイメージ、ツール、事例 超難しい話 ベイズ統計、生成モデル、サンプリング
超難しい話 Dirichlet分布 16
17.
なぜ 「LDA」?
For (1:トピック数) : トピックを生成 β Dirichlet 分布 For each文書 : 文書のトピック分布を生成 θ Dirichlet 分布 For each 言葉 : トピックをランダムで選択 Z Categorical 分布 言葉をランダムで選択 W Categorical 分布 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 17
18.
Categorical分布とは? For (1:トピック数) :
トピックを生成 β Dirichlet 分布 For each文書 : 文書のトピック分布を生成 θ Dirichlet 分布 For each 言葉 : トピックをランダムで選択 Z Categorical 分布 言葉をランダムで選択 W Categorical 分布 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 x1 = 12% x2 = 8% x3 = 0.6% x4 = 0.2% x5 = 1.2% K値があり得る。 K=言葉種類の全体数 全ての値 i に対して、確率 xi がある。 確率分布なので: x1 + x2 + x3 + 。。。 + xk = 1 18
19.
Dirichlet分布とは? For (1:トピック数) :
トピックを生成 β Dirichlet 分布 For each文書 : 文書のトピック分布を生成 θ Dirichlet 分布 For each 言葉 : トピックをランダムで選択 Z Categorical 分布 言葉をランダムで選択 W Categorical 分布 Categorical 分布を生成する為 ⇒ 確率分布の確率分布 (!) キャンペーン 限定 日焼け 肌 風呂 。。。 x1 = 12% x2 = 8% x3 = 0.6% x4 = 0.2% x5 = 1.2% 0.3% x1 = 1.3% x2 = 0.6% x3 = 9% x4 = 14% x5 = 2% 0.7% x1 = 0.3% x2 = 0.8% x3 = 0.67% x4 = 2% x5 = 16% 0.2% Dirichlet式 有り得る {x1, … xK} のスペース 確率密度 19
20.
Dirichlet分布とは?
Dirichlet式 有り得る {x1, … xK} のスペース 20
21.
まとめ ●LDAとは、文書群からトピックを統計的に抽出する手法です ●パワフール、使いやすいなので、活用と研究は広がっている状態 ●ベイズ統計、確率計算に基づくので、ベイジアンネットワークとの連携がしやすい
言葉 トピック 言葉 文書(または顧客) LDA トピック 文書(または顧客) 21
Jetzt herunterladen