SlideShare a Scribd company logo
1 of 32
Download to read offline
Topical Keyphrase
Extraction from Twitter
Wayne Xin Zhao, Jing Jiangm Jing He, Yang Song,
Palakorn Achananuparp, Ee-Peng Lim, Xiaoming Li
2014/05/07 id:skozawa
論文輪読会
概要
● Tweetの要約
○ キーフレーズは文書のトピックを要約に有用
● Tweetからキーフレーズを抽出する最初の研究
● トピックのキーフレーズ抽出
○ Food: chicken rice, ice cream, fried chicken
○ Sports: manchester united, tiger woods, grand slam
背景
● ツイッターの2つの特徴
○ 1) 短い、有用な情報を含んでいるとは限らない
○ 2) 多様性がある
● 従来手法は各文書からトピックのキーフレーズを抽出
○ 1ツイートからのキーフレーズ抽出は意味がない
○ ツイート全体からではキーフレーズを正しく抽出できない
● トピックごとにキーフレーズを抽出
アプローチ
● グラフベースの教師なしキーフレーズ抽出
○ Liu et al. (2010) がベース
1) トピックの抽出
2) キーフレーズの抽出
● 提案点
○ Context-sensitive Topical PageRank
○ relevance、interestingnessを考慮したスコアリング
コンテキスト(トピック)を考慮することで
キーフレーズ抽出の性能を向上
Automatic Keyphrase Extraction via
Topic Decomposition, Liu et al. (2010)
1. LDAによるトピック抽出
2. Topical PageRankによるキーフレーズ抽出
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
Automatic Keyphrase Extraction via
Topic Decomposition, Liu et al. (2010)
1. LDAによるトピック抽出
2. Topical PageRankによるキーフレーズ抽出
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
トピック
rice
bread
chickenice
eat
TopicA
TopicC
game
football
match
win
arsenal
hot
rain
air
sun
morning
song
bieber
music
video
youtube
TopicB TopicD
iphone
social
twitter
google
media
TopicE
● トピック=単語の集合
LDAによるトピック抽出
● LDA (Latent Dirichlet Allocation)
● 文書集合からトピックを抽出
○ トピック数Nは事前に与える
● トピックを抽出することにより、文書のトピックを推定も可能
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
Automatic Keyphrase Extraction via
Topic Decomposition, Liu et al. (2010)
1. LDAによるトピック抽出
2. Topical PageRankによるキーフレーズ抽出
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
Topical PageRankによるキーフレーズ抽出
1. 単語グラフの生成
2. Topical PageRankによるスコア計算
3. スコアを用いたキーフレーズ抽出
4. 文書のキーフレーズ取得
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
単語グラフの生成
● 文書中の単語の共起性を利用して構築
○ ウィンドウ幅Wの共起数
○ 有向、無向かは性能には影響しない
We construct a word graph according to word co-occurrences within the given document.
W=5の場合
We
construct
word
graph
co-ocurrences
document
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
名詞と動詞のみで
グラフを構築した場合
Topical PageRankによるスコア計算
● PageRankに基づく
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
PageRank
● Webページの重要度を決定するアルゴリズム
○ 引用、被引用関係を利用
R(v): vのスコア
e(vj, vi): vjからviへのエッジの重み
O(vj): vjからの重みの総和
V: ノード数
λ: 制動係数 (0≦λ≦1)
PageRank
● Webページの重要度を決定するアルゴリズム
○ 引用、被引用関係を利用
R(v): vのスコア
e(vj, vi): vjからviへのエッジの重み
O(vj): vjからの重みの総和
V: ノード数
λ: 制動係数 (0≦λ≦1)
λ=1 ID=1 ID=4 ID=5
ランダム
PageRank
● Webページの重要度を決定するアルゴリズム
○ 引用、被引用関係を利用
R(v): vのスコア
e(vj, vi): vjからviへのエッジの重み
O(vj): vjからの重みの総和
V: ノード数
λ: 制動係数 (0≦λ≦1)
この計算を100回、もしくは、各ノードのスコ
アの差分が0.001未満になるまで繰り返す
Topical PageRankによるキーワードスコアの計算
● PageRank
● Topical PageRank
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
トピックzを考慮(ランダムではなく、
トピックにバイアスをかける)
キーフレーズスコアの計算
● Topical PageRankのスコアを利用
○ キーフレーズの候補: (形容詞)* (名詞)+
○ キーフレーズpのスコアは各キーワードの総和
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
文書のキーフレーズ抽出
● 文書のキーフレーズ取得
○ キーフレーズのスコアに
文書におけるトピックの割合をかける
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
Topical PageRankによるキーフレーズ抽出
1. 単語グラフの生成
2. Topical PageRankによるスコア計算
3. スコアを用いたキーフレーズ抽出
4. 文書のキーフレーズ取得
Automatic Keyphrase Extraction via Topic Decomposition, Liu et al. (2010)
Topical Keyphrase Extraction from Twitter
1. Twitter-LDA(Zhao et. al, 2011)によるトピック抽出
2. Topical PageRankによるキーフレーズ抽出
Context-sensitive
Topical PageRank
relevance and
interestingness
1ツイート=1トピック
なので不要
Context-sensitive Topical PageRank
● Topical PageRank
● Context-sensitive Topical PageRank
エッジのスコア計算でトピックを考慮
Keyphrase ranking by relevance and interstingness
● Relevance
○ 良いキーフレーズはトピックに強く関連
○ newsトピック: ○president obama, ×math class
● Interestingness
○ 良いキーフレーズはユーザの関心を惹く
○ musicトピック:justin bieber > song player
Interestingness Relevance
Relevance
● キーフレーズ k=(w1,w2,...,wN)
全ツイート中のwの頻度
トピックtのツイート中のwの頻度
Relevance
● キーフレーズ k=(w1,w2,...,wN)
全ツイート中のwの頻度
トピックtのツイート中のwの頻度
疑問:PageRankを利用する場
合との本質的な違いは何か
Interestingness
● リツイートの割合を利用
● リツイートされてないツイートも考慮(add-one smoothing)
候補キーフレーズを含む
平均ツイート数
キーフレーズのスコアリング
● Liu et al.
● 提案
実験設定
● データ
○ 20週間のシンガポールのユーザのツイート
■ ストップワード、低頻度語、ツイート数の少ないユーザを除去
● トピック抽出
○ トピック数30でTwitter-LDA
○ 実験では、そのうち10のトピックを利用
評価実験
● 評価指標
○ MAP(mean average precision)
○ ランキング上位に適切なキーフレーズがあると高い
キーワードスコアリング キーフレーズスコアリング MAP
TPR (Liu et al.) キーワードスコアの総和(Liu et al.) 0.5984
CTPR (proposed) キーワードスコアの総和(Liu et al.) 0.6608
CTPR (proposed) relevance 0.6696
CTPR (proposed) relevance + interestingness 0.6694
relevanceは有効?
キーワードスコアリング キーフレーズスコアリング MAP
TPR (Liu et al.) キーワードスコアの総和(Liu et al.) 0.5984
TPR (Liu et al.) キーワードスコアの積 0.6379
CTPR (proposed) キーワードスコアの総和(Liu et al.) 0.6608
CTPR (proposed) キーワードスコアの積 0.6688
CTPR (proposed) relevance 0.6696
確率の積にしたのが有効であって、
relevanceの有効性はあまりない気もする
キーフレーズの取得例
Interestingnessの効果
● 固有名詞の取得数が増加
○ 固有名詞を含んだツイートのほうがリツイートされやすい
T5 (Movie-TV) T12 (News) T20 (Music) T25 (Sports)
Relevance 8 9 16 11
Relevance +
Interestingness
10 12 17 14
まとめ
● Tweetの要約のため、キーフレーズを取得
● グラフベースのキーフレーズ抽出
○ Context-sentive Topical PageRank
○ relevanceとinterestingnessを用いたスコアリング
コンテキストを考慮することにより
キーワードスコアリングの性能向上
relevance, interestingnessを用いることにより
キーフレーズスコアリングの性能向上
relevanceというよりは確率の積にしたことが有効そう

More Related Content

More from Shunsuke Kozawa

Gunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムShunsuke Kozawa
 
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストGunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストShunsuke Kozawa
 
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmarkElasticsearch in hatena bookmark
Elasticsearch in hatena bookmarkShunsuke Kozawa
 
Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成Shunsuke Kozawa
 
はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用Shunsuke Kozawa
 
Heady news headline abstraction through event pattern clustering
Heady  news headline abstraction through event pattern clusteringHeady  news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clusteringShunsuke Kozawa
 
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Shunsuke Kozawa
 

More from Shunsuke Kozawa (7)

Gunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
 
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストGunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテスト
 
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmarkElasticsearch in hatena bookmark
Elasticsearch in hatena bookmark
 
Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成
 
はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用
 
Heady news headline abstraction through event pattern clustering
Heady  news headline abstraction through event pattern clusteringHeady  news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clustering
 
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...
 

Recently uploaded

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Recently uploaded (10)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

Topical keyphrase extraction from twitter