6. 検証事項①
Twitterで「話題」を検出できるのか
Server
コメント
の格納
tweet コメントDB
Twitter
Twitter crawler
API
Response
Request
tfidf値
2/3のコメントにおける各単語のtfidf値
恋恋
1
単語
落花生
節分
八百長 0.000642
恵方 0.00141
0.00109
0.000771
0.000720
≫manikoroを漢字75文字で表すと⇒恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋
恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋恋
恋恋恋恋恋恋恋恋恋恋恋恋恋超憂鬱 http://shindanmaker.com/18312 #kan75
「恵方」「落花生」「節分」など季節性の高いキーワードが検出できている
「八百長」といった時事問題に関するキーワードも検出できている
「恋恋」といった全く関係のないキーワードも検出してしまった
コメントの中でtfidf値の高い単語を「話題」として検出する
例) :
3
4
5
2
|{ : }| i d d t
i n
k
k
i
i n
n
tf
tfidf法により単語を重みづけ
ドキュメント:1日の全コメント
: 単語iを含む
ドキュメント数
|{ : }|
| |
i
i d d t
D
idf
|D|: 総ドキュメント数
: ドキュメント内の
単語iの出現回数
7. 検証事項①
Twitterで「話題」を検出できるのか
Server
コメント
の格納
tweet コメントDB
Twitter
Twitter crawler
API
Response
Request
tfidf値
日付ごとの「恵方」を含むTweetの数
恋恋
例) :
単語
落花生
節分
八百長 0.000642
恵方 0.00141
0.00109
0.000771
0.000720
コメントの中でtfidf値の高い単語を「話題」として検出する
Twitterの話題はtfidf値で検出できる可能性
検証
結果
2/3のコメントにおける各単語のtfidf値
1
3
4
5
2
「恵方」を含むコメントの数は
2/3に大きく増加している
話題として上がっている
|{ : }| i d d t
i n
k
k
i
i n
n
tf
ドキュメント:1日の全コメント
: 単語iを含む
ドキュメント数
|{ : }|
| |
i
i d d t
D
idf
|D|: 総ドキュメント数
: ドキュメント内の
単語iの出現回数
tfidf法により単語を重みづけ
8. 検証事項②
広告とTwitterの話題との類似度
先行研究 [owen 09] に基づいて決定
ある日の全コメント
形態素解析
名詞の抽出
tfidf値 単語
0.01845
豆
0.5169
0.4170
0.3128
0.2585
まき
節分
…
落花生
必要
必要
…
的0.01715
鬼0.1642
tweet
節分で落花生をまく由来について述べた広告 2.8854
落花生
雪
…
節分
広告とある日のTwitterの話題との類似度
ある日のTwitterに出現した
単語についてのみtfidf値を
足し合わせる
Twitterの話題によって広告のクリック数は変化するのか
広告とTwitterの話題との類似度を算出
広告とTwitterの間の類似性と実際のクリック数を調査
|{ : }| i d d t
i n
k
k
i
i n
n
tf
tfidf法により単語を重みづけ
: ある広告の単語iの
出現回数
: 単語iを含む
広告数
|{ : }|
| |
i
i d d t
D
idf
|D|: 総広告数