Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Twitterテキストのトピック分析

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Nächste SlideShare
トピックモデルの話
トピックモデルの話
Wird geladen in …3
×

Hier ansehen

1 von 21 Anzeige

Twitterテキストのトピック分析

Herunterladen, um offline zu lesen

TwitterテキストをLDAを使って分類してみました。NLP勉強会#2のLT発表資料。
http://tokyoscrapper.connpass.com/event/9753/?utm_campaign=&utm_source=notifications&utm_medium=email&utm_content=title_link

TwitterテキストをLDAを使って分類してみました。NLP勉強会#2のLT発表資料。
http://tokyoscrapper.connpass.com/event/9753/?utm_campaign=&utm_source=notifications&utm_medium=email&utm_content=title_link

Anzeige
Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (20)

Anzeige

Aktuellste (20)

Twitterテキストのトピック分析

  1. 1. Twitterテキストのトピック分析 川頭信之 @nkawagashira NLP勉強会#2 2014 年12月14日(日)
  2. 2. Who am I?  川頭信之 かわがしら のぶゆき  CodeIQ 問題作成者  フリーランスのデータサイエンティスト  お仕事の依頼お待ちしております m(._.)m  現在は国土地理院に勤務  @nkawagashira  http://dataflight.wordpress.com
  3. 3. 趣味は? なぜか危険なものが好き
  4. 4. トピック分析とは  文章を幾つかのトピックに分類する方法。  単語の出現確率の組み合わせで表現されたト ピックにより与えられた文書のトピックを推 定する手法  LDA (Latent Dirichlet Allocation, 潜在的ディリ クレ配分法)  ポアソン分布と多項分布が関係あるらしい。
  5. 5. ピーター・グスタフ・ディリクレ 1805 〜1859 ドイツの数学者 現代的な関数の定義を与えた
  6. 6. ディリクレ分布 ディリクレ分布とは確率分布の確率分布 例えば、 3つのトピック「スポーツ」「経済」「政治」 ( スポーツ、経済、政治) = (0.3, 0.2, 0.5) の確 率0.1 ( スポーツ、経済、政治) = (0.1, 0.2, 0.7) の確 率0.2
  7. 7. ポアソン分布 二項分布の試行回数nを無限にすると、ポアソ ン分布を導出できる。 二項分布 ポアソン分布 P(X=k)=(n k )p k (1−p )n −k P(X=k)=Lk k! e −L
  8. 8. ポアソン分布・多項分布 ポアソン分布、多項分布とは何? 多項分布は二項分布を一般化したもの →すみません。挫けました。 m(_ _)m
  9. 9. とにかくプログラミングしてみよう 1. テキストクリーニング Twitterから データを取得2. 形態素解析 トピック分析 3. ストップワード削除 python tweepy library python mecab R lda library
  10. 10. テキストクリーニング Unicode 文字の正規化 •Twitterアカウント @nkawagashira 等 •URL http://www.google.co.jp/ 等 •電話番号 123-456-7890 •タグ #datascience 等 •RT, QT •htmlタグ > 等 •コンマ , •特殊文字  _ | 等 •全角括弧 【 】 「 」等
  11. 11. クセモノは顔文字! えっ? (^_^ ;)  俺のこ と?
  12. 12. MeCab オープンソースの形態素解析エンジン 奈良先端科学技術大学院大学出身の工藤拓(現 Google )が開発 名称は好物の「和布蕪」から
  13. 13. ストップワード の さん 的 上 前 中 内 する す 化 やる なる こ と 事 つう もの さん さま 様 くん ちゃん 方 達 たち 様々 通り ほか 等 県 者 学 一つ ごと いる いう ある ≪ ≫ …
  14. 14. 数量詞のストップワード  数量詞を除くかどうか迷った。→除いた。  数量詞は5W1Hで分類できる。→テキストのスタイルを 示唆しているのでは? who (人物) 人 how many(数) 回, 点, 本, 号, 部, 話, 件, how much(量) %, 位 what(物) 版 which(選択) 型 when(時間) 限, 年, 月, ヶ月, 日, 歳 where (場所) 系 how (方法) 術, 法
  15. 15. トピック分析 lda library 語彙化 lexicalize トピック分析 lda.collapsed.gibbs.sampler トップ語彙の抽出
  16. 16. 「マーケティング」のトピック分析 TOPIC1 TOPIC2 TOPIC3 TOPIC4 TOPIC5 TOPIC6 TOPIC7 TOPIC8 TOPIC9 TOPIC10 ビジネスnaverま とめ ツイッ ター 顧客表現乃木坂戦略話題動画ビデオ 調査成功アフィリ エイト 考える言葉乃木naver まとめ naverま とめ まとめ性 機能お菓子ココナラ売るわかる人気学ぶ売上youtube 雑誌 ドラッカー売るサイトいいセ動向ファー ファ 上がる広告集客 対応問題ベネ フィット 開発集生駒うまい新しいウェブ決定 marketing 雑学プログラ ム セール ス naverま とめ 里奈企業情報sns 学研 二つバナナ意味技術マイルド ヤンキー 生田売れるカバービジネス無料 イノベー ション 叩きcoconala 日本人々花市場見せるインター ネット 億万長 者 – 得解説思う笑う絵梨稼ぐデータ教材m コンテンツ書くブログ能力使える西野起業紀伊國 屋 企業面白い
  17. 17. 「マーケティング」のテキスト例  : 『マイルドヤンキー』という言葉で表現さ れている人々はマーケティング的には元々 『高卒地元民』っていうカテゴリで表現され てたらしく、元々の表現の的確さに笑った し、言われたらちょっとイラっとしそうな言 葉をなんだかよくわかんない言葉に置き換え てボヤッとさせるセ...  『いずれは日本人の全国標準に!?地方で台頭 する「マイルドヤンキー」を徹底解剖』 -NAVERまとめ ( マーケティング)
  18. 18. 「データマイニング」のトピック分析結果 TOPIC1 TOPIC2 TOPIC3 TOPIC4 TOPIC5 TOPIC6 TOPIC7 TOPIC8 TOPIC9 TOPIC10 解析基礎最近合計屋データ説明買い使う活用 顧客学習流行るマイニン グ 思うマイニ ング 言うnext わかる戦略 蓄積統計犬馬券出る分析苛回収良いビジネス 企業予測kh タイムデータマ イニング テキス ト 数学van 世間著 金推論情勢必勝統計研究人間率量fc2 情報科学先回り使う予想膨大つきjra 莫大動画 昔テクノロ ジー 先データしれる関連上手い連続新語ナンバー ズ リコメン ドシステ ム 商品死極楽感じ図書館現代上木本質s 憧れる翻訳増加jra 枠処理情報義和使い道converge nce 鶏アマゾンしかるvan 古典多角要求馬券データ サ マーケ ティング
  19. 19. 「データマイニング」のテキスト例 似ているように見えるテキストは別トピックに 分類された。 TOPIC4  マイニングタイム合計を使って、 確実に、 高的中率・回収率を達成した 村中 秀行 膨大 なJRA-VANのデータを使った最強安心馬券 術!極楽マイニングタイム合計必勝法 TOPIC8  3 連続10 点買いで回収率140%! 上木 義和 JRA-VAN NEXT データマイニング馬券術
  20. 20. まとめと課題 • LDAの原理を理解すべき • 顔文字の辞書作成は可能か。 • 数量詞はテキスト分析の指標となりうるか。 スパムツイートとの関係は? • 分類されたテキスト群の話題の広がりはどの ように計測するか。 • トピック分類のプロファイルで未知テキスト を分類したい。
  21. 21. ご清聴ありがとうございました

×