Suche senden
Hochladen
2ch
•
9 gefällt mir
•
4,263 views
Atsushi Hayakawa
Folgen
Technologie
Melden
Teilen
Melden
Teilen
1 von 60
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Tokyor18
Tokyor18
Daisuke Ichikawa
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
Issei Kurahashi
Tokyor17
Tokyor17
Daisuke Ichikawa
サーバ異常検知入門
サーバ異常検知入門
mangantempy
Tokyo r 10_12
Tokyo r 10_12
Tadayuki Onishi
Tokyor16
Tokyor16
Daisuke Ichikawa
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題 線型計画問題編
Hidekazu Tanaka
3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)
Takumi Tsutaya
Empfohlen
Tokyor18
Tokyor18
Daisuke Ichikawa
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
Issei Kurahashi
Tokyor17
Tokyor17
Daisuke Ichikawa
サーバ異常検知入門
サーバ異常検知入門
mangantempy
Tokyo r 10_12
Tokyo r 10_12
Tadayuki Onishi
Tokyor16
Tokyor16
Daisuke Ichikawa
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題 線型計画問題編
Hidekazu Tanaka
3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)
Takumi Tsutaya
Rデバッグあれこれ
Rデバッグあれこれ
Takeshi Arabiki
近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定
Kosei ABE
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Hiroko Onari
Tokyo r18
Tokyo r18
Takashi Minoda
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
horihorio
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
sleipnir002
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Takeshi Mikami
Rて計量経済学入門#tokyo.r.17
Rて計量経済学入門#tokyo.r.17
yuuukioii
tidyverse.orgの翻訳
tidyverse.orgの翻訳
Atsushi Hayakawa
Zepp play soccerで測ってみた
Zepp play soccerで測ってみた
Atsushi Hayakawa
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
Atsushi Hayakawa
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
Atsushi Hayakawa
バンクーバー旅行記
バンクーバー旅行記
Atsushi Hayakawa
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
Atsushi Hayakawa
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Atsushi Hayakawa
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
Atsushi Hayakawa
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
Atsushi Hayakawa
useR!2017 in Brussels
useR!2017 in Brussels
Atsushi Hayakawa
Japan.R 2016の運営
Japan.R 2016の運営
Atsushi Hayakawa
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Atsushi Hayakawa
Weitere ähnliche Inhalte
Andere mochten auch
Rデバッグあれこれ
Rデバッグあれこれ
Takeshi Arabiki
近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定
Kosei ABE
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Hiroko Onari
Tokyo r18
Tokyo r18
Takashi Minoda
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
horihorio
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
sleipnir002
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Takeshi Mikami
Rて計量経済学入門#tokyo.r.17
Rて計量経済学入門#tokyo.r.17
yuuukioii
Andere mochten auch
(10)
Rデバッグあれこれ
Rデバッグあれこれ
近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo r18
Tokyo r18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Rて計量経済学入門#tokyo.r.17
Rて計量経済学入門#tokyo.r.17
Mehr von Atsushi Hayakawa
tidyverse.orgの翻訳
tidyverse.orgの翻訳
Atsushi Hayakawa
Zepp play soccerで測ってみた
Zepp play soccerで測ってみた
Atsushi Hayakawa
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
Atsushi Hayakawa
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
Atsushi Hayakawa
バンクーバー旅行記
バンクーバー旅行記
Atsushi Hayakawa
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
Atsushi Hayakawa
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Atsushi Hayakawa
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
Atsushi Hayakawa
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
Atsushi Hayakawa
useR!2017 in Brussels
useR!2017 in Brussels
Atsushi Hayakawa
Japan.R 2016の運営
Japan.R 2016の運営
Atsushi Hayakawa
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Atsushi Hayakawa
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~
Atsushi Hayakawa
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Atsushi Hayakawa
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
Atsushi Hayakawa
gepuro task views
gepuro task views
Atsushi Hayakawa
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
Atsushi Hayakawa
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
Atsushi Hayakawa
イケてる分析基盤をつくる
イケてる分析基盤をつくる
Atsushi Hayakawa
らずぱいラジコン
らずぱいラジコン
Atsushi Hayakawa
Mehr von Atsushi Hayakawa
(20)
tidyverse.orgの翻訳
tidyverse.orgの翻訳
Zepp play soccerで測ってみた
Zepp play soccerで測ってみた
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
バンクーバー旅行記
バンクーバー旅行記
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
useR!2017 in Brussels
useR!2017 in Brussels
Japan.R 2016の運営
Japan.R 2016の運営
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
gepuro task views
gepuro task views
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
イケてる分析基盤をつくる
イケてる分析基盤をつくる
らずぱいラジコン
らずぱいラジコン
2ch
1.
第15回 データマイニング+WEB @東京
2chのイカ娘スレッドを 時系列分析してみた @gepuro
2.
自己紹介
3.
自己紹介 早川 敦士
電気通信大学 システム工学科三年
4.
テキストマイニング データマイニング
興味 統計学 品質管理
5.
ブログ http://d.hatena.ne.jp/gepuro/
自己紹介 Twitter @gepuro
6.
目次 ●
2chのスレッドからデータ取得とパース ● 自然言語を数値化する ● Rを使って、分析する。 ● スレッドの盛り上がり具合いを見る ● 相互相関関数でみてみる ● 主成分分析でみてみる
7.
2chのスレッド
から データの 取得とパース
8.
イカ娘のスレッドから データを取得
2010/3/26 ~ 2011/10/18のレス
9.
2ちゃんねる過去ログDAT変換 http://app.xrea.jp/dat/ を利用して、過去ログをhtmlで
入手しました
10.
HTML? DATじゃ無いの?
11.
htmlはこんな感じ <html> <head> <meta http-equiv="Content-Type" content="text/html;
charset=Shift_JIS"> <base href="http://kamome.2ch.net/study/"> <title>TokyoWebmining part15</title> … <dt>2 :<a href="mailto:sage"><b>名無しさん</b></a>:2011/11/06(日) 01:23:45.67 ID:nJVDPiU9O<dd> TokyoWebmining楽しみだなあ。<br>遅れないようにしないと <br><br> <dt>3 :<a href="mailto:sage"><b>名無しさん</b></a>:2011/10/06(木) 21:33:40.79 ID:xJNKLfU4R dd> <a href="../test/read.cgi/study/1234567890/2" target="_blank">>>2</a>お待ちしております。<br><br> ...
12.
datはこんな感じ 名無しさん<>sage<>2011/11/6(日) 01:23:45.67 ID:nJVDPiU9O <>
TokyoWebmining楽しみだなあ。 <br> 遅れないようにしないと<> 名無しさん<>sage<>2011/11/6(日) 01:24:45.67 ID:xJNKLfU4R <> <a href="../test/read.cgi/study/1234567890/2" target="_blank">>>2</a> お待ちしております。 <> …
13.
htmlを直接に利用すれば、 タイトルやレスの番号、
広告などが 記述されている。
14.
スレッドのタイトルを 予め取得しておけば、 DATの方がパースするのが
簡単!
15.
2ch DAT落ちスレ ミラー変換機
ver.12 http://mirrorhenkan.g.ribbon.to/ や htmltodat http://mukiyu.g.ribbon.to/ を利用すれば楽に出来そう
16.
儀式のような クリーニング
17.
1.URLを取り除く 2.AAのようなものを取り除く 1.1レスに記号が含まれる割合が50%以上 2.何%の精度か確認してないが、ほぼ全て取れたみ
たい ハウツー 3. >>2 などを取り除く 4.mecabで名詞、形容詞を取り出す 1.今回は、ipadicの辞書にある単語のみ使った 2.基本形を利用する < 表記のぶれを少なく ネットスラングを考慮して、未知語も利用するべきだった かもしれない・・・
18.
あとから、使いやすいように 2 名無しさん
2011/11/6 楽しみ 遅れる ない 3 名無しさん 2011/11/6 お待ち する お る …
19.
自然言語を 数値化する
20.
まずは、 全てのデータの 語の頻度を数えた
21.
語が 27623種類 あった。
22.
種類が多すぎて、 分析するのが
大変になるので、 上位100語を 分析対象にしました。
23.
次に、 月毎に語の頻度を数えた。
24.
また、 それぞれの語が
月毎に どれくらいの割合で 含まれるか調べた。
25.
Rを使って、 分析する。
26.
スレッドの 盛り上がり具合いを
見てみる
27.
テンションが上がると 語の出現頻度が 変わるのでは?
28.
29.
こんな記事を 見つけた
30.
31.
32.
どうしてこんな事に?
33.
『侵略!イカ娘』セーブオンオリジナルくじ、7月18日
(海の日)より発売! http://jin115.com/archives/51793457.html 景品を見る限りでは、可愛かったのに・・・ なぜ?
34.
相互相関関数を 見てみる
35.
相互相関関数って?
36.
相互相関関数は、ふたつの信号、 配列(ベクトル)の類似性を確認するために使われる。
相関と略されることがあり、 相関係数と似ているために混同することがある。 Wikipedia 相互相関関数より
37.
離散な時は、こんな式で求める。
38.
試しに、 「イカ」と「可愛い」で 求めてみる。
39.
40.
頻度情報で見ると、 ほとんどの語と語で
相互相関が あると出てきてしまう。 ↓ 頻度の分布が似ている。
41.
頻度情報で見ると、 ほとんどの語と語で
相互相関が あると出てきてしまう。 ↓ 頻度の分布が似ている。
42.
頻度ではなく、 相対度数を 見れば良いのでは?
43.
相互相関が0.8以上or-0.8以下
(lagが-1〜1で,一部抜粋) ● ネタ & キャラ ● 差 & 違い ● 作品 & 声 ● 発売 & 年月日 ● 絵&化 ● 反省 & 点 ● 日 & 発売 ● 特典 & 年月日 ● 平成 & 年月日 ● 特典 & 発売 ● チャンピオン & 漫画 ● 原作 & 発売 ● 漫画 & チャンピオン ● 原作 & 特典 ● 悪い & 違い ● 悪い & 反省 ● 発売 & 原作 ● 違い & 反省 ● イカ & 人 ● 差 & 悪い ● 原作 & 特典
44.
45.
主成分分析を してみる
46.
47.
PC1
PC2 PC3 Standard 603.34 237.65 65.25 deviation 0 7 5 Proportion of 0.855 0.133 0.008 Variance 81 Cumulative 0.0.855 0.987 0.996 Proportion
48.
2期放送や ミニイカ娘の回が 強く現れている
49.
相対度数を 使ってみると・・・
50.
51.
PC1
PC2 PC3 Standard 0.0525 0.0345 0.017 deviation 3 Proportion of 0.5507 0.2374 0.060 Variance 1 Cumulative 0.5507 0.7881 0.848 Proportion 2
52.
第1主成分では、 オリジナルくじの月が 主成分得点が高い。 第2主成分では、 月を経るごとに 評価が下がってる?
53.
標準化もやってみると・・・
54.
55.
PC1
PC2 PC3 PC4 Standard 4.971 4.603 3.420 3.088 deviation 9 Proporti 0.247 0.212 0.117 0.095 on of 4 Variance Cumulati 0.247 0.459 0.576 0.671 ve 3 Proporti on
56.
累積寄与率も低いし、 もう少し見てみよう
57.
58.
2chのスレッドを
時系列に 分析をしてみると、 感想 それぞれの月の特徴を 掴む事が出来た。
59.
参考
JIN'S PAGE http://mjin.doshisha.ac.jp/R/
60.
ご清聴 ありがとうございました。
Jetzt herunterladen