Word2vecで大谷翔平の二刀流論争に終止符を打つ!
- 2. 自己紹介
Twitter ID:tkm2261
専門:経営工学/最適化
所属:某分析会社2年目
業務:データ分析全般(何でも屋さん)
機械学習との出会い:
⇒研究が現在実用性皆無の最適化
⇒精神の逃げ道として機械学習を趣味で始める
⇒研究が詰んで、趣味が本職に
趣味で始めたので言語、画像など幅広く遊んでます
14 Data Scientist MeetUp 2 2014年7月19日
- 3. 趣味一例:載せなければいけない気がした
14 Data Scientist MeetUp 3 2014年7月19日
http://www.slideshare.net/tkm2261/tokyowebmining26-3
TokyoWebMiningで(たぶん)過去最高のはてなブを頂きました。
- 4. 趣味一例:載せなければいけない気がした
14 Data Scientist MeetUp 4 2014年7月19日
http://2chnewswatch.info/ads/av_monariza.jpg(容量注意:7MB)
女優全員をモナリザにしてみました(7000人)
- 5. 自己紹介
14 Data Scientist MeetUp 5 2014年7月19日
スーパーで見たホタテに惹かれて、本日既にビールが入っております
- 9. 14 Data Scientist MeetUp 9 2014年7月19日
Q:どうやってやってるの?
A:ニューラルネットを使ってるよ!
詳しくは、このへん見てね
http://www.slideshare.net/unnonouno/20140206-statistical-semantics
http://blog.livedoor.jp/tak_tak0/archives/52131771.html
http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
- 11. 14 Data Scientist MeetUp 11 2014年7月19日
Q:なにができるの?
A:単語の足し算引き算ができるよ!
『king -man + woman = queen』とか出来るよ!
- 12. 14 Data Scientist MeetUp 12 2014年7月19日
Q:なにができるの?
A:単語の足し算引き算ができるよ!
『king -man + woman = queen』とか出来るよ!
- 14. 14 Data Scientist MeetUp 14 2014年7月19日
Q:でも実装大変なんでしょ?
A:実装が無料で公開されてるよ!
pip一つでPythonで動くよ!
http://radimrehurek.com/gensim/models/word2vec.html
https://code.google.com/p/word2vec/
- 15. すでに皆さん遊んでる
14 Data Scientist MeetUp 15 2014年7月19日
http://antibayesian.hateblo.jp/entry/2014/03/10/001532
- 22. 使用ツール
•Python
•Gensim
•MeCab
–辞書には、以下が突っ込んであるよ!
•IPA辞書
•Wikipedia全項目
•はてなキーワード
•ニコニコ大百科
14 Data Scientist MeetUp 22 2014年7月19日
- 24. とりあえず、性能を試してみる
谷繁–中日+ 巨人=
14 Data Scientist MeetUp 24 2014年7月19日
単語スコア.
阿部0.741105258465
鈴木0.717120051384
古田0.695380687714
村田0.694615781307
上本0.66318833828
仁志0.661631345749
坂本0.657796561718
井端0.654738426208
矢野0.652447879314
小久保0.647058129311
いい感じ!
- 26. とりあえず、大谷の類似語をみてみるよ!
単語『大谷翔平』の類似語は
14 Data Scientist MeetUp 26 2014年7月19日
単語スコア.
藤浪晋太郎0.768487453461
栗山巧0.695508241653
大谷智久0.653532028198
根元俊一0.648699402809
しっとり0.645320415497
杉谷拳士0.641715764999
西勇輝0.639408528805
成瀬善久0.638750314713
谷繁元信0.623130559921
岸孝之0.622228562832
まあなっとく
- 28. とりあえず、大谷の類似語をみてみるよ!
単語『大谷』の類似語は
14 Data Scientist MeetUp 28 2014年7月19日
単語スコア.
岸0.748574316502
藤波0.745131731033
浪0.731763362885
藤0.712193131447
菅野0.683733582497
さいてょ0.662238240242
松坂0.660759210587
藤川0.645455479622
ダル0.643711566925
金子0.640158832073
投手多いしこんなもんか。藤浪が辞書にないっぽい
- 29. 14 Data Scientist MeetUp 29 2014年7月19日
ハンカチ0.760936260223
岸0.743118882179
斎藤0.713004291058
涌井0.679435074329
上沢0.678729176521
どすこい0.674247264862
東浜0.673171281815
藤岡0.668897092342
大石0.666251301765
大谷0.662238240242
『さいてょ』の類似語は?
- 30. 14 Data Scientist MeetUp 30 2014年7月19日
アイスナイン0.492585033178
嫌儲民0.490805387497
糞コテ0.476113945246
さいてょ0.475421279669
単芝0.470434874296
連呼厨0.465360254049
坂本先生0.463188290596
ジャッカル0.450497090816
片平0.445076674223
ジャアアアップ 0.444239586592
『カイエン青山』の類似語は?
- 32. 『澤村』-『筋肉』=
14 Data Scientist MeetUp 32 2014年7月19日
宮國椋丞0.531965851784
智之0.524458646774
哲也0.484824359417
笠原0.483911067247
内海0.482147753239
之0.480068832636
今村0.47501885891
江村将也0.474582612514
木谷良平0.472583711147
久古健太郎0.466360360384
- 35. 14 Data Scientist MeetUp 35 2014年7月19日
単語1
単語2
類似度
大谷
投手
0.450536
大谷
野手
0.511799
単語1
単語2
類似度
大谷
ピッチャー
0.571928
大谷
バッター
0.35075
単語1
単語2
類似度
大谷翔平
投手
0.346645
大谷翔平
野手
0.187001
単語1
単語2
類似度
大谷翔平
ピッチャー
0.176018
大谷翔平
バッター
0.152462
- 39. Q:じゃあ投手になったら誰になるの?
A:『大谷翔平』-『野手』+選手=
14 Data Scientist MeetUp 39 2014年7月19日
藤浪晋太郎0.544150829315
栗山巧0.54399394989
谷繁元信0.532034993172
内川聖一0.502083063126
亀井義行0.500316143036
伊東勤0.496416121721
セ・パ交流戦0.489656150341
フェラ0.488898158073
栗山英樹0.48765784502
藤本敦士0.48485031724
- 42. Q:じゃあ野手になったら誰になるの?
A:『大谷翔平』-『投手』+選手=
14 Data Scientist MeetUp 42 2014年7月19日
栗山巧0.429681301117
しっとり0.428718835115
阿部慎之助0.427656114101
坂本勇人0.419571638107
内川聖一0.419353425503
寺内崇幸0.417843401432
大引啓次0.414311230183
長谷川勇也0.41190880537
仁志敏久0.401837289333
村田修一0.399955689907