SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
Wikipediaで位置情報の
   テキストマインニング
  っぽいことをやってみた
Prototyping for Experimental Rapid implemented
   version of Location information application

          はてな id:babydaemons
         Twitter @babydaemons
Self Introduction:
・ブラック系ITベンダの切り込み隊長
・つい最近までプロジェクトが4スレッド並行稼働
・Nagoya.pmしか活動してない。orz
・妻一人、息子一人



・はてな       id:babydaemons
・Twitter   @babydaemons
・その他       http://www.google.com/?q=babydaemons
今日のお題:


https://github.com/babydaemons/
 p5-MediaWiki-DumpFile-Parse/
Agenda:
・WikipediaのDBの提供って?
・そのデータってどう使うの?
・テキストマインニングって?
・その位置情報は何に使うの?
・まとめ
Agenda:
・WikipediaのDBの提供って?
・そのデータってどう使うの?
・テキストマインニングって?
・その位置情報は何に使うの?
・まとめ
jawiki-latest-
pages-articles
   .xml.bz2
*.xml.bz2 1.6GB
*.xml     8.0GB
EmacsやVimで
  開くのは
神業!

Memory 16GB MacBook Pro
所有の大先生
Agenda:
・WikipediaのDBの提供って?
・そのデータってどう使うの?
・テキストマインニングって?
・その位置情報は何に使うの?
・まとめ
Perl
では
MediaWiki::DumpFile::Pages

        On CPAN
Ruby
では
Faculty of Global
       Communications,
       Doshisha
       University

https://github.com/
yohasebe/wp2txt/
貧民業
              では?
Memory 4GB MacBook Air
所有の大貧民
https://github.com/babydaemons/
         wikipedia-scipts/
Agenda:
・WikipediaのDBの提供って?
・そのデータってどう使うの?
・テキストマインニングって?
・その位置情報は何に使うの?
・まとめ
その対象:
 緯度・経度
住所(日本語のみ)
Agenda:
・WikipediaのDBの提供って?
・そのデータってどう使うの?
・テキストマインニングって?
・その位置情報は何に使うの?
・まとめ
概要は
テレビCMで!!
某社の
位置情報DBと
Wikipedia記事
  の紐付け
Released on
 ガラケー!!
PC/スマホ?
お察し下さい
   orz
ちなみに
プロダクトコードは
   Java
Perlは
prototyping
Javaで
      プロト
      タイプ
      出来ないん
      ですか?
関数型言語クラスタと
テストクラスタの大家
Agenda:
・WikipediaのDBの提供って?
・そのデータってどう使うの?
・テキストマインニングって?
・その位置情報は何に使うの?
・まとめ
まとめ:
・Wikipediaのダンプ超デカっ!
・MySQL取り込み鬼門!
・生データなら楽チン!
・正規表現最強!
・詳細は夜の部で聞いてね!
・だれかMakefile.PMの書き方
 教えてください。m(_ _)m

Weitere ähnliche Inhalte

Mehr von 真吾 森

Money forwardとりそなVISAデビットの関係を良くしたい
Money forwardとりそなVISAデビットの関係を良くしたいMoney forwardとりそなVISAデビットの関係を良くしたい
Money forwardとりそなVISAデビットの関係を良くしたい真吾 森
 
Html5 canvasとgoogle maps apiで遊んでみた
Html5 canvasとgoogle maps apiで遊んでみたHtml5 canvasとgoogle maps apiで遊んでみた
Html5 canvasとgoogle maps apiで遊んでみた真吾 森
 
最底辺から送る目指せ最底辺の振り返り #-0.5
最底辺から送る目指せ最底辺の振り返り #-0.5最底辺から送る目指せ最底辺の振り返り #-0.5
最底辺から送る目指せ最底辺の振り返り #-0.5真吾 森
 
[2011.09.17 Nagoya.pm #01]●●●でPerl
[2011.09.17 Nagoya.pm #01]●●●でPerl[2011.09.17 Nagoya.pm #01]●●●でPerl
[2011.09.17 Nagoya.pm #01]●●●でPerl真吾 森
 
[LT]UMLとCloudのススメ SP1
[LT]UMLとCloudのススメ SP1[LT]UMLとCloudのススメ SP1
[LT]UMLとCloudのススメ SP1真吾 森
 
いろんなCRuby on windows
いろんなCRuby on windowsいろんなCRuby on windows
いろんなCRuby on windows真吾 森
 
[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips
[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips
[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips真吾 森
 

Mehr von 真吾 森 (7)

Money forwardとりそなVISAデビットの関係を良くしたい
Money forwardとりそなVISAデビットの関係を良くしたいMoney forwardとりそなVISAデビットの関係を良くしたい
Money forwardとりそなVISAデビットの関係を良くしたい
 
Html5 canvasとgoogle maps apiで遊んでみた
Html5 canvasとgoogle maps apiで遊んでみたHtml5 canvasとgoogle maps apiで遊んでみた
Html5 canvasとgoogle maps apiで遊んでみた
 
最底辺から送る目指せ最底辺の振り返り #-0.5
最底辺から送る目指せ最底辺の振り返り #-0.5最底辺から送る目指せ最底辺の振り返り #-0.5
最底辺から送る目指せ最底辺の振り返り #-0.5
 
[2011.09.17 Nagoya.pm #01]●●●でPerl
[2011.09.17 Nagoya.pm #01]●●●でPerl[2011.09.17 Nagoya.pm #01]●●●でPerl
[2011.09.17 Nagoya.pm #01]●●●でPerl
 
[LT]UMLとCloudのススメ SP1
[LT]UMLとCloudのススメ SP1[LT]UMLとCloudのススメ SP1
[LT]UMLとCloudのススメ SP1
 
いろんなCRuby on windows
いろんなCRuby on windowsいろんなCRuby on windows
いろんなCRuby on windows
 
[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips
[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips
[第38回FLOSS桜山勉強会]貧乏人のための仮想化Tips
 

Wikipediaで位置情報のテキストマインニングっぽいことをやってみた 20121208