SlideShare ist ein Scribd-Unternehmen logo
1 von 40
いかにして
データを手に入れるか
Slideshare 掲載用あらすじ
• データの入手から前処理までの上流部分について話します
• 入手の部分は既存のジャーナリズムがやってきたことと重複も大き
いです。それなりの量のデータを入手することが生む違いは、個々
のストーリーをもう少しマクロな視点でみることが可能になること
です。
• 検索テクニック、公開請求テクニック、オープンデータのリスト
(日本バージョン含む)を紹介します
• スクレイピングについては情報が古いので、今使えそうなサービス
を紹介します
• 事例をもとに前処理の実際と使えるツールを紹介します
(「データを取得する」の前半5節、「データを理解する」の「データを扱うための基礎的な手順」、「ケーススタディ」の
「ニュースにおけるデータ: ウィキリークス」を基に作成しています)
講演者プロフィール
亀田 尭宙(KAMEDA Akihiro)
京都大学 地域研究統合情報センター 助教
専門:
• Linked Open Data
• 自然言語処理
• (最近は人文社会科学を中心とした)
各ドメインへの応用
オープンな教科書の共訳は2つめ
いかにして
データを手に入れるか
http://spotlight-scoop.com/
https://www.bostonglobe.com/metro/2015/11/06/least-clergy-have-been-accused-child-
sex-abuse-boston-archdiocese/5cKpjVOPhEh7IYnCwRqIJI/story.html
全神父の年鑑が出てる。教会の年鑑、マサチューセッツの全神父。
見ろ 1983年。ジョン・ゲーガン、ドーチェスターの教区。
年代と教区が。
こっちの彼は…
何だ?
1980年 JPを外れた。病気休暇で。
理由まで?1991年は?
リアム・バレット… 読めんな。
虐待で教区を外れた。
リアム・バレット?
そうだ。
病気休暇。
公式の本なのに。
1つ1つの事件から
システム全体の問題へ
検索、公開請求、
オープンデータ
ウェブ上の情報を見つける
• 検索を効率化する
• データ形式を指定(例: filetype:XLS, filetype:CSV)
• ドメインの限定(例: site:go.jp)
• “Directory Listing”
請求
• データの請求権
• 情報公開法
を使い倒せ!
情報源に直接アクセス
• 情報公開法による請求
• 広報担当者への連絡
• データ保持者へのコンタクト
直接ミーティングする機会を設けるのが最善である、
と私は知っている。さらに私は、彼らが断りにくい方
法でその機会を設けることができる。「彼らに負担を
かけたくないんです」「無駄に負担になったり、過剰
に広い請求をしたくありません。ミーティングをする
ことで、どんなデータがあるかを理解し、欲しいもの
をどのようにリクエストすべきか、私の理解が助けら
れるのです」
http://okfn.jp/2013/08/28/foia-shibuya-vs-california/
データポータル
• 世界、各国
• http://dataportals.org/
• https://www.data.gov/
• https://data.gov.uk/
• https://datahub.io/
などなど
日本だと
• http://www.data.go.jp/
• http://datameti.go.jp/
• http://udct-data.aigid.jp/
(Urban Data Challenge)
• 他メタリスト
• https://goo.gl/qbF2oZ
(CKAN採用リスト)
• From @_shimizu
http://bit.ly/2fE98tn
• http://iden-
tity.biz/archives/1475
データポータル
スクレイピング
賞味期限切れ:ScraperWiki
賞味期限切れ:ScraperWiki
賞味期限切れ:ScraperWiki
賞味期限切れ:ScraperWiki
賞味期限切れ:ScraperWiki
• From @AKU_T https://www.import.io/
「使える」データに
いかにして「使える」データを手に入れるか
From 「データを扱うための基礎的な手順」
• データを求める際に、あなたが答えようとしている質問のリス
トから始めるべきだ。
• データはたいてい汚い状態なので、奇麗にする必要がある。
• データには明示的になっていない特徴があるかもしれない。
Miami Herald の例
酔っ払い運転の量刑データ
データ解釈の大事さ
• 裁判官ごとに異なる酔っ払い運転の逮捕者への判決の重さを分
析していた時のことだ。レポーターは有罪判決の記録を裁判所
のシステムから引き出し、データ辞書に含まれる3つの要素の
数値を分析した。
• 拘留期間
• 懲役期間
• 罰金の量
である。
データ解釈の大事さ
• 本筋と外れたもめごと
• 判決の約1〜2%で、拘留期間も懲役期間も罰金の量も示していないも
のがあった結果として"罪に問われない"というケースが少量ながら含
まれていた。
• この記事と図が出版された時、裁判官達は抗議の声を上げた。Miami
Herald 紙は、裁判官達が酔っ払い運転で有罪の判決を受けた者は罰を
受けなくてはならないという州法を破っていると批判している、とし
て。
データ解釈の大事さ
• レポーターはデータファイルを作った裁判所書記官のオフィスに戻
り、そのエラーの原因について尋ねた。
• そして、問題のケースは、初めて逮捕された際の被告の貧困が関
わっていると告げられた。通常、被告には罰金が課せられるはずの
場合において、彼らにはお金がなかったということだ。そのため裁
判官は、道路に沿ってゴミを清掃するといった、社会奉仕を彼らに
命じた。後で分かったことだが、データベースの構造が作られた後
に、社会奉仕を要求する法が通過していた。
• たがって、すべての裁判所書記官は、データの中で、拘留・懲役・
罰金の各変数がゼロになっているものは社会奉仕を意味することを
知っていた。しかし、これは、データ辞書に記載 されておらず 、そ
のため Herald 紙は訂正記事を出すこととなった。
Guardianの例
ウィキリークスのデータ
データ処理に手を付ける
• 始まったばかりのころに取り組んだ重要なことは、データベー
ス全体を公開しないようにすることだった。ウィキリークスは
既にそうしようとしていたが、私たちは情報提供者の名前を明
かさないことやNATOの部隊を不必要に危険にさらしたりしな
いことを保障したかった。同時に、David LeighやNick Davies
(Julian Assangeと交渉してデータを公開させたのは彼らだ)
率いる我々の調査報道チームがデータを使いやすいようにする
必要があった。また、鍵となる情報へのアクセスをよりシンプ
ルにし、できる限り明瞭でオープンな形で白日の下にさらした
かった。
データ処理に手を付ける
• 私たちのチームはシンプルな内部用のデータベースをSQLを
使って構築した。ジャーナリストはそれによってイベントやで
きごとを手掛かりにストーリーを探索できるようになった。突
如として、データセットはアクセス可能なものとなり、ストー
リーを生み出すことが容易になったのである。
• データはきちんと構造化された。それぞれのできごとには、時
間、日時、説明、犠牲者数、―そしてこれがとても重要なもの
であるが―緯度経度といった鍵となるデータが付された。
HuTime
• http://www.hutime.org/basicdata/calendar/form.html
HuTime
• http://www.hutime.org/basicdata/calendar/form.html
Google Fusion Tables
Google Fusion Tables
Google Fusion Tables
まとめ
• データを手に入れる
• デジタル化
• 検索
• 公開請求
• オープンデータ
• スクレイピング
• クラウドソーシング
• それを使えるものに
• 時間情報や地理情報のフォーマッティング
• 秘匿すべきものは秘匿する
• データ辞書

Weitere ähnliche Inhalte

Andere mochten auch

Newton’S Laws Practice
Newton’S Laws PracticeNewton’S Laws Practice
Newton’S Laws Practicekitcoffeen
 
Learning At Large Mlearn 2009
Learning At Large Mlearn 2009Learning At Large Mlearn 2009
Learning At Large Mlearn 2009Mike Sharples
 
Sioux Hot-or-Not: The future of Linux (Alan Cox)
Sioux Hot-or-Not: The future of Linux (Alan Cox)Sioux Hot-or-Not: The future of Linux (Alan Cox)
Sioux Hot-or-Not: The future of Linux (Alan Cox)siouxhotornot
 
A Crash Course in Rapid Application Development
A Crash Course in Rapid Application DevelopmentA Crash Course in Rapid Application Development
A Crash Course in Rapid Application DevelopmentProgress
 
Shift Happens
Shift HappensShift Happens
Shift Happensrspro007
 
Is That A Computer In Your Wide
Is That A Computer In Your   WideIs That A Computer In Your   Wide
Is That A Computer In Your WideIan Hay
 
M learn 2014 slideshare
M learn 2014   slideshareM learn 2014   slideshare
M learn 2014 slideshareMike Sharples
 
NEW MEDIA LECTURE - Swinburne University Radio Students
NEW MEDIA LECTURE -  Swinburne University Radio StudentsNEW MEDIA LECTURE -  Swinburne University Radio Students
NEW MEDIA LECTURE - Swinburne University Radio Studentsbryceives
 
Shift Happens
Shift HappensShift Happens
Shift Happensrspro007
 
Beijing to Burketown by Jane Hardy
Beijing to Burketown by Jane HardyBeijing to Burketown by Jane Hardy
Beijing to Burketown by Jane Hardybryceives
 

Andere mochten auch (13)

Newton’S Laws Practice
Newton’S Laws PracticeNewton’S Laws Practice
Newton’S Laws Practice
 
Webstock 2011
Webstock 2011Webstock 2011
Webstock 2011
 
Chembond
ChembondChembond
Chembond
 
Learning At Large Mlearn 2009
Learning At Large Mlearn 2009Learning At Large Mlearn 2009
Learning At Large Mlearn 2009
 
Sioux Hot-or-Not: The future of Linux (Alan Cox)
Sioux Hot-or-Not: The future of Linux (Alan Cox)Sioux Hot-or-Not: The future of Linux (Alan Cox)
Sioux Hot-or-Not: The future of Linux (Alan Cox)
 
Opin Upplysingataekni2
Opin Upplysingataekni2Opin Upplysingataekni2
Opin Upplysingataekni2
 
A Crash Course in Rapid Application Development
A Crash Course in Rapid Application DevelopmentA Crash Course in Rapid Application Development
A Crash Course in Rapid Application Development
 
Shift Happens
Shift HappensShift Happens
Shift Happens
 
Is That A Computer In Your Wide
Is That A Computer In Your   WideIs That A Computer In Your   Wide
Is That A Computer In Your Wide
 
M learn 2014 slideshare
M learn 2014   slideshareM learn 2014   slideshare
M learn 2014 slideshare
 
NEW MEDIA LECTURE - Swinburne University Radio Students
NEW MEDIA LECTURE -  Swinburne University Radio StudentsNEW MEDIA LECTURE -  Swinburne University Radio Students
NEW MEDIA LECTURE - Swinburne University Radio Students
 
Shift Happens
Shift HappensShift Happens
Shift Happens
 
Beijing to Burketown by Jane Hardy
Beijing to Burketown by Jane HardyBeijing to Burketown by Jane Hardy
Beijing to Burketown by Jane Hardy
 

Ähnlich wie いかにしてデータを手に入れるか

ICDE 2014参加報告資料
ICDE 2014参加報告資料ICDE 2014参加報告資料
ICDE 2014参加報告資料Masumi Shirakawa
 
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発Eric Sartre
 
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~aslead
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
Cloudian at Cloud Days Tokyo 2014 seminar
Cloudian at Cloud Days Tokyo 2014 seminarCloudian at Cloud Days Tokyo 2014 seminar
Cloudian at Cloud Days Tokyo 2014 seminarCLOUDIAN KK
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜National Institute of Informatics (NII)
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
Now and then: next-generation sequencing database to encourage the big data s...
Now and then: next-generation sequencing database to encourage the big data s...Now and then: next-generation sequencing database to encourage the big data s...
Now and then: next-generation sequencing database to encourage the big data s...Tazro Ohta
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシーYasushi Hara
 
「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会Yu Ishikawa
 
データベース技術 1(Database_1)
データベース技術 1(Database_1)データベース技術 1(Database_1)
データベース技術 1(Database_1)Yuka Obu
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹Preferred Networks
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポートnagix
 
オープンデータを利用したWebアプリ開発
オープンデータを利用したWebアプリ開発オープンデータを利用したWebアプリ開発
オープンデータを利用したWebアプリ開発dokechin
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料オラクルエンジニア通信
 
ICLR2018出張報告
ICLR2018出張報告ICLR2018出張報告
ICLR2018出張報告Yu Nishimura
 
「使える」データをとるために
 「使える」データをとるために 「使える」データをとるために
「使える」データをとるためにRikkyo University
 

Ähnlich wie いかにしてデータを手に入れるか (20)

ICDE 2014参加報告資料
ICDE 2014参加報告資料ICDE 2014参加報告資料
ICDE 2014参加報告資料
 
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
 
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
Cloudian at Cloud Days Tokyo 2014 seminar
Cloudian at Cloud Days Tokyo 2014 seminarCloudian at Cloud Days Tokyo 2014 seminar
Cloudian at Cloud Days Tokyo 2014 seminar
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
Now and then: next-generation sequencing database to encourage the big data s...
Now and then: next-generation sequencing database to encourage the big data s...Now and then: next-generation sequencing database to encourage the big data s...
Now and then: next-generation sequencing database to encourage the big data s...
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
 
「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会
 
データベース技術 1(Database_1)
データベース技術 1(Database_1)データベース技術 1(Database_1)
データベース技術 1(Database_1)
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
オープンデータを利用したWebアプリ開発
オープンデータを利用したWebアプリ開発オープンデータを利用したWebアプリ開発
オープンデータを利用したWebアプリ開発
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
Oracle Data Minerハンズオンセミナー170927:②Oracle data minerハンズオン資料
 
ICLR2018出張報告
ICLR2018出張報告ICLR2018出張報告
ICLR2018出張報告
 
「使える」データをとるために
 「使える」データをとるために 「使える」データをとるために
「使える」データをとるために
 

いかにしてデータを手に入れるか

Hinweis der Redaktion

  1. 調査報道について知るのに良い映画。地道に聞き込みや公開請求とかもするシーンがある