Weitere ähnliche Inhalte
Ähnlich wie OpenData_DataCurator_20140927 (20)
Mehr von Linked Open Dataチャレンジ実行委員会 (20)
OpenData_DataCurator_20140927
- 2. リアルワールド
バーチャルワールド
大量データ収集
融合
知恵
リアルワールドの写像
センシング
リアルワールドへのアクション
ナビゲーション
リアルワールドとバーチャルワールドが密接に連携
データ活用のあるべき姿 HSIS
Copyright 2013 FUJITSU LIMITED
1
- 3. キュレーターとは
データに語らせる
Copyright 2014 FUJITSU LIMITED
2011年1月、BI/BA、コンサルタント、分析アルゴリズム研究者等を集約した 組織を設立 = データサイエンティスト
システムデザイン
アナリティクス
モデリング
×
×
キュレーターの専門スキル
・・・
・・・
統計量
系列パターン
項目組合せ
空間分割
次元圧縮
クラスタリング
欠損値推定
相関関係
因果関係
要因分解
ベクトル量子化
SVM(多項式カーネル)
SVM(線形カーネル)
ランダムフォレスト
ブースティング
決定木
ナイーブベイズ
バギング
k-近傍法
ニューラルネットワーク
自己組織化マップ
SVM(RBFカーネル)
交差検定
ホールドアウト
陽偽性判定
F Measure
経験損失
正則化
ROC曲線
期待誤差
汎化性能
オープンデータ
+
2
- 4. キュレーターの事例
テーマ
データ活用モデル
新ビジネス開発
・疾病リスク予測
・運転新評価指標作成
会員/顧客管理
・会員の休眠/退会予測
・コールセンターの入電数予測
・ロイヤルカスタマーの特徴抽出
・マーケティングの新指標作成
商品の売上予測
・商品の売上/欠品予測
・店舗属性別の売上予測
製造・生産プロセス/品質 管理
・製造・生産品質分析による品質指標作成
・歩留まりの改善
営業活動評価
・売上予測
・売上の構成要因の分析
・営業施策の効果分析
・自動発注/欠品予測
・リアル/バーチャル最適化
・Web、広告、営業活動の評価指標作成
Copyright 2014 FUJITSU LIMITED
3
- 5. 新しいサービスの 可能性
未活用のデータから疾病リスク予測
Copyright 2014 FUJITSU LIMITED
・ GPT(ALT)
・ MCHC
・ 血清尿酸
・ 拡張期血圧
・ 中性脂肪
・ LDLコレステロール
・ 総コレステロール
・ 収縮期血圧
・ ヘマトクリット値
・ 血色素量
[ヘモグロビン値]
・・・
健康診断データ
・ 空腹時血糖
・ HbA1c
・ 服薬
・ 診察/治療/入院
・ 血清クレアチニン
・ HDLコレステロール
・ BMI
・ 血小板数
・ γ-GT(γ-GTP)
・ 腹囲
・ GOT(AST)
・ MCH
・ 総蛋白
・ MCV
・ 白血球数
富士通独自の総合判定方式
レセプトデータ
一般的な判定項目
2万6000人、過去3年分のデータをもとにした推論結果(社内実証実験)
疾病リスク
高い人
予測結果
疾病リスク
低い人
(例) 健康食配達
(例) 運動サポート
4
- 6. データオリエンテッドな分析の例
5 Copyright 2014 FUJITSU LIMITED
人が教えられない「コツ」や「やり方」をデータから得るケース
データにより新しい人(業務以外の専門家)が参加可能
未活用のデータから疾病リスク予測
実績
高精度に予測
予測
・GPT(ALT)
・MCHC
・血清尿酸
・拡張期血圧
・中性脂肪
・LDLコレステロール
・総コレステロール
・収縮期血圧
・ヘマトクリット値
・血色素量
[ヘモグロビン値]
・・・
健康診断データ
・HbA1c ・空腹時血糖
・診察/治療/入院・服薬
・血清クレアチニン
・HDLコレステロール
・BMI
・血小板数
・γ-GT(γ-GTP)
・腹囲
・GOT(AST)
・MCH
・総蛋白
・MCV
・白血球数
富士通独自の総合判定方式
レセプトデータ
一般的な判定項目糖尿病に
なっていない
糖尿病に
なった
糖尿病に
なった
糖尿病に
なっていない
糖尿病になる
可能性あり
糖尿病になる
可能性なし
2万6000人、過去3年分のデータをもとにした推論結果(社内実証実験)
データから強い将棋ソフトを作る
開発者の固定観念、先入観、
主観などにより、パラメータ設定
「局面評価関数」の
最適なパラメータを
自動学習
プロレベルの
棋力を実現
アマチュア
有段者レベル
※「Bonanza」は、保木邦仁先生(現電気通信大学特任助教)が開発したコンピュータ将棋ソフトです
約500パラメータ
約1億パラメータ
・将棋をよく知っている人
・将棋の強い人、プロ
これまでの将棋ソフト
プロの棋譜
機械学習を用いた将棋ソフト(2005年*Bonanza~)
各駒の価値
駒と駒の位置関係
6万局
87点569点
歩角例
王
大統領選挙戦をデータ解析チームがリード
TIMEより引用
http://swampland.time.com/2012/11/07/
inside-the-secret-world-of-quants-and-data-
crunchers-who-helped-obama-win
毎晩6.6万回の
シミュレーション
The Cave(オバマ陣営選挙対策本部内のデータ分析チーム)
4年前の大統領選の5倍に増員
ビッグデータ分析がオバマ陣営を勝利に導いた
パーティ主催の
最適人物の発見等
データベース化
(有権者、世論調査、消費者等)
- 8. 課題1:ビジネス適用できるか
Copyright 2014 FUJITSU LIMITED
強い相関
0.85 >
ダウの値動き ○駅のタクシー列
日本株も上がり兜町界隈は好景気?
○駅と兜町は配車エリアが一緒?
○駅には戻りにくい?
メカニズムを
解明しようとしても
先に進めない
条件に合った日は配車してデータ取得
・ビジネスオペレーションが出来た
・発見した現象は起こらなくなった
データオリエンテッドに
業務をつくる
ECサイト並のデータ活用がリアルなビジネスの領域に
7
- 9. 課題2:データが足りない
Copyright 2014 FUJITSU LIMITED
■データの選別コスト>蓄積コスト ■データの90%は2年以内に発生
データで理解可能な世界は2年で10倍に膨張している途中
Aと関連するのは?
Aと関連するのはB
メカニズム(結果/原因)も分かる
メカニズムを解明しなくても
活用できるテーマを作る
特定のモノを捉えるための
データ充足度の高い
小さな世界で考える
地域モデル、故障予測
8
- 10. 中部地方の最低気温
こまつなの中値
きゅうりの安値
関東地方の晴の割合
小売価格の平均
東北地方の最低気温
(週) 1 19 21 25 30 35 53
こんな使い方はできる
Copyright 2014 FUJITSU LIMITED
各週の売上と同じ動きをしているデータを探す(少数の組合せで通年
の売上を説明できないか)
データ 取引価格、各地の天気
など1304種類 売上と
因子の差
AAの取引量 東北地方の最低気温
BBの中値
CCの安値
小売価格の平均
関東地方の晴れの割合
黒線が正解:6種のデータで通年の売上に連動
・1次データの組合せ(1175京通り)の中から探しだす。
・ヒトが売上に関連あるデータと考えていたものと、正解は異なる。
9
- 11. こんな使い方はできる
Copyright 2014 FUJITSU LIMITED
・役立つデータの系列を求める。 ・2次データを使って予測精度を上げる。
1次データ
第1階層
2次データ
第2階層
第n階層
1,304 種類
取引価格
天気
気象
平均価格
・・・・・
・・・
1次データの中に答えはない。1次データ間に溶け込んだ社会や ビジネスロジックの持つ複雑さを加味した2次データを作る
売上
オープンデータを知識ベースとして使う 200種のデータから嗜好の地域指標を抽出する →少ししか得られない → このような使い方には、現状のオープンデータはまだ足りない。
10
- 12. Copyright 2014 FUJITSU LIMITED
注意しなければいけないこと
内部データ
膨張し続けるデータ (社会)
ヒトに見えていない、 データや関連性が存在する
内部データ
ヒトに見えている因果関係 でしかデータを捉えられない
役立つと考える データをヒトが選ぶ
何が役立つかをデータに問う。 コトを理解するために外部データを使う。
データが増え続けることで精度が上がる。 →まずは、多くのデータを使うこと。
全体から
役立つデータを探す
×
×
11
- 14. 富士通研究所:
富士通研究所で研究開発中のLOD活用基盤「LOD4ALL」をLODチャ レンジ向けに基盤提供予定(10月上旬~3月末)
LODチャレンジ向け特別機能
過去に投稿されたデータセットや投稿アプリで使用されたデータ等を格納
簡単なAPIを通して、格納データを参照可能
Copyright 2014 FUJITSU LABORATORIES LIMITED
過去の投稿作品
175作品(RDF)
過去の投稿アプリで 使用されたLOD
※
DBpedia
DBpedia-Japanese
GeoName
Uniprot
LOD Cloud中の
有名なデータセット
※
New York Times
World Bank
europeana-lod
opencyc
eurostat (他)
公開後、追加予定 のデータセット
LODAC BDLS
NDL様提供 (NDLSH他)
データ検索画面
公開時の格納データセット
※二次利用可能かつダウンロード可能なデータセット
13