WWW論文読み会発表資料: Computational Health セッション

WWW2017論文読み会 @ CyberAgent
Computational Health
高野雅典
株式会社サイバーエージェント
秋葉原ラボ
2017/11/30
CyberAgent, Inc. All Rights Reserved

自己紹介
高野雅典（データマイニングエンジニア/@mtknnktm）
● 仕事: サイバーエージェントのメディア・ゲームの
　　データ分析関連もろもろ + 研究
○ 以前はSE@前職SIer、JavaScripter@弊社
○ 学生時代の複雑系・人工生命。博士（情報科学）
● 現在の活動領域: 計算社会科学・複雑系
● 研究テーマ: 社会をビッグデータで理解する
○ 協調行動、コミュニケーションと社会構造、Webと幸福、Webと社会現象
● 発表論文リスト
○ https://sites.google.com/site/mtkn35699/publications

● どんなセッション？
○ 全部で4セッション、16の論文
○ 医療・公衆衛生 × コンピュータサイエンス
○ 役立つことが重要
参考 2017 CFP: http://www2017.com.au/call-for-papers/computational-health.php
● 傾向
○ 技術的な目新しさはあまり強調されない
○ 今まで難しかった課題をビッグデータでアプローチ
○ 切り口が新しい/おもしろい
○ 具体的に解決するシステムを開発・運用しているものもある
○ 民間所属の著者も多い
■ Google、Yahoo、Microsoft、Philips、リクルートなど
Computational Health

● Investigating the Healthiness of Internet-Sourced
Recipes: Implications for Meal Planning and
Recommender Systems
○ “健康” で好みにあうレシピを推薦する
● DeepMood: Forecasting Depressed Mood Based
onSelf-Reported Histories via Recurrent Neural
Networks
○ うつ病患者の重度のうつ状態予測と素性分析
ご紹介する論文

Investigating the Healthiness of Internet-Sourced
Recipes: Implications for Meal Planning and
Recommender Systems
Christoph Trattner (MODUL University Vienna & Know-Center) David
Elsweiler (University of Regensburg)

ネットにある雑多なレシピで我々は健康になれるか？
● 目的
○ 健康度の定量化したい
○ 健康なレシピを推薦したい
● アプローチ
○ AllRecipes.com というレシピ投稿サイトデータを分析
○ 健康度はWHO、FSAの基準をベースにする
やりたいこと・アプローチ

● WHO
○ 7つの重要栄養素（タンパク質、炭水化物、糖、ナトリウ
ム、脂肪、飽和脂肪酸、食物繊維）を基準値以上含ん
でいる数
○ 0〜7の8段階。大きいほうが健康。
● FSA
○ 同様
○ 4〜12の8段階。小さいほうが健康。
健康度の定量化

● 全体としてあまり健康で
ない
● 健康なものはわずか
（WHO=7, FSA=4）
健康度の分布

全体的に
スコアは良く
ない
Healthyカテ
ゴリも少しマ
シなだけ
カテゴリごとの健康度

健康なレシピを推薦できるか？: 普通の推薦と健康度
● 普通に推薦すると不健康なものが推薦されやすい
● ランダムが一番マシ
● 不健康な好みの人はより不健康なレシピが推薦されることに…
健康度との相関係数

● 非常にシンプルに健康度で重み付け
健康度を考慮して推薦
健康度との相関係数が正に！

● ネットのレシピは不健康なものが多い
○ 「ヘルシー」カテゴリでも微妙
○ ユーザの「レシピに関する健康度評価」も精度がいま
いち（図1）
● 「推薦アルゴリズム」はより不健康を促進
● WHO、FSAの基準を使うことで
○ レシピの健康度の評価
○ 健康なレシピ推薦
ができた
まとめ

DeepMood: Forecasting Depressed Mood Based
onSelf-Reported Histories via Recurrent Neural
Networks
Yoshihiko Suhara (Recruit Institute of Technology & MIT)
Yinzhan Xu (Massachusetts Institute of Technology)
Alex 'Sandy' Pentland (Massachusetts Institute of Technology)

● 重度のうつ状態の予測
○ 目的: 重大な事態（自傷・自殺など）を防ぐこと
● うつ病
○ 大きな社会的問題
○ 身体的症状がなく自覚も検出もしにくい
● 先行研究
○ セロトニンの量をバイオマーカーで計測して検出
■ 日常生活で多くの人が手軽にやることは難しい
● アプローチ
○ うつ病の方が自身の記録をつけるアプリデータをLSTM-RNN
で学習して分析
やりたいこと・課題

● 入力項目
○ 今の気分
○ 行動、投薬
○ 睡眠開始・終了時間
● 分析ユーザ数: 2,382
データ元のアプリと素性とタスク

LSTM-RNNのタスク
● アプリに入力されたk日分のデータからn日後のうつ状
態を予測する（k=1〜14, n={1, 3, 7}）

予測精度: 翌日でも一週間後でもそれなりに予測可
予測精度とデータの期間
データの期間: 直近1週間が重要
ただしながければ長いほど高精度
k日前データの重要度: 前日が特に重要だが、k>1
も影響度が大きい（同じ曜日（赤色）はやや重要）
→ うつ症状は、特に直近のデータに徴候が現れる。
　一方で長期的な傾向もある。

● n=1, 3 では最新の気分（前日夜）が重要
● n=7 では朝の気分が重要
→ 長期的なリスクを知るには毎朝の気分が重要
重要な素性
n=1 n=3 n=7

● 重度のうつ症状を予測したい
○ できた。1週間後でもある程度の精度。
● モデルを分析した結果
○ 直近1週間分ぐらいで概ね徴候が出る。
○ ただし長期的なトレンドも重要。
※ じわじわ悪くなっていることを示唆？
○ 毎朝の気分が悪い人はヤバイ。
● 展望: この研究は自己申告に基づく
○ 自己申告のビッグデータでも、今まで難しかったところを分析できた
○ ウェアラブル端末のデータとかを使うと、より多くのことが見えてくるかもし
れない
まとめ

● 解決すべき課題はたくさんある
○ 大域的な感染症の把握・予測と対策
○ 慢性疾患や健康のコントロール
○ メンタルが危なくなってきた人の把握とサポート
などなどなどなど
● 研究するにもいいネタがたくさんある領域かも
○ 多くの問題はそう簡単には解決しない
■ Googleなどの巨人でも、ちょっと本気出したぐらいでは
うつ病も生活習慣病も自殺もなくならない
○ 膨大な先行研究・知見がある（医学、疫学、心理学、etc.）
○ （うまくいったら）研究のインパクトは大きい
感想

● ピグパーティでの「いじめ」悩み相談の分析
○ 仮想社会で「いじめられていることを相談すること」はユーザに
よい効果をもたらすか？
○ どのような相談方法・内容であれば効果があるか？
○ よい効果があるのであれば促進するにはどうしたらいいか？
○ 非常に深刻な悩みに対しての支援は可能か？
→ ユーザのWell-beingに貢献したい
→ サービスの付加価値を高めたい
Ref: 高野雅典, 角田孝昭 "仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談",
　　教育工学研究会, 2017. https://www.slideshare.net/MasanoriTakano1/ss-81884942
いまやってる試み

● Understanding and Discovering Deliberate Self-harm Content in Social Media
○ Flickrにリスカ画像をアップロードする人を分析して検出モデルを開発。生活時間やテキストに特徴。
● Mobile Sensing at the Service of Mental Well-being: a Large-scale Longitudinal Study
○ Well-beingをAndroidのセンサーデータから推定。長期的なメンタルヘルス予測の研究はあまりなかったがやった。教師デー
タはアプリを作ってユーザに入力させて収集。
● Harnessing the Web for Population-Scale Physiological Sensing: A Case Study of Sleep and Performance
○ 認知パフォーマンスは睡眠時間やサーカディアンリズムに依存する。現状、スモールデータでしか研究がないが我々は大規
模でやった。認知パフォーマンスは、検索エンジンでのキーストロークやクリックで測定、睡眠はウェアラブルデバイスのアプ
リで測定してデータ収集。
● Cataloguing Treatments Discussed and Used in Online Autism Communities
○ 患者はネットで治療について議論することがある。その内容って実際に役立つのか？を調べる。対象は自閉症コミュニティで
の両親・介護士・その他の議論データ。実際に両親が治療を行使したところまでトレースした。この知見をから治療方法のカタ
ログ化をする。
● Sangoshthi: Empowering Community Health Workers through Peer Learning in Rural India
○ インドのヘルスワーカー90万人。全員に対面で研修できない。インドの田舎はネット環境が未整備なのでE-Learningも難し
い。Low Internetアクセスなモバイルトレーニング・学習プラットフォームを低コストで作って提供する。それがSangosthi。イン
ターネットとIVR（電話の自動応答システム。超レガシー技術）を使って作った。効果検証して教育効果があった。
1行概要（Computational Healthセッションから抜粋）

● Is Saki #delicious? The Food Perception Gap on Instagram and Its Relation to Health
○ 太っている人とそうでない人は食事の写真につけるタグの傾向が異なる。そういった差異を使ってタグの傾向からその人の
肥満傾向などの健康に関わる属性を検出する（肥満・喫煙など）。Instagramの食事の写真からタグを機械学習で推定し、推
定タグと実際の人がつけたタグのギャップを見る。そのギャップと地域の肥満度（統計データ）を使って肥満傾向の高い人の
タグ付け傾向を定量化する。例えば、肥満傾向の人は「チキンカツ」が写真に写っているにも関わらず「チキンカツ」をタグ付
けしない（チキンサラダとかつけてたりする）。
● The Spread of Physical Activity Through Social Networks
○ 運動データとソーシャルデータを組み合わせて分析。友人数や友人のアクティビティが本人のアクティビティを予測する。運動
促進をするためにソーシャルネットワーク経由で友人のアクティビティを見ることは有効か？を統計モデルを作って検証。
● Blood Pressure Prediction via Recurrent Models with Contextual Layer
○ 血圧予測をRNNでがんばる話。これまでは少数サンプルの臨床研究しかなかったらしいがこの研究は大規模でやったところ
が新しいとのこと。
● Enhancing Feature Selection Using Word Embeddings: The Case of Flu Surveillance
○ テキストを使った予測の特徴選択を、単語の意味を考慮してやった。具体的にはWord2Vecで目的変数に近い単語を残しや
すくしてElastic-Netとかをしている。試しにGoogle検索クエリからインフルエンザ予測をやってみたらうまくいった。
● Adverse Drug Event Detection in Tweets with Semi-Supervised Convolutional Neural Networks
○ 薬の副作用をTwitterデータから検出する（※ 長期的な副作用とかは未知のものとかあるかもしれないから？）。ディープラー
ニングすごいけど教師データがたくさん必要。でも、薬の副作用自体が稀でTweetももちろん少ない。なので、
Semi-Supervised CNNでやった。
1行概要（Computational Healthセッションから抜粋）

WWW論文読み会発表資料: Computational Health セッション

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie WWW論文読み会発表資料: Computational Health セッション

Ähnlich wie WWW論文読み会発表資料: Computational Health セッション (20)

Mehr von Masanori Takano

Mehr von Masanori Takano (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)