Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
“グラフ”で繋がり、
可視化されるデータ
データ表現の技術的側面とLA活用の可能性
株式会社デジタル・ナレッジ
プラットフォーム事業部 教育ビッグデータチーム
田中 伸一
Agenda
• xAPIの動向
• xAPIとセマンティックウェブ
• 外部データを用いた分析アプローチ
xAPIの動向
海外の活用事例と今後の展開
xAPIの動向
xAPIの登場から3年
 従業員243,000人へのコンプライアンス教育で学習履歴
の統合管理とリアルタイム監視(AT&T)
 IoTを駆使した緊急医療訓練(NIST,US Ignite@GTCT)
 レガシーLMSへのL...
xAPIの動向
xAPIの登場から3年
 従業員243,000人へのコンプライアンス教育で学習履歴
の統合管理とリアルタイム監視(AT&T)
 IoTを駆使した緊急医療訓練(NIST,US Ignite@GTCT)
 レガシーLMSへのL...
xAPIの動向
https://www.us-ignite.org/globalcityteams/actioncluster/NSkmt5PEY5iTYgweMCPvRd/
 事例「IoTを駆使した緊急医療訓練(NIST,US Ignite...
開発者向け情報
https://mananda.jp/developer/index.html
 ところで…
 ManandaはLRSを公開
アカウントを登録(無料)し、Developerサイトにアクセスするとア
プリケーションの登録方法、...
開発者向け情報
 Mananda LRSアプリケーションの例
 簡易YouTubeプレイヤー
 JavaScriptとHTMLのみで開発
 YouTubeのAPIを活用
 プレイヤーに対するユーザの操作をxAPIでLRSに蓄積
 過...
 両仕様の要約レベルでの違いをまとめた”Initial xAPI/Caliper
Comparison”公開
xAPIの動向
xAPIとCaliper
 ADLがIMSに加入
 2016年8月、IMS四半期会議の一部として”The xAP...
xAPIとセマンティックウェブ
xAPIの相互運用における課題
 従来
 動詞やアクティビティにIRI形式のIDを使用。
 動詞ID、アクティビティIDは自由に定義できる。
 ただしシステム間でIDと語彙を対応付けて相互運用性を確保する...
xAPIとセマンティックウェブ
セマンティックウェブ
 SemanticWeb
“W3C のティム・バーナーズ=リーによって提唱された、ウェブページの意味
を扱うことを可能とする標準やツール群の開発によってワールド・ワイド・
ウェブの利便性を...
RDFグラフ
Abigail@example.jp
 名前はSasaki Abigail
 住所は東京都台東区
 AbbieとBobの知り合い
 ABC大学のメンバ
 RDF: リソースの繋がりを記述するためのフレームワーク
 基本...
自治体におけるRDF活用 – オープンデータ
 データ シティ鯖江(福井県鯖江市)
xAPIとセマンティックウェブ
http://www.city.sabae.fukui.jp/pageview.html?id=11552
 むろらんオープ...
xAPIとセマンティックウェブ
セマンティックウェブへの拡張
 Companion Specification for xAPIVocabularies
 2016年3月に仕様公開
 xAPIの語彙をLinked Dataとしてウェブ公開...
考えられる未来
データの収集から分析まで含めた、AIによる完全
自動化への期待
xAPIとセマンティックウェブ
LMS
 機械がインターネットを探索して動詞、アクティビティの意
味を解釈し、再利用(レシピに従ったステートメント生成)
Anal...
外部データを用いた分析アプローチ
学習ログと公的統計データを組み合わせた
学習に対する生活環境の影響分析
分析
作業の流れ
1. データ収集
2. 分析対象とデータの関係把握…主成分分析
3. 説明変数の候補選択…ランダムフォレスト
4. モデル構築…一般化線形モデル
分析
データ収集
 平成25年度 全国学力・学習状況調査(国立教育政策研究所、変数4)
http://www.nier.go.jp/13chousakekkahoukoku/data/area/
 平成14年全国物価統計調査 >全国物価地域...
分析
データ収集
 平成23年社会生活基本調査 >生活時間に関する結果(総務省、変数24)
http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001041121&
 社会生活統計指標-都道府県...
分析
学習ログの単純集計 – 地域の傾向
トップ
1. 石川(61.1)
2. 青森(61.1)
3. 福島(60.7)
平均進捗率ランキング
ワースト
1. 宮崎(44.8)
2. 高知(44.9)
3. 徳島(45.8)
長い
1. 石川(...
分析
学習ログの単純集計 – 講座数毎の学習時間と進捗率
受講講座数が増えると
平均学習時間は短縮傾
向、平均進捗率は上昇
傾向
学習時間のバラつきが
少ない
仮説
学習効率の良いユーザ
が残る
分析
統計データの単純集計 – 地域の傾向
トップ
1. 秋田(82.8)
2. 福井(81.8)
3. 青森(80.7)
学力試験正答率(算数A, 平成25年)
ワースト
1. 沖縄(73.3)
2. 島根(74.3)
3. 岡山(74.6)...
分析
主成分分析
 多次元データを少ない次元に縮約(次元圧縮)するテクニック
 データの特徴を最もよく表す座標軸が第1主成分。
座標軸上に射影された各点のバラツキ(固有値)が最も大きい
=情報量が多い
 固有値が大きい順に第1, 第2, ...
分析
主成分分析
寄与率
累積寄与率 第1~2主成分に約48%
の情報量が縮約
第1主成分:約38.7%
第2主成分:約09.3%
 相関行列から固有値、固有ベクトルを算出
分析
主成分分析 – 主成分の意味づけ(PC1)
 所得と通勤・通学、学業以外の学習、
趣味・娯楽の時間が正の相関
 所得と睡眠時間は負の相関
特徴
 光熱・水道物価指数とメディア(TV, ラ
ジオ, 新聞, 雑誌等)、休養は正の相関
...
分析
主成分分析 – 主成分の意味づけ(PC2)
 3次活動時間とメディア(TV, ラジオ, 新
聞, 雑誌)、休養時間、物価指数は正の
相関
特徴
 2次活動時間と3次活動時間が負の相関
1次活動…生理的に必要な活動(睡眠、食事など)
2...
分析
主成分分析 – 地域の傾向PC2義務的活動度
PC1 活動指向性
主に東北、北海道は活動指向性が内、義務
的活動が低で、1次活動(生理的に必要な活
動)時間や光熱・水道物価指数が高い
傾向
内外
高
低
東京、神奈川、愛知、大阪は活動指向...
分析
ランダムフォレスト
 観測データからブートストラップ法で複数のサンプルを復元抽出
 抽出したそれぞれのサンプルから分類木(質的データ)、回帰木(量
的データ)を生成
 生成した木から目的変数に対する説明変数の重要度を計算
https...
分析
ランダムフォレスト – 説明変数の候補選択
予測の良さ 不純度
 目的変数は都
道府県別平均
進捗率
 説明変数とし
て公的統計
データと学習
ログを合わせ
た115個の変数
を指定
分析
ランダムフォレスト
利用できそうな変数
もちろんランダムフォレスト
で予測分布を作ることは可能
だが今回は予測のための統計
モデルを構築
平均学習時間, 光熱・水道物価, 月間平均実労働時間(男性), 最高気温, 年収(2012,
201...
分析
進捗率と変数の関係 – 最高気温
 最高気温が平均未満の地域の
進捗率分布は、進捗率が高め
に分布
 最高気温のみを説明変数とし
た進捗率予測分布は右下がり
気温(室温)が高いと学習
効率が低下
分析
進捗率と変数の関係 – 光熱・水道物価指数
 平均以上の地域の進捗率分布
は、進捗率が高めに分布
 光熱・水道物価指数のみを説
明変数とした進捗率予測分布
は右上がり
光熱費は学習にプラスの効
果がある
分析
進捗率と変数の関係 – 月間平均労働時間
 平均以上の地域の進捗率分布
は、進捗率が高めに分布
 月間平均労働時間のみを説明
変数とした進捗率予測分布は
右上がり
労働時間は学習にプラスの
効果がある
分析
一般化線形モデル(GLM)
 観測データは何らかの確率分布に従っていると仮定
 最尤推定法で統計モデルのパラメータを推定
 Rのglm()関数
目的変数と説明変数、使用する確率分布、観測データ等を指定すると
線形予測子の各係数や逸脱...
一般化線形モデル(GLM)
説明変数が“学習時間”のみの単純モデル
 進捗率のバラつきがうまく表現できていない
相関係数:0.4
分散
• 観測値:15.46
• 推定値:02.71
平均
• 観測値:51.75
• 推定値:51.75
AI...
一般化線形モデル(GLM)
PC, RFで選定した変数で複雑モデルを構築
目的変数:
 平均進捗率
説明変数:
 平均学習時間の二乗⇒負の作用
 中高年齢者就職率
 月間平均実労働時間数(男性)
 最高気温⇒負の作用
 買い物時間⇒...
一般化線形モデル(GLM)
複雑モデルによる推定
 分散の具合が観測値に近づき、相関係数が増加、AICは改善
相関係数:0.82
分散
• 観測値:15.46
• 推定値:10.4
平均
• 観測値:51.75
• 推定値:51.75
AIC...
一般化線形モデル(GLM)
複雑モデルによる推定
 分散の具合が観測値に近づき、相関係数が増加、AICは改善
相関係数:0.82
分散
• 観測値:15.46
• 推定値:10.4
平均
• 観測値:51.75
• 推定値:51.75
AIC...
一般化線形モデル(GLM)
単純モデルと複雑モデルの残差比較
 複雑モデルでは残差のバラつき範囲が単純モデルより狭い範囲に収束
一般化線形モデル(GLM)
ヒストグラムによる残差の比較
 学習時間のみの単純モデル(下図、model 1)では28個、選定した変数
による複雑モデル(同、model 2)では36個が残差±5%の範囲に収
まっている
一般化線形モデル(GLM)
観測値と複雑モデルによる推定値のプロット
 横軸:平均学習時間、縦軸:平均進捗率
残差5%以上の過大推定
残差5%以上の過小推定 過大・過小推定の基準が残差
±10%の場合、概ね基準内に収
まるが、±5%では学習時...
一般化線形モデル(GLM)
予測曲線
 複雑モデルから推測される進捗率に対する学習時間の効果
70分付近で進捗が頭打ち
仮説
約70分を境に進捗率に対する学
習時間の効果がプラスからマイ
ナスに転換する
単純モデル
複雑モデル
一般化線形モデル(GLM)
ロジスティック回帰分析
 講座完了率:受講講座数に対する完了講座数の割合
 説明変数に平均進捗率、受講講座数、
最少学習時間を設定
 二項分布
 完了率は0~1の値をとる
受講講座数N中、y講座が完了
 説...
一般化線形モデル(GLM)
ロジスティック回帰分析
 講座完了率:受講講座数に対する完了講座数の割合
 最小学習時間が短いほど講座完了率
が高い
完了率に対して最小学習時間は負の効果
最小学習時間が1分から20分に伸びると、完
了率のオッズ...
一般化線形モデル(GLM)
ロジスティック回帰分析
 おまけ:一般化線形混合モデルによる未知のバラつき推定
LAとAIへの期待
 都道府県の統計データと学習ログから進捗率(のバラつき)
を推定できることがわかった
まとめ
 学習ログだけでは把握できない生活態度や環境の影響を含め
た包括的な分析ができる可能性あり
 今回の分析では主成分の解釈や説...
今回の資料はfacebookページで公開予定です。
https://www.facebook.com/mananda.jp/
ご清聴いただき、ありがとうございました。
Nächste SlideShare
Wird geladen in …5
×

グラフで繋がり可視化されるデータ

314 Aufrufe

Veröffentlicht am

eラーニングアワード2016にて講演した「グラフで繋がり、可視化されるデータ」の資料

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

グラフで繋がり可視化されるデータ

  1. 1. “グラフ”で繋がり、 可視化されるデータ データ表現の技術的側面とLA活用の可能性 株式会社デジタル・ナレッジ プラットフォーム事業部 教育ビッグデータチーム 田中 伸一
  2. 2. Agenda • xAPIの動向 • xAPIとセマンティックウェブ • 外部データを用いた分析アプローチ
  3. 3. xAPIの動向 海外の活用事例と今後の展開
  4. 4. xAPIの動向 xAPIの登場から3年  従業員243,000人へのコンプライアンス教育で学習履歴 の統合管理とリアルタイム監視(AT&T)  IoTを駆使した緊急医療訓練(NIST,US Ignite@GTCT)  レガシーLMSへのLRS組み込みで最新のレポーティング 機能とモバイル環境に対応(Network, Inc.)  LRSテストスイートの提供(Riptide Software)  etc. 幅広い分野でxAPIが活用されている http://www.tryxapi.com/case-studies.html
  5. 5. xAPIの動向 xAPIの登場から3年  従業員243,000人へのコンプライアンス教育で学習履歴 の統合管理とリアルタイム監視(AT&T)  IoTを駆使した緊急医療訓練(NIST,US Ignite@GTCT)  レガシーLMSへのLRS組み込みで最新のレポーティング 機能とモバイル環境に対応(Network, Inc.)  LRSテストスイートの提供(Riptide Software)  etc. 様々な分野でxAPIの活用事例が報告されている http://www.tryxapi.com/case-studies.html
  6. 6. xAPIの動向 https://www.us-ignite.org/globalcityteams/actioncluster/NSkmt5PEY5iTYgweMCPvRd/  事例「IoTを駆使した緊急医療訓練(NIST,US Ignite)」の場合 Bluetooth近距離ビーコン, 無線センサー, 超小型マイコンを EMT(救急医療技師)や患者、医療機器、救急車、ER施設に配置  センサーが捉えたデータをクラウド上の分析システムに送信  ER指導医がリアルタイムでモニタリング  GTCT(Global CityTeam Challenge)の一環 IoTを活用した地域社会の「質の向上」を目指し、自治体や非営 利団体、大学、民間企業などが協力 Sectors: Public Safety, Education,Transportation, Health, etc.  Ecosystem for Smart Medical SimulationTeamTraining 2016年6月~Phase 2
  7. 7. 開発者向け情報 https://mananda.jp/developer/index.html  ところで…  ManandaはLRSを公開 アカウントを登録(無料)し、Developerサイトにアクセスするとア プリケーションの登録方法、エンドポイントへの接続方法、xAPI 仕様のサポート状況、バッジ(デジタル修了証)システムの活用方 法などの情報を提供 検索キーワード「xapi oauth」でGoogle検索するとManandaOAuthAPI Betaのページが2番目に出てきます。  法人での利用をご希望の方はセールス窓口に御問合せください sales@mananda.jp
  8. 8. 開発者向け情報  Mananda LRSアプリケーションの例  簡易YouTubeプレイヤー  JavaScriptとHTMLのみで開発  YouTubeのAPIを活用  プレイヤーに対するユーザの操作をxAPIでLRSに蓄積  過去の操作も含めた履歴をリスト表示  視聴頻度をヒートマップでリアルタイム表示 法人用途であれば受 講者の視聴状況を一 覧できるレポーティ ングツールなども考 えられる
  9. 9.  両仕様の要約レベルでの違いをまとめた”Initial xAPI/Caliper Comparison”公開 xAPIの動向 xAPIとCaliper  ADLがIMSに加入  2016年8月、IMS四半期会議の一部として”The xAPI and Caliper Dicovery Review”を開催 https://www.imsglobal.org/initial-xapicaliper-comparison  2016年11月、”The xAPI and Caliper Dicovery Review 2”を開催  両仕様の詳細レベルでの違いを検討 https://www.adlnet.gov/adl-experience-api-xapi-and-ims-caliper-discovery-review-2/
  10. 10. xAPIとセマンティックウェブ xAPIの相互運用における課題  従来  動詞やアクティビティにIRI形式のIDを使用。  動詞ID、アクティビティIDは自由に定義できる。  ただしシステム間でIDと語彙を対応付けて相互運用性を確保する ための指針が明示されていなかった。 米国Rustici Software社は独自に”TinCan Registry”を運営・公開  2015年、xAPIコミュニティはワーキンググループ(xAPIVocabulary & Semantic Interoperability Community Group)を結成し、セマン ティックウェブのリサーチを開始。 xAPI(旧TinCanAPI) 0.95以前は仕様に動詞、アクティビティの共通語彙が記載 されていたが、以降の仕様からは削除
  11. 11. xAPIとセマンティックウェブ セマンティックウェブ  SemanticWeb “W3C のティム・バーナーズ=リーによって提唱された、ウェブページの意味 を扱うことを可能とする標準やツール群の開発によってワールド・ワイド・ ウェブの利便性を向上させるプロジェクト。セマンティック・ウェブの目的 はウェブページの閲覧という行為に、データの交換の側面に加えて意味の疎 通を付け加えることにある。”(wikipediaより抜粋) https://ja.wikipedia.org/wiki/%E3%82%BB%E3%83%9E%E3%83%B3%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%E3%83%BB%E3 %82%A6%E3%82%A7%E3%83%96 RDF(Resource Description Framework) – Linked Data OWL(Web Ontology Language) – 語彙 SPARQL – 検索
  12. 12. RDFグラフ Abigail@example.jp  名前はSasaki Abigail  住所は東京都台東区  AbbieとBobの知り合い  ABC大学のメンバ  RDF: リソースの繋がりを記述するためのフレームワーク  基本単位は「主語-述語-目的語」(RDFトリプル)  一つ以上のトリプルが組み合わされてRDFグラフを構成  自由に語彙を定義できる – FOAF, Dublin Core, SKOS, etc. xAPIとセマンティックウェブ Google, MS,Yahooがスポンサーする共通 語彙のまとめサイトschema.orgは記述例 にRDFa, JSON-LD, Microdataを採用
  13. 13. 自治体におけるRDF活用 – オープンデータ  データ シティ鯖江(福井県鯖江市) xAPIとセマンティックウェブ http://www.city.sabae.fukui.jp/pageview.html?id=11552  むろらんオープンデータライブラリ(北海道室蘭市) http://www.city.muroran.lg.jp/main/org2260/odlib.php  埼玉県オープンデータ(埼玉県) https://opendata.pref.saitama.lg.jp/  すぎナビオープンデータ(東京都杉並区) http://www2.wagmap.jp/suginami/top/opendata.asp 多くの自治体がオープンデータの取り組みとして統計データ やサービスに関する情報などをRDF形式で公開している
  14. 14. xAPIとセマンティックウェブ セマンティックウェブへの拡張  Companion Specification for xAPIVocabularies  2016年3月に仕様公開  xAPIの語彙をLinked Dataとしてウェブ公開し、相互運用するため のビルディングブロック  入門書” Experience xAPIVocabulary Primer” RDF JSON-LD https://adl.gitbooks.io/companion-specification-for-xapi-vocabularies/content/ https://adl.gitbooks.io/experience-xapi-vocabulary-primer/content/
  15. 15. 考えられる未来 データの収集から分析まで含めた、AIによる完全 自動化への期待 xAPIとセマンティックウェブ LMS  機械がインターネットを探索して動詞、アクティビティの意 味を解釈し、再利用(レシピに従ったステートメント生成) Analytics Reporting  個々の学習者についての課題発見から、その克服にベストな教材、 学習方法のレコメンドまでを自動で行う  与えられた目的に応じて学習ログとウェブ上に公開された背 景データ(統計など)を探索、ジョインし、多角的に分析
  16. 16. 外部データを用いた分析アプローチ 学習ログと公的統計データを組み合わせた 学習に対する生活環境の影響分析
  17. 17. 分析 作業の流れ 1. データ収集 2. 分析対象とデータの関係把握…主成分分析 3. 説明変数の候補選択…ランダムフォレスト 4. モデル構築…一般化線形モデル
  18. 18. 分析 データ収集  平成25年度 全国学力・学習状況調査(国立教育政策研究所、変数4) http://www.nier.go.jp/13chousakekkahoukoku/data/area/  平成14年全国物価統計調査 >全国物価地域差指数編(総務省、変数12) http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001006111  労働統計年報 平成21年 > III 賃金(厚生労働省、変数26) http://www.mhlw.go.jp/toukei/youran/roudou-nenpou/03.html  県民経済計算(平成13年度 - 平成25年度)(内閣府、変数13) http://www.esri.cao.go.jp/jp/sna/data/data_list/kenmin/files/contents/main_h25.html
  19. 19. 分析 データ収集  平成23年社会生活基本調査 >生活時間に関する結果(総務省、変数24) http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001041121&  社会生活統計指標-都道府県の指標-2016(総務省、変数17※自然環境) http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001068038&cycode=0 +  某オンライン学習サービスのログデータの都道府県集計 進捗率、学習時間、学習間隔、受講講座数、完了講座数の平均値、中央 値、最大・最小値、標準偏差 計116変数
  20. 20. 分析 学習ログの単純集計 – 地域の傾向 トップ 1. 石川(61.1) 2. 青森(61.1) 3. 福島(60.7) 平均進捗率ランキング ワースト 1. 宮崎(44.8) 2. 高知(44.9) 3. 徳島(45.8) 長い 1. 石川(76.3) 2. 佐賀(74.2) 3. 熊本(66.5) 平均学習時間ランキング 短い 1. 富山(43.6) 2. 宮崎(43.8) 3. 愛媛(45.4)
  21. 21. 分析 学習ログの単純集計 – 講座数毎の学習時間と進捗率 受講講座数が増えると 平均学習時間は短縮傾 向、平均進捗率は上昇 傾向 学習時間のバラつきが 少ない 仮説 学習効率の良いユーザ が残る
  22. 22. 分析 統計データの単純集計 – 地域の傾向 トップ 1. 秋田(82.8) 2. 福井(81.8) 3. 青森(80.7) 学力試験正答率(算数A, 平成25年) ワースト 1. 沖縄(73.3) 2. 島根(74.3) 3. 岡山(74.6) トップ 1. 秋田(67.1) 2. 福井(65.1) 3. 石川(64.3) 学力試験正答率(算数B, 平成25年) ワースト 1. 北海道(54) 2. 沖縄(54.4) 3. 群馬(55)
  23. 23. 分析 主成分分析  多次元データを少ない次元に縮約(次元圧縮)するテクニック  データの特徴を最もよく表す座標軸が第1主成分。 座標軸上に射影された各点のバラツキ(固有値)が最も大きい =情報量が多い  固有値が大きい順に第1, 第2, ・・・, 第n主成分と呼ぶ  各主成分は直行する  全情報量に占める各主成分の情報量を寄与率、それを第1主成分から累 積したものを累積寄与率と呼ぶ
  24. 24. 分析 主成分分析 寄与率 累積寄与率 第1~2主成分に約48% の情報量が縮約 第1主成分:約38.7% 第2主成分:約09.3%  相関行列から固有値、固有ベクトルを算出
  25. 25. 分析 主成分分析 – 主成分の意味づけ(PC1)  所得と通勤・通学、学業以外の学習、 趣味・娯楽の時間が正の相関  所得と睡眠時間は負の相関 特徴  光熱・水道物価指数とメディア(TV, ラ ジオ, 新聞, 雑誌等)、休養は正の相関  光熱・水道物価指数と所得は負の相関 活動指向性 解釈 内 外
  26. 26. 分析 主成分分析 – 主成分の意味づけ(PC2)  3次活動時間とメディア(TV, ラジオ, 新 聞, 雑誌)、休養時間、物価指数は正の 相関 特徴  2次活動時間と3次活動時間が負の相関 1次活動…生理的に必要な活動(睡眠、食事など) 2次活動…社会生活を営む上で義務的な性格の強い 活動(仕事、家事など) 3次活動…1次、2次活動以外で自由に使える活動 解釈 義務的活動度 高 低
  27. 27. 分析 主成分分析 – 地域の傾向PC2義務的活動度 PC1 活動指向性 主に東北、北海道は活動指向性が内、義務 的活動が低で、1次活動(生理的に必要な活 動)時間や光熱・水道物価指数が高い 傾向 内外 高 低 東京、神奈川、愛知、大阪は活動指向性が 外で、買い物時間が長い 九州は活動指向性は内、義務的活動が高。 概ね物価指数とは負の相関に位置する 岐阜、長野、群馬は仕事、学業、スポーツ 時間が長い 平均進捗率(mrate)のベクトルは活動指向性 が内、義務的活動が低の領域に向いている 平均進捗率
  28. 28. 分析 ランダムフォレスト  観測データからブートストラップ法で複数のサンプルを復元抽出  抽出したそれぞれのサンプルから分類木(質的データ)、回帰木(量 的データ)を生成  生成した木から目的変数に対する説明変数の重要度を計算 https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%BC%E3%83%88%E3%82%B9%E3%83%88%E3%83%A9%E3%83%83%E3%83%97%E6%B3%95  実行の度に結果が変動(乱数生成に初期ベクトルを与える)
  29. 29. 分析 ランダムフォレスト – 説明変数の候補選択 予測の良さ 不純度  目的変数は都 道府県別平均 進捗率  説明変数とし て公的統計 データと学習 ログを合わせ た115個の変数 を指定
  30. 30. 分析 ランダムフォレスト 利用できそうな変数 もちろんランダムフォレスト で予測分布を作ることは可能 だが今回は予測のための統計 モデルを構築 平均学習時間, 光熱・水道物価, 月間平均実労働時間(男性), 最高気温, 年収(2012, 2010, 2007), 雇用者比率, 短大新規卒業者の無業者率, 年間雪日数, 1次活動時間, 睡眠 ※分析の過程で変動 左図 観測データ約9000件の半分を訓練用、残 りをテスト用に使用し作成した予測分布
  31. 31. 分析 進捗率と変数の関係 – 最高気温  最高気温が平均未満の地域の 進捗率分布は、進捗率が高め に分布  最高気温のみを説明変数とし た進捗率予測分布は右下がり 気温(室温)が高いと学習 効率が低下
  32. 32. 分析 進捗率と変数の関係 – 光熱・水道物価指数  平均以上の地域の進捗率分布 は、進捗率が高めに分布  光熱・水道物価指数のみを説 明変数とした進捗率予測分布 は右上がり 光熱費は学習にプラスの効 果がある
  33. 33. 分析 進捗率と変数の関係 – 月間平均労働時間  平均以上の地域の進捗率分布 は、進捗率が高めに分布  月間平均労働時間のみを説明 変数とした進捗率予測分布は 右上がり 労働時間は学習にプラスの 効果がある
  34. 34. 分析 一般化線形モデル(GLM)  観測データは何らかの確率分布に従っていると仮定  最尤推定法で統計モデルのパラメータを推定  Rのglm()関数 目的変数と説明変数、使用する確率分布、観測データ等を指定すると 線形予測子の各係数や逸脱度、AICなどを算出してくれる 正規分布、二項分布、ポアソン分布、ガンマ分布に対応 説明変数の関数=線形予測子として表現する 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑦𝑖 +・・・ AIC(赤池情報量基準)…統計モデル選択基準の一種 https://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E6%83%85%E5%A0%B1%E9%87%8F%E8%A6%8F%E6%BA%96
  35. 35. 一般化線形モデル(GLM) 説明変数が“学習時間”のみの単純モデル  進捗率のバラつきがうまく表現できていない 相関係数:0.4 分散 • 観測値:15.46 • 推定値:02.71 平均 • 観測値:51.75 • 推定値:51.75 AIC:256.9 残差5%以上の過小推定 残差5%以上の過大推定
  36. 36. 一般化線形モデル(GLM) PC, RFで選定した変数で複雑モデルを構築 目的変数:  平均進捗率 説明変数:  平均学習時間の二乗⇒負の作用  中高年齢者就職率  月間平均実労働時間数(男性)  最高気温⇒負の作用  買い物時間⇒負の作用  住居物価指数  大学卒業者に占める就職者の割合  平均受講講座数の中央値、最大値
  37. 37. 一般化線形モデル(GLM) 複雑モデルによる推定  分散の具合が観測値に近づき、相関係数が増加、AICは改善 相関係数:0.82 分散 • 観測値:15.46 • 推定値:10.4 平均 • 観測値:51.75 • 推定値:51.75 AIC:229 残差5%以上の過大推定
  38. 38. 一般化線形モデル(GLM) 複雑モデルによる推定  分散の具合が観測値に近づき、相関係数が増加、AICは改善 相関係数:0.82 分散 • 観測値:15.46 • 推定値:10.4 平均 • 観測値:51.75 • 推定値:51.75 AIC:229 相関係数:0.4 分散 • 観測値:15.46 • 推定値:02.71 平均 • 観測値:51.75 • 推定値:51.75 AIC:256.9 <単純モデル> <複雑モデル>
  39. 39. 一般化線形モデル(GLM) 単純モデルと複雑モデルの残差比較  複雑モデルでは残差のバラつき範囲が単純モデルより狭い範囲に収束
  40. 40. 一般化線形モデル(GLM) ヒストグラムによる残差の比較  学習時間のみの単純モデル(下図、model 1)では28個、選定した変数 による複雑モデル(同、model 2)では36個が残差±5%の範囲に収 まっている
  41. 41. 一般化線形モデル(GLM) 観測値と複雑モデルによる推定値のプロット  横軸:平均学習時間、縦軸:平均進捗率 残差5%以上の過大推定 残差5%以上の過小推定 過大・過小推定の基準が残差 ±10%の場合、概ね基準内に収 まるが、±5%では学習時間ラン キング上位の過小・過大推定と なった 仮説 学習時間の長短の理由を説 明する未知の変数が進捗率 に関係している可能性
  42. 42. 一般化線形モデル(GLM) 予測曲線  複雑モデルから推測される進捗率に対する学習時間の効果 70分付近で進捗が頭打ち 仮説 約70分を境に進捗率に対する学 習時間の効果がプラスからマイ ナスに転換する 単純モデル 複雑モデル
  43. 43. 一般化線形モデル(GLM) ロジスティック回帰分析  講座完了率:受講講座数に対する完了講座数の割合  説明変数に平均進捗率、受講講座数、 最少学習時間を設定  二項分布  完了率は0~1の値をとる 受講講座数N中、y講座が完了  説明変数を変動させた際のオッズ比 がわかる  横軸:進捗率、縦軸:完了講座数
  44. 44. 一般化線形モデル(GLM) ロジスティック回帰分析  講座完了率:受講講座数に対する完了講座数の割合  最小学習時間が短いほど講座完了率 が高い 完了率に対して最小学習時間は負の効果 最小学習時間が1分から20分に伸びると、完 了率のオッズは約0.4倍となる 「最小学習時間20分の人は同1分の人に比べ て受講講座をすべて完了できないリスクが 2.5倍」
  45. 45. 一般化線形モデル(GLM) ロジスティック回帰分析  おまけ:一般化線形混合モデルによる未知のバラつき推定
  46. 46. LAとAIへの期待  都道府県の統計データと学習ログから進捗率(のバラつき) を推定できることがわかった まとめ  学習ログだけでは把握できない生活態度や環境の影響を含め た包括的な分析ができる可能性あり  今回の分析では主成分の解釈や説明変数の選定、統計モデル の構築など、多くの部分で人間の試行錯誤が必要 ⇒AIに期待する部分 必要なデータの選定、収集から予測に最適な統計モデ ルの構築・評価、結果の可視化までを自動的に行うよ うなAIの登場に期待
  47. 47. 今回の資料はfacebookページで公開予定です。 https://www.facebook.com/mananda.jp/
  48. 48. ご清聴いただき、ありがとうございました。

×