SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Downloaden Sie, um offline zu lesen
「Rによるやさしい統計学」第18章

人工データの発生
@yokkuns: 里 洋平
yohei0511@gmail.com
2013.11.09 第35回Tokyo.R

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
里 洋平 (@yokkuns)
■元Webエンジニアのデータサイエンティスト
■TokyoRの主催者

2013年11月9日土曜日
執筆しました

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
なぜ人工データを発生させるのか?
統計学やデータ解析自体の研究•学習の際に
特定の条件を満たすようなデータが欲しい

・シミュレーション実験
・例題用の仮想データ
勉強会とか執筆とか
・データ解析手法を試すために都合の良いデータ
...

2013年11月9日土曜日
どんな人工データが作れるのか
特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ
② 母集団分布を指定した多変量データ
③ 統計モデルを指定した多変量データ
例: 回帰分析モデル、因子分析モデル、etc...

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
確率分布に従う乱数の生成
乱数を生成する関数一覧
確率分布

関数名

引数としてしていする母数

正規分布

rnorm

mean, sd

一様分布

runif

min, max

ベータ分布

rbeta

shape1, shape2, ncp

二項分布

rbiom

size, prob

コーシー分布

rcauchy

location, scale

カイ二乗分布

rchisq

df, ncp

指数分布

rexp

rate

F分布

rf

df1, df2, cnp

ガンマ分布

rgamma

prob

...

...

...

2013年11月9日土曜日
実行例: 正規分布
rnorm関数

2013年11月9日土曜日
実行例: 一様分布
runif関数

2013年11月9日土曜日
実行例: 任意の離散的確率分布
runif関数による乱数とcut関数を用いて
任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日
統計学の法則・定理の検証
統計学を勉強してると謎の法則とか定理が出てくる
人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87

http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

2013年11月9日土曜日
大数の法則とは
ある母集団から無作為抽出された標本データの平均は
サンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/
2013年11月9日土曜日
正規分布によるシミュレーション
rnorm関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
二項分布によるシミュレーション
rbiom関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
中心極限定理とは
標本平均と真の平均との誤差は
サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2signifi/
index.htm
2013年11月9日土曜日
正規分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を1,000回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
相関関係

http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM
2013年11月9日土曜日
任意の母相関を持つ2変数データの生成(方法1)
分散の等しい母集団から独立に無作為抽出された
2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
線形回帰分析とは
観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html
2013年11月9日土曜日
線形回帰分析の仮定
線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html
2013年11月9日土曜日
回帰分析モデルに基づく人工データの生成
回帰係数と切片を固定し、xとeを乱数で生成する事で
回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日
人工データに対して回帰分析を実行

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
■ LT募集しています!

http://www.japanr.org/information/2013/11/03/lt/

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
ご清聴ありがとうございました!

2013年11月9日土曜日

Weitere ähnliche Inhalte

Was ist angesagt?

統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみたTakashi Yamane
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデルMasashi Komori
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデルlogics-of-blue
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本hoxo_m
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章Hakky St
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...Deep Learning JP
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」Ken'ichi Matsui
 
Prophet入門【理論編】Facebookの時系列予測ツール
Prophet入門【理論編】Facebookの時系列予測ツールProphet入門【理論編】Facebookの時系列予測ツール
Prophet入門【理論編】Facebookの時系列予測ツールhoxo_m
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeTakami Sato
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話Classi.corp
 
20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)Masakazu Shinoda
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 

Was ist angesagt? (20)

統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
 
Prophet入門【理論編】Facebookの時系列予測ツール
Prophet入門【理論編】Facebookの時系列予測ツールProphet入門【理論編】Facebookの時系列予測ツール
Prophet入門【理論編】Facebookの時系列予測ツール
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 

Mehr von Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 

Mehr von Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 

Tokyor35 人工データの発生