SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Rによる大量データのプロット
作成: 2013年7月1日(火)
~ 擬似ミクロデータによるデモ ~
データ量が多いとき
「Rによる散布図行列の描き方」では、あやめの
花のデータを使用している。データ数は150。
もしデータが
数万レコード
あったら???
Sepal.Length
2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5
4.55.56.57.5
2.02.53.03.54.0 Sepal.Width
Petal.Length
1234567
4.5 5.5 6.5 7.5
0.51.01.52.02.5
1 2 3 4 5 6 7
Petal.Width
3万レコードの擬似ミクロデータ
就業を黒、不就業を赤、不詳を黄に色分けしたが
多くのデータが重なり合うと、もはや
わけがわからない
0.0e+00 5.0e+06 1.0e+07 1.5e+07
0e+004e+068e+06 擬似ミクロ(実軸)
実収入
消費支出
4.0 5.0 6.0 7.0
4.55.05.56.06.57.0
擬似ミクロ(常用対数軸)
実収入消費支出
3万レコードの擬似ミクロデータ
# 「公的統計擬似ミクロデータのRへの読込み」で作成したデータ
# ファイル "giji.Rdata" を使用。この中にあるdt1はデータ自体、
# cd1には漢字変数名等の符号表の情報が収められている。
setwd("c:/test") # データファイルの置き場所を指定
load("giji.RData") # 保存ファイルを開く
attach(dt1) # 変数名の直接参照が可能になる
# 就業・不就業で色分けしたいので状況把握
table(S1_Shuugyou) #1. 就業 2.不就業 V.不詳
プロットに用いたRのコード(1)
S1_Shuugyou
1 2 V
30017 1770 240
就業が3万余、不就業や不詳はかなり少ない
(二人以上の勤労者世帯データのため)
3万レコードの擬似ミクロデータ
# fg1を色分けフラグとして使用する
fg1 <- rep(1, length(S1_Shuugyou)) # データ数と同じ長さのフラグ を作り、1をセット
fg1[which(S1_Shuugyou == levels(S1_Shuugyou)[2])] <- 2 # S1_Shuugyouは因子データ
fg1[which(S1_Shuugyou == levels(S1_Shuugyou)[3])] <- 3
par(mfrow=c(1,2)) # 1行2列に画面分割
plot(Youto003, Youto037, col=c("black", "red", "yellow")[fg1],
xlab=cd1$koumoku[which(cd1$namae == "Youto003")],
ylab=cd1$koumoku[which(cd1$namae == "Youto037")], main="擬似ミクロ(実軸)" )
plot(log10(Youto003), log10(Youto037), col=c("black", "red", "yellow")[fg1],
xlab=cd1$koumoku[which(cd1$namae == "Youto003")],
ylab=cd1$koumoku[which(cd1$namae == “Youto037”)] , main=“擬似ミクロ(常用対数
軸)”)
プロットに用いたRのコード(2)
xlabとylabは、cd1に含まれているYouto003及び037に対応する漢字の変数名
をセットしている。
ちょっとした一つの工夫
数の少ないデータを目立たせる
4.0 4.5 5.0 5.5 6.0 6.5 7.0
4.55.05.56.06.57.0
擬似ミクロ(常用対数軸)
実収入
消費支出
plot(log10(Youto003), log10(Youto037), col=c("black", "red", "yellow")[fg1],
xlab=cd1$koumoku[which(cd1$namae == "Youto003")],
ylab=cd1$koumoku[which(cd1$namae == "Youto037")] , main="擬似ミクロ(常用対数軸)")
points(log10(Youto003[fg1==2]), log10(Youto037[fg1==2]), col="red")
points(log10(Youto003[fg1==3]), log10(Youto037[fg1==3]), col="yellow")
数の少ない色のプ
ロット点を後から再
度描き込むと、数の
多いプロット点に埋
もれず見やすいよ
データポイント
に透過性を持た
せると、データが
重なる部分の色
が濃くなり、密集
部分の状況がさ
らにわかりやす
いかも
もうちょっと頑張ってみると
透過プロット
同じプロットだけど、色の濃淡
で密度がわかる!
透過プロット
par(mfrow=c(1,1)) # 1行1列に画面分割を戻す
plot(log10(Youto003), log10(Youto037), pch=20,
col=(rgb(r=c(0,1,1)[fg1], g=c(0,0,1)[fg1], b=c(0,0,0)[fg1],
alpha=0.1)),
xlab=cd1$koumoku[which(cd1$namae == "Youto003")],
ylab=cd1$koumoku[which(cd1$namae == "Youto037")] ,
main="全国消費実態調査擬似ミクロ(常用対数軸)")
# 不就業と不詳を際立たせる方法
points(log10(Youto003[fg1==2]), log10(Youto037[fg1==2]), pch=20,
col=(rgb(r=1, g=0, b=0, alpha=0.2)))
# 黄は色のインパクトが最も弱く、データ数が一番少ないので、際立たせるために
# alphaの値を上げている。
points(log10(Youto003[fg1==3]), log10(Youto037[fg1==3]), pch=20,
col=(rgb(r=1, g=1, b=0, alpha=0.4)))
# 位置指定して凡例描込
legend(4.1, 6.9, c("就業", "不就業", "不詳"), col = c(1,2,7),
pch = 21, bg='gray90')
プロットに用いたRのコード(3)
おわり
9

Weitere ähnliche Inhalte

Was ist angesagt?

Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Wataru Kishimoto
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
Shintaro Fukushima
 

Was ist angesagt? (20)

Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
EuroAD 2021: ChainRules.jl
EuroAD 2021: ChainRules.jl EuroAD 2021: ChainRules.jl
EuroAD 2021: ChainRules.jl
 
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用Kashiwa.R#1 画像解析とパターン認識における R の利用
Kashiwa.R#1 画像解析とパターン認識における R の利用
 
集中不等式のすすめ [集中不等式本読み会#1]
集中不等式のすすめ [集中不等式本読み会#1]集中不等式のすすめ [集中不等式本読み会#1]
集中不等式のすすめ [集中不等式本読み会#1]
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
ggplot2用例集 入門編
ggplot2用例集 入門編ggplot2用例集 入門編
ggplot2用例集 入門編
 
Windowsコンテナ入門
Windowsコンテナ入門Windowsコンテナ入門
Windowsコンテナ入門
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
 
for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
PCAを用いた2群の有意差検定
PCAを用いた2群の有意差検定PCAを用いた2群の有意差検定
PCAを用いた2群の有意差検定
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
 
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx
 

Mehr von wada, kazumi

Mehr von wada, kazumi (20)

Rによる繰り返しの並列処理
Rによる繰り返しの並列処理Rによる繰り返しの並列処理
Rによる繰り返しの並列処理
 
2018Rユーザ会用
2018Rユーザ会用2018Rユーザ会用
2018Rユーザ会用
 
Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017
 
Ⅲ. 資料編 2017
Ⅲ. 資料編 2017Ⅲ. 資料編 2017
Ⅲ. 資料編 2017
 
Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017
 
Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017
 
2017Rユーザ会用
2017Rユーザ会用2017Rユーザ会用
2017Rユーザ会用
 
Rデモ03_データ分析編2016
Rデモ03_データ分析編2016Rデモ03_データ分析編2016
Rデモ03_データ分析編2016
 
Rデモ02_入出力編2016
Rデモ02_入出力編2016Rデモ02_入出力編2016
Rデモ02_入出力編2016
 
Rデモ01_はじめの一歩2016
Rデモ01_はじめの一歩2016Rデモ01_はじめの一歩2016
Rデモ01_はじめの一歩2016
 
統計環境R_データ分析編2016
統計環境R_データ分析編2016統計環境R_データ分析編2016
統計環境R_データ分析編2016
 
統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016
 
統計環境R_データ入出力編2016
統計環境R_データ入出力編2016統計環境R_データ入出力編2016
統計環境R_データ入出力編2016
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
Rプログラミング03 データ分析編
Rプログラミング03 データ分析編Rプログラミング03 データ分析編
Rプログラミング03 データ分析編
 
Rプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモRプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモ
 
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
 
Rプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモRプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモ
 
Rプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモRプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモ
 
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩
 

Kürzlich hochgeladen

Kürzlich hochgeladen (6)

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 

Rによる大規模データのプロット