Submit Search
Upload
Tokyor60 r data_science_part1
•
6 likes
•
6,035 views
Yohei Sato
Follow
Tokyo.R#60 初心者セッション
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 68
Download now
Download to read offline
Recommended
2016年6月版データマエショリスト入門
2016年6月版データマエショリスト入門
Yuya Matsumura
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
Nobuaki Oshiro
Yamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッション
考司 小杉
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
Koichi Hamada
10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用
Nobuaki Oshiro
第1回R勉強会@東京
第1回R勉強会@東京
Yohei Sato
はじめての「R」
はじめての「R」
Masahiro Hayashi
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920
Nobuaki Oshiro
Recommended
2016年6月版データマエショリスト入門
2016年6月版データマエショリスト入門
Yuya Matsumura
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
Nobuaki Oshiro
Yamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッション
考司 小杉
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
Koichi Hamada
10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用
Nobuaki Oshiro
第1回R勉強会@東京
第1回R勉強会@東京
Yohei Sato
はじめての「R」
はじめての「R」
Masahiro Hayashi
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920
Nobuaki Oshiro
Tokyo r33 beginner
Tokyo r33 beginner
Takashi Minoda
Tokyo r47 beginner_2
Tokyo r47 beginner_2
Takashi Minoda
データ解析技術入門(R編)
データ解析技術入門(R編)
Takumi Asai
R入門(dplyrでデータ加工)-TokyoR42
R入門(dplyrでデータ加工)-TokyoR42
Atsushi Hayakawa
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
Yuya Matsumura
2017年3月版データマエショリスト入門(誤植修正版)
2017年3月版データマエショリスト入門(誤植修正版)
Yuya Matsumura
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
Nobuaki Oshiro
HiroshimaR4_LT_sakaue
HiroshimaR4_LT_sakaue
SAKAUE, Tatsuya
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)
Masahiro Hayashi
Tokyo r50 beginner_2
Tokyo r50 beginner_2
Takashi Minoda
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
考司 小杉
初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2
OWL.learn
HiRoshimaR3_IntroR
HiRoshimaR3_IntroR
SAKAUE, Tatsuya
普通のプログラミング言語R
普通のプログラミング言語R
Shuyo Nakatani
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
hicky1225
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
Nobuaki Oshiro
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
Shintaro Fukushima
R による文書分類入門
R による文書分類入門
Takeshi Arabiki
Tokyo r28 1
Tokyo r28 1
Takashi Minoda
Tokyor39 yokkuns
Tokyor39 yokkuns
Yohei Sato
20131206 japan r
20131206 japan r
Yohei Sato
More Related Content
What's hot
Tokyo r33 beginner
Tokyo r33 beginner
Takashi Minoda
Tokyo r47 beginner_2
Tokyo r47 beginner_2
Takashi Minoda
データ解析技術入門(R編)
データ解析技術入門(R編)
Takumi Asai
R入門(dplyrでデータ加工)-TokyoR42
R入門(dplyrでデータ加工)-TokyoR42
Atsushi Hayakawa
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
Yuya Matsumura
2017年3月版データマエショリスト入門(誤植修正版)
2017年3月版データマエショリスト入門(誤植修正版)
Yuya Matsumura
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
Nobuaki Oshiro
HiroshimaR4_LT_sakaue
HiroshimaR4_LT_sakaue
SAKAUE, Tatsuya
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)
Masahiro Hayashi
Tokyo r50 beginner_2
Tokyo r50 beginner_2
Takashi Minoda
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
考司 小杉
初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2
OWL.learn
HiRoshimaR3_IntroR
HiRoshimaR3_IntroR
SAKAUE, Tatsuya
普通のプログラミング言語R
普通のプログラミング言語R
Shuyo Nakatani
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
hicky1225
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
Nobuaki Oshiro
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
Shintaro Fukushima
R による文書分類入門
R による文書分類入門
Takeshi Arabiki
Tokyo r28 1
Tokyo r28 1
Takashi Minoda
What's hot
(20)
Tokyo r33 beginner
Tokyo r33 beginner
Tokyo r47 beginner_2
Tokyo r47 beginner_2
データ解析技術入門(R編)
データ解析技術入門(R編)
R入門(dplyrでデータ加工)-TokyoR42
R入門(dplyrでデータ加工)-TokyoR42
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門(誤植修正版)
2017年3月版データマエショリスト入門(誤植修正版)
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
HiroshimaR4_LT_sakaue
HiroshimaR4_LT_sakaue
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)
Tokyo r50 beginner_2
Tokyo r50 beginner_2
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2
HiRoshimaR3_IntroR
HiRoshimaR3_IntroR
普通のプログラミング言語R
普通のプログラミング言語R
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
R による文書分類入門
R による文書分類入門
Tokyo r28 1
Tokyo r28 1
Viewers also liked
Tokyor39 yokkuns
Tokyor39 yokkuns
Yohei Sato
20131206 japan r
20131206 japan r
Yohei Sato
EasyHtmlReportの紹介
EasyHtmlReportの紹介
Yohei Sato
Rで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
Tokyor35 人工データの発生
Tokyor35 人工データの発生
Yohei Sato
Rでレポートメール
Rでレポートメール
Yohei Sato
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
Tokyor42 ggplot2
Tokyor42 ggplot2
Yohei Sato
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
Viewers also liked
(10)
Tokyor39 yokkuns
Tokyor39 yokkuns
20131206 japan r
20131206 japan r
EasyHtmlReportの紹介
EasyHtmlReportの紹介
Rで階層ベイズモデル
Rで階層ベイズモデル
Tokyor35 人工データの発生
Tokyor35 人工データの発生
Rでレポートメール
Rでレポートメール
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Tokyor42 ggplot2
Tokyor42 ggplot2
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Similar to Tokyor60 r data_science_part1
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
you shimajiro
統計環境R_データ入出力編2016
統計環境R_データ入出力編2016
wada, kazumi
10min r study_tokyor25
10min r study_tokyor25
Nobuaki Oshiro
10min r study_tokyor25
10min r study_tokyor25
Nobuaki Oshiro
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#
ta2c
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
Yuichiro Kobayashi
テーマ別勉強会(R言語)#2.pdf
テーマ別勉強会(R言語)#2.pdf
Takuya Kubo
Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017
wada, kazumi
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
Wataru Shito
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
Masaru Tokuoka
K010 appstat201201
K010 appstat201201
t2tarumi
Alteryxの空間分析で学ぶ、最寄りの指定緊急避難場所と低水位地帯 Developers.IO Tokyo 2019
Alteryxの空間分析で学ぶ、最寄りの指定緊急避難場所と低水位地帯 Developers.IO Tokyo 2019
Yuji Kanemoto
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
Daiyu Hatakeyama
Hiroshimar4_Rintro
Hiroshimar4_Rintro
SAKAUE, Tatsuya
ji-2. 計算
ji-2. 計算
kunihikokaneko1
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
Yasushi Hara
はじめてのベイズ推定
はじめてのベイズ推定
Kenta Matsui
120620 chred r_presentation2
120620 chred r_presentation2
Takayuki Nuimura
統計解析環境Rによる統計処理の基本―検定と視覚化―
統計解析環境Rによる統計処理の基本―検定と視覚化―
SAKAUE, Tatsuya
Similar to Tokyor60 r data_science_part1
(20)
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
統計環境R_データ入出力編2016
統計環境R_データ入出力編2016
10min r study_tokyor25
10min r study_tokyor25
10min r study_tokyor25
10min r study_tokyor25
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
TokyoR24 - PerformanceRvsC#
TokyoR24 - PerformanceRvsC#
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
テーマ別勉強会(R言語)#2.pdf
テーマ別勉強会(R言語)#2.pdf
Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
K010 appstat201201
K010 appstat201201
Alteryxの空間分析で学ぶ、最寄りの指定緊急避難場所と低水位地帯 Developers.IO Tokyo 2019
Alteryxの空間分析で学ぶ、最寄りの指定緊急避難場所と低水位地帯 Developers.IO Tokyo 2019
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
Hiroshimar4_Rintro
Hiroshimar4_Rintro
ji-2. 計算
ji-2. 計算
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
はじめてのベイズ推定
はじめてのベイズ推定
120620 chred r_presentation2
120620 chred r_presentation2
統計解析環境Rによる統計処理の基本―検定と視覚化―
統計解析環境Rによる統計処理の基本―検定と視覚化―
More from Yohei Sato
Tokyor60 opening
Tokyor60 opening
Yohei Sato
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
Yohei Sato
Rでピボットテーブル
Rでピボットテーブル
Yohei Sato
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
Yohei Sato
Tokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
Tokyor24 yokkuns
Tokyor24 yokkuns
Yohei Sato
Tokyowebmining19 data fusion
Tokyowebmining19 data fusion
Yohei Sato
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
Yohei Sato
Complex network ws_percolation
Complex network ws_percolation
Yohei Sato
異常行動検出入門(改)
異常行動検出入門(改)
Yohei Sato
Tokyor22 selection bias
Tokyor22 selection bias
Yohei Sato
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
Yohei Sato
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
Japan r2 lt_yokkuns
Japan r2 lt_yokkuns
Yohei Sato
Japan r2 tokyor
Japan r2 tokyor
Yohei Sato
Japan r2 opening
Japan r2 opening
Yohei Sato
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
Yohei Sato
時系列分析による異常検知入門
時系列分析による異常検知入門
Yohei Sato
More from Yohei Sato
(20)
Tokyor60 opening
Tokyor60 opening
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
Rでピボットテーブル
Rでピボットテーブル
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
Tokyor26 data fusion
Tokyor26 data fusion
Tokyor24 yokkuns
Tokyor24 yokkuns
Tokyowebmining19 data fusion
Tokyowebmining19 data fusion
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
Complex network ws_percolation
Complex network ws_percolation
異常行動検出入門(改)
異常行動検出入門(改)
Tokyor22 selection bias
Tokyor22 selection bias
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Japan r2 lt_yokkuns
Japan r2 lt_yokkuns
Japan r2 tokyor
Japan r2 tokyor
Japan r2 opening
Japan r2 opening
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
時系列分析による異常検知入門
時系列分析による異常検知入門
Tokyor60 r data_science_part1
1.
第Ⅰ部 Rとデータマイニング基礎 Rによる データサイエンス 里 洋平(@yokkuns) Tokyo.R
初心者セッション
2.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
3.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
4.
里 洋平(@yokkuns) DATUM STUDIO
株式会社 取締役CAO ■略歴 ・ヤフー株式会社 ・株式会社ディー・エヌ・エー ・株式会社ドリコム ・DATUM STUDIO株式会社 ■活動 ・Tokyo.R 主催者 ・著書9冊 Tokyo.
5.
バックグラウンド
6.
著書
7.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
8.
本日のテーマ Rによるデータサイエンス 第Ⅰ部 【第I部 Rとデータマイニングの基礎】 第1章
データマイニングとR 言語 第2章 データの入出力と編集 第3章 データの演算と固有値,基本統計量 第4章 データの視覚化 【第II部 Rによるデータ解析・データマイニング】 第1章 主成分分析 第2章 因子分析 ・・・
9.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
10.
データマイニングとは 膨大なデータ から宝(情報・知識)を掘り出す技術 引用:https://boxil.jp/data_mining/a215
11.
データマイニングの事例 • 商品陳列の最適化 • 顧客の履歴データから購入する商品の組み合わせに 関するパタンを抽出し、陳列を見直し売上を上げた •
不正利用の検知 • クレジットカードの使用履歴から不正利用に関する情報 を見つけ出し、未然に防止 • 解約の阻止 • 電話の使用履歴から契約者の行動パタンを特定し、 契約者の逃れを阻止 • ・・・
12.
データマイニングに使われる プログラミング言語 引用:http://bnreddybi.blogspot.jp/2016/07/comparison-between-sas-r-and-spss.html?m=1
13.
R言語とは • オープンソースかつフリーの統計分析ソフトウェア • Windows/Mac
OS X/Linux 各種OSで動作する • 可能なかぎり最新版を利用する事を推奨
14.
RStudioとは • Rで分析を行いやすくするためのソフトウェア • R単体ではスクリプトを記述しなければならない 操作もマウス操作で簡単に出来る
15.
RStudioの画面構成
16.
RStudioの画面構成 コンソール
17.
RStudioの画面構成 エディタ コンソール
18.
RStudioの画面構成 エディタ タブ 1 コンソール
19.
RStudioの画面構成 エディタ タブ 1 コンソール タブ 2
20.
RStudioのプロジェクト機能 • 分析を管理するための機能 • 1つのプロジェクトや分析レポートのような単位で プロジェクトを作成し、利用する ○○分析プロジェクト ○○分析プロジェクト.Rproj 売上データ.csv 顧客データ.csv 分析スクリプト.R ××分析プロジェクト ××分析プロジェクト.Rproj 分析スクリプト.R レポート.Rmd プロジェクト
21.
プロジェクトの作成 1 3 2 4 5
22.
R言語の基本 1行1式が原則 # 平均50、標準偏差10の正規乱数を40個生成 x <-
rnorm(40, mean = 50, sd = 10) # ヒストグラムを描画する hist(x)
23.
R言語の基本 1行1式が原則 # 平均50、標準偏差10の正規乱数を40個生成 x <-
rnorm(40, mean = 50, sd = 10) # ヒストグラムを描画する hist(x) 式 式
24.
R言語の基本 1行1式が原則 # 平均50、標準偏差10の正規乱数を40個生成 x <-
rnorm(40, mean = 50, sd = 10) # ヒストグラムを描画する hist(x) コメント コメント 式 式
25.
関数呼び出し 関数(引数) rnorm(n = 40,
mean = 50, sd = 10) 乱数の個数 平均 標準偏差 正規乱数を 生成する関数
26.
パッケージ 様々な関数がまとめられたもの
27.
パッケージの インストールと読み込み install.packages関数/library関数 # ggplot2 パッケージをインストール install.packages("ggplot2") #
ggplot2 パッケージを読み込む library("ggplot2")
28.
変数 変数 <- 関数呼び出しや演算といった式 #
正規乱数を生成し、 x という名前で定義 x <- rnorm(40, mean = 50, sd = 10) # x には正規乱数が格納されているので、それをプロット hist(x)
29.
データ型 • 実数 (numeric) •
1, 3.14, ... • 整数 (integer) • 1, -2, ... • 複素数 (complex) • 1 + i, 2 - 3i, -1 + 0i... • 文字列 (character) • "abc", 'あいうえお' • 因子(factor)
30.
データ構造 • ベクトル • 行列 •
リスト • データフレーム
31.
ベクトル • データをある順序でならべたもの • 数値ベクトル •
論理ベクトル • 文字ベクトル • 同じデータ型で作られる • 作成方法 • c関数
32.
行列 • 長さが同じである複数ベクトルを1つにまとめた n行m列のデータセット • 同じデータ型で作られる •
作成方法 • matrix関数 • cbind関数 • rbind関数
33.
リスト • 順序付けられたオブジェクトの集まり • 個々の成分は、同じ型である必要はない •
作成方法 • list関数
34.
データフレーム • Rでデータ分析をする時に最も良く使うデータ構造 • 長さが同じである複数ベクトルを1つにまとめた n行m列のデータセット •
実態は、data.frameクラスを持ったリスト • 異なるデータ型で作成可能 • 作成方法 • data.frame関数 • read.table関数
35.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
36.
直接入力 ベクトル > # 果物の売上の割合(単位は%) >
sales<- c(15,20,25,10,30) > # ラベル > fruits <- c("Cherry","Apple","Grape","Banana","Other") > # ベクトルにラベルをつける > names(sales) <- fruits > sales Cherry Apple Grape Banana Other 15 20 25 10 30
37.
直接入力 行列 > sales2 <-
matrix( + data = c(15, 20, 25, 10, 30, + 10, 25, 20, 25, 20), + nrow = 2, ncol = 5, byrow = T + ) > > colnames(sales2) <- fruits > rownames(sales2) <- c("A", "B") > > sales2 Cherry Apple Grape Banana Other A 15 20 25 10 30 B 10 25 20 25 20
38.
直接入力 データフレーム > sales3 <-
data.frame( + shop = c("A", "B"), + Cherry = c(15, 10), + Apple = c(20, 25), + Grape = c(25, 20), + Banana = c(10, 25), + Other = c(30, 20) + ) > > sales3 shop Cherry Apple Grape Banana Other 1 A 15 20 25 10 30 2 B 10 25 20 25 20
39.
ファイル入出力 read.csv関数/write.csv関数 > # csvファイルから読み込み >
sales3 <- read.csv("sales3.csv") > sales3 shop Cherry Apple Grape Banana Other 1 A 15 20 25 10 30 2 B 10 25 20 25 20 > # csvファイルで出力 > write.csv(sales3, "sales3_2.csv", row.names = F)
40.
【補足】 DBからの読み込み DBI::dbGetQuery関数 # SQLite用のライブラリーを読み込む(DBI も同時に読み込まれる) library("RSQLite") #
SQLite用のドライバーを作成し、データベース my.db と接続 driver <- dbDriver("SQLite") conn <- dbConnect(driver, "my.db") # SQLを発行してデータを取得 df <- dbGetQuery(conn, "SELECT * FROM iris")
41.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
42.
算術演算子 演算子 意味 例
結果 + 加算 1 + 2 3 - 減算 5 - 1 4 * 乗算 3 * 5 15 / 除算 10 / 3 3.333333 %% 余り 10 %% 3 1 %/% 整数除算 10 %/% 3 3 ^ べき乗 2^3 8
43.
演算子 意味 例
結果 == 等しい 1 == 1 TRUE != 等しくない 1 != 1 FALSE > 左辺が右辺より大きい 2 > 1 TRUE < 左辺が右辺より小さい 2 < 1 FALSE >= 左辺が右辺より大きい か等しい 2 >= 1 TRUE <= 左辺が右辺より小さい か等しい 2 <= 1 FALSE 比較演算子
44.
演算子 意味 例
結果 ! 否定(NOT) !(F) TRUE & 積(AND) c(T, T) & c(T, F) TRUE FALSE && 積(AND) T && T TRUE | 和(OR) c(T, T) | c(T, F) TRUE TRUE || 和(OR) T || F TRUE xor 排他的理論和 xor(T, T) FALSE 論理演算子
45.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
46.
基本統計量 関数 合計 sum 算術平均
mean 最大値 max 最小値 min 範囲(最大値-最小値) range 基本統計量 関数 中央値 median 分散 var 標準偏差 sd 分位数 quantile 統計要約 summary 基本統計量の関数
47.
行/列毎の基本統計量 apply(X, MARGIN, FUN,
...) 引数名 意味 X データ MARGIN 行単位の算出は1、列単位の算出は2を指定する。 FUN 適用させる関数。統計量の関数や計算式を与える。 > # 列毎の合計 > apply(iris[,1:4],2,sum) Sepal.Length Sepal.Width Petal.Length Petal.Width 876.5 458.6 563.7 179.9
48.
【補足】 グループ毎の基本統計量 > library(dplyr) > > iris %>% + group_by(Species) %>% + summarise( +
Sepal.Length.mean = mean(Sepal.Length) + ) %>% + ungroup() Source: local data frame [3 x 2] Species Sepal.Length.mean (fctr) (dbl) 1 setosa 5.006 2 versicolor 5.936 3 virginica 6.588
49.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
50.
{ggplot2}パッケージとは 統一された記法でグラフ描画が出来るパッケージ
51.
グラフ作成のイメージ
52.
レイヤー構造 レイヤーを重ねた結果が最終的に描画される グラフ描画対象 散布図を描画 描画テーマ変更
53.
基本的な文法 g <- ggplot(データフレーム,
aes(x = x軸列名, y = y軸列名)) + geom_xxx(aes(...)) + geom_yyy(aes(...)) + xlab("x軸ラベル") + ylab("y軸ラベル") + ggtitle("グラフタイトル") + theme_xxx() print(g) 散布図や箱ひげ図など、 描画したい図に応じた関数 描画スタイルやフォントの変更 (明示的に)描画実行を行う
54.
サンプルデータ作成① 商品1売上げデータ、商品1,2売上げデータ sales.data1 <- data.frame( item
= "item1", month = c("04", "05", "06", "07", "08", "09"), sales = c(800, 1000, 1800, 1500, 1400, 2000) ) sales.data2 <- data.frame( item = "item2", month = c("04", "05", "06", "07", "08", "09"), sales = c(700, 900, 1500, 1700, 1800, 2400) ) sales.data12 <- rbind(sales.data1, sales.data2)
55.
サンプルデータ作成② 店舗1〜3の商品3,4売上げデータ set.seed(10) sales.data34 <- data.frame( shop
= sample(c("1", "2", "3"), 100, replace = T), item3 = rnorm(100, 100, 30) ) sales.data34$item4 <- round( 0.9 * sales.data34$item3 + 80 * as.numeric(sales.data34$shop) + rnorm(100, 30, 15) )
56.
棒グラフ ggplot(sales.data1, aes(x =
month, y = sales)) + geom_bar(stat = "identity")
57.
積み上げ棒グラフ ggplot(sales.data12, aes(x =
month, y = sales)) + geom_bar(stat = "identity", aes(fill = item))
58.
折れ線グラフ ggplot(sales.data1, aes(x =
month, y = sales)) + geom_line(aes(group = 1))
59.
グループ別折れ線グラフ ggplot(sales.data12, aes(x =
month, y = sales)) + geom_line(aes(group = item, col = item))
60.
散布図 ggplot(sales.data34, aes(x =
item3, y = item4)) + geom_point()
61.
グループ別散布図 ggplot(sales.data34, aes(x =
item3, y = item4)) + geom_point(aes(col = shop))
62.
ヒストグラム ggplot(sales.data34, aes(x =
item3)) + geom_histogram()
63.
参考 https://www.slideshare.net/yokkuns/tokyor42-ggplot2
64.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
65.
懇親会について • 本日終了後に懇親会を開催します。 • 社会人1000円 •
学生 無料 • 参加希望の方は、受付までご連絡下さい!
66.
次回Tokyo.Rについて • 次回Tokyo.Rは、5/20 or
5/27 で考えてます • 発表者募集中です!
67.
会場について • Tokyo.Rを開催する会場を探しています! • 毎月3
or 4週目の土曜に開催しますので、 提供出来そうな方は、ぜひお願いします!
68.
AGENDA • 講師紹介 • 本日のテーマ •
データマイニングとR言語 • データの入出力 • データの演算 • 基本統計量 • データの可視化 • さいごに
Download now