SlideShare a Scribd company logo
Suche senden
Hochladen
Einloggen
Registrieren
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Melden
tokyorgirls
Folgen
22. Jul 2014
•
0 gefällt mir
•
1,305 views
1
von
39
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
22. Jul 2014
•
0 gefällt mir
•
1,305 views
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Melden
Daten & Analysen
2014/07/12 Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」by @a_macbee
tokyorgirls
Folgen
Recomendados
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
8.4K views
•
64 Folien
本気でPythonで宛名書きした話
Satoshi Yamada
3.5K views
•
30 Folien
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
21.2K views
•
38 Folien
S01 t1 tsuji_pylearn_ut_01
Takeshi Akutsu
2.1K views
•
11 Folien
Rの導入とRStudio事始め(改訂版)
Takashi Yamane
28.8K views
•
25 Folien
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
30.4K views
•
52 Folien
Más contenido relacionado
Was ist angesagt?
Pythonでターミナルに画像表示
Masato Fujitake
3.1K views
•
15 Folien
OSS Study#19_LT
NaoY-2501
1.2K views
•
15 Folien
WindowsでPython
drillan
10.8K views
•
69 Folien
S03 t1 python_learningdiary#3
Takeshi Akutsu
1.6K views
•
34 Folien
S20 t1 stapyのこれまでとこれから
Takeshi Akutsu
1.1K views
•
31 Folien
S10 t1 spc_by_nowfromnow
Takeshi Akutsu
732 views
•
11 Folien
Was ist angesagt?
(20)
Pythonでターミナルに画像表示
Masato Fujitake
•
3.1K views
OSS Study#19_LT
NaoY-2501
•
1.2K views
WindowsでPython
drillan
•
10.8K views
S03 t1 python_learningdiary#3
Takeshi Akutsu
•
1.6K views
S20 t1 stapyのこれまでとこれから
Takeshi Akutsu
•
1.1K views
S10 t1 spc_by_nowfromnow
Takeshi Akutsu
•
732 views
pythonでemlファイルを扱う話
Satoshi Yamada
•
14.6K views
コボラーがPython始めてみた話
Yuuki Nakajima
•
2.3K views
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
•
2.2K views
Requestsで始める5分前帰社
Satoshi Yamada
•
5.4K views
RFinanceJはじめました
Nagi Teramo
•
5.2K views
S09 t4 wrapup
Takeshi Akutsu
•
747 views
オレオレ言語実装に役立つプル型ASTウォーカーAPI
隆行 神戸
•
2.2K views
ゲームマップのためのグラフAPIの設計
隆行 神戸
•
2.2K views
Python学習奮闘記#07 webapp
Takeshi Akutsu
•
2K views
S09 t0 orientation
Takeshi Akutsu
•
978 views
S08 t0 orientation
Takeshi Akutsu
•
1.1K views
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
Yusuke Kon
•
27.7K views
S18 t0 introduction
Takeshi Akutsu
•
1.2K views
Orientation
Takeshi Akutsu
•
419 views
Similar a Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Debug Hacks - 第4回つくらぐ勉強会
University of Tsukuba Linux User Group
792 views
•
24 Folien
211120 他人の書いたPythonスクリプトをステップ実行で理解する
Takuya Nishimoto
1.3K views
•
39 Folien
PyConJP2018_LT_mahjong_180918
Rio Kurihara
261 views
•
29 Folien
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
BrainPad Inc.
3.6K views
•
29 Folien
プログラミング初心者の壁の越え方
Yuichi Kato
6.5K views
•
30 Folien
Why python
Mikio Kubo
657 views
•
7 Folien
Similar a Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
(20)
Debug Hacks - 第4回つくらぐ勉強会
University of Tsukuba Linux User Group
•
792 views
211120 他人の書いたPythonスクリプトをステップ実行で理解する
Takuya Nishimoto
•
1.3K views
PyConJP2018_LT_mahjong_180918
Rio Kurihara
•
261 views
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
BrainPad Inc.
•
3.6K views
プログラミング初心者の壁の越え方
Yuichi Kato
•
6.5K views
Why python
Mikio Kubo
•
657 views
MTプラグイン入門以前
Hiroshi Yamato
•
2.5K views
Clojureの世界と実際のWeb開発
Tsutomu Yano
•
40.1K views
Rでを作る
Nagi Teramo
•
3.6K views
goパッケージで型情報を用いたソースコード検索を実現する
Takuya Ueda
•
3K views
Python for Beginners ( #PyLadiesKyoto Meetup )
Ai Makabi
•
792 views
グラフデータベース「Neo4j」の 導入の導入
Hisao Soyama
•
20.9K views
TRPGオンラインセッション環境とルール&シナリオ記述言語
隆行 神戸
•
2.7K views
TOPPERS as an IoT OS(kernel)
Kiyoshi Ogawa
•
914 views
【Ltech#11】ディープラーニングで間取り図を3Dにする
LIFULL Co., Ltd.
•
3.8K views
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
Toshinori Sato
•
5.4K views
PyPy 紹介
shoma h
•
8.3K views
Rubyの会社でPythonistaが三ヶ月生き延びた話
Drecom Co., Ltd.
•
3.7K views
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
•
9.2K views
Why python
Mikio Kubo
•
938 views
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
1.
で始める データ解析の超基礎 Tokyo.R 女子部
#4 @a_macbee
2.
@a_macbee is 誰
3.
@a_macbee ! 渋谷で働く新米データサイ エンティスト ・広告ログ解析の仕事 ・普段仕事で利用してる 言語はPython ・Tokyo.R 女子部 #3 初参加 ! ・
初心者
4.
の便利機能 の紹介 等はしません (出来ません(汗) の標準機能 +ggplot2 のみを 利用します ※詰まったらどなたか助けて下さい
5.
本日目指すこと Rを使って データの雰囲気を つかむ術を学ぶ
6.
本日の資料 https://github.com/amacbee/tokyorgirls Download → 解凍 20140712/
以下に あります
7.
ヒストグラム について学びます
8.
データの全体像 がつかめる! ←日本の人口分布 ↓テストの点数分布
9.
何はともあれやってみる ! ! # ggplot2の読み込み library(ggplot2) ! ! ! ! ! ! ヒストグラムを 描画するために 必要です!
10.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price)
11.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) データを読み込んで data.frameに入れる
12.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) head()で囲むと データの上から 6行くらいを表示
13.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) mean()で囲むと データの 平均値を表示
14.
何はともあれやってみる ! # ラーメンの値段のヒストグラム ggplot(data.frame, aes(x=data.frame$Price))
+ geom_histogram(binwidth=100) ! ! ! ! ! !
15.
こんなのが 出るはず
16.
750 650 850 950 550 ラーメンの 平均的な値段は 750円くらい
17.
何はともあれやってみる ! # ラーメンの値段のヒストグラム ggplot(data.frame, aes(x=data.frame$Price))
+ geom_histogram(binwidth=100) ! ! ! ! ! ! 範囲の指定 この場合,100円の範囲で 値をまとめてくれる x軸の指定
18.
ヒストグラムの 良いところ
19.
2つのヒストグラムの比較 ! # データの読み込み data.path =
/path/to/file/test_scores_1.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 1組のテストの平均点 mean(data.frame$Score) ! # 1組のテストの点数のヒストグラム ggplot(data.frame, aes(x=data.frame$Score)) + geom_histogram(binwidth=5)
20.
2つのヒストグラムの比較 ! # データの読み込み data.path =
/path/to/file/test_scores_2.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 2組のテストの平均点 mean(data.frame$Score) ! # 2組のテストの点数のヒストグラム ggplot(data.frame, aes(x=data.frame$Score)) + geom_histogram(binwidth=5)
21.
平均点は? どちらも同じくらい A組: 約51点 B組: 約50点
22.
ヒストグラムは?
23.
A 組
24.
B 組
25.
平均点は同じでも ヒストグラムはかなり違う ↓ データの性質が全然違う
26.
大事なこと ヒストグラムを書くことで データの全体像がつかめる
27.
binwidth に注意
28.
元のデータは こちらからお借りしています ! https://github.com/johnmyleswhite/ ML_for_Hackers
29.
! # データの読み込み data.path =
/path/to/file/body_data.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 平均身長 mean(data.frame$Height) ! # 身長のヒストグラム(binwidth=5, 0.001, 1) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=5) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=0.001) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=1)
30.
binの幅が 広すぎる =過剰な平滑化 binwidth=5
31.
binの幅が 小さすぎる =平滑化の不足 binwidth=0.001
32.
binwidth=1
33.
滑らか binwidth=1
34.
大事なこと binwidthの値を変えて ヒストグラムを確認すること
35.
おまけ1(Rの高度な機能) もとの形状に 近い形で 描画できる
36.
おまけ2(Rの高度な機能) 男女で 分けてみたり
37.
! 参考図書.1 マンガでわかる 統計学 / 高橋
信 ! http://goo.gl/mzuQ ! ※オススメ!
38.
! 参考図書.2 入門 機械学習 / D.,
Conway ! http://goo.gl/0zNev ! ※かなり難しい!
39.
Thank you!