SlideShare ist ein Scribd-Unternehmen logo
1 von 20
1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第1回 データとベクトル表現:
1-3 平均と分散
システム情報科学研究院情報知能工学部門
内田誠一
2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
(グルーピング)
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出
3
データの平均
分布(=データ集合)の性質を記述する第一歩.
実は「平均」と言っても,いくつか種類があります
44
分布の形を探る:データ集合の平均
 N 個のデータがあれば,基本は「全データを合計して」「N で割る」
 正式には「算術平均」とか「相加平均」という名前がついている
 例1:N = 5人の体重{62, 50, 49, 53, 73}の場合
 平均=(62+50+49+53+73)/5
 例2: N = 5人の「(体重,身長)の組」データの場合
 平均=
62
173
+
50
162
+
49
158
+
53
156
+
73
176
/5
=
62 + 50 + 49 + 53 + 73 /5
173 + 162 + 158 + 156 + 176 /5
5
算術平均(要は「普通の平均」)を式で書くと...
𝒙 =
𝒙1 + 𝒙2 + 𝒙3 + ⋯ + 𝒙 𝑁
𝑁
𝒙 =
1
𝑁
𝑖=1
𝑁
𝒙𝑖
それぞれ合計して個数𝑁で割るだけ
総和記号∑を使って書くと...
66
算術平均=分布の重心 (1/2)
平均=重心,
全データの代表値としても使えそう
第1次元での平均
第2次元での平均
77
算術平均=分布の重心 (2/2)
 ただし,重心が「代表例」になるかどうかは要注意
 分散(後述)などを調べる必要あり
 要するに,「平均」だけでは見えないこともある
!?!? !?
88
参考:算術平均以外の「平均」:
加重平均 (1/2)
 重みを付けて算術平均
𝒙 =
𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁
= ∑ 𝑤 𝑖 𝑥 𝑖
∑ 𝑤 𝑖
確からしさ𝑤𝑖 1 0.9 0.95 0.1
重みの例
時々,軽めに
申告しちゃいます
99
参考:算術平均以外の「平均」:
加重平均 (2/2)
 算術平均は加重平均の特殊な場合
確からしさ𝑤𝑖 1 1 1 1
重みの例
𝒙 =
𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁
=
1
𝑁
∑ 𝑥 𝑖
1
1が𝑁個
1010
参考:算術平均以外の「平均」:
幾何平均(相乗平均)
 「全部かけあわせて」「𝑁乗根」
 数値(=1次元ベクトル=スカラー)にしか使えない
 それも正の数値しか扱えない
 𝑁 = 3のときの幾何学的解釈
𝑥 = 𝑁
𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑁
𝑥1
𝑥2
𝑥3
𝑥
𝑥
𝑥
体積が等しい
𝑥 = 𝑒
1
𝑁
∑ log 𝑒 𝑥 𝑖
1111
参考:算術平均 vs. 幾何平均
at 「はずれ値」の影響
 1,1,1,1,1,1,1,1,1,10000
 算術平均なら
 10009/10 = 1000.9
 幾何平均なら

10
10000 =2.5
9個 はずれ値
なので,幾何平均は
正の数(≠ベクトル)にしか使えないし,
重心的解釈もできないが,
外れ値には強い
どんな方法も万能ではない!
メリット・デメリットを見極めて,
適切な方法を選択すること!
12
データの分散
分布(=データ集合)の性質を記述する第二歩.
今回は入り口だけ.もうちょっと進んだ内容は,そのうちに...
1313
分散=データの広がり具合
 簡単に言えば,分散=広がり具合
 上図では,「第1次元の分散>第2次元の分散」
非常に広がっている
第2次元
狭い
第1次元
1414
(ベクトルの分散は後回しにして)
数の集合の分散を求めよう
 数の集合𝑥1, 𝑥2, … , 𝑥 𝑁の分散
 =「 (算術)平均値との差の二乗」の平均
 分散が大きい→平均値と大きく違う数が多い→広がっている
𝜎2
=
𝑥1 − 𝑥 2
+ ⋯ + 𝑥 𝑁 − 𝑥 2
𝑁
=
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
算術平均
ベクトルではない
1515
式だけ見せられてもわからない!
→ 分散の意味を確認する
𝜎2
=
𝑥1 − 𝑥 2
+ ⋯ + 𝑥 𝑁 − 𝑥 2
𝑁
平均 𝑥𝑥1 𝑥 𝑁
この間の距離を
二乗したもの 𝑥1 − 𝑥 2
分散=全データが平均的に「平均 𝑥とどれぐらい離れているか?」
※ただし離れ具合は「二乗距離」で評価.
なお,距離については第二回で.
1616
練習
 1, 1, 1, 1, 1 の分散は?
 1, 5, 4, 2, 8 の分散は?
1717
標準偏差
 𝜎2は「標準偏差」と呼ばれ,𝜎と書く
 前頁の分散の式から,標準偏差
 やっぱり広がり具合を表す
• 𝑥𝑖と 𝑥の違い(距離)の平均値
 ちなみに,「𝜎2」という表記を分散を表す「1つの記号」と見たほうが
気が楽な場合も多し
𝜎 =
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
1818
分散,ちょっとした話(1/2)
全部の数が一様に∆だけプラスされても,分散は同じ
値が 𝑥𝑖から𝑥𝑖 + ∆になったとすると, 平均は 𝑥から 𝑥 + ∆ になるので,
ずれても,広がり(分散)は同じ!
1
𝑁
𝑖=1
𝑁
𝑥𝑖 + ∆ − 𝑥 + ∆
2
=
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
=𝜎2
+∆
1919
分散,ちょっとした話(2/2)
では全部の数が一様に𝛼倍なったらどうなる?
値が 𝑥𝑖から𝛼𝑥𝑖になったとすると,算術平均は 𝑥から𝛼 𝑥になるので,
1
𝑁
𝑖=1
𝑁
𝛼𝑥𝑖 − 𝛼 𝑥 2
=
𝛼2
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
=𝛼2
𝜎2
𝛼2
倍に!
2020
練習
 1, 1, 1, 1, 1 の分散は?
 1, 5, 4, 2, 8 の分散は?
 1001, 1005, 1004, 1002, 1008の分散は?
 10, 50, 40, 20, 80 の分散は?
+1000
×10

Weitere ähnliche Inhalte

Was ist angesagt?

パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
Momoko Hayamizu
 

Was ist angesagt? (20)

データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
 
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
 
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
 
主成分分析
主成分分析主成分分析
主成分分析
 
1 データとデータ分析
1 データとデータ分析1 データとデータ分析
1 データとデータ分析
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
統計分析
統計分析統計分析
統計分析
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
7 主成分分析
7 主成分分析7 主成分分析
7 主成分分析
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関
 
相関分析と回帰分析
相関分析と回帰分析相関分析と回帰分析
相関分析と回帰分析
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 
5 クラスタリングと異常検出
5 クラスタリングと異常検出5 クラスタリングと異常検出
5 クラスタリングと異常検出
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?
 

Ähnlich wie データサイエンス概論第一=1-3 平均と分散

[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
Yohei Sato
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
t2tarumi
 
Stat r 9_principal
Stat r 9_principalStat r 9_principal
Stat r 9_principal
fusion2011
 
相互情報量.pptx
相互情報量.pptx相互情報量.pptx
相互情報量.pptx
Tanaka Hayato
 

Ähnlich wie データサイエンス概論第一=1-3 平均と分散 (20)

[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
データを整理するための基礎知識
データを整理するための基礎知識データを整理するための基礎知識
データを整理するための基礎知識
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
 
Stat r 9_principal
Stat r 9_principalStat r 9_principal
Stat r 9_principal
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4
 
20181114 r
20181114 r20181114 r
20181114 r
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 
Rゼミ 2
Rゼミ 2Rゼミ 2
Rゼミ 2
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
相互情報量.pptx
相互情報量.pptx相互情報量.pptx
相互情報量.pptx
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 

Mehr von Seiichi Uchida

Mehr von Seiichi Uchida (13)

9 可視化
9 可視化9 可視化
9 可視化
 
13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識
 
12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析
 
15 人工知能入門
15 人工知能入門15 人工知能入門
15 人工知能入門
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアス
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understanding
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
 

データサイエンス概論第一=1-3 平均と分散