データサイエンス概論第一=1-3 平均と分散

1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第1回データとベクトル表現：
1-3 平均と分散
システム情報科学研究院情報知能工学部門
内田誠一

2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
（グルーピング）
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出

3
データの平均
分布(=データ集合）の性質を記述する第一歩．
実は「平均」と言っても，いくつか種類があります

44
分布の形を探る：データ集合の平均
 N 個のデータがあれば，基本は「全データを合計して」「N で割る」
 正式には「算術平均」とか「相加平均」という名前がついている
 例１：N = 5人の体重{62, 50, 49, 53, 73}の場合
 平均＝(62+50+49+53+73)/5
 例２： N = 5人の「(体重，身長)の組」データの場合
 平均＝
62
173
+
50
162
+
49
158
+
53
156
+
73
176
/5
=
62 + 50 + 49 + 53 + 73 /5
173 + 162 + 158 + 156 + 176 /5

5
算術平均(要は「普通の平均」）を式で書くと...
𝒙 =
𝒙1 + 𝒙2 + 𝒙3 + ⋯ + 𝒙 𝑁
𝑁
𝒙 =
1
𝑁
𝑖=1
𝑁
𝒙𝑖
それぞれ合計して個数𝑁で割るだけ
総和記号∑を使って書くと...

66
算術平均＝分布の重心 (1/2)
平均=重心，
全データの代表値としても使えそう
第1次元での平均
第2次元での平均

77
算術平均＝分布の重心 (2/2)
 ただし，重心が「代表例」になるかどうかは要注意
 分散(後述)などを調べる必要あり
 要するに，「平均」だけでは見えないこともある
!?!? !?

88
参考：算術平均以外の「平均」:
加重平均 (1/2)
 重みを付けて算術平均
𝒙 =
𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁
= ∑ 𝑤 𝑖 𝑥 𝑖
∑ 𝑤 𝑖
確からしさ𝑤𝑖 1 0.9 0.95 0.1
重みの例
時々，軽めに
申告しちゃいます

99
加重平均 (2/2)
 算術平均は加重平均の特殊な場合
確からしさ𝑤𝑖 1 1 1 1
重みの例
𝒙 =
𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁
=
1
𝑁
∑ 𝑥 𝑖
1
1が𝑁個

1010
幾何平均(相乗平均)
 「全部かけあわせて」「𝑁乗根」
 数値(=1次元ベクトル=スカラー）にしか使えない
 それも正の数値しか扱えない
 𝑁 = 3のときの幾何学的解釈
𝑥 = 𝑁
𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑁
𝑥1
𝑥2
𝑥3
𝑥
𝑥
𝑥
体積が等しい
𝑥 = 𝑒
1
𝑁
∑ log 𝑒 𝑥 𝑖

1111
参考：算術平均 vs. 幾何平均
at 「はずれ値」の影響
 1,1,1,1,1,1,1,1,1,10000
 算術平均なら
 10009/10 = 1000.9
 幾何平均なら

10
10000 =2.5
9個はずれ値
なので，幾何平均は
正の数(≠ベクトル)にしか使えないし，
重心的解釈もできないが，
外れ値には強い
どんな方法も万能ではない！
メリット・デメリットを見極めて，
適切な方法を選択すること！

12
データの分散
分布(=データ集合）の性質を記述する第二歩．
今回は入り口だけ．もうちょっと進んだ内容は，そのうちに...

1313
分散＝データの広がり具合
 簡単に言えば，分散＝広がり具合
 上図では，「第1次元の分散>第2次元の分散」
非常に広がっている
第2次元
狭い
第1次元

1414
(ベクトルの分散は後回しにして)
数の集合の分散を求めよう
 数の集合𝑥1, 𝑥2, … , 𝑥 𝑁の分散
 ＝「 (算術)平均値との差の二乗」の平均
 分散が大きい→平均値と大きく違う数が多い→広がっている
𝜎2
=
𝑥1 − 𝑥 2
+ ⋯ + 𝑥 𝑁 − 𝑥 2
𝑁
=
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
算術平均
ベクトルではない

1515
式だけ見せられてもわからない！
→ 分散の意味を確認する
𝜎2
=
𝑥1 − 𝑥 2
+ ⋯ + 𝑥 𝑁 − 𝑥 2
𝑁
平均 𝑥𝑥1 𝑥 𝑁
この間の距離を
二乗したもの 𝑥1 − 𝑥 2
分散＝全データが平均的に「平均 𝑥とどれぐらい離れているか？」
※ただし離れ具合は「二乗距離」で評価．
なお，距離については第二回で．

1616
練習
 1, 1, 1, 1, 1 の分散は？
 1, 5, 4, 2, 8 の分散は?

1717
標準偏差
 𝜎2は「標準偏差」と呼ばれ，𝜎と書く
 前頁の分散の式から，標準偏差
 やっぱり広がり具合を表す
• 𝑥𝑖と 𝑥の違い(距離)の平均値
 ちなみに，「𝜎2」という表記を分散を表す「１つの記号」と見たほうが
気が楽な場合も多し
𝜎 =
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2

1818
分散，ちょっとした話(1/2)
全部の数が一様に∆だけプラスされても，分散は同じ
値が 𝑥𝑖から𝑥𝑖 + ∆になったとすると，平均は 𝑥から 𝑥 + ∆ になるので，
ずれても，広がり(分散)は同じ！
1
𝑁
𝑖=1
𝑁
𝑥𝑖 + ∆ − 𝑥 + ∆
2
=
1
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
=𝜎2
+∆

1919
分散，ちょっとした話(2/2)
では全部の数が一様に𝛼倍なったらどうなる？
値が 𝑥𝑖から𝛼𝑥𝑖になったとすると，算術平均は 𝑥から𝛼 𝑥になるので，
1
𝑁
𝑖=1
𝑁
𝛼𝑥𝑖 − 𝛼 𝑥 2
=
𝛼2
𝑁
𝑖=1
𝑁
𝑥𝑖 − 𝑥 2
=𝛼2
𝜎2
𝛼2
倍に!

2020
練習
 1, 1, 1, 1, 1 の分散は？
 1, 5, 4, 2, 8 の分散は?
 1001, 1005, 1004, 1002, 1008の分散は？
 10, 50, 40, 20, 80 の分散は?
+1000
×10

データサイエンス概論第一=1-3 平均と分散

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie データサイエンス概論第一=1-3 平均と分散

Ähnlich wie データサイエンス概論第一=1-3 平均と分散 (20)

Mehr von Seiichi Uchida

Mehr von Seiichi Uchida (13)

データサイエンス概論第一=1-3 平均と分散