More Related Content
Similar to How to study stat for freshmans
Similar to How to study stat for freshmans (9)
How to study stat for freshmans
- 1. 理系の勉強法と統計学の概観(1-2 回生向け)
2014 年11 月7 日(金)16:30-17:30
今日の話の内容
大学での勉強について
統計学の概要
高校までの勉強
授業を聞いて内容を理解
問題集を何周もやって完璧に
大学での勉強
勉強する事の絶対量が増える.
先生は一部しか教えてくれない
「何周もやる」が(事実上) 不可能
塾も無い(TA 使ってください)
)誰も教えてはくれないし, 自習するしかない
自分にあった先生を見つけましょう(持論)
人には固有の「思考の過程」みたいなのがある
趣味の合わない先生の話は(いくら聞いても) 分からない.
推してる先生を見つけよう
1
- 2. 古かろう良かろう?
古い=良いではない.
古典論が今は一切使われていなかったり.
古い難解な本で分からないより, 新しく分かりやすい本のほうが良かったり.
とはいえ(伝統的な本には) 何かが秘められてることもあるので, 本は慎重に選ぼう.
勉強法
参考書を読む(一人)
色々な講義にモグる(他学科科目含む)
web サイト( http://math.stackexchange.com/ 等) で質問
TA やオフィスアワーの活用
自主ゼミ(輪読)
自主ゼミ(輪読)
担当の一人が本の内容を発表
90 分で2-3 ページ進めば良い(数学系)
90 分で60 ページくらい進む(工学系)
分からないところをつぶす
何が分からないか把握する
自分の力が足りないのか, 知識が足りないのか
立ち向かう問題は選ぼう
(講義で出るような問題は)3 日粘ればどうにかなる
(教科書でぼやかしてるのは)3 年あってもできなかったり.
いったい何が分からないのか?
解いてみよう: 「サイコロを投げて3 回表が出る確率を求めよ」
2
- 3. 情報が足りていない
全部で何回コインを投げる(=n) のか? コインの表が出る確率(= p) は?
)情報が無いのだから, 絶対に解けない. 仕方なくn 回とすると, 確率は
(
n
3
)
p3(1 p)n3
そもそもp は固定でいいのか? (投げるごとに変動= pt する?) ) p = 一定は暗に仮定されている.
何が仮定されているか
何を示したいか
何の情報が足りないか
把握しないと, 一生前には進めない.
抽象度を下げる
次の主張は正しいか?
8X : 行列; (X + I)
1(X I)(X + I)
1 = O
行列からスカラーへ
行列X を(実数)x, 単位行列I を1 に置き換える:
(x + 1)
1(x 1)(x + 1)
1 =
x 1
(x + 1)2
これが0 と等しいか? )「x の値によっては0 になるけど、0 にならない場合が存在する」
数学の人はやたら一般化したがるが、(学習者は) とにかく抽象度を下げて考えるようにしよう.
3
- 4. ここから統計の話
確率論と統計は混同されやすいが, 別物:
確率論
仮定から結果を導く.
(仮定) サイコロはどの目も出る確率が等しいとする.
#
(結果)60 回サイコロを投げたとき, 1 が出る回数の期待値は10 回.
統計学
結果から仮定を予測する.
(結果) サイコロを60 回投げて, 出た目の数は以下の通り:
サイコロの目1 2 3 4 5 6
出た回数11 10 12 7 8 12
#
(仮定) どの目も出る確率は等しい.
大きな違い
確率論は(仮定さえ正しいと分かれば) 演繹的に正しい結論を導ける. 数学的.
統計学は(分からないものを)推定するので, 曖昧さが残ってしまう. 工学的.
統計学は数学を使うが, 数学ほど厳密ではない.
ただし世の中のほとんどの問題では仮定が分からないので, 応用面で高いニーズがある.
情報の損失
A 教室の5 人がテストを受けた.
A B C D E
点数100 80 85 60 30
先生がX 点以下の人に再試を課した.
(仮定)X = 79
) (結果)D,E さんが再試になった.
結果から仮定が導けるか?
D さんが再試を受けているから, X 60. B さんが再試を受けていないから, X 80. 情報を統
合しても60 X 80 以上の事は分からない.
4
- 5. 何が言いたいかと言うと
結果から仮定を導こうとすると, (情報が損失しているので) 正確な結論を導くことはできない.
同様にして, 統計にも誤差が含まれることを知っておかないといけない.
誤差がある=無意味?
世の中は「分からないこと」であふれている. 100% 正しいと言えなくても, 80% くらい正しい
ことには意味がある.
精度は上がる
さっきのテストについて, 「(遅刻してきて別室で受験していた)F さんが70 点で再試験を受け
た」という情報が追加されたとする. この新しい情報により, X の範囲は60 X 80 から
70 X 80 まで狭まる.
情報量を増やせば増やすほど(, 調査対象の数が増えれば増えるほど) 予測の精度は上がる.
調査人数を増やせば増やすほど良いか?
100 人の試験後を調査したら: 78 X 80 が分かった.
10000 人の試験後を調査したら: 79 X 80 が分かった.
一定人数を調査すると, 予測の精度が頭打ちに.
調査数を増やすにはコストがかかる(100 ! 10000 だとコスト100 倍).
1% の精度アップの為にコストをかけるべきか?
... と考えると, 調査人数はほどほどで良い. 国勢調査で国民全員にアンケートしないのはこの
ため.
統計学いろいろ
心理統計, 生物統計
心理学科とか, 医学部とか, 生物学科とか.
社会調査
社会系の学部. 実際のアンケートの取り方とか.
数理統計
数学系. ガチガチの理論で確率論に近い.
5
- 6. 機械学習
統計と関連が深い. 情報系の人とか工学系の人がやっている.
回帰の話
データ: f(x1; y1); :::; (xn; yn)g
予測モデル: f(x) = ax + b
1 つ目のデータは(x1; y1) だが, 1 つ目のデータの予測値は(x1; f(x1)). 同様にしてn 番目のデー
タ(xn; yn), 対する予測値は(xn; f(xn)). 「予測が良い」とは, 「予測した値」が「真のデータに近
い」ことだから, 各i = 1; :::; n について
予測値 データ(真の値) = f(xi) yi
が小さいことが望ましい.
RISK :=
Σn
i=1
ff(xi) yig2 =
Σn
i=1
faxi + b yig2
f(xi; yi)g は既に与えられている(確定した) データであり, 自由に動かせるパラメータはa; b だけ
だから,
minimize RISK w:r:t: (a; b)
このときの(a; b) は
@RISK
@a
= 0;
@RISK
@b
= 0
を解けば求まる. 以上が最小二乗法のプロシージャ. 求まった(a; b) を特に(^a;^b
) と書くとすると,
^ f(x) := ^ax +^b
がy の予測値となる.
いろいろと疑問が残る
なぜ1 次関数のモデルを使うのか?
線形のモデルを使う必要は無い. (二次曲線を使うかどうか、など) データをみながら判断し
ないといけない. モデル選択という学問分野がある.
真値と予測値の差のみ評価するだけでいいのか?
現実には, 調整用の項を付けることがある. 一番簡単なものだとRidge regression.
なぜ二乗なのか?
絶対値をとった
RISKABS :=
Σn
i=1
jf(xi) yij
を最小化するように考えても良い(LAD). 二乗を使う理由は, 1) 計算が簡単で分かり易い,
2)Gauss-Markov の定理による結果, 3) 数理的に綺麗.
6
- 7. 本の紹介
(1) (1-2 年生) 松本裕行, 宮原孝夫. (1999). 「数理統計入門」. 学術図書出版社
(2) (1-2 年生)Geoffrey Grimmett et al. (2004). 「確率論入門」. 日本評論社
(3) (上の原著) Geoffrey grimmett et al. (1986). 「Probability, An Introduction」. Oxford univ.
press
(4) (2-4 年生) 稲垣宣夫. (2003). 「数理統計学」. 裳華房
7