Weitere ähnliche Inhalte Ähnlich wie Probability, statistics & machine learning(china soft tokyo) (9) Probability, statistics & machine learning(china soft tokyo)3. 第二部分 机器学习
• 背景 介简
• 算法 介简
- 有 督学监 习
-- 朴素 叶斯分类器贝
-- 性回线 归
- 无 督学监 习
-- K-Means 分类器
• 大牛 和推荐 籍们 书
4. 概率 与数理论 统计概率 与数理论 统计
一 研究和 示随机 象的 律性的学门 揭 现 统计规一 研究和 示随机 象的 律性的学门 揭 现 统计规
科,“将不 定性量化”的学科。确科,“将不 定性量化”的学科。确
7. E1: 抛一枚硬 ,分 用“币 别 H” 和“ T” 表示出正面和反面;
E2: 将一枚硬 抛三次,考 正反面出 的情况;币连 虑 现
E3: 某城市某年某月内 生交通事故的次数;发
E4: 一 骰子,可能出 的点数;掷 颗 现
E5: 某网站一分 内受到的点 次数;记录 钟 击
E6: 在一批灯泡中任取一只, 其寿命;测
E7: 任 一人, 他的身高和体重 。选 记录
8. 二、 本空样 间
1. 本空 : 的所有可能 果所 成的集合称 本空 ,样 间 试验 结 组 为样 间
记为
2. 本点: 的 个 果或 本空 的 元素称 本点,样 试验 单 结 样 间 单 为样 记为 e
Ω
9. 随机事件
1. 定 本空 的任意一个子集称 随机事件义 样 间 为 , 称“事件”。简
2. 个特殊事件两 : 必然事件( Ω ) 、不可能事件( Φ )。
例
于对 试验 E2 ,以下 A 、 B 、 C 即 三个随机事件为 :
A =“至少出一个正面”= {HHH, HHT, HTH, THH , HTT , THT , TTH}
B = “ 次出 同一面”两 现 = {HHH,TTT}
C =“ 恰好出 一次正面”现 = {HTT , THT , TTH}
10. 三、事件之 的 系间 关
1. 包含 系:关 “ 事件 A 生必有事件发 B 生”发
记为 A⊂B
A = B ⇔ A⊂B 且 B⊂A.
11. 2. 和事件:“事件 A 与事件 B 至少有一个 生”, 作发 记 A∪B
n 个事件 A1, A2,…, An 至少有一个 生, 作发 记 i
n
i
A
1=
12. 3. 事件:积 事件 A 与事件 B 同 生, 作时发 记 A∩B = AB
n 个事件 A1, A2,…, An 同 生, 作时发 记 A1A2…An , or
n
i
iA
1=
13. 4. 差事件: A - B 称为 A 与 B 的差事件 , 表示事件 A 发
生而事件 B 不 生发
16. 四、事件的 算运
1 、交 律:换 A∪B = B∪A , AB = BA
2 、 合律结 : (A∪B)∪C = A∪(B∪C) ,
(AB)C = A(BC)
3 、分配律: (A∪B)C = (AC)∪(BC) ,
(AB)∪C = (A∪C)(B∪C)
4 、 偶对 (De Morgan) 律:
.,
,
k
k
k
k
k
k
k
k AAAA
BAABBABA
==
==
可推广
17. 例:甲、乙、丙三人各向目 射 一 子 ,以标 击 发 弹 A 、 B 、 C 分 表示别
甲、乙、丙命中目 , 用标 试 A 、 B 、 C 的 算 系表示下列事件:运 关
::
::
::
::
::
::
6
5
4
3
2
1
“三人均未命中目标”
“三人均命中目标”
”“最多有一人命中目标
“恰有两人命中目标”
“恰有一人命中目标”
”“至少有一人命中目标
A
A
A
A
A
A CBA
CBACBACBA
CBABCACAB
BACACB
ABC
CBA
18. 1.2 概率的定 及其 算义 运
从直 上来看,事件观 A 的概率是描 事件绘 A 生的可能性大小的量发
P(A) 具有何 性 ?应 种 质
* 抛一枚硬 , 面向上的概率 多少?币 币值 为
* 一 骰子,出掷 颗 现 6 点的概率 多少?为
出 数点的概率 多少?现单 为
* 向目 射 ,命中目 的概率有多大?标 击 标
19. 若某实验 E 足:满
1. 有限性: 本空样 间 S = {e1, e 2 , … , e n };
2. 等可能性:(公 )认
P(e1)=P(e2)=…=P(en).
称则 E 古典概型也叫等可能概型。为
1.2.1. 古典概型与概率
20. 事件设 A 中所含 本点个数样 为 N(A) ,以
N(Ω) 本空记样 间 中 本点 数, 有样 总 则
P(A) 具有如下性质
(1) 0≤ P(A) ≤1 ;
(2) P(Ω) = 1 ; P(φ )=0
(3) AB =,则 P( A∪ B ) = P(A) + P(B)
一、古典概型中的概率 :
( )
( )
( )
N A
P A
N
=
Ω
21. 例 : 有三个子女的家庭 , 每个孩子是男是女的概率相等设 ,
至少有一个男孩的概率是多少则 ?
Ω={BBB, BBG, BGB, GBB, BGG, GGB, GBG, GGG}
A={BBB, BBG, BGB, GBB, BGG, GGB, GBG}
( ) 7
( )
( ) 8
N A
P A
N
= =
Ω
解 : 设 A 事件 至少有一个男孩为 , 以 B 表示某个孩子是男
孩, G 表示某个孩子是女孩。
23. 加法公式: 完成一件事可有 途径,第一 途设 两种 种
径有 n1 方法,第二 途径有种 种 n2 方法, 完成种 则
件事共有这 n1+n2 方法。种
(也可推广到若干途径)
公式的思想 穿着整个概率 的求解。这两 贯 问题
24. 有重 排列:从含有复 n 个元素的集合中随机抽取 r 次,
每次取一个, 其 果后放回,将 果排成一列,记录 结 记录结
n n n n
共有 nr
排列方式种 .
25. 无重 排列:从含有复 n 个元素的集合中随机抽取 r 次
,每次取一个,取后不放回,将所取元素排成一列,
共有 Pn
r
=n(n-1)…(n-r+1) 排列方式种 .
n n-1 n-2 n-r+1
26. 有重 合:从含有复组 n 个元素的集合中有重 地随机抽取复 r 个
,共有
取法种 .
)!1(!
)!1(1
1
−
−+
=
−+
== −+
nr
rn
r
rn
CH r
rn
r
n
27. 无重 合:从含有复组 n 个元素的集合中无重 地随机抽取复 r 个
,共有
取法种 .
)!(!
!
! rnr
n
r
P
r
n
C
r
nr
n
−
==
=
28. 1 、抽球问题
例 1: 合中有设 3 个白球, 2 个 球, 从合红 现
中任抽 2 个球,求取到一 一白的概率。红
解 : 设 A-- 取到一 一白红
2
5( )N CΩ =
1
2
1
3)( CCAN =
5
3
)( 2
5
1
2
1
3
==∴
C
CC
AP
答 : 取到一 一白的概率红 为 3/5
29. 2 、分球入盒问题
例 2 :将 3 个球随机的放入 3 个盒子中去, :问
( 1 )每盒恰有一球的概率是多少?
( 2 )空一盒的概率是多少?
解 : 设 A: 每盒恰有一球 ,B: 空一
盒3
3)( =SN !3)( =AN
9
2
)( =AP
}{}{1)( 全有球空两合 PPBP −−=
3
2
9
2
3
3
1 3
=−−=
30. 3 、生日悖 :论问题
某班 有级 n 个人 (2≤n≤365) , 至少有 个人的生日在同一天的概率问 两
有多大?
∏
−
=
−−=−=
1
0
)
365
1(1)(1)(
n
k
k
BPAP
A: 至少有 个人生日在同一天两
B: 所有人生日都不在同一天
∏
−
=
−=
−××××
=
1
0
)
365
1(
365
)366(...363364365
)(
n
k
n
kn
BP
31. 某人向目 射 ,标 击
以 A 表示事件“命中目 ”,标
P ( A ) = ?
定 :事件义 A 在 n 次重 中出复试验 现 nA
次,则
比值 nA
/n 称 事件为 A 在 n 次重 中复试验
出 的现 率频 ,记为 fn(A). 即
fn(A) = nA
/n.
1.3 率与概率频
32. 史上曾有人做历 过试验 , 明抛 匀 硬 ,试图证 掷 质 币时
出 正反面的机会均等。现
者实验 n nH
fn(H)
De Morgan 2048 1061 0.5181
Buffon 4040 2048 0.5069
K. Pearson 12000 6019 0.5016
K. Pearson 24000 12012 0.5005
33. 践 明:实 证
当 次数试验 n 增大 ,时 fn(A) 逐 向渐趋
一个 定 。可将此 定 作稳 值 稳 值记 P(A) ,作
事件为 A 的概率。
34. 2. 概率的性质
(1) 有限可加性:设 A1 , A2 ,… An , 是 n 个 互不两两
相容的事件,即 AiAj = , (i≠j), i , j = 1, 2, …, n , 则
有
P( A1 ∪ A2 ∪ … ∪ An) = P(A1) + P(A2)+… P(An);
(3) 事件差 A 、 B 是 个事件,两
则
P(A-B)=P(A)-P(AB)
(2) 不 性单调 减 :若事件 A⊃B ,则
P(A) P(B)≥
35. (4) 加法公式: 任意 事件对 两 A 、 B ,有
P(A∪B) = P(A) + P(B) - P(A∩B)
公式可推广到任意该 n 个事件 A1 , A2 ,…, An 的情形;
(3) 互 性补 : P(A) = 1 - P(A);
(5) 可分性: 任意 事件对 两 A 、 B ,有
P(A) = P(A∩B) + P(A∩B ) .
36. 设 A 、 B∈ Ω , P ( A ) >0, 则
P(A∩B) = P(A)P(B|A)
就称 事件为 A 、 B 的概率乘法公式。
P(B|A)=P(A∩B)/P(A)
也称:事件 A 生的条件下事件发 B 生的发 条件概率
37. 全概率公式
设 A1 ,… , An 是的一个 分,且划
P(Ai)>0 , (i = 1 ,…, n) ,
任何事件则对 B∈ Ω 有
∑=
n
i
ii
ABPAPBP
1
)|()()( =
38. 例:有甲乙 个袋子,甲袋中有 个白球,两 两 1 个 球,乙袋中有 个红 两
球,一个白球. 六个球手感上不可区 .今从甲袋中任取一球放红 这 别
入乙袋, 后再从乙袋中任取一球, 此球是 球的概率?搅匀 问 红
解:设 A1—— 从甲袋放入乙袋的是白球;
A2—— 从甲袋放入乙袋的是 球;红
B—— 从乙袋中任取一球是 球;红
⇒
12
7
3
1
4
3
3
2
2
1
)()|()()|()( 2211
=×+×=+= APABPAPABPBP
甲 乙
39. 叶斯公式贝
设 A1 ,… , An 是 S 的一个 分,划
且 P(Ai) > 0 , (i = 1 ,…, n) ,
任何事件则对 B∈S ,有
),...,1(,
)|()(
)|()(
)|(
1
nj
ABPAP
ABPAP
BAP n
i
ii
jj
j
==
∑=
后 概率验 = ( 相似度 * 先 概率验 )/ 准化常量标
40. 例:数字通讯过程中,信源发射 0 、 1 两种状态信号,其中发 0 的概率为 0.55 ,发 1
的概率为 0.45 。由于信道中存在干扰,在发 0 的时候,接收端分别以概率 0.9 、 0.05
和 0.05 接收为 0 、 1 和“不清”。在发 1 的时候,接收端分别以概率 0.85 、 0.05 和 0.1
接收为 1 、 0 和“不清”。现接收端接收到一个“ 1” 的信号。问发端发的是 0 的概率是
多少 ?
)BA(P =
)A(P)AB(P)A(P)AB(P
)A(P)AB(P
+
= = 0.067
解:设 A--- 发射端发射 0 ,
B--- 接收端接收到一个“ 1” 的信号.
45.085.055.005.0
55.005.0
×+×
×
0 (0.55)
01
不
清
(0.9)
(0.05)
(0.05)
1 (0.45)
10
不
清
(0.85)
(0.05)
(0.1)
41. 叶斯贝 ( 约 1701-1761) Thomas Bayes
英国数学家。约 1701 年出生于 敦,做 神甫。伦 过 1742 年成为
英国皇家学会会 。员 1761 年 4 月 7 日逝世。 叶斯在数学方面贝
主要研究概率 。他首先将 推理法用于概率 基 理 ,并论 归纳 论 础 论
立了 叶斯 理 , 于 决策函数、 推断、 的创 贝 统计 论 对 统计 统计 统计
估算等做出了 献。他死后,理 德贡 查 · 普莱斯 (Richard Price) 于
1763 年将他的著作《机会 的解法》问题 (An essay towards
solving a problem in the doctrine of chances) 寄 了英国皇家给
学会, 于 代概率 和数理 生了重要的影响。 叶斯的对 现 论 统计产 贝
另一著作《机会的学 概 》 表于说 论 发 1758 年。 叶斯所采用的贝
多 被沿用至今。许 术语
-- 百度百科
43. 1.5 事件的独立性
一、 事件独立两
定义 1 设 A 、 B 是 事件,两 P(A) ≠0, 若
P(B) = P(B|A) (1.5.1)
称事件则 A 与 B 相互独立。
式 (1.5.1) 等价于:
P(A∩B) = P(A)P(B) (1.5.2)
44. 二、多个事件的独立
定义 2 、若三个事件 A 、 B 、 C 足:满
(1) P(AB)=P(A)P(B), P(AC)=P(A)P(C),
P(BC)=P(B)P(C),
称事件则 A 、 B 、 C 相互独立两两 ;
若在此基 上 足:础 还满
(2) P(ABC) = P(A)P(B)P(C), (1.5.3)
称事件则 A 、 B 、 C 相互独立。
45. 一般地,设 A1 , A2 ,…, An 是 n 个事件,如果对
任意 k (1<k≤n), 任意的 1≤i1<i2 <… < ik≤ n ,具有等
式
P(A i1 A i2 … A ik) = P(A i1)P(A i2)…P(A ik)
称则 n 个事件 A1 , A2 ,…, An 相互独立。思考
一 骰子颗 掷 4 次至少得一个六点与 骰子两颗 掷
24 次至少得一个双六, 件事, 一个有更这两 哪
多的机会遇到? 答 :0.518,
0.491
47. 机器学 的 生与 展习 产 发
• 从人工智能( Artificial Intelligence )中 生产
• 得益于 算机性能的大幅提高而 足 展计 长 发
48. 机器学习
• 例子:
-- 数据 掘: 理大数据(如网 点 数据,医 数据,生物信息挖 处 页 击 疗
数据等),从大数据中 得有价 的内在 律获 值 规
-- 无法 行手写的程序:一般程序 程 言无法 的功能,如自进 编 语 实现
汽 ,自 直升机( ),手写程序 ,人 ,动驾驶 车 动 视频 识别 脸识别 计
算机 形 , 大部分的自然 言 理图 视觉 绝 语 处
-- 自主定制化程序:如 Amazon, 淘宝的商品推荐系统
-- 理解人类学 能力,如人习 脑
在美国,在一些 中,最被调查 IT 公司雇主所期望的 IT 技能中,机器
学 居首位习
49. 机器学 定习 义
• Arthur Samual ( 1959 )
Machine learning : Field of study that gives computers the
ability to learn without being explicitly programmed.
50. 机器学 定习 义
• Tom Mitchell ( 1998 )
Well-posed Learning Problem : A computer program is said to
learn from experience E with respect to some task T and some
performance measure P, if its performance on T, as measured by
P, improves with experience E.
51. 浅 机器学 算法谈 习
• 有 督学 (监 习 Supervised Learning 、教師あり学習)
• 无 督学 (监 习 Unsupervised Learning 、教師なし学習)
• 另外, 有半 督学 ,增强学 ,推荐系 等。还 监 习 习 统
59. 出以下的例子,属于有 督学 是无 督学 。请说 监 习还 监 习
• 根据已有邮件被标识为垃圾邮件或非垃圾邮件,学习得到一个垃圾
邮件过滤器。
• 从网上获得一些新闻的文章,将其分组以使得每组新闻叙述的主题
一致。
• 给定一个消费者数据库,自动发现市场区隔,并根据消费者的消费
特征将消费者划分到不同的市场区隔。
• 给定一个病人诊断数据集,该数据集记录了病人是否得糖尿病。根
据该数据集的病理特征,学习并预测一个新病人是否可能得了糖尿
病。
60. 一 有 督学 的机器学 算法:朴素 叶斯分种 监 习 习 贝 类
朴素 叶斯的思想基 是 的: 于 出的待分类 ,求解在此 出 的条贝 础 这样 对 给 项 项 现
件下各个类 出 的概率, 个最大,就 此待分类 属于 个类 。别 现 哪 认为 项 哪 别
通俗来 ,就好比 么个道理,你在街上看到一个黑人,我 你你猜 哥说 这 问 这 们哪
里来的,你十有八九猜非洲。 什么 ?因 黑人中非洲人的比率最高,当然为 呢 为
人家也可能是美洲人或 洲人,但在没有其它可用信息下,我 会 条件概亚 们 选择
率最大的类 , 就是朴素 叶斯的思想基 。别 这 贝 础
槽(看口型), 都 猜出来了卧 这 让你
61. 那么 在的 就是如何 算第现 关键 计 3 步中的各个条件概率
朴素 叶斯分类的正式定贝 义
1. 一个待分类 ,而每个设 为 项 a 为 x 的一个特征属性。
2. 有类 集合 。别
3. 算 。计
4. 如果 , 。则
},...,,{ 21 m
aaax =
},...,,{ 21 n
yyyC =
)|(),...,|(),|( 21
xyPxyPxyP n
)}|(),...,|(),|(max{)|( 21
xyPxyPxyPxyP nk
= k
yx∈
62. 1. 找到一个已知分类的分类集合。 个集合叫做 本集。这 训练样
2. 得到在各个类 下各个特征属性的条件概率估 。统计 别 计
3. 如果各个特征属性是条件独立的,根据 叶斯定理贝
4. 由于分母 于所有类 都 常数,只需要将分子最大化。又因 各特征属性是条件独立的,所以对 别 为 为
)|(),...,|(),|(
......
),|(),...,|(),|(
),|(),...,|(),|(
21
22221
11211
nmnn
m
m
yaPyaPyaP
yaPyaPyaP
yaPyaPyaP
)(
)()|(
)|(
xP
yPyxP
xyP ii
i =
∏
=
==
m
j
ijiiimiiii yaPyPyPyaPyaPyaPyPyxP
1
21 )|()()()|()...|()|()()|(
小编:往往这也是朴素贝叶斯分类的一个致命弱点。
哎,果然太朴素了。
64. 估 类 下特征属性 分的条件概率及计 别 划 Laplace 校准
算各个 分的条件概率计 划 P(a|y) 是朴素 叶斯分类的 性步贝 关键 骤
1. 特征属性 离散 : 本中各个 分在每个类 中出 的 率为 值 统计训练样 划 别 现 频
2. 特征属性是 :通常假定其 服从高斯分布(也称正 分布)连续值 值 态
2
2
2
)(
2
1
)( σ
µ
σπ
−
−
=
x
exf
算出 本中各个类 中此特征 分的各均 和 准差,代入上述公式即计 训练样 别 项划 值 标
可得到需要的估 。计值
当 P(a|y)=0 ,即当某个类 下某个特征 分没有出 ,引入别 项划 现时 Laplace 校准:
没类 下所有 分的 数加对 别 划 计 1 。
正 分布的密度函数态 :
65. 于正 分布关 态
正 分布的前世今生(上,下)态
• http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=106
• http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=107
“ 它以一 静无形的方式在最野性的混乱中 施 厉的 治。暴民越多,无政府状 越 ,它就 治得种宁 实 严 统 态 显现 统
越完美。它是无理性世界中的最高法律。” -- 高尔顿
正所 ,”大道至 ,大美天成“。谓 简 -- 小编
)(
2
1
)()(
2
2
2
)(
RxdxexFxXP
x x
X ∈==≤
∫∞−
−
−
σ
µ
σπ
66. 朴素 叶斯分类的 用范例贝 应
人群分类
Query 分类
商品分类
网 分类页
件垃圾邮 过滤
二 中盟 推 粹德国潜艇位置战 军 测纳
找失事 航寻 马 MH370 客机
67. 叶斯方法在法航事件搜救 程中的 用贝 过 应
在 2009 年 6 月 1 日早晨,法航 447 航班失事。
2010 年 7 月,法国航空事故 委任调查处 Metron 重新 分析已有的搜救信息,以便 制一副 机残负责 检查 绘 飞
骸可能地点的概率分布 。如 所示,概率由大到小的 序 : 、橙、黄、 、 。图 图 顺 为 红 绿 蓝
在 高概率区域 行持 一周的搜 之后,对 进 续 寻
残骸被 。发现
随后, 行数据 器和 音 器飞 记录 驾驶舱语 记录
被找到。
最 残骸的位置离 中的概率中心位置终确认 图
并不 。远
68. 用 例应 实
根据 Wikipedia 上的一个例子
-- 根据 Training data 推 某个体 本的类测 样 别
描述问题 :
通 一些 量的特征,包括身高、体重、脚的尺寸,判定一个人是过 测
男性 是女性。还
69. Training Data
性别 身高 ( 英
尺 )
体重 ( 磅 ) 脚的尺寸 ( 英
寸 )
男 6 180 12
男 5.92 190 11
男 5.58 170 12
男 5.92 165 10
女 5 100 6
女 5.5 150 8
女 5.42 130 7
女 5.75 150 9
性别 身高 ( 英
尺 )
体重
( 磅 )
脚的尺寸 ( 英
寸 )
? 6 130 8
Sample Data
是男是女?
70. 此 叶斯分类算法的思路问题贝
1. 人的身高,体重,脚的尺寸,其 是 的,符合 随机 量的值 连续 连续 变
特征,因此我 将使用 随机 量的分布特征。如前所述,们 连续 变 应认
些 量各自服从正 分布(身高的正 分布,体重的正 分布为这 变 态 态 态
,脚的尺寸的正 分布)。态
2. 分 算三个正 分布函数的均别计 态 值 (mean), 方差 (variance) 。
3. 将 本数据样 ( 待推 的个体数据测 ) 的身高,体重,脚的尺寸分 代别
入各自的正 分布函数, 算其在各个分类态 计 ( 男,或女 ) 下的条件概
率密度。
4. 算各个分类下的条件概率密度的乘 ,得到其最大 。 取得最计 积 值 则
大 的那个所在分类,即 本的推定所属类。值 为样
72. 影响一个 叶斯分类器 率的因素贝 错误
(1) 集训练 (Training Data) 的 数量。记录
(2) 属性的数目。
(3) 属性中的信息。
(4) 待 的分布。预测记录
73. 一 无 督学 的算法:种 监 习 K-means 聚类算
法
K-means 算法是将 本聚类成样 K 个簇( cluster )
打个比方,宇宙中的星星可以表示成三 空 中的点集,把星星聚类维 间
后 果是一个个星 ,星 里面的点相互距离比 近,星 的星结 团 团 较 团间
星距离就比 了。较远
74. K-means 聚类算法 程描述:过
要将所有的星星聚成 K 个星 ,首先随机 取团 选 K 个宇宙中的点(或者
K 个星星)作为 K 个星 的 心团 质
1. 于每一个星星 算其到对 计 K 个 心中每一个的距离,然后 取距质 选
离最近的 心。如此,每一个星星都有了所属的星 。质 团
2. 于每一个星 ,重新 算它的 心( 里面所有的星星坐 求平对 团 计 质 对 标
均)。重 迭代第一步和第二步直到 心不 或者 化很小。复 质 变 变
缺点:
必 事先 出须 给 K (要生成的簇的数目);
当存在“噪音”和孤立点数据 ,容易被 端数据影响。时 极
76. K-means 聚类算法
• 入:输
- K (簇的数量)
- 数据集(训练 Training Set ) :
例上除去惯
}...,,{ )()3()2()1( m
xxxx
ni
x R∈)( )0(
x
77. K-means 聚类算法
• 随机初始化 K 个簇的 心:质
• 循 理环处 while 收敛 {
for i = 1 to m
:= 距离 最近的簇的 心的索引(质 1 to K )
for k = 1 to K
:= 从属于索引为 k 的簇中所有 本的平均样 值
}
n
K R∈µµµµ ,...,, 321
)(i
c )(i
x
kµ
kµ
79. 分类器的学 方式的不同两种 习
• 朴素 叶斯分类:无 督学贝 监 习 (Unsupervised learning)
• K-Means 分类:有 督学监 习 (Supervised learning)
80. 一 有 督学 算法另 种 监 习 -- 性回线 归
某地房 价格产
价格(万
)
面 (平米)积
有 督学监 习
每一个 本点都是一个样
正 的答案确
回归问题
出预测输 值
81. Notation:
m = 数据的数量训练
x’s = 入 量输 变 / 特征
y’s = 出 量输 变 / 目 量标变
面 平米积 (x) 价格 (y)
2104 460
1416 232
1534 315
852 178
… …
房价的 数据训练
83. 假设 :
参数 :
成本函数 :
目标 :
量 性回 ,类似于 学的 性回单变 线 归 统计 线 归
参数 可用梯度下降( Gradient Descent )的方法求得
84. 机器学 的主要算法习
• Regression( 回 分析归 )
• Instance based learning( 基于 例的学实 习 )
• Decision tree methods( 决策 方法树 )
• Bayesian method( 叶斯方法贝 )
• Kernel Method( 核方法 )
• Clustering( 聚类 )
如 K-Means
• Association rule learning( 合 学联 规则 习 )
• Artificial Neural Networks( 人工神 网经 络 )
• Deep Learning( 深度学习 )
• Dimensionality Reduction( 度维 缩减 )
• Ensemble methods( 合方法组 )
86. 机器学 ,数据 掘 域 人权威学者习 挖 领 华
恩 (吴 达 Andrew Ng )
人工智能和机器学 域国 上最权威的学者之一习领 际 , 也是在 教育线
平台 Coursera 的 合 始人。联 创
・卡内基梅隆大学的 算机科学学士学位计
・麻省理工学院的 士学位硕
・加州大学伯克利分校的博士学位
・ 2010 年 谷歌开发团队 XLab
・ Google Brain 计划
・ 2014 年 5 月 16 日,百度宣布 恩 加入百度,担任百度公司吴 达
首席科学家 (Baidu Brain 计划 )
研究 域:机器学 和人工智能,研究重点是深度学 (领 习 习 Deep
Learning )
87. 机器学 ,数据 掘 域 人权威学者习 挖 领 华
家韩 炜
美国伊利 伊大学香 分校 算机系正教授,诺 槟 计 IEEE 和 ACM 院士
,美国信息网 学 研究中心主任。络 术
・中国科学与技 大学 算机科学系术 计
・中科院研究生院
・美国威斯康辛大学 算机系博士计 毕业
著作:
Data Mining: Concepts and Techniques (数据 掘:概念与技挖
), 数据 掘界公 的 典教材术 为 挖 认 经
研究方向:
数据 掘(挖 Data Mining )
88. 机器学 ,数据 掘 域 人权威学者习 挖 领 华
余凯
百度深度学 研究院习 (IDL) 常 副院 ,第九批务 长 " 千人 “国家特聘计划
家,知名机器学 家。专 习专
・南京大学
・德国慕尼黑大学 得 算机博士学位获 计
・美国 NEC 研究院 Media Analytics 部 主管门
・西 子公司数据 掘部 高 研究门 挖 门 级 员
・曾任百度公司的技 副术 总监
研究方向:
机器学 、 像 、多媒体 索、 控,以及数据 掘和人机习 图 识别 检 视频监 挖
交互等人工智能 域领
89. 推荐 目书
• 子 :电 书 Introduction To Machine Learning (MTI, Purdue)
The Elements of Statistical Learning -- Data Mining, Inference, and Prediction