-
Notifications
You must be signed in to change notification settings - Fork 15
/
Copy pathch2.Rmd
44 lines (31 loc) · 1.43 KB
/
ch2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
统计学习导论-统计学习
========================================================
# 统计学习定义
- $Y = f(X) + \epsilon$
- 统计学习本质上是在寻找最合适的f来进行**预测**与**推断**
## 预测
- $\hat Y = \hat f(X)$,$\hat f(X)$ 通常看作黑箱
- $\hat Y$预测$Y$需要考虑两部分误差:可约误差与不可约误差
- 可约误差指$\hat f$推断$f$上的偏差
- 不可约误差指由$\epsilon$引入的误差
- 误差的期望 $E(Y - \hat Y)^2 = [f(x) - \hat f(x)]^2 + Var(\epsilon)$ (证明用到$E(Y)$)
## 推断
- 关注X与Y的关系,$\hat f(X)$ 通常有明确的形式
- 自变量因变量是否相关
- 如何相关
- 关系的数学描述
## 估计f
- 使用训练集与验证集
- 参数方法与非参数方法
- 模型的欠拟合与过拟合
- 权衡模型的准确性(预测)与可解释性(推断)
- 模型的奥卡姆剃刀与黑箱
# 评价模型
## 拟合质量测量
- 训练集均方误 $MSE_{Tr} = Ave_{i \in Tr}[y_{i} − \hat f(x_i)]^2$
- 测试集均方误 $MSE_{Te} = Ave_{i \in Te}[y_{i} − \hat f(x_i)]^2$
- 测试集均方误源于训练集拟合模型的方差,误差项$\epsilon$的方差及模型误差的平方三部分
## 聚类评价
- 错误率 $Err_{Te} = Ave_{i \in Te}I[y_i \neq \hat C(x_i)]$
- 贝叶斯分类器:错误率最小的分类器,使x属于某个分类的概率最大
- k临近值聚类:距离最小的k个为一类所产生的分类器