机器学习练习题与答案
-
《机器学习》练习题与解答
1.
小刚
去应聘某互联网公司的算法工程师,
面试官问他
“回归和分类有
什么相同点和不同点”
,
他说了以下言论,请逐条判断是否准确
。
1
)回归和分类都是有监督学习问题
[
单选题
]
[
必答题
]
○
对
○
错
参考答
案
:
对。
解
析
:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练
数
据集中推断出函数的机器学习任务。
有监督学习和无监督学习的区别是:
机器学习算法的图谱如下:
在回归问题中,标签是连续值;在分类问题中,标签是离散值
。具体差别请看周志华《机器学
习》书中的例子,一看便懂:
2.
背景同上题。请判断
2
)回归问题和分类问题都有可能发生过拟合
[
单选题
]
[
必答题
]
○
○
对
错
答案
:对
解
析
:这题有两个同学做错。过拟合的英文名称是
Over-f
itting(
过拟合
)
。为了说清楚
“过”
拟合,首先说一下“拟合”
【拟合的几何意义】:
从几何意义上
讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲
面来最大
限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。
我们知道
在物理学中,
电阻和温度是线性的关系,
也就是
R=at+b
。
现在我们有一系列关于
“温
度”和“电阻”的测量值。一个最简单的思路,取两组测量值,解一个线性
方程组,就可以求
出系数
a
、
b
了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们
每次测量得
到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多
次,得到多组的
值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线
,让这条直线尽可能
地接近各个测量得到的点。
拟合的数学意义:
在数学的意义上,所谓拟合
(fit)
是指已知某函数
的若干离散函数值
{f1,f2,
…
,
fn}
(未必都是
准确值,
有个别可能
是近似甚至错误值)
,
通过调整该函数中若干待定系数
f(λ1,
λ2,…,λn),
使得该函数与
已知点集的差别
(
最小二乘意义
)
p>
最小。
【说说过拟合】
古人云“过犹不及”
。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟
合的很不错,但
是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔
给它一系列
新的没学习过的数据,它判断的非常差!比如古时候有个教书先生教小明写数字,
“一”
字是一横,“二”字是两横,“三”字是三横。然后,小明说,老师你不用教我写数字
了
,我都会写。老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。。
用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于
复杂的模型
来刻画简单的问题,就有可能得到“聪明过头”的结果。比如下面预测房子的
价格
(price)
和
size
之间关系的问题(来源于
andrew ng
的
ppt
)
通过五
组数据,
我们通过肉眼直观地看,
可以初步判断房屋的价格和<
/p>
size
之间是二次函数的关
系,也就是
中间这幅图所拟合的情况。而右边这幅图中,自作聪明地用了一个四次函数来拟和
这五组
数据,虽然在已知的五个数据上都是
100%
准确,却得出了“
当房子的
size
大于某个值
时
房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这
样的是过拟合。左边这
个用一条直线来拟合
但是拟合的误差很大
也不置信,这叫“欠拟合”。
在周志华老师的书中,举的例子是这样的:
发现了没有?周志华
老师用的是“是不是树叶”这样的分类问题举例,
andrew
ng
用的
是“房价和房屋面积的关系”这样的回归问题举例。
这说明,分类和回归都有可能过拟合。
3.
背景同上题。请判断
3
)
一般来
说,
回归不用在分类问题上,
但是也有特殊情况,
比如
logistic
回归可以用来解决
0/1
分类问题
[
单选题
]
[
必答题
]
○
○
对
错
答案:对
解析:
Logistic
回归是一种非
常高效的分类器。它不仅可以预测样本的类别,还可以计算出分