机器学习练习题与答案

萌到你眼炸
745次浏览
2021年02月19日 20:45
最佳经验
本文由作者推荐

-

2021年2月19日发(作者:国立中央大学排名)



《机器学习》练习题与解答




1.



小刚 去应聘某互联网公司的算法工程师,


面试官问他


“回归和分类有 什么相同点和不同点”



他说了以下言论,请逐条判断是否准确 。



1


)回归和分类都是有监督学习问题



[


单选题


] [


必答题


]

















参考答 案



对。



解 析


:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练 数


据集中推断出函数的机器学习任务。



有监督学习和无监督学习的区别是:





机器学习算法的图谱如下:




在回归问题中,标签是连续值;在分类问题中,标签是离散值 。具体差别请看周志华《机器学


习》书中的例子,一看便懂:






2.



背景同上题。请判断



2


)回归问题和分类问题都有可能发生过拟合


[


单选题


] [


必答题


]


















答案


:对



解 析


:这题有两个同学做错。过拟合的英文名称是


Over-f itting(


过拟合


)


。为了说清楚 “过”


拟合,首先说一下“拟合”



【拟合的几何意义】:



从几何意义上 讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲


面来最大 限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。




我们知道



在物理学中,


电阻和温度是线性的关系,


也就是


R=at+b



现在我们有一系列关于


“温


度”和“电阻”的测量值。一个最简单的思路,取两组测量值,解一个线性 方程组,就可以求


出系数


a



b


了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们 每次测量得


到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多 次,得到多组的


值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线 ,让这条直线尽可能


地接近各个测量得到的点。




拟合的数学意义:



在数学的意义上,所谓拟合


(fit)


是指已知某函数 的若干离散函数值


{f1,f2,



, fn}


(未必都是


准确值,


有个别可能 是近似甚至错误值)



通过调整该函数中若干待定系数


f(λ1,


λ2,…,λn),


使得该函数与 已知点集的差别


(


最小二乘意义


)


最小。




【说说过拟合】



古人云“过犹不及” 。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟


合的很不错,但 是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔


给它一系列 新的没学习过的数据,它判断的非常差!比如古时候有个教书先生教小明写数字,


“一” 字是一横,“二”字是两横,“三”字是三横。然后,小明说,老师你不用教我写数字


了 ,我都会写。老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。。


用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于 复杂的模型


来刻画简单的问题,就有可能得到“聪明过头”的结果。比如下面预测房子的 价格


(price)



size


之间关系的问题(来源于


andrew ng



ppt








通过五 组数据,


我们通过肉眼直观地看,


可以初步判断房屋的价格和< /p>


size


之间是二次函数的关


系,也就是 中间这幅图所拟合的情况。而右边这幅图中,自作聪明地用了一个四次函数来拟和


这五组 数据,虽然在已知的五个数据上都是


100%


准确,却得出了“ 当房子的


size


大于某个值




房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这 样的是过拟合。左边这


个用一条直线来拟合



但是拟合的误差很大



也不置信,这叫“欠拟合”。




在周志华老师的书中,举的例子是这样的:





发现了没有?周志华 老师用的是“是不是树叶”这样的分类问题举例,


andrew


ng


用的


是“房价和房屋面积的关系”这样的回归问题举例。 这说明,分类和回归都有可能过拟合。





3.



背景同上题。请判断



3




一般来 说,


回归不用在分类问题上,


但是也有特殊情况,


比如


logistic


回归可以用来解决


0/1


分类问题


[


单选题


] [


必答题


]

















答案:对



解析:


Logistic


回归是一种非 常高效的分类器。它不仅可以预测样本的类别,还可以计算出分

-


-


-


-


-


-


-


-