bias和variance 偏差和方差 的理解(转载知乎)

转载 2018-05-16 02:08 阅读(525)次

关于偏差和方差我看过很多的文章,大同小异,都是那4幅图(靶心),不过我在知乎上看到如下的解释到是挺形象的。我截取了一段,他其他部分分析的是具体机器学习算法如KNN,随机森林,初学者可以先忽略。


作者:milter

链接:https://www.zhihu.com/question/20448464/answer/339471179
来源:知乎



1、引子假设我们有一个回归问题,我们搞到一批训练数据D,然后选择了一个模型M,并用数据D将M训练出来,记作Mt,这里我们故意把模型M与训练出的模型Mt区分开,是为了后面叙述时概念上的清晰。

现在,我们怎么评价这个模型的好坏呢?你可能会不屑地说,这么简单的问题还用问吗,当然是用test集来测试啊。


哈哈!你上当了!


因为我并没有说明是评价模型M的好坏还是模型Mt的好坏!这二者有什么区别呢?

我们都知道,模型M代表的是一个函数空间,比如模型y=wx+b,若x,y都是实数,w,b为实数参数,则该模型就代表了平面上所有的直线,这所有的直线就是一个函数空间。同理,y=ax^2+bx+c代表的就是平面上所有的二次曲线,所有的二次曲线组成一个函数空间。

当然,所有的直线此时也是二次曲线的特例。

回到上面的问题,Mt实际上是用数据D找到的M代表的函数空间中的一个具体的函数。这话有点绕,不过还是不难理解的。Mt的表现好坏不能完整地代表M的好坏。上面这句话有很多内涵,我们一点一点来说明。

2、什么是M的好坏?以上面的一次函数和二次函数为例,当我们说二次函数比一次函数更好时,我们潜在的含义是说,对于某个我们正要解决的机器学习问题来说,二次函数总体上比一次函数表现更好,我们是在函数空间的层次上来比较的。而且,还是针对一个具体的机器学习问题来比较的,因为对于不同的机器学习问题,二者哪个更好是不一定的。

Note:在下文中,可以把机器学习问题默想成回归问题,这样便于理解。

这里再次强调,当我们说模型好坏时,隐含有两个含义:

一,比较的是整个函数空间

二,针对某个具体机器学习问题比较

3,怎么比较M的好坏?我们可以这样做:

1,找一条不变的万能测试样本在这个具体的机器学习问题中找一条样本x,它的标签为y。在后续的所有训练中都用这条样本做测试集,永远不用作训练集。

2,在测试样本上观察Mt的表现,假设Mt在样本x上的预测值为yt,则y-yt可用来评价Mt的表现好坏。

3,找另外一个训练集D1,训练出Mt1,在测试样本上测试得到yt1,进而得到误差y-yt1,

4,重复第3步多次,直到得到N个具体的模型,和N个yt,N个y-yt。

5,当N足够大时,我们可以这样来评测M的好坏,首先看N个yt的均值ytmean是否等于y,其次,看N个yt相对均值ytmean的方差有多大。

显然,若ytmean=y,说明M学习能力是够的,也就是说,当N趋向无穷大时,N个Mt对x预测的均值能无限接近y。很多人会有种错觉,感觉任何M都能达到上面的效果,实际上,不是每一个M都有这样的能力的,举个极端的例子,我们假设M1的函数空间中只有一个函数,且对于任何样本的预测值都恒等于y+1,则无论N多大,ytmean都会比y大1的。

我们称M1由于学习能力不够所造成的对x的预测误差叫做偏差。其次,N个yt相对均值ytmean的方差有多大也能从另一个方面揭示M的好坏,

举个例子,假设我们有M1,M2两个模型,当N无穷大时,都能使得ytmean等于y。

但是M1的预测值是这样分布的(下面圆点代表一个个的预测值)

.....ytmean.....

M2的预测值是这样分布的

.  .   .  .ytmean.  .   .  .

显然,我们会觉得M1比M2更好。你可能会想,N足够大时,二者都能准确地均值到y,这就够了,没必要再比较它们的预测值相对均值的方差。

这样的观点错误的地方是:实践中,我们并不能抽样出D1,D2,D3.......DN个训练集,往往只有一份训练集D,这种情况下,显然,用M1比用M2更有把握得到更小的误差。

4、举例子来说明偏差方差假设模型是一个射击学习者,D1,D2直到DN就是N个独立的训练计划。

如果一个学习者是正常人,一个眼睛斜视,则可以想见,斜视者无论参加多少训练计划,都不会打中靶心,问题不在训练计划够不够好,而在他的先天缺陷。这就是模型偏差产生的原因,学习能力不够。

正常人参加N个训练计划后,虽然也不能保证打中靶心,但随着N的增大,会越来越接近靶心。假设还有一个超级学习者,他的学习能力特别强,参加训练计划D1时,他不仅学会了瞄准靶心,还敏感地捕捉到了训练时的风速,光线,并据此调整了瞄准的方向,此时,他的训练成绩会很好。但是,当参加测试时的光线,风速肯定与他训练时是不一样的,他仍然按照训练时学来的瞄准方法去打靶,肯定是打不好。

这样产生的误差就是方差。这叫做聪明反被聪明误。总结一下:学习能力不行造成的误差是偏差,学习能力太强造成的误差是方差。

5、权衡偏差方差当我们只有一份训练数据D时,我们选的M若太强,好比射手考虑太多风速,光线等因素,学出来的模型Mt在测试样本上表现肯定不好,若选择的M太挫,比如是斜视,也无论如何在测试的样本上表现也不会好。所以,最好的M就是学习能力刚刚好的射手,它能够刚刚好学习到瞄准的基本办法,又不会画蛇添足地学习太多细枝末节的东西。

 


以上部分转载完成,我通过吴恩达的视频学习和知乎等途径的解释,我简单的认为  高偏差就是欠拟合的表现,高方差是过拟合的表现。

最后我还是补上那个注明靶心图



下一篇:CAP 的理解