bias和variance 偏差和方差 的理解(转载知乎)

转载 2018-05-16 02:08 阅读(525)次
关于偏差和方差我看过很多的文章,大同小异,都是那4幅图(靶心),不过我在知乎上看到如下的解释到是挺形象的。我截取了一段,他其他部分分析的是具体机器学习算法如KNN,随机森林,初学者可以先忽略。作者:milter链接:https://www.zhihu.com/question/20448464/answer/339471179来源:知乎 1、引子假设我们有一个回归问题,我们搞到一批训练数据D,然后选择了一个模型M,并用数据D将M训练出来,记作Mt,这里我们故意把模型M与训练出的模型Mt区分开,是为了后面叙述时概念上的清晰。 现在,我们怎么评价这个模型的好坏呢?你可能会不屑地说,这么简单的问题还...

交叉熵(转载知乎)

转载 2018-05-14 17:07 阅读(185)次
我看了很多关于交叉熵和相对熵的帖子,大同小异,没有太多考虑入门水平的人的理解力。难得在知乎上看到这个回答,我觉得很棒,进行了转载。知乎关于交叉熵的回答有很多,我只转载的CyberRep答案。如果不能转载,还烦请联系我。 如果不知道什么是熵,要可以看看我这篇 信息量和信息熵作者:CyberRep链接:https://www.zhihu.com/question/41252833/answer/195901726来源:知乎讨论这个问题需要从香农的信息熵开始。小明在学校玩王者荣耀被发现了,爸爸被叫去开家长会,心里悲屈的很,就想法子惩罚小明。到家后,爸爸跟小明说:既然你犯错了,就要接受惩罚,...

信息量和信息熵

原创 2018-05-13 19:07 阅读(165)次
介绍信息量是为了介绍信息熵,而介绍信息熵是为了机器学习中常用到的一个概念,交叉熵。 先解释一下信息:信息是用来消除不确定性的消息。 信息量:顾名思义,表示信息多少,是一种量化方式,但信息是用概率来量化的。 一个消息中包含了几个事件,x表示其中一个事件,p(x)表示x这个事件发生的概率,这个概率一般是先验概率。 比如公司抽奖,将全体员工的工号写在乒乓球上,放入抽奖箱,老板抽取,公司员工共50人,那这时候抽中我的概率就是1/50。抽中任何人的概率都是1/50。 而信息量的公式       代入p=1/50 等于 5.6439 这时候有个同事偷放入了写有他...

常见但不要滥用的优化机器学习结果的方式

原创 2018-05-10 11:50 阅读(114)次
机器学习的结果就是预测函数,或者叫做model(mahout里面是称之为model)。 当我们使用这个预测函数,不论是回归还是分类或者聚类,我们把新的数据传入到预测函数,多少还是需要人工判断一下预测结果的准确度的。当发现结果不理想的时候,一般可以从以下几个方面考虑。 首先,在极少的情况下,你可以把这个预测函数可视化,也就是画图展示出来。这有个苛刻的条件,你的特征项不能超过3个,否则3维以上的图形是很难画出来的。如果你有幸特征项是在3个以下,请尝试画出函数图,看看是否过拟合训练数据。 抛弃理想情况,更多的我们是要观察一下机器学习算法的训练数据是否合适。 首先看看训练样本数量是否足够,特别是多分...

监督学习的数据集的划分和模型的选择

原创 2018-05-09 17:41 阅读(141)次
对于监督学习中的训练样本数据,划分技巧是很重要的。 往往我们的划分是七三分,70%训练集,30%测试集。 但这并不是最好的。 因为不管是回归还是分类问题,在多次项 polynomial 的选择上有很多。在讨论过拟合问题中我们提到过,高次项过多是过拟合的一种表征,而都是1次项组成又容易发生欠拟合。 多次项如何选择呢。就需要数据集的划分出验证集来做验证。 数据集首先应该打乱顺序,因为一些数据可能存在递增递减,或者按时间段起伏的特点,如果在划分数据的时候是按顺序划分,很可能让每份数据差别很大。所以需要随机并按比例分。 其次数据集应该分为三分,60%训练集,20%验证集,20%测试集。 为什么会多出了...

正则化-解决过拟合

原创 2018-04-07 16:20 阅读(133)次
过拟合的问题我已经介绍过了: 过拟合 我们知道过拟合的表征就是预测函数有太多高阶项比如3次方,4次方,或者更高。那我们可以通过降低或者去除这些项来解决过拟合问题,正则化的本质是为了简化预测函数的模型,使函数曲线更平滑,而减少这些高次项带来的过拟合。 由于h(x)是一个以x为自变量的函数,我们无法控制输入的数据x,所以简化函数的手段就是去减少或者去除某些参数θk。 去除高次项需要一些正确人工判断,人工就存在主观,可能带来错误,把一些对正确预测结果有帮助的特征项(但可能帮助很小,但却被扩大而造成过拟合)去掉。此时减少这些被扩大的影响比去除掉此特征项更合适。 在做预测函数h(x)求参数θ解...

欠拟合,过拟合问题

原创 2018-04-03 15:56 阅读(127)次
所谓欠拟合就是预测函数h_θ(x)的cost function(loss function)过大,没有和训练样本较好的拟合在一起,本质上是机器学习还没有学习到训练数据的特征中隐含的关系。往往初期的预测函数都是欠拟合的。随着减少cost function的,h_θ(x)会逐渐拟合训练数据。通俗的说就是预测函数还很不准确(不可用)的阶段。经过梯度下降等算法计算后依然欠拟合的话,可能的原因是特征维度过少,导致拟合的函数无法满足训练集,误差较大(high bias)。解决方法: 1. 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,...