搜索:一致性

flink 官网翻译系列 () 什么是flink

原创 2019-06-16 02:34 阅读(85)次
先声明,这系列文章我除了自己翻译也会借鉴前人的翻译结果。主要是为了自己的学习和一些跟我一样不擅长英语的朋友学习。我很看好flink这个框架,因为他同时能做流计算和批处理,性能上优于其他对手。而且我判断整个行业正在从老数据(离线)的T+N的BI工作中走向对实时性要求更高的流计算倾斜。3-4年前就听说了flink,一直因为各种原因没有好好学习。这是本系列的第一篇。https://flink.apache.org/flink-architecture.html  官网原文地址。 Apache Flink是一个能在有界和无界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计为在所...

linux一次性删除过多文件的方法

原创 2018-06-25 16:56 阅读(142)次
linux 要用命令行一次性删除某个目录下的文件,一般是用rm -rf ,如文件太多,会报参数过多无法执行。 这里提供一个小技巧。 可以用find通过找出早于多少天前的文件删除。如下13天前修改的文件删除 find ./ -mtime +13 -print|xargs rm -vf 这样做就能避免文件过多报错的问题。 如果只是要删除13天前那一天的文件,去掉+号。 特别注意:这个13天前会精确到时分秒,也就是执行是2月15日 18:05,则2月12号的18:05前的文件被会被删除。18点06分以后的还存在。 本文我原来写在csdn,现在搬到自己的空间来。

最优化方法入门(

原创 2018-05-30 00:36 阅读(131)次
一直很不明白为什么招机器学习岗位都要求研究生以上的学历。笔者面试过很多人,也遇到过一些名牌大学高材生和研究生,发现在软件开发方面其实这些人并未必比一些培训机构出来的小伙子更适合。因为他们中的本科生很可能也是在大学中虚度光阴(基本都是哈,因为重点大学牛逼的都去考研考博了),而研究生为了考研确实在数学上下了一些功夫,但或许因为为了考得上,还要把很多精力放在政治,英语等科目上,在软件开发方面说实话并没有什么实战经验,甚至存在浑水摸鱼的情况,要价还很高。不过直到我在学习机器学习的时候,发现数学的重要性后,认为研究生(我指确实认真读书的那些研究生)确实有一定优势,基本就是数学和英语方面。而最优化理论又是...

一致性问题和共识算法

原创 2018-05-24 10:50 阅读(127)次
随着单机(单服务器),分布式已经是现在的主流。但分布式一定会遇到一致性问题。 所谓一致性就是分布式环境中的各个节点在一段操作后,使得他们对处理结果都保持一定程度的一致。这里的一致性分为不同级别,但总之只有满足一致性,对外才能呈现为一个功能正常的,且性能和稳定性都要好很多的“虚处理节点”。 对于访问分布式系统的用户来说,他一般是无法选择具体访问某个节点,当然他也不应该关心需要访问哪个节点,他看到的一个服务,而这个服务具体背后的结构对用户是透明的。所以如果分布式系统没有一致性,用户多次访问被分配到不同的节点,得到了不同的响应,怕是没人敢用这个服务了吧,比如售票服务。 注意:一致性并不代表结果正确与...

正规方程法处理正则化后的线回归,解决过拟合

原创 2018-04-08 00:00 阅读(333)次
没有正则化的线性回归正规方程法可以看这边 : 线性回归之正规方程法求解 正规方程法是通过 这个推导出的,现在  带入求导可推出(推导过程略,都是数学的东西) andrew ng在他的视频中推导出了结果: 跟未正则化的正规方程法相比,增加了λ 和一个 (n+1)* (n+1)的矩阵的相乘,n是样本的特征项数。 这个矩阵和单元矩阵略有不同,差别是第1行第1列的位置为0而不是1。 本文完。 本站作品的版权皆为作品作者所有。本站文字和内容为本站编辑或翻译,部分内容属本站原创,所以转载前务必通知本站并以超链接形式注明内容来自本站,否则以免带来不必要的麻烦。本站内容欢迎分...

梯度下降处理正则化后的线回归,解决过拟合

原创 2018-04-07 23:12 阅读(218)次
过拟合问题 和正则化 在   欠拟合,过拟合问题  和 正则化-解决过拟合  中解释过。 现在我们要把正则化应用到线性回归算法中来解决可能出现的过拟合问题。 就是把           带入到梯度下降   更正: 在这里的J(θ0,θ1)  应该是 J(θ) 中 得到 可以看出来,θ0的梯度下降是跟之前未加入正则化的时候一样的。这也符合了我们正则化-解决过拟合  提到的,惩罚项不包过θ0的说法。 j 输入1到n的部分,可以将θj提取出来得到...

用优化算法解线回归

原创 2018-04-02 17:51 阅读(148)次
之前介绍过用梯度下降法和正规方程法求解线性回归。 本文将介绍用优化算法求解线性回归。 优化算法有很多种,见 优化算法清单,时间有限,我还在学习和补充中。优化算法中的其中一种就是求最值问题。线性回归的求解思路就是把cost function求最小化。 因为线性回归只有一个特征项的时候,但对应的函数为  ,我们会对应一个2*1矩阵的参数对应,第一个参数θ_0恒等于1,也就是大于等于2维的参数矩阵。 此时需要使用fminunc方法, 方法介绍见   octave 求最值的优化方法fminunc 直接上代码 步骤1,定义需要优化的线性回归的代价函数 funct...

数学-线,非线

转载 2018-03-22 17:12 阅读(116)次
在机器学习中,经常讨论线性和非线性,这是一个入门级扫盲,我记录下来完全是自己查阅。 我查看了不同的一些网上说法,选择这个解释 转载自:  https://zhidao.baidu.com/question/94379061.html 线性linear,指量与量之间按比例、成直线的关系,在空间和时间上代表规则和光滑的运动; 非线性non-linear则指不按比例、不成直线的关系,代表不规则的运动和突变。 线性:指量与量之间按比例、成直线的关系,在数学上可以理解为一阶导数为常数的函数; 非线性:则指不按比例、不成直线的关系,一阶导数不为常数。 线性关系:两个变量之间存在一次方函...

线回归之正规方程法求解

原创 2018-03-20 21:05 阅读(139)次
在 线性回归用梯度下降求解 中我们用梯度下降法求出了结果。 但线性回归还有另外一种更便捷的方法,正规方程法,Normal Equation。 θ=(XTX)−1XTy 用这个公司,可以直接求出Θ参数矩阵,从何得到h(x). 其中X表示了m条记录的样本数据,每条记录有n个特征项。 所以X就是 m*(n+1) 的矩阵 , X的转置就是(n+1) * m矩阵。 y 是训练数据的目标特征向量,即是m*1 的矩阵。 因此   XTX      是 (n+1)*(n+1) 矩阵, 他的逆矩阵就 (n+1)*(n+1)的矩阵,...

线回归用梯度下降求解

原创 2018-03-19 11:46 阅读(120)次
对于多元线性回归还是一元线性回归,他们使用梯度下降求解的方法是相同的。 梯度下降法的介绍在这里: 梯度下降 gradient descent 都是遵循线性梯度下降方法,区别只是同时更新的θ的个数         代入 相当于 使用梯度下降法的几个加快收敛的注意事项: 1.    特征缩放 如果有多个特征项,他们的取值范围差异很大,会造成对应他们的θ的取值范围也很大。 假设x1 取值范围较大,对应的θ1的取值范围则会较小,因为θ1也改变得较大,会造成h(x)的振幅很大。反之亦然。 这样不利于梯度下降收敛。由于Θ中有一...

多元线回归

原创 2018-03-18 00:55 阅读(102)次
在 线性回归的求解原理和cost function 中我们假设了预测函数是一元线性方程,即只有一个变量x。但现实生活中的问题,训练样本和待分析数据是不只一个特征项的,所以就有了多元线性回归的预测问题。 多元,意味着变量有x1,x2,x3...xn ,线性方程就是   θ0项可以认为是θ0 *  x0 ,x0 = 1 。 这样,n项特征项的变量,可以当成是 n+1项的向量,即   而参数θ也可以形成向量,即  而h(x)  可以写成     本站作品的版权皆为作品作者所有。本...

线回归的cost function 等高线图分析法

原创 2018-03-16 10:51 阅读(161)次
从上文  线性回归的cost function 3D图形分析法 我们能大概看出cost function的趋势和最低点,但3D图形并不那么直观。本文介绍用等高线图来分析cost function。 基本求J值的方法是一样的, clear ; close all; clc data = load('ex1data1.txt'); X = data(:, 1); y = data(:, 2); m = length(y); X = [ones(m, 1), data(:,1)]; % m * 2 theta0_vals = linspace(-1...

线回归的cost function 3D图形分析法

原创 2018-03-04 22:31 阅读(163)次
在上文 线性回归的cost function 2D图形分析法 我们假设θ0 =  0 ,使J(θ0,θ1) 变成 J(θ1)。所以可以用2D图形来表示J(θ)函数。本文将认为θ0 !=0,cost function  将有两个自变量的函数J(θ0,θ1) ,就是需要3D图形来表示(x轴θ0,y轴θ1,z轴为J(θ0,θ1))的值。 想要得到如下图的效果, 首先我们需要样本数据,这里用andrew Ng 课程一个的数据作为绘图的样本数据。 数据共97行,每行2列,第1列是特征项x,第2列是目标值y。我截取一些如下 6.1101,17.592 5.5277,...

线回归的cost function 2D图形分析法

原创 2018-03-04 17:52 阅读(124)次
在 线性回归的求解原理和cost function 一文中我们已经介绍了线性回归的cost function和他的作用。 本文我们从cost function 的图形上来发现J的最小值。 预测函数 :           cost function :   为了理解方便,我们假设θ0 =  0 ,这样预测函数为 h(x) = 0 + θ1x =   θ1x  ,   对于cost function的自变量就只有θ1和因变量y...

线回归的求解原理和cost function

原创 2018-03-04 01:19 阅读(233)次
上一篇 机器学习之回归入门     我们介绍了线性回归,这次我们来讲解线性回归的求解。求解原理举例说明cost function求解原理 中学学的一元的线性方程 y  =  ax + b, 为了后面的讲解简单,我们用θ来表示参数,即为  ,也是  我们称之为预测函数。 θ的不同取值,表示了不同的线性方程,坐标系上就表示了不同的直线。只有一条直线是最拟合训练样本的,求解线性回归就是找出这条直线,也就是找出对应的(θ0,θ1)举例说明 如图 五个红星代表了5个训练样本,分别有3条线对应3个线性方程。  &n...

机器学习之回归入门

原创 2018-03-03 18:18 阅读(121)次
什么是回归问题转换成数学问题线性回归什么是回归问题        预测明天甚至未来一周的气温,这是回归问题。 预测 iphone的价格走势,这是回归问题 预测房价的走势,这是回归的问题。 甚至位于数学界最深渊的问题,预测股价,也是回归问题 从上面这4个问题我们能发现回归问题预测的是连续的结果(这是相对于分类的离散值而言),是一个具体的数值。 这就是机器学习的回归问题。 同时他也是监督学习的一种。 监督学习:首先他需要由一定数量的训练数据集,数据集中包含训练需要的特征项,同时也包含正确的"答案"。   ...

centos上安装些必要工具和常用命令

原创 2018-02-28 15:50 阅读(128)次
本文将持续更新。 1.    rz    sz 这是一个用命令进行文件上传和下载的工具,很方便。缺点是指能单个文件操作yum install -y lrzsz 安装complete后,即安装成功。如果失败请根据报错信息修改。 在xshell中执行rz 就会打开一个窗口选择文件进行上传。 运行sz a.txt 就会把a.txt下载到本地。   查看linux版本查看内核 cat /proc/version查看发行版本cat /etc/issue 如果是centos7查看发行版本用cat /etc/centos-release ce...