搜索:K-means

spark on k8s 第二篇:client模式和依赖管理(自翻译)

原创 2019-11-22 20:44 阅读(8)次
继上篇 http://www.kaonao.net/detail/147.html说完集群模式 还有客户端模式何为spark on k8s 的客户端模式? 从spark 2.4开始,提供了client mode。区别在于driver可以运行在pod或者物理机上。就是driver可以不在k8s集群里的pod里。但必须考虑网络通信,即executor需要能通过host+port去访问driver。因此根据不同选择,配置也不同1、 如果driver运行在pod上,可以通过 headless service,使用固定的hostname由executor路由到driver。...

spark on k8s 第一篇:注意事项和集群模式 (自翻译)

原创 2019-11-21 22:17 阅读(12)次
目前spark是可以运行在k8s上的,使用的是加入到spark中的原生的k8s(kubernates)的调度器。但目前还是试验阶段,配置,镜像和entrypoints都有可能会修改。spark on k8s 特别要注意安全:1、默认的镜像是没有用户指令的,所以只能用root用户在容器中运行spark,这存在被人攻击,提权的风险。所以要应该在构建自定义镜像,并提供user指令,来指定无特权的UID,GID。(用root风险太高,也违背了运维原则)2.也可以使用pod template特性,给spark提交的pods加上一个security的上下文runAsUser,但这是需要用户配合的,需要由集...

K-means算法的优化目标和初始化要点

原创 2018-07-08 23:23 阅读(246)次
K-means算法的优化目标 K-means算法的原来我在上一篇 K-means算法原理 提到了。但具体实现还有几个要点需要注意。 K-means算法的结果很依赖于一开始初始化类别点,不同初始化点会得到不同的聚类结果,但全局最优解往往只有一个,其他的结果只能是局部最优解。 如何分辨全局最优解还是局部最优解? 这就需要一个判定的方法。这和分类,回归问题一样(最小化代价函数),需要找到K-means算法的最优化目标。 运行K-means算法中有两组重要的变量将会随着算法运行而不断改变,第1个就是每个数据点在每轮循环的时候所属于的类别,也就是每个类别暂时包含的数据点集合。第2个即...

K-means算法原理

原创 2018-07-06 21:31 阅读(143)次
  想到聚类算法,最出名的应该就是K-means算法了。本文从数学的角度来介绍K-means算法的原理 不过我上几周跟一位程序员朋友聊天,提到聚类,他不经意的回了一句,就是分类是吧。这不禁让我想起我初学机器学习的时候也是没搞清楚分类和聚类的区别。这里我们先明确一下两者的不同。 分类是监督学习的一种,也就是训练数据含有label,且label的名称(或者叫类别)和总数量是固定的,算法通过训练数据后得到模型,对新的未知label数据(预测数据)进行label的预测。 聚类是非监督学习的一种,训练数据不含有label,算法直接作用于预测数据,将其分为指定数量的类别,这里的类别没有已知名称,...