搜索:翻译

spark on k8s 第二篇:client模式和依赖管理(自翻译

原创 2019-11-22 20:44 阅读(8)次
继上篇 http://www.kaonao.net/detail/147.html说完集群模式 还有客户端模式何为spark on k8s 的客户端模式? 从spark 2.4开始,提供了client mode。区别在于driver可以运行在pod或者物理机上。就是driver可以不在k8s集群里的pod里。但必须考虑网络通信,即executor需要能通过host+port去访问driver。因此根据不同选择,配置也不同1、 如果driver运行在pod上,可以通过 headless service,使用固定的hostname由executor路由到driver。...

spark on k8s 第一篇:注意事项和集群模式 (自翻译

原创 2019-11-21 22:17 阅读(12)次
目前spark是可以运行在k8s上的,使用的是加入到spark中的原生的k8s(kubernates)的调度器。但目前还是试验阶段,配置,镜像和entrypoints都有可能会修改。spark on k8s 特别要注意安全:1、默认的镜像是没有用户指令的,所以只能用root用户在容器中运行spark,这存在被人攻击,提权的风险。所以要应该在构建自定义镜像,并提供user指令,来指定无特权的UID,GID。(用root风险太高,也违背了运维原则)2.也可以使用pod template特性,给spark提交的pods加上一个security的上下文runAsUser,但这是需要用户配合的,需要由集...

flink 官网翻译系列 (二) Applications

原创 2019-06-16 23:06 阅读(129)次
原文地址:https://flink.apache.org/flink-applications.htmlApache Flink是一个用于对无界和有界数据流进行有状态计算的框架。 Flink在不同的抽象级别提供多个API,并为常见用例提供专用lib。 流应用程序的构建要素 Building Blocks for Streaming Applications基于流处理框架来构建与运行的应用,取决于该应用所选择的框架如何更好的处理 stream,state以及time。下面我们将会描述流处理应用中这三个基础元素,并解释Flink是如何处理这三者的。     stre...

flink 官网翻译系列 (一) 什么是flink

原创 2019-06-16 02:34 阅读(116)次
先声明,这系列文章我除了自己翻译也会借鉴前人的翻译结果。主要是为了自己的学习和一些跟我一样不擅长英语的朋友学习。我很看好flink这个框架,因为他同时能做流计算和批处理,性能上优于其他对手。而且我判断整个行业正在从老数据(离线)的T+N的BI工作中走向对实时性要求更高的流计算倾斜。3-4年前就听说了flink,一直因为各种原因没有好好学习。这是本系列的第一篇。https://flink.apache.org/flink-architecture.html  官网原文地址。 Apache Flink是一个能在有界和无界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计为在所...