flink 官网翻译系列 (二) Applications

原创 2019-06-16 23:06 阅读(129)次
原文地址:https://flink.apache.org/flink-applications.htmlApache Flink是一个用于对无界和有界数据流进行有状态计算的框架。 Flink在不同的抽象级别提供多个API,并为常见用例提供专用lib。 流应用程序的构建要素 Building Blocks for Streaming Applications基于流处理框架来构建与运行的应用,取决于该应用所选择的框架如何更好的处理 stream,state以及time。下面我们将会描述流处理应用中这三个基础元素,并解释Flink是如何处理这三者的。     stre...

flink 官网翻译系列 (一) 什么是flink

原创 2019-06-16 02:34 阅读(116)次
先声明,这系列文章我除了自己翻译也会借鉴前人的翻译结果。主要是为了自己的学习和一些跟我一样不擅长英语的朋友学习。我很看好flink这个框架,因为他同时能做流计算和批处理,性能上优于其他对手。而且我判断整个行业正在从老数据(离线)的T+N的BI工作中走向对实时性要求更高的流计算倾斜。3-4年前就听说了flink,一直因为各种原因没有好好学习。这是本系列的第一篇。https://flink.apache.org/flink-architecture.html  官网原文地址。 Apache Flink是一个能在有界和无界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计为在所...

(转)终于等到你!阿里正式向 Apache Flink 贡献 Blink 源码

转载 2019-01-28 11:41 阅读(207)次
Blink简介Apache Flink是德国柏林工业大学的几个博士生和研究生从学校开始做起来的项目,早期叫做Stratosphere。2014年,StratoSphere项目中的核心成员从学校出来开发了Flink,同时将Flink计算的主流方向定位为流计算,并在同年将Flink捐赠Apache,后来快速孵化成为Apache的顶级项目。现在Flink是业界公认的最好的大数据流计算引擎。 阿里巴巴在2015年开始尝试使用Flink。但是阿里的业务体量非常庞大,挑战也很多。彼时的Flink不管是规模还是稳定性尚未经历实践,成熟度有待商榷。为了把这么大的业务体量支持好,我们不得不在Flink...

Flink基本概念

原创 2018-06-09 10:51 阅读(160)次
Flink基本介绍 Flink官网入口在介绍flink前,先介绍了数据集模型和执行模型。我想这里主要是为了跟spark做对比。 数据集类型有两种 有界,不变的数据集。 无限,持续追加的数据集。很多时候认为是有界的数据其实是无界的,比如服务器上的日志,每天变动的股票市场交易,用户对互联网的访问,正在来临的物联网时代的传感器信息。 执行模型也分为两种: streaming:流式处理,连续的,一条条的处理到来的数据 batch:处理有限的时间段内数据,完成后然后释放资源 这两种执行模式都可以应用在有界或者无界的数据集上,虽然未必是最好的选择。现在大名鼎鼎的spark streaming就是使用bat...