资料下载：阿里云Flink社区贡献Flink从入门到精通.pdf

阿里云Flink社区贡献Flink从入门到精通.pdf

http://www.100md.com 2020年11月4日

第1页

第4页

第20页

第22页

第47页

参见附件(18526KB，204页)。

Flink是可以运行在多种不同的环境中的，例如，它可以通过单进程多线程的方式直接运行，从而提供调试的能力。它也可以运行在Yarn或者K8S这种资源管理系统上面，也可以在各种云环境中执行。

    综述

    本文主要介绍Flink Runtime的作业执行的核心机制。首先介绍Flink Runtime的整体架构以及Job的基本执行流程，然后介绍在这个过程，Flink是怎么进行资源管理、作业调度以及错误恢复的。最后，本文还将简要介绍Flink Runtime层当前正在进行的一些工作。

    Flink Runtime整体架构

    Flink的整体架构。Flink是可以运行在多种不同的环境中的，例如，它可以通过单进程多线程的方式直接运行，从而提供调试的能力。它也可以运行在Yarn或者K8S这种资源管理系统上面，也可以在各种云环境中执行。

    错误恢复

    在Flink作业的执行过程中，除正常执行的流程外，还有可能由于环境等原因导致各种类型的错误。整体上来说，错误可能分为两大类：Task执行出现错误或Flink集群的Master出现错误。由于错误不可避免，为了提高可用性，Flink需要提供自动错误恢复机制来进行重试。

    对于第一类Task执行错误，Flink提供了多种不同的错误恢复策略。如图8所示，第一种策略是Restart-all，即直接重启所有的Task。对于Flink的流任务，由于Flink提供了Checkpoint机制，因此当任务重启后可以直接从上次的Checkpoint开始继续执行。因此这种方式更适合于流作业。第二类错误恢复策略是Restart-individual，它只适用于Task之间没有数据传输的情况。这种情况下，我们可以直接重启出错的任务。

    阿里云Flink社区贡献Flink从入门到精通截图

附件资料：

阿里云Flink社区贡献Flink从入门到精通.pdf（18526KB）

本页网址：

http://www.100md.com/html/file/202011/045189.htm