入门

你只需要具备 SQL 的基础知识即可,不需要其他编程经验。

安装 Flink 有多种方式。对于实验而言,最常见的选择是下载二进制包并在本地运行。你可以按照中的步骤为本教程的剩余部分设置环境。

完成所有设置后,在安装文件夹中使用以下命令启动本地集群:

启动完成后,就可以在本地访问 Flink WebUI localhost:8081,通过它,你可以监控不同的作业。

是一个交互式的客户端,用于向 Flink 提交 SQL 查询并将结果可视化。 在安装文件夹中运行 脚本来启动 SQL 客户端。

  1. ./bin/sql-client.sh

SQL 客户端(我们的查询编辑器)启动并运行后,就可以开始编写查询了。 让我们使用以下简单查询打印出 ‘Hello World’:

  1. SELECT 'Hello World';

这些函数为用户在开发 SQL 查询时提供了一个功能强大的工具箱。 例如,CURRENT_TIMESTAMP 将在执行时打印出机器的当前系统时间。


    与所有 SQL 引擎一样,Flink 查询操作是在表上进行。与传统数据库不同,Flink 不在本地管理静态数据;相反,它的查询在外部表上连续运行。

    Flink 数据处理流水线开始于 source 表。source 表产生在查询执行期间可以被操作的行;它们是查询时 FROM 子句中引用的表。这些表可能是 Kafka 的 topics,数据库,文件系统,或者任何其它 Flink 知道如何消费的系统。

    可以通过 SQL 客户端或使用环境配置文件来定义表。SQL 客户端支持类似于传统 SQL 的 SQL DDL 命令。标准 SQL DDL 用于,修改,表。

    Flink 支持不同的连接器和相结合以定义表。下面是一个示例,定义一个以 CSV 文件作为存储格式的 source 表,其中 emp_idnamedept_id 作为 表语句中的列。

    1. CREATE TABLE employee_information (
    2. emp_id INT,
    3. name VARCHAR,
    4. dept_id INT
    5. ) WITH (
    6. 'connector' = 'filesystem',
    7. 'path' = '/path/to/something.csv',
    8. 'format' = 'csv'
    9. );

    可以从该表中定义一个连续查询,当新行可用时读取并立即输出它们的结果。 例如,我们可以过滤出只在部门 1 中工作的员工。


    一个永远不会终止,并会产生一个动态表作为结果。动态表是 Flink 中 Table API 和 SQL 对流数据支持的核心概念。

    连续流上的聚合需要在查询执行期间不断地存储聚合的结果。例如,假设你需要从传入的数据流中计算每个部门的员工人数。查询需要维护每个部门最新的计算总数,以便在处理新行时及时输出结果。

    1. dept_id,
    2. FROM employee_information
    3. GROUP BY dept_id;

    这样的查询被认为是 有状态的。Flink 的高级容错机制将维持内部状态和一致性,因此即使遇到硬件故障,查询也始终返回正确结果。

    当运行此查询时,SQL 客户端实时但是以只读方式提供输出。存储结果,作为报表或仪表板的数据来源,需要写到另一个表。这可以使用 INSERT INTO 语句来实现。本节中引用的表称为 sink 表。INSERT INTO 语句将作为一个独立查询被提交到 Flink 集群中。

    1. INSERT INTO department_counts
    2. SELECT
    3. dept_id,
    4. COUNT(*) as emp_count

    提交后,它将运行并将结果直接存储到 sink 表中,而不是将结果加载到系统内存中。


    如果你有疑惑,可以查阅。 特别是,Apache Flink 的用户邮件列表一直被评为是任何 Apache 项目中最活跃的项目之一,也是快速获得帮助的好方法。

    • :SQL 支持的操作和语法。
    • SQL 客户端:不用编写代码就可以尝试 Flink SQL,可以直接提交 SQL 任务到集群上。
    • :Table API 和 SQL 公共概念以及 API。
    • 流式概念:Table API 和 SQL 中流式相关的文档,比如配置时间属性和如何处理更新结果。
    • :读写外部系统的连接器和格式。