Hive

    Flink 与 Hive 的集成包含两个层面。

    一是利用了 Hive 的 MetaStore 作为持久化的 Catalog,用户可通过将不同会话中的 Flink 元数据存储到 Hive Metastore 中。 例如,用户可以使用HiveCatalog将其 Kafka 表或 Elasticsearch 表存储在 Hive Metastore 中,并后续在 SQL 查询中重新使用它们。

    二是利用 Flink 来读写 Hive 的表。

    HiveCatalog的设计提供了与 Hive 良好的兼容性,用户可以”开箱即用”的访问其已有的 Hive 数仓。 您不需要修改现有的 Hive Metastore,也不需要更改表的数据位置或分区。

    Flink 支持一下的 Hive 版本。

    • 1.0
      • 1.0.0
      • 1.0.1
    • 1.1
      • 1.1.0
      • 1.1.1
    • 1.2
      • 1.2.0
      • 1.2.1
      • 1.2.2
    • 2.0
      • 2.0.0
      • 2.0.1
    • 2.1
      • 2.1.0
      • 2.1.1
    • 2.2
      • 2.2.0
    • 2.3
      • 2.3.0
      • 2.3.1
      • 2.3.2
      • 2.3.3
      • 2.3.4
      • 2.3.5
      • 2.3.6
    • 3.1
      • 3.1.0
      • 3.1.1
      • 3.1.2

    请注意,某些功能是否可用取决于您使用的 Hive 版本,这些限制不是由 Flink 所引起的:

    • Hive 内置函数在使用 Hive-1.2.0 及更高版本时支持。
    • 列约束,也就是 PRIMARY KEY 和 NOT NULL,在使用 Hive-3.1.0 及更高版本时支持。
    • 更改表的统计信息,在使用 Hive-1.2.0 及更高版本时支持。
    • DATE列统计信息,在使用 Hive-1.2.0 及更高版时支持。
    • 使用 Hive-2.0.x 版本时不支持写入 ORC 表。

    要与 Hive 集成,您需要在 Flink 下的/lib/目录中添加一些额外的依赖包, 以便通过 Table API 或 SQL Client 与 Hive 进行交互。 或者,您可以将这些依赖项放在专用文件夹中,并分别使用 Table API 程序或 SQL Client 的-C-l选项将它们添加到 classpath 中。

    Apache Hive 是基于 Hadoop 之上构建的, 首先您需要 Hadoop 的依赖,请参考 Providing Hadoop classes:

    有两种添加 Hive 依赖项的方法。第一种是使用 Flink 提供的 Hive Jar包。您可以根据使用的 Metastore 的版本来选择对应的 Hive jar。第二个方式是分别添加每个所需的 jar 包。如果您使用的 Hive 版本尚未在此处列出,则第二种方法会更适合。

    下表列出了所有可用的 Hive jar。您可以选择一个并放在 Flink 发行版的/lib/ 目录中。

    用户定义的依赖项

    您可以在下方找到不同Hive主版本所需要的依赖项。

    Hive 2.3.4

    1. /flink-1.15.0
    2. /lib
    3. // Flink's Hive connector.Contains flink-hadoop-compatibility and flink-orc jars
    4. flink-connector-hive_2.12-1.15.0.jar
    5. // Hive dependencies
    6. hive-exec-2.3.4.jar
    7. // add antlr-runtime if you need to use hive dialect
    8. antlr-runtime-3.5.2.jar

    Hive 1.0.0

    1. /flink-1.15.0
    2. /lib
    3. // Flink's Hive connector
    4. flink-connector-hive_2.12-1.15.0.jar
    5. // Hive dependencies
    6. hive-metastore-1.0.0.jar
    7. hive-exec-1.0.0.jar
    8. libfb303-0.9.0.jar // libfb303 is not packed into hive-exec in some versions, need to add it separately
    9. // Orc dependencies -- required by the ORC vectorized optimizations
    10. orc-core-1.4.3-nohive.jar
    11. aircompressor-0.8.jar // transitive dependency of orc-core
    12. antlr-runtime-3.5.2.jar

    Hive 1.1.0

    1. /flink-1.15.0
    2. /lib
    3. // Flink's Hive connector
    4. flink-connector-hive_2.12-1.15.0.jar
    5. // Hive dependencies
    6. hive-metastore-1.1.0.jar
    7. hive-exec-1.1.0.jar
    8. libfb303-0.9.2.jar // libfb303 is not packed into hive-exec in some versions, need to add it separately
    9. // Orc dependencies -- required by the ORC vectorized optimizations
    10. orc-core-1.4.3-nohive.jar
    11. aircompressor-0.8.jar // transitive dependency of orc-core
    12. // add antlr-runtime if you need to use hive dialect
    13. antlr-runtime-3.5.2.jar

    Hive 1.2.1

    1. /flink-1.15.0
    2. /lib
    3. flink-connector-hive_2.12-1.15.0.jar
    4. // Hive dependencies
    5. hive-metastore-1.2.1.jar
    6. hive-exec-1.2.1.jar
    7. libfb303-0.9.2.jar // libfb303 is not packed into hive-exec in some versions, need to add it separately
    8. // Orc dependencies -- required by the ORC vectorized optimizations
    9. orc-core-1.4.3-nohive.jar
    10. aircompressor-0.8.jar // transitive dependency of orc-core
    11. // add antlr-runtime if you need to use hive dialect
    12. antlr-runtime-3.5.2.jar

    Hive 2.0.0

    Hive 2.1.0

    1. /flink-1.15.0
    2. /lib
    3. // Flink's Hive connector
    4. flink-connector-hive_2.12-1.15.0.jar
    5. // Hive dependencies
    6. hive-exec-2.1.0.jar
    7. // add antlr-runtime if you need to use hive dialect
    8. antlr-runtime-3.5.2.jar

    Hive 2.2.0

    1. /flink-1.15.0
    2. /lib
    3. // Flink's Hive connector
    4. flink-connector-hive_2.12-1.15.0.jar
    5. // Hive dependencies
    6. hive-exec-2.2.0.jar
    7. // Orc dependencies -- required by the ORC vectorized optimizations
    8. orc-core-1.4.3.jar
    9. aircompressor-0.8.jar // transitive dependency of orc-core
    10. // add antlr-runtime if you need to use hive dialect
    11. antlr-runtime-3.5.2.jar
    1. /flink-1.15.0
    2. /lib
    3. // Flink's Hive connector
    4. flink-connector-hive_2.12-1.15.0.jar
    5. // Hive dependencies
    6. hive-exec-3.1.0.jar
    7. // add antlr-runtime if you need to use hive dialect
    8. antlr-runtime-3.5.2.jar

    Maven 依赖

    如果您在构建自己的应用程序,则需要在 mvn 文件中添加以下依赖项。 您应该在运行时添加以上的这些依赖项,而不要在已生成的 jar 文件中去包含它们。

    1. <!-- Flink Dependency -->
    2. <dependency>
    3. <groupId>org.apache.flink</groupId>
    4. <artifactId>flink-connector-hive_2.12</artifactId>
    5. <version>1.15.0</version>
    6. <scope>provided</scope>
    7. </dependency>
    8. <groupId>org.apache.flink</groupId>
    9. <artifactId>flink-table-api-java-bridge_2.12</artifactId>
    10. <version>1.15.0</version>
    11. <scope>provided</scope>
    12. </dependency>
    13. <!-- Hive Dependency -->
    14. <dependency>
    15. <groupId>org.apache.hive</groupId>
    16. <artifactId>hive-exec</artifactId>
    17. <version>${hive.version}</version>
    18. <scope>provided</scope>
    19. </dependency>

    通过 TableEnvironment 或者 YAML 配置,使用 和 HiveCatalog连接到现有的 Hive 集群。

    以下是如何连接到 Hive 的示例:

    Java

    Scala

    1. val settings = EnvironmentSettings.inStreamingMode()
    2. val tableEnv = TableEnvironment.create(settings)
    3. val name = "myhive"
    4. val defaultDatabase = "mydatabase"
    5. val hiveConfDir = "/opt/hive-conf"
    6. val hive = new HiveCatalog(name, defaultDatabase, hiveConfDir)
    7. tableEnv.registerCatalog("myhive", hive)
    8. // set the HiveCatalog as the current catalog of the session
    9. tableEnv.useCatalog("myhive")

    Python

    1. from pyflink.table import *
    2. from pyflink.table.catalog import HiveCatalog
    3. settings = EnvironmentSettings.in_batch_mode()
    4. t_env = TableEnvironment.create(settings)
    5. catalog_name = "myhive"
    6. default_database = "mydatabase"
    7. hive_conf_dir = "/opt/hive-conf"
    8. hive_catalog = HiveCatalog(catalog_name, default_database, hive_conf_dir)
    9. t_env.register_catalog("myhive", hive_catalog)
    10. # set the HiveCatalog as the current catalog of the session
    11. tableEnv.use_catalog("myhive")

    YAML

    1. execution:
    2. ...
    3. current-catalog: myhive # set the HiveCatalog as the current catalog of the session
    4. current-database: mydatabase
    5. catalogs:
    6. - name: myhive
    7. type: hive
    8. hive-conf-dir: /opt/hive-conf

    SQL

    1. CREATE CATALOG myhive WITH (
    2. 'type' = 'hive',
    3. 'default-database' = 'mydatabase',
    4. 'hive-conf-dir' = '/opt/hive-conf'
    5. );
    6. USE CATALOG myhive;

    下表列出了通过 YAML 文件或 DDL 定义 时所支持的参数。

    参数必选默认值类型描述
    type
    (无)StringCatalog 的类型。 创建 HiveCatalog 时,该参数必须设置为‘hive’
    name
    (无)StringCatalog 的名字。仅在使用 YAML file 时需要指定。
    hive-conf-dir
    (无)String指向包含 hive-site.xml 目录的 URI。 该 URI 必须是 Hadoop 文件系统所支持的类型。 如果指定一个相对 URI,即不包含 scheme,则默认为本地文件系统。如果该参数没有指定,我们会在 class path 下查找hive-site.xml。
    default-database
    defaultString当一个catalog被设为当前catalog时,所使用的默认当前database。
    hive-version
    (无)StringHiveCatalog 能够自动检测使用的 Hive 版本。我们建议不要手动设置 Hive 版本,除非自动检测机制失败。
    hadoop-conf-dir
    (无)StringHadoop 配置文件目录的路径。目前仅支持本地文件系统路径。我们推荐使用 HADOOP_CONF_DIR 环境变量来指定 Hadoop 配置。因此仅在环境变量不满足您的需求时再考虑使用该参数,例如当您希望为每个 HiveCatalog 单独设置 Hadoop 配置时。

    Flink 支持 DML 写入 Hive 表,请参考