该语句用于创建资源。仅 root 或 admin 用户可以创建资源。目前支持 Spark, ODBC, S3, JDBC, HDFS, HMS, ES 外部资源。 将来其他外部资源可能会加入到 Doris 中使用,如 Spark/GPU 用于查询,HDFS/S3 用于外部存储,MapReduce 用于 ETL 等。

    语法:

    说明:

    • PROPERTIES中需要指定资源的类型 “type” = “[spark|odbc_catalog|s3|jdbc|hdfs|hms|es]“。
    • 根据资源类型的不同 PROPERTIES 有所不同,具体见示例。
    1. 创建yarn cluster 模式,名为 spark0 的 Spark 资源。

      1. PROPERTIES
      2. (
      3. "type" = "spark",
      4. "spark.master" = "yarn",
      5. "spark.submit.deployMode" = "cluster",
      6. "spark.jars" = "xxx.jar,yyy.jar",
      7. "spark.files" = "/tmp/aaa,/tmp/bbb",
      8. "spark.executor.memory" = "1g",
      9. "spark.yarn.queue" = "queue0",
      10. "spark.hadoop.yarn.resourcemanager.address" = "127.0.0.1:9999",
      11. "spark.hadoop.fs.defaultFS" = "hdfs://127.0.0.1:10000",
      12. "working_dir" = "hdfs://127.0.0.1:10000/tmp/doris",
      13. "broker" = "broker0",
      14. "broker.username" = "user0",
      15. "broker.password" = "password0"
      16. );

      Spark 相关参数如下:

      • spark.master: 必填,目前支持yarn,spark://host:port。
      • spark.submit.deployMode: Spark 程序的部署模式,必填,支持 cluster,client 两种。
      • spark.hadoop.yarn.resourcemanager.address: master为yarn时必填。
      • spark.hadoop.fs.defaultFS: master为yarn时必填。
      • 其他参数为可选,参考

    Spark 用于 ETL 时需要指定 working_dir 和 broker。说明如下:

    • working_dir: ETL 使用的目录。spark作为ETL资源使用时必填。例如:hdfs://host:port/tmp/doris。
    • broker: broker 名字。spark作为ETL资源使用时必填。需要使用ALTER SYSTEM ADD BROKER 命令提前完成配置。
    • broker.property_key: broker读取ETL生成的中间文件时需要指定的认证信息等。
      1. CREATE EXTERNAL RESOURCE `oracle_odbc`
      2. PROPERTIES (
      3. "type" = "odbc_catalog",
      4. "host" = "192.168.0.1",
      5. "port" = "8086",
      6. "user" = "test",
      7. "database" = "test",
      8. "odbc_type" = "oracle",
      9. "driver" = "Oracle 19 ODBC driver"
      10. );

      ODBC 的相关参数如下:

      • hosts:外表数据库的IP地址
      • driver:ODBC外表的Driver名,该名字需要和be/conf/odbcinst.ini中的Driver名一致。
      • odbc_type:外表数据库的类型,当前支持oracle, mysql, postgresql
      • user:外表数据库的用户名
      • password:对应用户的密码信息
      • charset: 数据库链接的编码信息
      • 另外还支持每个ODBC Driver 实现自定义的参数,参见对应ODBC Driver 的说明
    1. 创建 S3 resource

      如果 s3 reource 在冷热分离中使用,需要添加额外的字段。

      1. CREATE RESOURCE "remote_s3"
      2. PROPERTIES
      3. (
      4. "type" = "s3",
      5. "AWS_ENDPOINT" = "bj.s3.com",
      6. "AWS_REGION" = "bj",
      7. "AWS_ACCESS_KEY" = "bbb",
      8. "AWS_SECRET_KEY" = "aaaa",
      9. -- required by cooldown
      10. "AWS_ROOT_PATH" = "/path/to/root",
      11. "AWS_BUCKET" = "test-bucket"
      12. );

      S3 相关参数如下:

      • 必需参数
        • AWS_ENDPOINT:s3 endpoint
        • AWS_REGION:s3 region
        • AWS_ROOT_PATH:s3 根目录
        • AWS_ACCESS_KEY:s3 access key
        • AWS_SECRET_KEY:s3 secret key
        • AWS_BUCKET:s3 的桶名
      • 可选参数
        • AWS_MAX_CONNECTIONS:s3 最大连接数量,默认为 50
        • :s3 请求超时时间,单位毫秒,默认为 3000
        • AWS_CONNECTION_TIMEOUT_MS:s3 连接超时时间,单位毫秒,默认为 1000
    2. 创建 JDBC resource

      1. CREATE RESOURCE mysql_resource PROPERTIES (
      2. "type"="jdbc",
      3. "user"="root",
      4. "password"="123456",
      5. "driver_url" = "https://doris-community-test-1308700295.cos.ap-hongkong.myqcloud.com/jdbc_driver/mysql-connector-java-8.0.25.jar",
      6. "driver_class" = "com.mysql.cj.jdbc.Driver"
      7. );

      JDBC 的相关参数如下:

      • user:连接数据库使用的用户名
      • password:连接数据库使用的密码
      • jdbc_url: 连接到指定数据库的标识符
      • driver_url: jdbc驱动包的url
      • driver_class: jdbc驱动类
    3. HDFS 相关参数如下:

      • fs.defaultFS: namenode 地址和端口
      • username: hdfs 用户名
      • dfs.nameservices: name service名称,与hdfs-site.xml保持一致
      • dfs.ha.namenodes.[nameservice ID]: namenode的id列表,与hdfs-site.xml保持一致
      • dfs.namenode.rpc-address.[nameservice ID].[name node ID]: Name node的rpc地址,数量与namenode数量相同,与hdfs-site.xml保持一致
    4. 创建 HMS resource

      HMS resource 用于

      1. CREATE RESOURCE hms_resource PROPERTIES (
      2. 'type'='hms',
      3. 'hive.metastore.uris' = 'thrift://127.0.0.1:7004',
      4. 'dfs.nameservices'='HANN',
      5. 'dfs.ha.namenodes.HANN'='nn1,nn2',
      6. 'dfs.namenode.rpc-address.HANN.nn1'='nn1_host:rpc_port',
      7. 'dfs.namenode.rpc-address.HANN.nn2'='nn2_host:rpc_port',
      8. 'dfs.client.failover.proxy.provider.HANN'='org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider'
      9. );

      HMS 的相关参数如下:

      • hive.metastore.uris: hive metastore server地址 可选参数:
      • dfs.*: 如果 hive 数据存放在hdfs,需要添加类似 HDFS resource 的参数,也可以将 hive-site.xml 拷贝到 fe/conf 目录下
      • AWS_*: 如果 hive 数据存放在 s3,需要添加类似 S3 resource 的参数。如果连接 阿里云 Data Lake Formation,可以将 hive-site.xml 拷贝到 fe/conf 目录下
    5. 创建 ES resource

      1. CREATE RESOURCE es_resource PROPERTIES (
      2. "type"="es",
      3. "hosts"="http://127.0.0.1:29200",
      4. "nodes_discovery"="false",
      5. "enable_keyword_sniff"="true"

      ES 的相关参数如下:

      • hosts: ES 地址,可以是一个或多个,也可以是 ES 的负载均衡地址
      • user: ES 用户名
      • password: 对应用户的密码信息
      • enable_docvalue_scan: 是否开启通过 ES/Lucene 列式存储获取查询字段的值,默认为 true
      • enable_keyword_sniff: 是否对 ES 中字符串分词类型 text.fields 进行探测,通过 keyword 进行查询(默认为 true,设置为 false 会按照分词后的内容匹配)
      • nodes_discovery: 是否开启 ES 节点发现,默认为 true,在网络隔离环境下设置为 false,只连接指定节点