[Bug]: hive的hdfs写不支持多分区想写hive的时侯支持动态分区 #1127

laixueyong · 2024-09-18T03:45:44Z

laixueyong
Sep 18, 2024

What happened?

hive的hdfs写不支持多分区想写hive的时侯支持动态分区

Version

4.1.7 (Default)

OS Type

No response

Java JDK Version

Oracle JDK 1.8.0

Relevant log output

No response

Answered by wgzhao

Sep 18, 2024

如果你这里指的使用 hdfswriter 来保存数据的话，那么写入 HDFS 和 Hive 没有关系。也就是说，hdfswriter 只会检查要写入的目录是否存在，至于这个目录如何创建，它并不关心。
你说的动态插入实际上是 Hive 的功能，而不是 HDFS 的功能，是 Hive 在插入数据之前自动创建分区。这个不是 hdfswriter 插件所需要解决的问题。
“数据都是从关系型数据库读取存储到hive中有些是做为ods层的表” 这的确是很常见的场景，所以就我在生产环境的做法是采集分成了两个步骤，第一个步骤调用 hive 创建分区，第二步是通过动态传递参数的方式来告诉 hdfswriter 要写入的 HDFS 目录位置。举例如下：

"writer": {
        "name": "hdfswriter",
        "parameter": {
          "defaultFS": "hdfs://cluster",
          "fileType": "orc",
          "path": "/ods/odstl/account_info/logdate=${logdate}",
          "fileName": "addax",
          "column": [
            {
              "name": "id",
              "type": "bigint"
            },
            {
              "name":

View full answer

wgzhao · 2024-09-18T03:47:43Z

wgzhao
Sep 18, 2024
Maintainer

请给出具体的需求场景

0 replies

laixueyong · 2024-09-18T06:46:30Z

laixueyong
Sep 18, 2024
Author

1.随着数据量的发展希望用hive存储其他数据库的历史数据，因为在hive在开表的时候需要建成分区表，但是用addax写入hive的时候需要先建分区目录在写入数据比较麻烦。有没有动态分区的写法指定一个字段进行分区呢，数据都是从关系型数据库读取存储到hive中有些是做为ods层的表

0 replies

wgzhao · 2024-09-18T07:22:32Z

wgzhao
Sep 18, 2024
Maintainer

如果你这里指的使用 hdfswriter 来保存数据的话，那么写入 HDFS 和 Hive 没有关系。也就是说，hdfswriter 只会检查要写入的目录是否存在，至于这个目录如何创建，它并不关心。
你说的动态插入实际上是 Hive 的功能，而不是 HDFS 的功能，是 Hive 在插入数据之前自动创建分区。这个不是 hdfswriter 插件所需要解决的问题。
“数据都是从关系型数据库读取存储到hive中有些是做为ods层的表” 这的确是很常见的场景，所以就我在生产环境的做法是采集分成了两个步骤，第一个步骤调用 hive 创建分区，第二步是通过动态传递参数的方式来告诉 hdfswriter 要写入的 HDFS 目录位置。举例如下：

"writer": {
        "name": "hdfswriter",
        "parameter": {
          "defaultFS": "hdfs://cluster",
          "fileType": "orc",
          "path": "/ods/odstl/account_info/logdate=${logdate}",
          "fileName": "addax",
          "column": [
            {
              "name": "id",
              "type": "bigint"
            },
            {
              "name": "platform",
              "type": "string"
            },
            {
              "name": "user_id",
              "type": "bigint"
            },
            {
              "name": "relation_time",
              "type": "string"
            },
            {
              "name": "channel_id",
              "type": "bigint"
            }
          ],
          "writeMode": "overwrite",
          "fieldDelimiter": "\u0001",
          "compress": "lz4"
        }
      }

上述采集的数据对应的 Hive 表是 account_info ，有一个分区字段 logdate string。第二步调用 addax 的方式如下

bin/addax.sh -p"-Dlogdate=20240918" xxx.json

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug]: hive的hdfs写不支持多分区想写hive的时侯支持动态分区 #1127

{{title}}

Replies: 3 comments

{{title}}

{{title}}

{{title}}

Select a reply

[Bug]: hive的hdfs写不支持多分区 想写hive的时侯支持动态分区 #1127

laixueyong Sep 18, 2024

What happened?

Version

OS Type

Java JDK Version

Relevant log output

Replies: 3 comments

wgzhao Sep 18, 2024 Maintainer

laixueyong Sep 18, 2024 Author

wgzhao Sep 18, 2024 Maintainer

[Bug]: hive的hdfs写不支持多分区想写hive的时侯支持动态分区 #1127

laixueyong
Sep 18, 2024

wgzhao
Sep 18, 2024
Maintainer

laixueyong
Sep 18, 2024
Author

wgzhao
Sep 18, 2024
Maintainer