Hive Reader¶

HiveReader 插件实现了从 Apache Hive 数据库读取数据的能力

新增该插件的主要目的是解决使用 RDBMS Reader 插件读取 Hive 数据库时不能解决 Kerberos 认证的问题，如果你的 Hive 数据库没有启用 Kerberos 认证，那么直接使用 RDBMS Reader 也可以。如果启用了 Kerberos 认证，则可以使用该插件。

示例¶

我们在 Hive 的 test 库上创建如下表，并插入一条记录

create table default.hive_reader
(
    col1 int,
    col2 string,
    col3 timestamp
)
stored as orc;


insert into hive_reader values(1, 'hello', current_timestamp()), (2, 'world', current_timestamp());

下面的配置是读取该表到终端的作业:

job/hive2stream.json

{
  "job": {
    "setting": {
      "speed": {
        "byte": -1,
        "channel": 1
      },
      "errorLimit": {
        "record": 0,
        "percentage": 0
      }
    },
    "content": [
      {
        "reader": {
          "name": "hivereader",
          "parameter": {
            "column": [
              "*"
            ],
            "username": "hive",
            "password": "",
            "connection": [
              {
                "jdbcUrl": [
                  "jdbc:hive2://localhost:10000/default;principal=hive/_HOST@EXAMPLE.COM"
                ],
                "table": [
                  "hive_reader"
                ]
              }
            ],
            "where": "logdate='20211013'" ,
            "haveKerberos": true,
            "kerberosKeytabFilePath": "/etc/security/keytabs/hive.headless.keytab",
            "kerberosPrincipal": "hive@EXAMPLE.COM"
          }
        },
        "writer": {
          "name": "streamwriter",
          "parameter": {
            "print": true
          }
        }
      }
    ]
  }
}

将上述配置文件保存为 job/hive2stream.json

执行采集命令¶

执行以下命令进行数据采集

bin/addax.sh job/hive2stream.json

参数说明¶

配置项	是否必须	类型	默认值	描述
jdbcUrl	是	list	无	对端数据库的JDBC连接信息
driver	否	string	无	自定义驱动类名，解决兼容性问题，详见下面描述
username	是	string	无	数据源的用户名
password	否	string	无	数据源指定用户名的密码，若无密码，可不指定
table	是	list	无	所选取的需要同步的表名,使用JSON数据格式，当配置为多张表时，用户自己需保证多张表是同一表结构
column	是	list	无	所配置的表中需要同步的列名集合，详细描述 rdbmreader
splitPk	否	string	无	使用splitPk代表的字段进行数据分片，详细描述见 rdbmreader
where	否	string	无	针对表的筛选条件
querySql	否	list	无	使用自定义的SQL而不是指定表来获取数据，当配置了这一项之后，Addax系统就会忽略 `table`，`column`这些配置项
haveKerberos	否	string	无	是否启用 Kerberos 认证，如果启用，则需要同时配置 `kerberosKeytabFilePath`，`kerberosPrincipal`
kerberosKeytabFilePath	否	string	无	用于 Kerberos 认证的凭证文件路径, 比如 `/your/path/addax.service.keytab`
kerberosPrincipal	否	string	无	用于 Kerberos 认证的凭证主体, 比如 `addax/node1@EXAMPLE.COM`

jdbcUrl¶

连接 Hive 的 JDBC URL 有多种写法，一种是直接指定 HiveServer/HiveServer2 服务的主机名和端口即可，比如： jdbc:hive2://node1:10000/default

如果你有多个 HiveServer/HiveServer2 服务，并采取用了服务发现，则可以通过指定 zookeeper 的方式来获得故障转移功能，类似如下：

jdbc:hive2://node1:2181,node2:2181,node3:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2

如果你的 Hive 启用了 Kerberos 认证，还需要在 URL 后指定 principal 参数，一般为 principal=hive/_HOST@EXAMPLE.COM，其中 EXAMPLE.COM 为 realm 值。

driver¶

当前 Addax 采用的 Hive JDBC 驱动为 3.1.0 以上版本，驱动类名使用的 org.apache.hive.jdbc.HiveDriver，如果当前的 Hive JDBC 驱动不兼容 Hive 数据库，则可以通过以下步骤替换驱动。

替换插件内置的驱动

rm -f plugin/reader/hivereader/lib/hive-jdbc-*.jar

拷贝兼容驱动到插件目录

cp hive-jdbc-<version>.jar plugin/reader/hivereader/lib/

指定驱动类名称

在你的 json 文件类，配置 "driver": "<your jdbc class name>"

类型转换¶

目前 HiveReader 支持大部分 Hive 类型，但也存在部分个别类型没有支持的情况，请注意检查你的类型。

下面列出 HiveReader 针对 Hive 类型转换列表:

Addax 内部类型	Hive 数据类型
Long	int, tinyint, smallint, mediumint, int, bigint
Double	float, double, decimal
String	varchar, char, string
Date	date, timestamp
Boolean	boolean
Bytes	binary