hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢?
方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如:
public class CharsetConvertor extends GenericUDF { private transient StringObjectInspector oi = null; @Override public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException { oi = (StringObjectInspector) arguments[0]; return PrimitiveObjectInspectorFactory.writableStringObjectInspector; } @Override public Object evaluate(DeferredObject[] arguments) throws HiveException { try { Text t = oi.getPrimitiveWritableObject(arguments[0].get()); // 得到原始字节 byte[] bytes = t.getBytes(); // 这里假定原始数据是gbk编码,使用gbk解码 String gbkStr = new String(bytes, "GBK"); // 对gbkStr进行处理。。。 // 最后根据需要使用相应的字符集输出,例如这里仍然使用原始的GBK输出 Text new_str = new Text(gbkStr.getBytes("GBK")); return new_str; } catch (Exception e) { return new Text("Charset conversion failed."); } } @Override public String getDisplayString(String[] paramArrayOfString) { // TODO Auto-generated method stub return null; } }
相关推荐
dbeaver连接hive时需要的驱动包hive-jdbc-uber-2.6.5.0-292.jar
DBeaver链接hive驱动包下载: hive-jdbc-uber-2.6.5.0-292.jar
hive案例之-----------------微博数据分析及答案,恰同学少年,风华正茂,挥斥方遒
spark-hive-thriftserver_2.11-2.1.spark-hive-thrift
spark-hive_2.11-2.3.0...spark-hive-thriftserver_2.11-2.3.0.jar log4j-2.15.0.jar slf4j-api-1.7.7.jar slf4j-log4j12-1.7.25.jar curator-client-2.4.0.jar curator-framework-2.4.0.jar curator-recipes-2.4.0.jar
02、hive-exec-2.1.1-cdh6.3.1.jar 03、hive-jdbc-2.1.1-cdh6.3.1.jar 04、hive-jdbc-2.1.1-cdh6.3.1-standalone.jar 05、hive-metastore-2.1.1-cdh6.3.1.jar 06、hive-service-2.1.1-cdh6.3.1.jar 07、libfb303-...
hive旅游-hive旅游系统-hive旅游系统源码-hive旅游管理系统-hive旅游管理系统java代码-hive旅游系统设计与实现-基于springboot的hive旅游系统-基于Web的hive旅游系统设计与实现-hive旅游网站-hive旅游网站代码-hive...
spark-hive-udf]# cp target/spark-hive-udf-1.0.0-SNAPSHOT.jar /tmp 通过提供罐子来启动火花壳 spark-shell --master yarn --jars /tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar 创建名称为大写的函数并列出该函数 ...
(Hive输出)ETLDesigner\common\system\karaf\system\pentaho\pentaho-big-data-kettle-plugins-hive\6.1.0.1-196\下的文件。...(Hive输出)pentaho-big-data-kettle-plugins-hive-6.1.0.1-196。
hive旅游-hive旅游系统-hive旅游系统源码-hive旅游管理系统-hive旅游管理系统java代码-hive旅游系统设计与实现-基于springboot的hive旅游系统-基于Web的hive旅游系统设计与实现-hive旅游网站-hive旅游网站代码-hive...
hive-jdbc-3.1.2-standalone适用于linux
hive-testbench-hive14.zip 大数据TPCDS自动测试脚本
Hive连接的jar包——hive-jdbc-3.1.2-standalone.jar,使用数据库连接软件连接数据仓库时需要使用相应的驱动器驱动,希望对大家有所帮助
hive-jdbc-2.3.7-standalone,可用dbeaver连接hive数据库,在工具中进行数据库记录的新增改查
hive-jdbc-1.2.1-standalone.jar hive-jdbc驱动jar包,欢迎下载
hive2.1.1 show create table 表名,hive中文乱码,替换hive-exec-2.1.1.jar
hive-jdbc-uber-2.6.5.0-292.jar驱动
含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-...
kerberos的hive-jdbc-uber-3.1.2包和即席查询的yanagishima
centos 下hive连接mysql驱动 ,mysql-connector-java-8.0.26-1.el7.noarch. 使用方法: 1.下载本rpm文件后,上传至你的服务器(虚拟机) 2. rpm -ivh mysql-connector-java-8.0.26-1.el7.noarch进行安装 3.安装完成...