hive编写udf处理非utf-8数据 -

jimmee

浏览: 529680 次
性别:
来自: 杭州

最近访客更多访客>>

loven_11

shohokuf

sunyeshigou

新的开始2015

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive编写udf处理非utf-8数据

博客分类：

hadoop
J2SE
数据挖掘

hive udf gbk utf-8 编码

hive默认都是utf-8编码处理数据的，如果原始数据不是utf-8，例如是gbk，我们怎么处理这种数据呢？

方式很简单，我们写udf的时候，继承GenericUDF类就行了。例如：

public class CharsetConvertor extends GenericUDF {

	private transient StringObjectInspector oi = null;

	@Override
	public ObjectInspector initialize(ObjectInspector[] arguments)
			throws UDFArgumentException {
		oi = (StringObjectInspector) arguments[0];
		
		return PrimitiveObjectInspectorFactory.writableStringObjectInspector;
	}

	@Override
	public Object evaluate(DeferredObject[] arguments) throws HiveException {
		try {
			Text t = oi.getPrimitiveWritableObject(arguments[0].get());
			// 得到原始字节
			byte[] bytes = t.getBytes();
			// 这里假定原始数据是gbk编码，使用gbk解码
			String gbkStr = new String(bytes, "GBK");
			// 对gbkStr进行处理。。。
			
			// 最后根据需要使用相应的字符集输出，例如这里仍然使用原始的GBK输出
			Text new_str = new Text(gbkStr.getBytes("GBK"));

			return new_str;
		} catch (Exception e) {
			return new Text("Charset conversion failed.");
		}
	}

	@Override
	public String getDisplayString(String[] paramArrayOfString) {
		// TODO Auto-generated method stub
		return null;
	}
}

分享到：

hadoop的mapreduce的join操作原理 | hadoop的mapreduce的一些关键点整理

2014-01-23 12:40
浏览 6874
评论(4)
分类:开源软件
查看更多

4 楼 jimmee 2016-01-16

nk_tocean 写道

照着做了，但是不行啊，还是乱码.

先确认你原始编码是否是GBK吧

3 楼 nk_tocean 2015-12-30

照着做了，但是不行啊，还是乱码.

2 楼 csuwhl 2014-04-09

搂主是正确的,刚刚招到原因,我自己写了一个serde,里面用了text.toString方法,导致text被utf8了.

1 楼 csuwhl 2014-04-09

请问,你这个做过测试不,我怎么自己试了不行呢

Text t = oi.getPrimitiveWritableObject(arguments[0].get());

byte[] bytes = t.getBytes();

这个流好像已经是用utf8从hdfs里读出来的.

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive编写udf处理非utf-8数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive编写udf处理非utf-8数据

评论

发表评论

相关推荐

[转载]并发之痛 Thread，Goroutine，Actor

JVM动态调整字节码

java字节码常量池处理说明

Mac OSX 10.10 Yosemite编译OpenJDK 8

Java 并发之 ConcurrentSkipListMap 简述

hbase等源码导入eclipse流程

最简单的平衡树（红-黑树）的实现

多线程程序中操作的原子性[转载]

6. 内存屏障[转载]

5.合并写(write combining)[转载]

4. 内存访问模型的重要性[转载]

3. Java 7与伪共享的新仇旧恨[转载]

2. 伪共享(False Sharing)[转载]

大数据, 数据量大就牛逼么?

lucene索引创建的理解思路

lucene的拼写检查的实现原理

字符串相似算法-(3) NGram Distance

字符串相似算法-(2) Levenshtein distance

字符串相似算法-(1) Jaro-Winkler Distance

tomcat参数编码处理过程

最近访客更多访客>>