`
jimmee
  • 浏览: 529680 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hive编写udf处理非utf-8数据

阅读更多

      hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢?

 

方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如:

 

 

 

public class CharsetConvertor extends GenericUDF {

	private transient StringObjectInspector oi = null;

	@Override
	public ObjectInspector initialize(ObjectInspector[] arguments)
			throws UDFArgumentException {
		oi = (StringObjectInspector) arguments[0];
		
		return PrimitiveObjectInspectorFactory.writableStringObjectInspector;
	}

	@Override
	public Object evaluate(DeferredObject[] arguments) throws HiveException {
		try {
			Text t = oi.getPrimitiveWritableObject(arguments[0].get());
			// 得到原始字节
			byte[] bytes = t.getBytes();
			// 这里假定原始数据是gbk编码,使用gbk解码
			String gbkStr = new String(bytes, "GBK");
			// 对gbkStr进行处理。。。
			
			// 最后根据需要使用相应的字符集输出,例如这里仍然使用原始的GBK输出
			Text new_str = new Text(gbkStr.getBytes("GBK"));

			return new_str;
		} catch (Exception e) {
			return new Text("Charset conversion failed.");
		}
	}

	@Override
	public String getDisplayString(String[] paramArrayOfString) {
		// TODO Auto-generated method stub
		return null;
	}
}

 

 

分享到:
评论
4 楼 jimmee 2016-01-16  
nk_tocean 写道
照着做了,但是不行啊,还是乱码.

先确认你原始编码是否是GBK吧
3 楼 nk_tocean 2015-12-30  
照着做了,但是不行啊,还是乱码.
2 楼 csuwhl 2014-04-09  
搂主是正确的,刚刚招到原因,我自己写了一个serde,里面用了text.toString方法,导致text被utf8了.

1 楼 csuwhl 2014-04-09  
请问,你这个做过测试不,我怎么自己试了不行呢

Text t = oi.getPrimitiveWritableObject(arguments[0].get());

byte[] bytes = t.getBytes(); 

这个流好像已经是用utf8从hdfs里读出来的.

相关推荐

Global site tag (gtag.js) - Google Analytics