博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
0003-如何在CDH中使用LZO压缩
阅读量:6496 次
发布时间:2019-06-24

本文共 767 字,大约阅读时间需要 2 分钟。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.问题描述

CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码。

具体请参考:

首先我在没做额外配置的情况下,生成Lzo文件并读取。我们在Hive中创建两张表,test_table和test_table2,test_table是文本文件的表,test_table2是Lzo压缩编码的表。如下:

通过beeline访问Hive并执行上面命令:

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

查询test_table中的数据:

0003-如何在CDH中使用LZO压缩

将test_table中的数据插入到test_table2,并设置输出文件为lzo压缩:

在Hive中执行报错如下:

0003-如何在CDH中使用LZO压缩

通过Yarn的8088可以发现是因为找不到Lzo压缩编码:

0003-如何在CDH中使用LZO压缩

2.解决办法

通过Cloudera Manager的Parcel页面配置Lzo的Parcel包地址:

0003-如何在CDH中使用LZO压缩

注意:如果集群无法访问公网,需要提前下载好Parcel包并发布到httpd

下载->分配->激活

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

配置HDFS的压缩编码加入Lzo:

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

保存更改,部署客户端配置,重启整个集群。

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

等待重启成功:

0003-如何在CDH中使用LZO压缩

再次插入数据到test_table2,设置为Lzo编码格式:

插入成功:

0003-如何在CDH中使用LZO压缩

2.1 Hive验证

首先确认test_table2中的文件为Lzo格式:

0003-如何在CDH中使用LZO压缩

在Hive的beeline中进行测试:

0003-如何在CDH中使用LZO压缩

0003-如何在CDH中使用LZO压缩

Hive基于Lzo压缩文件运行正常。

2.2 Spark SQL验证

0003-如何在CDH中使用LZO压缩

SparkSQL基于Lzo压缩文件运行正常。

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

0003-如何在CDH中使用LZO压缩

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

转载于:https://blog.51cto.com/14049791/2316621

你可能感兴趣的文章
【视频编解码·学习笔记】7. 熵编码算法:基础知识 & 哈夫曼编码
查看>>
spark集群安装部署
查看>>
笔试面试
查看>>
Tomcat v7.0 Server at localhost are already in use,tomcat提示端口被占用,tomcat端口已经被使用,tomcat端口占用...
查看>>
UGUI之控件以及按钮的监听事件系统
查看>>
Codeforces 814A - An abandoned sentiment from past(水题)
查看>>
POJ 2349 Arctic Network (最小生成树Kruskal)
查看>>
vmstat
查看>>
springboot集成mybatis-generator
查看>>
org.springframework.beans.NotWritablePropertyException
查看>>
【VB6】VB6实现拖拽
查看>>
delphi DateUtils强大的时间功能集成
查看>>
BZOJ-2743: [HEOI2012]采花(树状数组 or TLE莫队)
查看>>
菜鸟谈谈C#中的构造函数和析构函数
查看>>
2014-4-21
查看>>
【转】Python多进程编程
查看>>
旁注攻击介
查看>>
Android之Service与IntentService的比较
查看>>
Single Number
查看>>
Struts2部分
查看>>