0003-如何在CDH中使用LZO压缩-白红宇

0003-如何在CDH中使用LZO压缩

阅读量：6496 次

发布时间：2019-06-24

本文共 767 字，大约阅读时间需要 2 分钟。

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

1.问题描述

CDH中默认不支持Lzo压缩编码，需要下载额外的Parcel包，才能让Hadoop相关组件如HDFS，Hive，Spark支持Lzo编码。

具体请参考：

首先我在没做额外配置的情况下，生成Lzo文件并读取。我们在Hive中创建两张表，test_table和test_table2，test_table是文本文件的表，test_table2是Lzo压缩编码的表。如下：

通过beeline访问Hive并执行上面命令：

0003-如何在CDH中使用LZO压缩

查询test_table中的数据：

0003-如何在CDH中使用LZO压缩

将test_table中的数据插入到test_table2，并设置输出文件为lzo压缩：

在Hive中执行报错如下：

0003-如何在CDH中使用LZO压缩

通过Yarn的8088可以发现是因为找不到Lzo压缩编码：

0003-如何在CDH中使用LZO压缩

2.解决办法

通过Cloudera Manager的Parcel页面配置Lzo的Parcel包地址：

0003-如何在CDH中使用LZO压缩

注意：如果集群无法访问公网，需要提前下载好Parcel包并发布到httpd

下载->分配->激活

0003-如何在CDH中使用LZO压缩

配置HDFS的压缩编码加入Lzo：

0003-如何在CDH中使用LZO压缩

保存更改，部署客户端配置，重启整个集群。

0003-如何在CDH中使用LZO压缩

等待重启成功：

0003-如何在CDH中使用LZO压缩

再次插入数据到test_table2，设置为Lzo编码格式：

插入成功：

0003-如何在CDH中使用LZO压缩

2.1 Hive验证

首先确认test_table2中的文件为Lzo格式：

0003-如何在CDH中使用LZO压缩

在Hive的beeline中进行测试：

0003-如何在CDH中使用LZO压缩

Hive基于Lzo压缩文件运行正常。

2.2 Spark SQL验证

0003-如何在CDH中使用LZO压缩

SparkSQL基于Lzo压缩文件运行正常。

醉酒鞭名马，少年多浮夸！岭南浣溪沙，呕吐酒肆下！挚友不肯放，数据玩的花！

0003-如何在CDH中使用LZO压缩

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

转载于:https://blog.51cto.com/14049791/2316621

你可能感兴趣的文章

【视频编解码·学习笔记】7. 熵编码算法：基础知识 & 哈夫曼编码

Tomcat v7.0 Server at localhost are already in use，tomcat提示端口被占用，tomcat端口已经被使用，tomcat端口占用...

查看>>

UGUI之控件以及按钮的监听事件系统

查看>>

Codeforces 814A - An abandoned sentiment from past（水题）

查看>>

POJ 2349 Arctic Network （最小生成树Kruskal）

查看>>

vmstat

查看>>

springboot集成mybatis-generator

查看>>

org.springframework.beans.NotWritablePropertyException

查看>>

【VB6】VB6实现拖拽

查看>>

delphi DateUtils强大的时间功能集成

查看>>

BZOJ-2743: [HEOI2012]采花(树状数组 or TLE莫队)

Android之Service与IntentService的比较