网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

笔记：Hive的主要技术改进（Major Technical Advancements in Apache Hive）

浏览数：50 / 时间：2015年06月09日

http://web.cse.ohio-state.edu/hpcs/WWW/HTML/publications/papers/TR-14-2.pdf

(辅助参考：https://cwiki.apache.org/confluence/display/Hive/Correlation+Optimizer ）

Introduction
hive的主要不足：存储和查询计划执行。文中提出了三个主要的改进点

新的文件格式 ORC
查询计划组件优化（关联优化器correlation optimizer
向量执行模型，以充分利用CPU CACHE

Hive architecture
识别hive的不足

存储格式的不感知以及一次只能处理一行数据。在hive，存储效率由序列化和文件格式决定。以前支持的text和sequence格式，以及v0.4后支持的RCFile都是类型不感知的。RCFile每次只能处理一行数据。类型不感知意味着不能做有针对类型的优化；一次处理一行数据，意味着并行度低，并且序列化的压缩比低。
没有数据索引（包括统计汇总信息）以及不支持复杂数据类型。RCFile是为数据扫描设计的，并没有索引和提供其他语意以跳过无用的数据。不支持复杂类型的解析（如map、array），意味着访问该类型的任何一个成员，都要去读整个类型的数据。
忽略了数据操作之间的联系，导致出现很多的不必须shuffle。
每次处理一行数据也限制了对现代CPU缓存和并行处理的利用。

文件格式优化（ORC）
类型识别；支持刚类型的数据索引；支持复杂数据类型分解

1 表的数据布局方式（The table placement method), 见上图。注意，ORC不支持将列放到列组里面。

优点1： stripe的缺省大小为256m（RCFile为4M）
优点2：支持复杂数据类型，见table1.

有点3： stripe的边界与hdfs的边界对齐。通常，stripe大小会小于hdfs的block大小，使用这种对齐，可以确保一个stripe始终保存在同一个block内部。
数据索引（Indexes）
处于加载速度的考虑，只使用稀疏索引。存在两种索引：

数据统计信息（data statistics）。包括counter/mix/max/sum/len
数据统计信息分三个级别：文件、stripe、逻辑数据块（缺省10000个value一个块，可配置）
位置指针（position pointer）。

压缩。
有两个级别的压缩，

基于类型的压缩。（string类型的压缩，如果去重后数量除以总数量大于0.8使用字典压缩，否则使用byte类型压缩。
通用压缩方式（可选）（e.g.， gzip，snappy等，默认压缩窗口256k）

内存管理。根据内存的限制自动调节实际使用的stripe的大小。（应该是指每次读取数据块的大小）

查询计划
三个不足点：

不必要的Map阶段。由于一个MR job最多有一个shuffle，所以出现多个MR job很正常。MR的中间文件会回写到hdfs中的。如果一个map没有reduce，它就引入了一次没有必要的回写hdfs。
重复的数据加载。一个表被多次在不同MR中使用的情况下，这个表被多次加载。
不必要的数据重分片。
消除不必要的map phase.
Map-only job产生是因为MR job 被转换成了Map job。存在集中情况，其中最有代表性的是较小的表和大表之间的hash join。为了减少map phase，每次将reduce join转化为map join之前，计算map-only job中参与hash join操作的较小的表是否小于某个阈值，如果是就将这个map-only jion到他的子job中去。
关联优化器（correlation optimizer）
基于YSmart（http://web.cse.ohio-state.edu/hpcs/WWW/HTML/publications/papers/TR-11-7.pdf ）。
存在两种关联：

输入关联（input correlation）：意思是一个表在不同MR job中别使用多次。
job flow correlation（工作流程关联）：一个操作依赖于另一个操作，且这两种操作使用相同的数据分片方法。
有三个条件决定一个上游RSOp是否与一个下游RSOp关联：

产生的行使用相同的排序方法；
使用相同的数据分片方法
没有reduce数量上的冲突（？）

操作树转换

必须有底层RSOp，用来产生行数据
添加DemuxOperator来减少不必要的RSOp。

操作协调。
因为MR是push数据的，导致很多不必要的数据也被传输。所以需要一个协调器实现“按需传输”的功能。

查询执行
目的是充分利用现代cpu的特点。现代cpu的效率很大程度取决于并行度。为了实现多条流水线并行执行，需要减少指令分支。另外，数据的独立也有利于提高并行度。另外，一次执行一行导致cache性能低。

数据集代表批量的行（默认1024，可配置）。
单行模式下，一行数据被整棵查询树处理后才处理下一行；现在批量的行为单位执行了。

性能测试

file format
查询计划
查询执行

来自为知笔记(Wiz)

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

笔记：Hive的主要技术改进（Major Technical Advancements in Apache Hive）

标签： style log com 使用 src http si html 文件 style log com 使用 src http si html 文件

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

国外甜美金发MM

国外甜美金发MM

广州海陆空盛筵开场比基尼美女助阵

广州海陆空盛筵开场比基尼美女助阵

2014年安徽摔婴事件

2014年安徽摔婴事件

北京车展美女礼仪一览

北京车展美女礼仪一览

2022年哈尔滨国际比基尼模特大赛

2022年哈尔滨国际比基尼模特大赛

肇庆一婴儿头部撞入煲里被热粥烫伤

肇庆一婴儿头部撞入煲里被热粥烫伤

佛山14岁学生坠楼亡打赌跳对面宿舍失足

佛山14岁学生坠楼亡打赌跳对面宿舍失足

7080后儿时集体回忆插画

7080后儿时集体回忆插画

韩国票选亚洲最美女神排行榜

韩国票选亚洲最美女神排行榜

海边想拍氛围照

海边想拍氛围照

您可能还喜欢

更多

红色延安十大美女的人生结局

红色延安十大美女的人生结局

乌鲁木齐一早市发生爆炸

乌鲁木齐一早市发生爆炸

北影表演系花微博晒照：关之琳+杨幂合体

北影表演系花微博晒照：关之琳+杨幂合体

姚奠中书法

姚奠中书法

欧美比基尼精选

欧美比基尼精选

大海陪衬白色衣裙

大海陪衬白色衣裙

2014全国职院模特大赛众佳丽秀完美身材

2014全国职院模特大赛众佳丽秀完美身材

美国19周的早产儿

美国19周的早产儿

AI 生成的美女图

AI 生成的美女图

印度诞生罕见双头女婴 “第二头颅”长在肚子上

印度诞生罕见双头女婴 “第二头颅”长在肚子上