加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

分析大数据即席查询工具 Presto

发布时间:2021-12-07 11:51:05 所属栏目:资源 来源:互联网
导读:数据业务现状 随着业务数据量越来越大、数据任务越来越多以及数据计算类型越来越丰富,G行的原有以Hadoop、MPP为核心的数据平台现有组件表现出了一定的局限性。例如:大数据平台和数据仓库上任务总量已经达到了3万以上,而且还在急剧增长。由于数据存放在了
数据业务现状
随着业务数据量越来越大、数据任务越来越多以及数据计算类型越来越丰富,G行的原有以Hadoop、MPP为核心的数据平台现有组件表现出了一定的局限性。例如:大数据平台和数据仓库上任务总量已经达到了3万以上,而且还在急剧增长。由于数据存放在了不同数据源中,对于需要对多种数据源的查询任务,首先要进行数据迁移操作,汇总到MPP或Hadoop后进行查询操作,这一过程耗时费力,已经很难满足用户快捷数据查询的需求。
 
 
 
而数据平台建设的一个重要目标就是满足用户方便快捷的使用数据,用户不需要关心数据的存放方式,能够使用标准的数据调用接口,随时使用自己关心的数据。为满足对上述的多数据源无差别的查询,使用远端数据完成交互式查询,G行选择的方式是Presto。
 
Presto架构特点
执行效率方面,Presto是一个开源的基于内存的分布式SQL查询的执行引擎,可以支持TB到PB级数据量的秒级到分钟级的快速响应。在查询效率方面,比MapReduce的查询引擎有很大的提升。
 
 
 
Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,多个Worker节点组成。Coordinator负责解析SQL语句,生成执行计划,Coordinator将一个完整的Query,拆分成了多个Stage,每个Stage拆分出多个可以并行的Task,分发执行任务给Worker节点执行。
 
Worker节点负责实际执行查询Task。通过配置外部数据源的Connector,部分Task负责到外部存储系统拉取数据,这部分Task会先执行,之后再执行那些负责计算的Task。Worker节点的数量影响到Presto执行效率,可以通过增加worker节点的数量,提升数据查询的的效率。而Coordinator在Presto只有一个,需要使用高可用的部署方法,进行灾备保护。
 
Presto是一个原生的计算和存储分离的分布式的SQL框架。Presto负责SQL的解析和执行,数据本身都由外部数据源进行存储和维护。这种存储和计算分离的架构,在进行资源扩容时可以分别对存储资源和计算资源进行单独扩容,非常符合当今云计算的架构和发展方向。在设备选型时,可以针对IO密集型和CPU密集型采购不同的设备来满足需求。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读