加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

中科院院士梅宏:大数据对计算体系带来的挑战以及应对策略

发布时间:2019-05-29 23:39:18 所属栏目:教程 来源:王刚
导读:副标题#e# 在贵州举办的2019年数博会吸引了国内外各界目光,围绕大数据最新技术创新与成就,诸多学界、产业界、政界人士纷纷参与交流。在5月25日的5G+大数据推动智慧社会数字化转型论坛上,中科院院士梅宏发表了精彩演讲,重点谈到了大数据对计算体系带来的

我举一个例子,比如说双十一成交数据的一个实时分析。当天处理的时候,它是实时的用户数据和商品数据,通过实时数据采集去弄。但实际上这两个东西对实时数据、兴趣模型到用户的行为预测有局限,如果没有离线数据支撑的话,它的准确率和效果不会那么好。所以要完成个性化推荐,必须要用到离线的数据,这就是我们的流处理和批处理同时会出现的一种场景。

现有的大数据处理系统没办法处理这种混合的处理。比如按照传统的一些实例,要统计实时销量排名前50的店铺,按照阿里的做法,对供应商表、店铺表是需要完成批处理的,而现在新流进来的实时的数据,需要进行流处理。现在比如说Flink单一作业运行的时候,只能启动批处理环境或者流处理环境其中的一个,在多任务运行的时候就需要启动相对独立的批处理和流处理环境,它的交互就出了问题,就没有办法对这种业务需求完成批和流的混合任务。

挑战二:现有的大数据带来的好处就是开源,但是HaDoop的生态系统、Spark的生态系统、Flink的生态系统都有各自的开源生态,甚至有自己的开源许可证协议。

我曾经问很多做数据的人:为什么这些东西都诞生在国际上,而不诞生在中国?如果大家现在去使用,那我们创新的机遇在哪里?

我们重点研发云计算和大数据专项的时候,就面临一个很大问题:要不要布大数据处理这样的系统?布单一的系统,它到开源东西的时候抄一个对付我怎么办?而且再拿开源的东西做一个过去的套路,也没有意思。所以我一直在琢磨有没有创新的机会。

挑战三:针对图数据,传统应用计算密集,而图应用,有较低的计算访存比,有大量随机的访存,有复杂数据的依赖,还有非结构化的分布,这是图数据的问题,和传统应用所面临的东西是不一样的。所以我们能不能探讨另一种新型的架构来提高它的高并行的处理?这就是我们谈到的各种大数据类型和计算结构匹配起来之后的一些挑战。

完成四个任务课题

针对这些挑战性的问题,国家重点研发专项里面有一个云计算和大数据。整体的布局,大体上分成四项任务,现在已经连续三年发布指南了,已经做完了三批课题。

  • 任务一:做云计算、大数据等基础设施的关键装备。
  • 任务二:做一些核心软件,基于云模式和数据驱动的新型软件。
  • 任务三:做大数据分析应用和内容智能。
  • 任务四:云端交互,人机交互。

我们在云计算平台之上,要进行各种大数据处理,而大数据的类型、存储是迥然不同的,访问模式有图数据、KV的、列的、文档的,各种各样的东西。现在,我们要构成一个处理平台是支持批处理的,也支持流处理的,还可以支持混合处理的,要完成这些任务,多种处理模式混存。混存之后,我们要支持人工智能应用,要支持交互式的数据分析,进一步支持各种应用。

传统的定制问题、系统选型难,不同处理系统融合难,系统调优难,维护难、多系统之间数据传输也导致它的效率是比较低的——这就是我们的大环境面临的问题。

所以我们想做一件事,就是希望通过软件定义的方式,通过大数据处理管理平台,让它的功能实现可编程,可以面向不同的需求进行定制。

做“最厉害”的武器:原创的技术

多少年前,古龙小说里面有一个最厉害的武器。有一个穿长衫的黑衣人,走到哪里都拎着一个箱子,他离开这个场景的时候,不管多厉害的武器,多高的武功,最后就败在他的手下。

我还记得这个箱子,这个箱子里面实际上就是各种武器的配件,他离场的时候,根据对手的武器临时组合成一个克敌制胜的东西。我们就想达到这么一个箱子,这个箱子能不能满足不同应用的需求,就是应用的定制。比如阿里双十一的应用场景,它就涉及到这样的东西,就确实需要这种混合处理,从它的存储、计算、应用。我们希望资源调度优化,进一步上去依托数据多种需求,多模态存储,形成一套引擎,能够高效的支撑多种处理模式,这就是当初设想的一个东西。

这个项目是怎么做的呢?就是大数据系统软件国家工程实验室在做。这个项目里面有北京理工大学、中国人民大学、北京大学、复旦大学、阿里巴巴集团这一些参与者,在实验室的框架之下,我们就共同去做这么一个项目。

项目的目标,是希望研究和开发面向新型的、多处理模型融合架构的一个高时效、可扩展的新一代大数据分析支撑系统和工具平台。我们还是希望站在巨人的肩膀上消化吸收,高时效、可扩展就是它的关键词,希望基于软件定义的新型的自适应融合架构。一套引擎、一套数据、一套资源来支撑、满足不同的处理模型的需求,进一步去支撑大数据分析和智能的应用。

这是更为具体的一些描述,我们要追求高时效、低时延,多计算模型的融合,自适应的优化;在可扩展方面,面向云计算可伸缩的调整,处理平台跨数据中心的扩展,机器学习模型的扩展,还有一些具体的关键技术。

事情能不能做得成,就要靠我们团队的努力。我想跟各位说,由于这种应用需求,我始终觉得中国的IT还存在很大的问题。毕竟,我们很多场合不在应用第一线,很多问题都不是我们发现的。

我记得,已经过去五到十年,我们依然在谈的问题就是海量:我人多,我数据多。所以,我们没有原始的创新,我们一直在寻求这样原始创新,就是得发现真正的问题在哪里,这是我们最大的一个欠缺。

这件事情我觉得也没有多少了不起,但是我想留下一支做系统软件的队伍做这件事情,我们希望通过消化、吸收,打碎并重新组合,形成一种集成创新。

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读