第08版:关注

世界难题背后:贾扬清华丽的算法和朴素的信念

2020-04-29 15:14:00 来源:网媒社

 

网媒社:http://www.shb021.cn/ 近日大数据领域权威竞赛TPC-DS公布最新结果,榜单前六均为中国科技公司,而榜首阿里云,再次刷新该比赛世界最高纪录。

 

视线拉回去年9月,阿里云 EMR 曾首次打破该竞赛纪录,跻身全球首个通过 TPC 认证的公共云产品,今年又书写新成绩,相比去年计算速度提升2.2倍。

 

连续两年居榜首,且刷新世界纪录,阿里云计算平台事业群总裁贾扬清将其归功于「开源」和「自研」,他表示: 阿里云持积极拥抱开源技术,也在不断投入自研创新技术,此次阿里云连续两年刷新世界纪录,是多年自研技术的必然成果,阿里云希望用这些创新技术服务更多的企业。

 

不到一年内时间屡遭挑战,但其实,TPC-DS是大数据领域门槛最高的竞赛,也是评估大数据计算产品性能的权威标准之一,过去十几年,顶级科技企业都在尝试冲榜,但至今仅有两家公司的大数据软件通过认证。

 

| 大数据计算产品性能衡量的权威巅峰,真的如此高不可攀?

 

本次竞赛发起方TPC(Transaction Processing Performance Council),即事务性能管理委员会,总部设于美国,对全世界开放,是目前全球最知名的数据管理系统评测基准标准化组织。该组织负责制定商务应用基准程序的标准规范、性能和价格度量,并管理测试结果的发布。非盈利基因,和在计算机软硬件等领域的专业性都为TPC赋予权威光环,。

 

TPC自成立以来发布了多项数据库评测基准,包括TPC-A、TPC-D、TPC-H和TPC-DS,在学术界、工业界都产生了深远影响。其中,TPC-DS作为一项决策支持基准(Decision Support Benchmark),针对包括查询和数据维护在内的决策支持系统可适用因素建模。这一基准测试在复杂的多用户决策支持工作负载下,对单用户模式下查询响应时间,多用户模式下查询吞吐量,以及既定硬件、操作系统和数据处理系统配置下的数据维护性进行测量,目的旨在向行业用户提供相关客观性能数据。

 

TPC-DS测试集接近真实场景,包含对大数据集的统计、报表生成、联机查询、数据挖掘等多项复杂应用。工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP,需要参赛企业在十几秒内时间内完成极高复杂度的SQL查询以及超大规模数据量的计算处理,这对大数据计算产品的计算性能要求极高。

 

称TPC-DS为数据库界最难的测试标准并不是夸大其词,曾经有十二年光景,始终没有一项产品通过测评。峰顶一直无人企及,直到2018年5月,上海星环跑分成功,星环TDH平台成为全球首个经过TPC官方审核的TPC-DS基准测试的数据平台,在世界范围内填补了技术空白。之后,阿里云连续两年登榜,还顺手刷新了世界纪录。

 

阿里云EMR于2019年首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。过去一年,阿里云EMR在原有开源技术架构之上,自研JindoFS等创新技术,在国内率先解决了计算、存储分离架构下的性能损耗,可满足大规模计算场景的性能需求。

 

目前,EMR已服务教育、新零售、互联网、人工智能及政务等行业企业和机构,以国际知名营销服务公司Yeahmobi为例,该公司通过使用阿里云EMR构建大数据计算平台,实现了统一存储、统一分析,整体成本下降超30%。

 

过去十年,阿里云大数据计算产品打破了多项世界纪录,

2015、2016年,自研MaxCompute刷新世界计算奥运会SortBenchmark六项世界纪录;

2017年,MaxCompute完成全球首次基于公共云的100TB BigBench大数据基准测试;

2019年MaxCompute以100TB的数据规模创造TPCx-BB竞赛世界纪录。

 

| 引领数据上云之后,当开采数据原油的应用价值

 

提及MaxCompute在TPCx-BB竞赛中的表现,以及EMR团队连续刷新TPC-DS性能纪录,就不得不提背后功臣,AI界大神 贾扬清。

 

技术卦路线的贾扬清新闻不多,但话题度始终在线。上一次关于他的热议还是去年春季,知乎爆帖他将离职Facebook,加入阿里。众人纷纭,而他本人淡然分享家乡杭州保俶塔的照片。

 

同年3月,这位AI大神正式加入阿里巴巴,担任计算平台事业部负责人,专注于大数据计算及AI平台的研发。5月,自研大数据计算平台MaxCompute荣获浙江省科技进步一等奖。9月,加入阿里刚满 6 个月的贾扬清开始担任阿里巴巴开源技术委员会负责人。

 

贾扬清带领团队的核心产品Maxcompute是国内规模最大的计算平台,致力于帮助各行业企业、机构解决日益增长的数据上云、数据处理等问题,可扩展至10万台计算集群,曾创下四项海量数据排序世界纪录。在阿里巴巴经济体中支撑了全局数据存储和计算,单日数据处理量超过600PB。

 

不断刷新纪录的同时,Maxcompute还得到了权威机构的认可:在Forrester发布的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》中,阿里云MaxCompute、DataWorks、ADB等三款产品成功入选,并在产品功能(Current Offering)方面力压微软。

 

过去十年,Maxcompute的顶级计算能力正逐步延伸到各行各业,从线上到线下,从生产制造到互联网电商,从国内到海外,帮助数万企业用更低成本、更高效率计算海量数据。

 

在生活领域,墨迹天气通过MaxCompute为4亿用户提供气象预报服务,每天的用户查询超过5亿次。不仅如此,它们的存储和计算成本还令人意外地降低70%。

在交通领域,城市大脑在杭州实时指挥1300个红绿灯路口、200多名交警。从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名。

在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。

在政务领域,浙江最多跑一次通过大数据处理平台打通政务数据,将与老百姓办事最密切相关的100个事项70多亿条数据,按照统一标准汇入统一的数据仓,实现共通共享共用。老百姓办事不仅能最多跑一次,甚至有可能一次都不跑。

 

而在海外,MaxCompute也已布局新加坡、欧洲等市场,将这一技术对外赋能给更多用户。

 

| 贾扬清,开源是一种朴素的信仰,永动的创造

 

以往,人们常喜欢给贾扬清冠名 学霸 、 别人家的小孩 ,毕竟自小一路开挂,清华大学信息科技自动化专业本硕连读后,又继续赴美留学,攻读并完成了加州大学伯克利分校计算机科学博士学位。之后,更有供职于Google和Facebook两段经历加持。Google期间,他跟随Google Brian领导者Jeff Dean,进行深度学习、计算视觉、TensorFlow的开发,跳槽去Facebook之后,在深度学习三驾马车之一的Yann LeCun手下做研究主任,为Facebook构建大型通用的AI平台,同时也是Pytorch深度学习框架的主要作者。

 

如果说给贾扬清寻找关键词,最亮眼的无异于「Caffe」。读博期间,他创立并开源了这一业内人尽皆知的深度学习框架。作为一种图像识别软件,Caffe可通过GPU实现高速运算,处理互联网级别的海量数据,包括语音、图片、视频等多媒体数据。至今仍被微软、雅虎、英伟达、Adobe 等知名互联网公司所采用。

 

Caffe除了自身软件功能之外,更重要的意义在于其开源特质,它将深度学习的每个细节都原原本本地展现出来,降低了大家学习研究和开发的难度,促进了整个深度学习领域的进步。

 

对贾扬清来说,无关利益,无关站位,「开源就是一种朴素的信仰」。

 

五湖四海的开发者可能会面对同样的难题,而让每个人都可以查看、复制、学习和修改,突破组织、语言、乃至肤色的界限,与同路人联手、分享、解决问题是他最初的动力。不过人们问贾扬清,为什么会设计出Caffe时,他却喜欢开玩笑说: 我写Caffe的原因是因为我不想写毕业论文。

 

现在,作为阿里巴巴开源技术委员会负责人,贾扬清继续秉承开放分享、平等普惠的信念,寻觅全球范围内同路人,一起在大数据、云原生、AI、数据库等多个领域贡献光热。2019年双11核心系统100%上云,Apache Flink突破了实时计算消息处理峰值25亿条/秒的记录,这样的成绩离不开每一个开发者的灵感与汗水,也将持续赋能更多企业和组织。

 

GitHub 2019年度报告显示,全球4000万用户中,中国贡献者树木已升至第二,开源星光逐渐耀眼,越来越多的企业和开发者拥抱开源。

 

2020年1月,在给阿里云内部分享的一封信中,贾扬清在落款处题了八个大字 十年牧码 初心未改 ,意味深长,高山仰止。

 

 

网媒社:http://www.shb021.cn/