logo

当前位置: 计算机科学技术与软件工程实验教学中心 >> 中心动态 >> 最新动态 >> 我系PASA大数据实验室联合阿里巴巴和美国Databricks公司荣获国际Cloud Sort大赛世界冠军 2016-11-11

我系PASA大数据实验室联合阿里巴巴和美国Databricks公司荣获国际Cloud Sort大赛世界冠军 2016-11-11

 喜讯:20161110日,有“计算界奥运会”[d1]之称的国际著名Sort Benchmark全球数据排序大赛(http://sortbenchmark.org/),官网公布了2016年全球大数据排序性能评测大赛结果。

在该大赛中,我系PASA大数据实验室(http://pasa-bigdata.nju.edu.cn)联合阿里巴巴和美国Databricks公司组成的参赛团队NADSort,经过几个月的深度研究和持续努力,击败了多个世界级参赛团队,刷新了大赛之前的世界纪录,荣获2016CloudSort大数据排序世界冠军!

Sort Benchmark是著名的图灵奖获得者Jim Gray发起组织的全球性数据排序基准性能评测大赛,自1987年开始每年举办一次,已经持续组办了30年。每年都有众多全球顶尖公司和学术机构参加该赛事,以评估软硬件系统架构能力及最新研究成果。著名的大数据计算系统Apache Hadoop2008年)和Apache Spark2014年)都曾在该基准评测赛事中保持世界记录。大赛分多种不同性能指标的评测竞赛项目。近几年来,随着全球大数据技术发展热潮的来临,大赛主要面向大规模数据的排序性能测试竞赛,设置了排序速度、成本、能耗等不同性能指标下的大规模数据排序评测竞赛项目。

本次NADSort团队所参加的是基于公有云的CloudSort评测竞赛项目。CloudSort又被称为“云计算效率之争”,该项目比拼的是完成100TB数据排序谁花费更少,也是Sort Benchmark的各项比赛当中最具现实意义的项目。NADSort团队使用了阿里云ECS,并按照公开的按量付费价格来比拼性价比。排序计算平台由394个阿里云虚拟服务器节点配置构成计算集群,使用Apache Spark大数据计算平台,在大规模并行排序算法以及Spark系统底层进行了大量的优化,以尽可能提高排序计算性能并降低存储资源开销,最终在阿里云平台上以144美元的成本完成100TB标准数据集的排序处理,创下了每TB数据排序1.44美元成本的最新世界纪录!比2014年夺得冠军的加州大学圣地亚哥分校TritonSort团队每TB数据4.51美元的成本降低了3倍。

  

NADSort团队由南京大学(Nanjing UniversityPASA大数据实验室、阿里巴巴(Alibaba),以及美国Databricks公司技术人员联合组成(DatabricksSpark商业化公司,由美国伯克利大学AMP实验室著名的Spark大数据处理系统多位创始人联合创立)。

本次NADSort团队中PASA大数据实验室的参与人员为王千同学、顾荣同学、以及黄宜华老师。


[d1]多家权威网站都这么形容:

http://www.cac.gov.cn/2015-10/29/c_1116972140.htm

http://news.soft6.com/201510/29/259659.html

http://cio.zdnet.com.cn/cio/2016/1110/3085732.shtml