首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

国产数据库登顶TPC-DS：MPP架构优化有哪些新方向

科技科技 2024-10-28 12:49 美国

关注飞总聊IT，了解IT行业的方方面面。

去年腾讯云数据库TDSQL打破了TPC-C的世界纪录。时隔一年，TDSQL又打破了TPC-DS的世界纪录。这速度让飞总很吃惊。

TDSQL是腾讯云下面的数据库产品。这是一款具备金融级一致性，高可用，分布式等特征的分布式数据库，不仅仅支撑了腾讯内部的业务，在很多大银行的核心业务上都有应用。

飞总和TDSQL团队有过接触，对他们的技术水平是非常的佩服，对TDSQL的产品质量和可靠性也没什么疑问。特别是去年这款产品打破了TPC-C世界纪录更是实打实的业绩。

此次打榜，腾讯云数据库TDSQL打分是性能7260万QphDs 和性价比37.52元/kQphDs，比原来的世界纪录保持者分别强了282%和省了37%，可谓是非常好的成绩。

我们平时说的TPC-C, TPC-H，TPC-DS，其实都是TPC(Transaction Processing Performance Council）下面针对数据库性能的不同测试标准。

这些标准里面有的现在还在用，有的已经被更新的标准给取代了。

目前在用的测试标准中，主要有针对OLTP(Online Transaction Processing）的TPC-C和针对OLAP（Online Analytical Processing的TPC-H, TPC-DS。

OLTP的查询，通常是指对数据库内的某些特定数据进行事务更新的查询。所以TPC-C测试特点是短时间内有大量并发的更新。

OLAP的查询，通常是指对数据库内若干表某个时间段内的汇总分类等复杂查询。目前先后有两个测试TPC-H和TPC-DS。其特点是测试会有不少复杂查询，每个复杂查询会涉及到很多的数据。TPC-DS作为比TPC-H更新的测试，其查询尤其复杂。

TPC-DS模拟的是一家大型零售商的数据。在TPC-DS的测试数据中，有很多大量销售数据。针对这些销售数据，有99个非常复杂的SQL查询。

举个例子，比如说让统计过去半年该零售商里面销售额最低的商品有哪些。有写SQL经验的人就知道这个SQL不是太简单了，懂OLAP引擎的人也知道，这查询执行起来会涉及大量数据，非常的不容易了。

我曾经看过这些查询，它们覆盖了SQL的方方面面，对数据库引擎，尤其是优化器的各个方面都有非常全面的覆盖。

TPC-DS的测试大体上涉及了如下4部分：数据导入，复杂SQL串行执行，复杂SQL并行执行，数据变更。

具体来说，首先是做ETL，腾讯云数据库TDSQL此次跑分的是10TB的规模，所以导入10TB数据。

然后就是系统要跑99个复杂SQL，一个接一个的串行跑一遍。

再接下来就是并行跑99个复杂SQL，做4个并发同时跑，并且在跑99个复杂查询的过程中，还要做数据变更。

我想说到这里，大家应该可以理解这个测试的复杂程度了。

一个数据库引擎，比如说腾讯云数据库TDSQL，要想在这样的测试中打榜登顶，需要做好方方面面的技术优化。

腾讯云数据库TDSQL能取得世界第一的成绩，主要是做对了下面几个方面的事情。

首先，一个数据库的查询引擎能够执行查询，体现在其对CPU单核性能的利用率。单核极致性能的使用，不仅仅体现在对每个CPU的占用率上，还要把最新的CPU里面的所有模块和组件都用起来。

我举一个简单的例子。新的CPU都有在一条指令同时处理多个数据的能力，这个我们通常被称为vectorization。能够同时处理多个数据，就可以加快查询的执行。

但是这种能力，是需要代码配合的。首先，我们需要一个column store，这样才能够方便同时有效读进同一个列的多个数据。如果不用column store的话，在当前计算机的架构下，从内存到各级别的cache，都会有miss的问题，更不用说在处理器里面同时处理多个数据了。

同时，我们还需要一个vectorized engine，只有特定编码的引擎才能够达到这样的效果，随便写写的代码是无法利用起新CPU里面的所有模块和组件，榨干最后一点CPU性能的。

而TDSQL数据库，不但自研了column store，也开发了自己的vectorized engine，所以才能够高效率的榨干CPU，实现单核极致性能。

其次，一个好的数据库查询引擎，在今天摩尔定律失效，多核CPU架构盛行的年代还需要解决如何在CPU多核之间资源分配的问题。

这个问题说难不难，说容易也不容易，其核心在于数据库的查询引擎的并行执行框架到底做得有多好，一个好的并行执行框架，是可以把资源优先分配给正在执行任务的计算分片，从而解决并行进程之间的阻塞依赖。

而腾讯云TDSQL自研的并行执行框架，很好地解决了并行进程之间的阻塞依赖，消除了一些进程等待另外一些进程从而导致的CPU闲置问题。

最后，TDSQL是一个分布式数据库系统，而分布式数据库系统，通常都采用MPP的执行框架。MPP里面的数据传输方式又有经典的Volcano Style引擎采用的方式，和现代列存数据仓库包括C-Store和Monet DB/X100等引擎采用的方式。

前者的特点是在整个分布式执行过程中，每个节点自顶向下的要数据。后者的特点是自底向上的给数据。

在单核性能拉满，并行进程之间阻塞依赖消除的前提下，显然后者的效率要远远高于前者。TDSQL自研的MPP引擎也是通过给自底向上给数据的方式实现的。

TDSQL自研的MPP引擎通过把查询分片充分解耦，来让分片之间的拉通和配合更加高效，从而进一步提高了OLAP查询的执行速度。

这三方面技术的综合，是腾讯云数据库TDSQL能够登顶TPC-DS世界榜首的原因。

可能还有读者会疑问，为什么腾讯云数据库TDSQL打榜TPC-DS 10TB的数据集，而没有去打榜规模更大的100TB数据集。

熟悉榜单的应该知道，目前100TB数据集的世界纪录保持者是Databricks。这是一家大数据公司。

从TDSQL的实际客户需求来看，在OLTP+OLAP的客户需求下，用户的数据量在10TB以内就已经满足需求了。而100TB以上的，更多就是大数据或者纯数仓的需求了，这就不是目前TDSQL这款数据库的客户需要解决的问题了。

TDSQL是通过给大量用户做POC或者拿下很多客户，并且在这个过程中不断优化数据库引擎的能力，来取得成绩的，然后顺着这些优化打榜了TPC-DS，而不是为了打榜而打榜。所以TDSQL团队选择了打榜10TB。

自从TDSQL打榜TPC-DS世界第一的消息传出来了，我认识的很多做数据库的人也都在热烈讨论这个事情。其中有一个业内资深做数仓的人士就这样评价，说这是一个非常优秀的数据库引擎。这也是飞总的结论。TDSQL是一款非常优秀的数据库引擎。

http://mp.weixin.qq.com/s?__biz=MzI5OTM3MjMyNA==&mid=2247499041&idx=1&sn=85038ac472beba20d1b0b346f1905fac

聚焦互联网IT行业的最新信息，大数据与AI，职场进阶

最新文章

Greenplum闭源以后，原班人员打造开源项目Cloudberry。。。

小红书太牛逼了。。。

努力！！不要脸！！努力不要脸！！！！

美国司法部，强制拆分谷歌。。。

中年码农，裸转AI，是条死路。。。

再见！！！爱人！！！¥¥¥¥¥¥¥¥¥¥¥¥¥¥。。。

姓俄还是姓西方？？JetBrains正在被西方针对。。。

AMD宣布全球大裁员。。。

逆天了！！！百度要出AI眼镜。。。

特朗普胜选了，但马斯克的噩梦，才刚刚开始。。。

震惊！！！Tiktok突然被强行关闭！！！

特朗普胜利，中国留学生惨了。。。

印度的印度人，干翻美国的印度人。。。

Visa 裁员1400名员工。。。

Dropbox大裁员！！！

谷歌被罚200000000000000000 00000000000000000 美元。。。

股票暴跌！！！吓得会计师事务所辞职！！！这家公司被美国政府盯上了。。。

英特尔，关停，全员裁员！！！

干翻谷歌，Meta开发AI 搜索。。。

马斯克被开盒，美国媒体爆料说他曾是非法移民。。。

国产数据库登顶TPC-DS：MPP架构优化有哪些新方向

牛马不配晋升，小红书取消专业职级。。。

商汤科技爆大裁员。。。

网传Snowflake即将大裁员大裁员！！！

俄罗斯Linux内核维护者被除名，Linus亲自回复，表示自己芬兰人，不支持俄罗斯侵略。。。

各大厂裁员又降薪下，目前还在逆势扩招的行业出现了…大家冲一冲！

冒险聊一个敏感话题

北大研究生投毒AI训练，耍的字节跳动工程师团团转，故事扑朔迷离，一波三折，真真假假，逼得字节跳动公开发声明。。。

真！！Meta！！大裁员！！！

又一外企IT巨头，大量裁撤中国员工。。。

Meta 又裁人了。。。

数据库大佬Nikita Shamgunov和他的两家公司

马斯克点赞，华人“汉奸”。。。

字节跳动大裁员。。。

ChatGPT打脸诺奖委员会。。。

微软又裁员了。。。

搞笑吗？？？人工智能获诺贝尔物理学奖。。。

帅小伙创业，成功融资3200万。。。

遥遥领先的国产数据库，就是这么坑！！！

吓人！！！这家美国银行崩了！！！

大批保安现身亚马逊总部，疑似大规模裁员在即。。。

沸沸扬扬！！！某国内互联网公司，信息泄露导致国外用卡被盗刷。。。

治不了，和没钱治，是两种不同的绝望。。。

中国经济周刊反驳：院士孙凝晖说华为封闭垄断！！！

A股大涨，拍断大腿。

SQL有病，谷歌能修！！！某大佬盛赞：牛逼！！！

AgentForce:Salesforce的AI下半场。。。

某企业：员工禁用苹果手机，违规开除！！买华为给补贴。。。

逆天！！我公众号被阿里投诉了：说侵犯阿里云盘的隐私了，因为写了阿里云盘随意观看别人照片的bug。。。

院士孙凝晖说：华为封闭垄断，打不赢外国！！！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉