分布式系统与可信计算的探索之路——专访“CCF 海外科技人物奖”获得者徐洁 | CCCF精选

学术 2024-12-06 17:07 北京

编者按：英国利兹大学（University of Leeds）计算机学院讲席教授徐洁是分布式系统和可信计算领域国际著名专家，他在面向服务系统工程、资源管理等方面作出了重要贡献，与中国学者合作领导了可信虚拟计算环境等大型基础设施建设，持续推动我国的分布式系统领域研究和人才培养。为此，CCF授予徐洁教授2023年“CCF海外科技人物奖”。在CCCF的专访中，徐洁教授分享了他的学术经历、理念和成功经验，以及对年轻学者的建议。

问

首先祝贺您获得2023年度“CCF海外科技人物奖”这一殊荣。请问是什么激励您投身分布式系统和可信计算研究领域？

徐洁：首先感谢您的祝贺，也非常感谢CCF对我的科研工作的认可。

谈到研究初衷，这个问题还要追溯到本科时期。1983年，我在本科最后一年的项目中，分析了UNIX操作系统一个版本的源代码，学习研究了如何高效协调和管理各类计算机资源。这段经历激发了我对分布式系统的兴趣，同时也让我意识到优化计算资源对系统效率和成本的重要性。

分布式系统的优势在于支持多租户资源共享，能够高效地挖掘和利用闲置计算能力，从而显著降低成本。然而，随着计算环境和设备多样性的增加，不同系统和平台之间需要无缝协作，这给分布式系统的研究带来了巨大挑战。如何解决异构系统的互操作性和集成问题是这一领域的核心挑战。例如，在分布式系统中，如何保持不同节点之间的数据一致性，如何确保分布式组件之间的协调和同步，都是复杂且关键的问题。

1983~1988年的硕士和博士学习给我提供了重要的机会和平台，让我可以从事对可用性和可靠性有极高要求的真实工业系统的研究。容错和可信计算是任务关键型(mission-critical)应用的必要条件。在此场景下，分布式系统的设计初衷就是保证系统在某些组件出现故障的情况下，依然能够继续无差错地稳定运行。该领域的研究重点是确保系统能够检测、容忍故障并从故障中快速恢复，使其更加健壮和可靠。

任务关键型系统兼顾了安全性和可信度。可信计算研究解决了分布式环境中的数据完整性、机密性、身份验证和防止恶意攻击等问题。同时，可信计算还涉及如何通过构建弹性系统防御网络威胁。

随后，云计算、边缘计算、物联网（IoT）和区块链的兴起为推动分布式系统的研究创造了新的机遇和挑战。这些技术在很大程度上依赖分布式系统领域的基本原理。例如，分布式计算系统要求具备高效的资源扩展能力。随着数据和计算需求的增长，集中式管理系统将面临中心节点瓶颈问题。而分布式系统可以在多台计算机之间均衡地分配工作负载，从而提升系统性能。

2023年10月，梅宏与廖湘科为徐洁（中）颁奖

问

在您的研究过程中遇到了哪些挑战，您是如何克服这些困难的？

徐洁：在分布式系统和可信计算的研究过程中，我们不可避免地会遇到各种困难和挑战，研究人员通常也会通过多种策略克服这些问题。我想从技术研究的角度来回答这个问题。

1990年，我在英国纽卡斯尔大学(Newcastle University)开始了第一份博士后研究工作。当时，我与软件工程领域的奠基人之一布莱恩·兰德尔(Brian Randell)教授合作。兰德尔教授是复杂分布式系统开发设计方法和技术的先驱，他的主要杰出成果可以追溯到20世纪60年代他在IBM公司的工作。

设计分布式系统本质上非常复杂，因为需要协调多个独立组件、处理异步通信并管理不同节点之间的数据一致性。我们通常使用模块化设计原则（例如递归系统模型）将问题分解为更小的可管理的组件。我们采用仿真工具和数学建模在方案实施之前预测系统行为。

确保分布式系统在某些组件发生故障时也能继续正常运行是一个巨大的挑战。这需要强大的故障检测、隔离和恢复机制。我们开发并实施了冗余、故障切换(failover)策略和恢复算法，例如t/(n－1)版本编程方法和协调性原子操作。我们通常会构造各种故障场景来测试系统，以确保其弹性，同时也会利用形式化的方法验证容错机制的完备性。

在分布式系统中保持数据一致性是另一个挑战，尤其是存在网络分区、延迟或故障的情况下。CAP定理说明了一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)之间的权衡（一个分布式系统最多只能同时满足这三个特性中的两个）。我们通常会根据具体场景选择最合适的一致性模型。例如，在可用性至关重要的系统中，我们通常使用两阶段提交或多版本并发控制(Multi-Version Concurrency Control, MVCC)等算法来管理数据一致性。

还有其他问题，例如系统性能优化、可扩展性以及测试和调试，鉴于时间限制，我就不在此进一步讨论了。

近年来，我们将研究重点集中在两个领域：一是能源效率，二是大规模语言模型训练加速。在云计算和边缘计算领域，分布式系统会消耗大量能源，从而导致运营成本过高和环境污染等问题。我们不仅提出并使用了能源感知调度算法提升能源效率，还探索了新的硬件架构和冷却方法，以降低数据中心能耗。另外，我们还提出了一个用于大规模语言模型训练的三元悖论定理，该定理阐释了在有限的计算资源、模型大小和训练速度之间的权衡关系。此定理指导我们设计并实现了一个高效的面向大模型训练的软件系统。

问

您认为分布式系统领域未来将如何发展？

徐洁：分布式计算系统的未来发展将受到新兴技术和科技创新突破的推动，包括边缘计算与联邦学习(federated learning)、微服务、量子计算的集成技术、安全和隐私增强的区块链、人工智能等。

人工智能和机器学习将越来越多地集成到分布式系统中，实现决策流程的自动化并优化系统性能。人工智能驱动的分布式系统将能够动态适应不断变化的条件，预测和防止出现故障，并更有效地优化资源分配。自治分布式系统的出现将减少对人工干预的需求。

对容错系统的研究将加速更具弹性的分布式系统的诞生，这类系统可以自动检测、隔离故障并从故障中恢复。未来的系统将具有故障预判和自我修复功能，能够在故障发生前或发生后自动修复，从而提高系统整体可靠性并减少停机时间。

联邦学习通过分布式设备训练机器学习模型，但不共享原始数据。这种需求将推动分布式系统更加关注隐私保护与数据安全，减少数据传输。这种方式在个性化医疗系统、智慧城市等应用中较为普遍。

基于微服务架构的应用将继续增长。微服务和无服务器(serverless)架构使开发人员能够快速地开发、构建和部署应用程序，而无须担心底层基础设施。分布式系统将变得更加模块化和灵活，功能即服务(FaaS)的开发范式也会更加普及，实现计算资源根据需求动态分配。

随着人们对电力能源对环境影响的日益关注，分布式系统的能源效率和可持续性将受到高度重视。英国利兹大学和中国西南交通大学新成立的联合研究中心将重点研究这一领域。未来的分布式系统将通过更好的资源管理、低功耗硬件和智能调度来优化能源效率。绿色计算将推动可持续系统的开发与推广，以最大限度地减少碳足迹。

总之，未来的分布式计算系统将具有更强的数据安全和隐私保护能力、更智能化的自控能力、更环保的运行方式，以及对异构环境和异构硬件更灵活的扩展能力。

问

对于年轻一代的科研工作者，您有哪些建议或忠告？

徐洁：我自工作以来，带领了许多科研工作者，目前我的科研团队中以年轻科研工作者为主。在当前的科研环境和技术背景下，我对他们有以下几点建议：

1.扎实的学科基本素养。从事分布式系统领域的研究工作，扎实的计算机基础知识是必不可少的，比如操作系统、计算机网络等基本原理必须熟练掌握。此外，领域内一些经典著作的学习也是必不可少的，比如兰德尔撰写的“System structure for software fault tolerance”、安德鲁·特尼博姆(Andrew S. Tanenbaum)与马尔腾·范·斯蒂恩(Maarten van Steen)合作撰写的Distributed Systems: Principles and Paradigms。

2.保持阅读最新论文的习惯。科技创新日新月异，发展迅猛。作为科研人员，应积极关注国际顶尖学术会议，了解最新的研究进展，掌握技术发展方向和趋势。只有如此才有可能实现技术的突破与创新。

3.高效的沟通能力。作为一名合格的科研者，需要具备良好的沟通能力，因为科研工作的推进依赖于与团队成员或业内同行的不断交流和沟通。沟通包括书写和口述两个方面。书写体现在论文发表、项目申请等方面，口述则主要是在会议或论坛上对工作的阐述。

4.勇于面对挑战与失败。不要回避具有挑战性的研究问题。遇到挑战性难题时，应感到开心与兴奋，因为这意味着可以做更有意义的事情。解决难题将有助于对该领域更深入地了解，并可能产生突破。科研成果是不可预测的，失败是科研过程的一部分。分析失败原因，从中吸取教训，并将这些经验应用到未来的工作中，这才是科研的意义。相反，没有失败的科研，反而是经不起时间或实践考验的。

5.积极参与学术交流。科研工作的推进是一个不断交流、学习的过程。交流既包括与导师和团队成员的交流，也包括与业内同行的沟通。因此，鼓励大家积极参与学术会议和各类研究社区活动，与其他研究人员面对面交流，分享自己的研究进展与心得。当然，交流不仅限于对话，阅读也是一种交流。对于年轻的科研工作者，我鼓励在学术论文的研读过程中，寻找机会与论文原作者进行研讨会交流，这种交流方式可以帮助研究人员更深入地了解他人的工作。

6.发现真正问题的能力。大多数时候，发现问题比解决问题更难。作为科研工作者，一定要从一线、企业、社会中发现并提取真正的科研问题，而不是闭门造车。这需要科研工作者有足够的知识积累、专业背景和洞察能力。

7.制定长期规划。科技信息领域不断发展，我们应致力于终身学习，走在领域前沿。虽然专注于眼前的研究目标很重要，但也要设定长期的职业目标。无论一个人的目标是搞学术研究、做行业领袖，还是创业，一个明确的目标能够为其指明努力方向。

我希望年轻一代的科研工作者能够在这快速发展的科技浪潮中有所建树，取得成功。

问

最后，您想对您所在研究领域的一线科研工作者说些什么，有哪些建议供他们借鉴和参考？

徐洁：对于从事分布式计算和可信任计算的科研工作者们，我有以下几点忠告。这些观点主要基于个人的研究经历和时代背景，希望各位年轻工作者能择其所需，推陈出新。

第一，优先考虑系统设计的安全性和可信性。从系统构建开始，就要将安全性作为核心设计原则，包括数据完整性、信息机密性与可控性、身份验证等。分析潜在的安全漏洞，并实时监控最新的安全威胁。此外，我们还需要探索在不同的安全模型下，如零信任架构，如何提升分布式系统的可靠性、可用性和可信度。

第二，时刻保持学习心态，关注新兴技术。过去二十年，分布式计算和可信任计算领域发展迅速，尤其是从理论研究到工程实践的过渡，以及大规模应用的普及。作为一线科研工作者，应时刻保持对新兴技术的好奇心，拓宽知识广度，例如量子计算、边缘计算、区块链、人工智能、系统芯片（SoC）的软硬件协同设计等。这些技术的发展与分布式系统和可信任计算相辅相成，彼此影响未来发展。

第三，拥抱交叉学科并积极拓展合作。传统单一学科的技术发展已无法满足科技创新的复杂需求，无法为社会创造更多有益价值。例如，与人工智能、网络安全专家合作，他们的科研成果将为分布式系统设计带来创新性解决方案；与医疗、金融、智慧城市等领域专家合作，能帮助我们迅速捕捉领域困点，将可信任的分布式系统应用于这些领域，促进不同研究应用的发展与普及。

第四，兼顾系统的可扩展性与性能。无论是处理更多用户、更大的数据集，还是在更广泛的网络中操作，分布式系统的可扩展性对于实际应用至关重要。这将直接决定系统能否用于工业实践。同时，要考虑系统在扩展时的性能表现。高效的资源管理与任务调度可以最大限度地减少延迟，降低成本开销。通过优化算法和系统设计，实现软件系统的降本增效也非常重要。

第五，为开源社区作贡献。无论是学术界还是工业界的研究者，都应被鼓励拥抱开源、标准化和共享。只有这样，才能推进相关领域的创新与突破，给新一代年轻研究人员更多资源和机会去加入、探索。而且，开源自己的工作，还可以提高科研成果的知名度与影响力，一举双得，何乐而不为呢？

陈娟

CCF杰出会员、理事、高性能计算专委会常委，CCCF动态栏目编委。国防科技大学教授。主要研究方向为高性能计算、低功耗编译优化等。

juanchen@nudt.edu.cn

CCF推荐

【精品文章】

点击“阅读原文”，加入CCF。

中国计算机学会

中国计算机学会官方订阅号，为CCF会员及计算领域的专业人士服务。

最新文章

启动申报丨2024年CCF-联想蓝海科研基金智能云运维与建设专项

关于申请和推荐2024年度CCF杰出演讲者（DS）的通知

CCF YOCSEF换届选举完成，贺瑞君当选新一任AC主席

【CACC】关于区域赛成绩查询及复议的通知

2024首届中国数据大会(CCF ChinaData)预热｜YOCSEF数据之夜年末开启：相邀“两秀一说”

面向AI时代的卫星互联网技术论坛 | CCF程序员大会

2024 CCF会士名单公布

AIGC时代的测试质效提升 | 12月28日TF160报名

大语言模型的能力边界与发展思考｜SPP第117期

产学研专家秀湖论剑，共话存算一体下一个十年的发展

CCF程序员大会｜星闪智联AI新未来分论坛最新日程公布

林惠民：计算智能安全 | CCCF精选

程序员马拉松+技术盛宴——首届CCF程序员大会与你相聚苍山洱海

优秀案例展播(三) | 数字为引，看中华老字号云南白药焕发新生机

评审结果公示丨2024年CCF-华为胡杨林基金可信计算专项

大咖60秒 | 超级计算机专题大全，开发、移植、运行和优化

图、网络、解空间的连通性理论 | CCF数图焦点第42期

芮勇：人工智能如何在现实场景落地——混合式人工智能的多维度解析 | CCCF精选

探讨“存算一体下一个十年的发展”CCF秀湖会议第二十四期今日开幕！

关于CCF GESP第八次认证成绩查询及复议通知

2024年CCF学生分会东北地区交流会在大连海事大学举办

全日程 | 第七届CCF中国区块链技术大会暨首届全球区块链产业峰会最新日程出品

CCF PTA第七次联合认证真题解析视频发布！

2024首届数字交通大会圆满落幕：大雪节气聚英才，共襄数字交通盛宴

面向AI时代的空天地一体化信息技术国际科技合作计划 | CCF程序员大会

2024年“CCF博士学位论文激励计划”评选结果公告

CCF大连海事大学学生分会成立

CCF程序员大会全日程公布，欢迎报名相聚大理

梅宏：大语言模型能否带来软件自动化的新机遇 | CCCF精选

首期CCF教师能力提升计划培训班在苏州举办

CCF河南大学学生分会成立

CCF与CFSP：开启“双选会员”，享受双重权益

关于征集CCF产学合作基金优秀项目案例的通知

Michael Jordan：关于人工智能的集体主义愿景 | CCCF精选

第36次CCF CSP认证真题精讲｜SPP第116期

8个专委自办学术会议入选CCF高质量国际学术会议培育计划

CCF西北办事处揭牌仪式在西安举行

优秀案例展播(二) | 数字化赋能华新水泥重构战略增长点

大咖60秒 | 智能物联的机遇与挑战，精彩速看！

分布式系统与可信计算的探索之路——专访“CCF 海外科技人物奖”获得者徐洁 | CCCF精选

立即关注丨2024 CCF-玻色量子计算应用创新基金今天申报截止

数字服务的精准、智能化监管与治理 | CCF数图焦点第41期

首届CCF中国数据大会早鸟票倒计时5天

开幕倒计时1天 | 数字交通大会：重磅嘉宾莅临，沉浸式论坛揭秘！

CCF科技创业大赛（TEC 2024）通用人工智能专项赛总决赛暨颁奖典礼在合肥举办

倒计时丨2024 CCF中国数字金融大会完整日程和参会指南

第七届CCF中国区块链技术大会即将亮相上海

关于CCF GESP第八次认证考试注意事项的通知

CCF程序员大会｜大理篝火之夜，解锁技术“燃”点

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉