从基流科技看,国内千卡到万卡算力集群建设的前沿

文摘   2024-10-09 21:04   北京  

通用智能掀起的本次变革浪潮中,科学、技术、生产力、发展模式都在发生全面的、根本性的变化。在技术扩散的前沿,创业是驱动创新的路径中最高效的一种。


我们会不定期访谈奇绩创业营加速的年轻创始人们,从他们的视角,去理解技术创业者的世界观、工程实践经验、产品创新尝试和商业场景应用的探索,更重要的是他们早期创业过程中的故事和经验。


第一篇「奇绩校友创业实践」文章,我们与奇绩 2023 年春季创业营校友企业「基流科技」的创始人胡效赫聊了聊大规模算力集群发展的现状与挑战,并围绕挑战的可行解决方案和赛道发展机遇展开了探讨。


整理|张雨诗
访谈、编辑|沈筱

创业是九死一生的事情之前创业营分享里大家讨论,如果找了一圈客户都没有人买单怎么办其实可能在另一个平行世界,我们今天不会坐在这里沟通,我也融不到下一轮钱,或许公司慢慢会变得半死不活。

四个月前,胡效赫刚刚带领团队打完一场硬仗,完成了英伟达万卡集群的建设调优项目。很难想象,作为目前国内少有能完成类似项目的创业公司创始人,会采用这样的方式描述公司近一年半以来的快速发展。

2023 年 2 月,胡效赫离开清华网络安全实验室走上创业道路,成立基流科技(以下简称基流),专注于中大型算力集群的建设和运维。成立至今,公司已实现从百卡、千卡到万卡,从集群调优到集群建设的跨越,并完成了跨 30 和 50 公里远距离训练项目的实施及落地。

这样的阶梯式成长历程看似顺理成章,但实际上,向上的每一步都有可能如胡效赫所言,导向一个“粉身碎骨”的平行世界。

身处高速发展的新行业中,基流接到的业界需求和面临的技术挑战几乎是全新的。“只有深刻理解 AI 集群所有性能指标,才能将容错、监控、自动化运维等整个分布式系统成体系的设计移植到 AI 集群。”在胡效赫看来,要实现这一目标,没有捷径,只有泡在客户现场。

第一次推进千卡集群调优项目时,整个基流团队只有 5 个人。为了摸清 AI Infra 涉及的所有问题和挑战,团队在客户现场待了 1 个多月。这段时间也是基流验证产品市场匹配(PMF)的关键时期。再到后续千卡集群的首次搭建,基流也花了大量精力与用户一起做项目试点(POC),解决了高效组网、GPU 软硬件栈稳定性等问题。

在真实集群环境中不断迭代的经验使得基流在应对万卡集群建设的各类挑战时更加游刃有余。比如,其中一个项目的客户从硬件准备完毕到要求的软件调优交付期限,中间只间隔了不到四周时间。基流最终用三周半顺利交付。

“每一个大的项目都是一个台阶,每上一个台阶现在讲起来都比较容易,但其实都是不成功便成仁的状态。只能奋力一跳,成就成了,不成,在业界的声誉也会丢失。”胡效赫眼里的 AI Infra 赛道就是透明的战场,每个公司的一举一动都会被整个行业关注,如果不打几场硬仗,得不到行业认可,就只能灰溜溜离开。

实际上,不断满足客户集群建设规模增长的需求只是基流要解决的核心课题的一部分。还有一个重要的部分是算力集群的国产化。

算力是 AI 发展的必备“能源”。自主可控的算力生态系统关乎一国在迈向通用智能征程中的核心竞争力。也正是意识到这样的重要性,基流在成立之初就将从 AI 集合通信出发,助力实现 AI 基础设施(整体分布式系统)国产化作为核心目标。

从全球范围看,xAI 已经公开建成十万卡超算集群,微软、谷歌、Meta 等都在同等体量规模。相较之下,国内 AI 算力集群建设刚刚进入万卡阶段。

“国内大概比美国晚一年到一年半时间。”尽管基流已经开始推进十万卡集群解决方案,但胡效赫坦言,“目前国内关于十万卡怎么做、怎么用更多是设想。”其中的挑战不仅限于技术层面,还包括市场层面。

胡效赫介绍,一个十万卡算力集群的建设成本大概是 400 亿到 500 亿人民币,但建成后还需要有企业再花 400 亿消纳算力。这样庞大的资金投入意味着,对任何一家企业而言,十万卡集群只能作为固定投资,并且做成这件事的前提是高额融资或充沛的现金流支撑。技术层面的挑战则在于,需要在集群规模扩张时维持计算性能,并在此基础上保证集群运行的稳定性,同时兼顾性价比。这也是基流在实践中着重实现的目标。

和奇绩投资的大多数前沿科技领域创业者一样,胡效赫是一个既有技术理想,又极度务实的人。

在基流,胡效赫特意在研发团队中配置了专注技术预研、优化和创新探索的创新组。该小组是基流“仰望星空”的窗口,主要聚焦集群的扩展性、效率、容错等方面的前沿研究,以及十万卡仿真和未来架构的探索。而要获得仰望星空的资格,胡效赫认为,必须在当下脚踏实地地活下去。他将这一部分的重任交付给了关注突破当前技术难点和聚焦业务实践的开发运维组。

当聊到如何应对未来发展的不确定性时,胡效赫说:“但行好事莫问前程。”他坚信,本次 AI 技术变革将为人类社会带来更深、更广泛的影响。无论未来有大量千卡集群,还是数个万卡、十万卡集群,作为 AI Infra 的建设者,基流要做的就是厘清 AI 发展的每一种可能结果背后,应该做什么才能活下去,并按照这样的思路实践,在机会到来时,将 200%、300% 的精力投入其中。


以下是奇绩与胡效赫的对话。


谈集群发展
核心不是竞逐集群规模,而是满足市场需求

奇绩:美国的科技巨头今年似乎都在攻十万卡集群,国内进展如何?
胡效赫:国内晚大概一年到一年半。至少现在 xAI 已经公开十万卡集群了,微软、Google、Meta 也在同等体量规模。再往前走要看 GPT-5的情况。如果 GPT-5 能出来,还能再往上走。如果 GPT-5 慢一点,就不好说。

国内的进展,如果没有禁令影响,应该会有大概 3-5 万卡的集群。但目前来看今年可能就到万卡。

奇绩:按照这个进度,国内什么时候能追上?
胡效赫:从整个行业发展的角度,只要需求能满足,最终以什么形式(集群规模)实现或许没那么重要。

比如对我们而言,GPT-5 出来是一种活法,不出来也有不出来的活法。如果 GPT-5 不出来,现在至少垂类的通用模型已经被证明是行得通的,未来会有很多千卡集群。如果 GPT-5 出来会有更多更大的集群。

我们只需要把普通可能性情况下,可以做什么这事情想清楚就好。

奇绩:国内做大模型的公司要真正开始建十万卡集群,主要的驱动因素是什么?
胡效赫:要建十万卡集群,有两个选择。

一是像马斯克一样,可以单笔融资 60 亿美金,融完钱直接买设备。但目前来看,国内创业公司融资大概能到 6 亿美金。

二是公司的现金流很充沛。因为 ROI 现在还算不过来,除了建设需要投资 400 亿人民币,还得有人再花 400 亿把集群给消掉。只能说有人可以直接花 400 亿把集群做成固定资产,比如有 2000 亿的现金流,可以拿出 400 多亿来建设。在国内这个量级可能只有头部的互联网公司。但这些公司大多在美股或港股上市,受英伟达禁售限制的影响。

奇绩:从技术层面看,十万卡集群建设的难点主要是什么?
胡效赫:十万卡更多是一些设想,因为目前国内还没人知道十万卡该怎么做,可能连该怎么用都还需要探索。比如现在从千卡到万卡,性能大概掉了 8%,那么从万卡到十万卡性能是不是会掉多个 8%?可能到 50%以上。所以,真正十万卡该怎么做,现在没有特别明确的思路,但必须先往前走。

奇绩:相比之下,千卡、万卡集群要容易得多?
胡效赫:目前来看,万卡确实已经很简单了。比如 Meta 有公开的技术报告,2 万卡以内都是已知的东西。但是 5 万卡、10 万卡未知。

但回溯地看,我们从千卡集群调优到第一个千卡集群建设,再到第一个万卡集群建设,每一个阶段遇到的问题几乎都是新的。每一件事情,在没人做之前,你要开始做,难度都非常大。

比如从千卡到万卡最核心的就是要跑起来,真正需要解决的是稳定性。一个任务跑在 800 张、8000 张卡上,有一个点挂了,整个任务就会崩掉。所以要做容错,做故障迁移,做机器筛查,需要花费很大的精力。

奇绩:基流去年也在上海做了跨长距离的集群?
胡效赫:对,当时是 30 公里和 50 公里。当时每个单独算力中心的卡比较少,只有几十张,需要跨长距离互联。当地政府机构和甲方单位都很关注这件事。最后我们通过调度和一些方案的优化把互联效率做到了等效大概 98% 到 99% 的算力。

难点在于有真正不同的场景,一个是数据中心内的,一个是数据中心间的。需要在同一个框架里把算力做拆分,然后做设计。这个项目我们大概做了小半年。

在去年早些时候,几乎所有人都认为跨远距离组网这件事行不通。上海的项目验证了这是完全可行通的。再回头看,就会发现其中有一些反共识。

之前大家认为,AI 集群需要是高性能的,高性能的一定是低时延的,时延越低越好,纳秒级、微秒级,但即便我们只做到毫秒,最终也能通过一些调度的逻辑让整个集群运行得很好。

奇绩:如果跨长距离组网这件事本身存在非共识,基流决定做这件事的动机是什么?
胡效赫:需求最开始是奇绩给的建议。核心是长期来看集群会越来越大,当单点放不下时,肯定需要做分布式,多个节点联合去做。这是比较直觉性的,海外确实也在这么做,我们至少先准备好一些解决方案。

奇绩:预计跨长距离组网的需求更多来自推理侧还是训练?
胡效赫:推理会有,但训练还好,更多可能是长三角或京津冀这样的区域化。推理方面的需求可能到明年会爆发。


谈集群国产化
以进口带国产,逐步解决硬件稳定性、软硬件协同问题

奇绩:目前算力集群建设的需求分布是怎样的?
胡效赫:行业的主力还是互联网公司和大模型创业公司,美国也一样。国内来看,互联网大概占 40% ,大模型创业公司和行业客户大概 30% ,国央企占 30%。

奇绩:现有算力集群仍以英伟达卡为主?与国产芯片性能差别大吗?这样的差距能通过系统的设计缩小到什么程度?
胡效赫:我们也做了国产卡的千卡规模集群。真正做训练需要快速迭代。英伟达的方案相对比较成熟,整体的思路类似进口带国产,慢慢地把国产的一套东西拉起来。

虽然国产芯片的计算能力和英伟达比暂时还有一定差距。但我们本质上做的是集群,互联。如果一张卡的能力是 100,100 张卡有可能就掉到 50 了。我们做的是让这 100 张卡连接在一起最多,比如说掉到 80 或者 90, 也就是保持集群的线性度,并在这个逻辑之上保证集群的稳定性,同时把效率、调度的内容都加进来。

奇绩:国产替代是一开始就设定好的目标?
胡效赫:在算力集群场景中肯定是的。我们本质上致力于国产化、具有科创属性的 AI Infra 的建设。起点是 AI 集合通信,也就是整个分布式系统或者 AI 基础设施的国产化替代,核心是计算加通信。

系统层面,我们最早是通过用通用以太网 RoCE v2 替代 IB(InfiniBand),提供更高性价比的方案。最近在进一步和国产化厂商一起类似英伟达的超节点系统方案,也就是单机柜几十张卡节点的整体系统方案设计。

硬件层面,我们基于海外设备(交换机)的方案也已经相对成熟,现在逐渐通过国产化、差异化的思路来做自己的交换机,更多是从算法上、工艺上、供应链上做优化。做交换机也没有那么容易。

奇绩:交换机国产化需要突破的难点是什么?
胡效赫:目前国产的一些软硬件还相对不稳定,使用量还不大,但国产化是长期的主旋律。这需要我们在国产化上投入很大精力,想办法把它从测试,从实验室搬到生产集群。

尽管目前真正有动力把它搬到生产集群的企业还不够多,但除了大模型的创业公司、行业客户,我们还会做一些国央企,本质上还是 to G。在这个层面,是要想办法直接把国产软、硬件搬到生产集群的。这对整个集群的稳定性要求,以及对整个国产化工艺的要求都不低,比如在高速信号处理的很多设计上,还有不少需要我们解决的问题。

奇绩:这是否要求基流和上下游参与方密切合作?
胡效赫:我们的确在之前的项目中花了大量精力联合设计(co-design)。比如,这里面涉及很多硬件方面的挑战,包括稳定性、软硬件协同。尤其是新建的项目,我们需要配合客户的业务团队、算法团队把整个模型训练跑起来。后来的万卡项目,也都需要大家一起联调,联合开发。

另外,为了做跨远距离组网的项目,我们也调动了很多基础设施层面的资源。首先要自己去找光纤,这些光纤全是运营商的资源,要跟运营商配合。其次还要自己做高性价比的光传输设备,如果不做,成本甚至可能要增加 10%,很多东西都是落不了地的。


AI 落地实践
产品需在生产环境中快速打磨

奇绩:从基流整个业务拓展过程来看,进展好像比较顺利?
胡效赫:有运气的成分。比如在去年 4 月结束的千卡集群调优项目,到 9 月份沟通搭自建千卡集群中间的 5 个月时间里,其实找不到特别好的落地机会。大家也不知道能做到什么程度。这段时间比较难,我们需要做选择,思考到底找什么方向,怎么在赛道中长久立足。

奇绩:当时基流选择做了什么?
胡效赫:没有选择,就是等。创业是九死一生的事情。之前创业营分享里大家讨论,如果找了一圈客户都没有人买单怎么办。其实可能在另一个平行世界,我们今天不会坐在这里沟通,我也融不到下一轮钱,公司慢慢会变得半死不活

奇绩:后来和新建的算力集群算是基流等到的机会?
胡效赫:有运气成分,但也有这个机会自己能把握住

奇绩:基流凭什么抓住了这个机会?
胡效赫:一方面,我们不是纯粹意义上的不知道从哪来的一个团队,做过很多足够落地的项目,只是没有起量。另一方面,要和大厂 PK 方案,在供应链层面业界还是有很多朋友帮忙。

奇绩:在项目落地过程中,遇到的最大的挑战是什么?
胡效赫:最初的调优的项目还好,因为在实验室有些积累,做 B 集群建设项目全是未知,还没人做过,涉及很多服务器本身的软硬件问题,包括很多工程上的细节,需要 case by case 地解。比如网卡和服务器不适配,系统版本不对,参数配置有问题。

但我们有完整的一套对 AI 系统有认知的,自动化容错、故障定位的的系统。逻辑在于这个系统太复杂,里面可能一个千卡集群,涉及到的组件有上万个,一个东西挂了之后,问题到底在哪可能根本不知道。

奇绩:这一整套对 AI 系统的认知如何积累起来的,对基流的产品发展思路有什么影响?
胡效赫:其实都是跟着项目来“养”产品。行业在快速变化时,产品的核心点一定是足够好。甚至实际上,服务跑得比产品快。

从产品化的角度,一开始更多的是用工具,网络的软硬件来支撑,然后跟随一个个项目不断迭代,直到监控平台足够完善,粒度更细,找到一些典型的用户后再做调度平台。

因为过去创业,可以说我采用的是 stealth mode,可能一年就憋出一个产品。但这样的模式在国内不适用,在 AI 的场景里也不适用,更多需要快速打磨产品。

奇绩:不适用的原因是什么?
胡效赫:一是国内客户对软件本身价值的认可程度不高,更多还要把软件放到集成的项目中,放到硬件里。二是 AI 发展太快,客户不会等,而是希望你快速出新东西。所以产品做到足够好很重要。简单来讲,逻辑就是有仗先打仗,在打仗过程中积累经验,逐渐将团队从游击队变成正规军。

奇绩:目前项目推进周期如何,和最开始做的项目相比是否有提升?
胡效赫:经过几次打磨,我们现在效率非常高,几千卡的集群从 0 到交付大概就 1 个月到 1 个半月,在业界可能是最快的。


创业感悟
产品-市场-匹配和创始人-使命-匹配

奇绩:从科研到创业,给你带来最大的挑战和改变是什么?
胡效赫:挑战还好,因为我们实验室做创业的氛围比较浓,我是实验室第六家创业公司。我导师在产学研方面也积累了很多年。我跟了导师 10 年,一年至少有两次一对一。

我自己也比较想做公司,所以对创业多少有一些认知。并且我比较感谢奇绩,刚从学校出来要创业时,奇绩给了我系统性的培训。我们公司 2 月份注册,3 月份开营,经过 3 个月的迭代,对整个创业有了更深的认知。

奇绩创业营会强调,早期创业核心是要做好两个 PMF。第一个是 Product Market Fit,其实有些靠运气。很多情况是,行业本身存在,你撞到一些东西,或者看到一些东西,它就会有 PMF。所以与其说 PMF 是找到的,不如说是等到的。

人很难说自己在人生的第 25 个年头一定要成功,这是不可能的。所谓的等到,就是在合适的机缘下,通过某种途径能找到一些东西。

另一个 PMF 是 People Mission Fit,它也是越来越重要的。因为你要有足够的、合适的人。凭自己想把每一件事情都安排得妥妥当当是不可能的。你怎么做管理, 怎么安排好每个人到底在哪、干什么,这个挑战比较大。

我会看师兄的案例。相比之下,我的第一个 PMF 可能做得好一点,但第二个 PMF 做得没有师兄好。尤其是在发展比较快的情况下,找合适的人快速适应变化,挑战很大。

奇绩:在等待过程中,作为一个创业者/创业公司应该做什么?
胡效赫:所谓等,更多是顺势而为。要有足够的积累,看到了一些机会,或者正好处在合适的时间。比如 AI 爆发,你选择进入 AI 领域开创一个事业,或者选择一家在这个机会窗口中的企业加入。

再比如,一个人想创业,现在选择进入消费领域可能有些不合时宜,但如果一个在服装设计领域深耕了十年的人,突然发现了一个细分空间的机会,并能拉出一个团队来去做,这是可以的。

奇绩:关于 People Mission Fit,目前基流的团队构成如何?
胡效赫:研发方面分了几个组,有做软件产品化、硬件产品化,以及工程化落地、调优、运维的。同时还有一个组是做偏预研、偏性能优化、偏创新的,主要聚焦在集群的扩展性、效率、容错等方面,包括怎么去做扩展迁移,未来的架构是什么样的,怎么去做十万卡仿真等等。

奇绩:基流想找到合适的人难吗?
胡效赫:找到真正适合创业公司的人不容易。首先他一定是要有自驱力,其次来创业公司和去大厂最核心的差异就是个人的成就感。在创业公司,尽管有不确定性,但自己独立做成一件事情的成就感会大于很多东西,这就是 mission。你如果不认同这种成就感,就没什么可聊的。

奇绩:目前有招人计划吗?
胡效赫:我们正在招研发岗,希望有一些年轻的,愿意做创新的事情,对技术保持好奇心,保持想象力,持续地能参与到大家的讨论和实践中的人。核心是希望有人能够真正和我们一起把这些底层的芯片,用系统串联起来,变成算力。他需要有一定的编码能力,了解分布系统。

奇绩:创业也好,国产化替代也罢是很现实的决策。作为创业者,脚踏实地可能是必须的,但你的内心会有一部分交给仰望星空吗?
胡效赫:仰望星空,核心逻辑还是你可以理解为这波 AI 跟之前 AI 是不一样的。比如,上一波 AI、人脸识别,也造就了一些公司,技术也已经广泛落地。但这一波 AI 肯定比人脸识别落地的范围更广,影响深度更深,但只是大家太急了。

从长期来看,就像很多投资人,包括奇绩,看一件事情一定会有一个最终版图。比如,我们认为 AGI 就是一个最终版图,其中有应用,有模型、算法。我们的核心逻辑就是自己会在这个最终版图里,无论以任何形式。未来到底会有 100 个千卡,还是会有几个万卡,或者几个 10 万卡,整个 AI Infra 里,分布式系统在其中就是会有很大潜力。关键在于我们要以现实的逻辑活下去,才能最终存在于这个版图中。


附:
基流科技正在招募云平台产品经理、研发工程师,欢迎投递简历至 HR-Public@infrawaves.com


加入 #奇绩创业社区# 

扫描创业营二维码,提交奇绩创业营申请表,即可【免费】加入社区,【滑动】查看并免费领取创业社区独家资源:

左右滑动查看更多资源



奇绩创坛
像联合创始人一样,手把手与你一起创业。奇绩创坛成立于2019年,使命是在源头最大化驱动创新,核心产品是创业营,每年举办两届,陆奇博士和合伙人全身心投入3个月,通过创业营投资加速,提供长期帮助。
 最新文章