CCF-蚂蚁科研基金隐私计算专项&绿色计算算效专项于2024年10月24日启动申报,申报截止时间:2024年11月24日 24:00(北京时间),目前距离申报截止仅剩7天,欢迎CCF会员积极申报。
1.考虑模型加速的硬件异构大模型安全推理技术
背景:基于密码学的大模型安全推理技术存在效率不高的问题,该问题解决思路转向基于可信执行环境(TEE)的大模型安全推理方案。目前TEE设备的现状是现存大量仅支持CPU计算的TEE,单纯用仅支持CPU运算的TEE和明文GPU推理还存在数十倍的效率差距, 对于长文本的情况差距会更大。如何利用TEE(CPU)的安全能力和明文GPU设备的快速计算能力是研究热点,典型的方法是把非线性计算放入TEE内,线性运算经过one-time- padding 的轻加密方法放到明文 GPU设备上运算。但这样会造成大模型逐层切割,TEE(CPU)和明文GPU设备的IO通信大大增加。虽然使用模型量化或稀疏化的操作可以减少异构设备间的 IO通信,但大模型推理过程中的加速框架(vLLM 等)就不可用,最终使得硬件异构的TEE(CPU)和明文GPU方案的实际时效性比明文GPU 推理效率还差很多。本课题希望在异构硬件的环境下,利用轻加密算法、大模型优化算法,同时使能或部分使能大模型加速框架(vLLM 等)完成高效实用的大模型安全推理技术。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1篇。
2.机密计算安全监控模块的漏洞挖掘与安全分析
背景:数据已成为驱动科技进步、政策制定和经济发展的新型生产要素和战略性资源。而机密计算,作为解决数据要素流通安全问题的关键技术,相较于其它隐私计算技术,具有性能好、普适性广、易用性强的特点。然而相较于其它隐私计算技术,机密计算需要用户信赖机密计算的信任根。因此机密计算的信任根的正确性与安全性显得格外重要。
目前主流的机密计算技术,例如TDX,SEV-SNP、ARM-CCA、HyperEnclave 等,都依赖于一个运行在最高特权级的软件作为安全监控器,为具体的 TEE 实例提供机密性、完整性、可验证的保证。安全监控器是由软件编程实现,一旦安全监控器存在漏洞,那么整个机密计算提供的保证将不复存在。针对于机密计算安全监控模块的软件(HyperEnclave hypervisor,TDX module,SEV-SNP firmware等),本项目需要通过系统的理论分析(例如形式化验证)以及系统的漏洞挖掘等方式(例如 黑盒测试、fuzzing测试、程序静态分析等)提供安全的背书。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1-2篇。
3.云端机密计算环境的隐私保护研究
背景:机密计算技术在云端的部署可以让它面向更广泛的应用场景以及参与方,同时也对机密计算环境的隐私保护能力提出了更高的要求。例如苹果提出了 Private Cloud Compute云端隐私计算架构,用于服务广泛的终端设备用户。在隐私计算、移动App等应用场景下,同样需要一套完善的隐私保护框架以及相应的算法协议设计。本项目希望基于HyperEnclave、Occlum等蚂蚁现有的开源机密计算方案,探索云端部署时所面临的加密保护、任务不可追踪、任务可验证、身份匿名化等隐私保护需求,通过合理使用密码算法、硬件安全设计等资源,设计相应的安全架构方案。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1-2篇。
4.跨平台信任根虚拟化技术研究
背景:随着云计算和隐私计算技术的飞速发展,密算中心成为实现数据全链路安全保障的首选方式,如何在多样化的密算中心平台及其虚拟化环境中构建统一且可信的安全架构, 特别是在多租户环境中实现隔离的信任根,已经成为保障密算中心数据隐私和计算安全的关键问题。然而,现有的信任根虚拟化技术(vTPM)依赖于特定的硬件实现(如SGX、SEV等),在跨平台和跨服务中的应用面临诸多局限性,尤其是在资源受限的轻量级虚拟化平台上,如何构建通用跨平台信任根成为亟待解决的问题。
为了应对这些挑战,本项目旨在突破现有信任根绑定特定硬件的局限,实现更灵活的跨平台安全能力,形成更为通用性的信任根虚拟化(vTPM)生态。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少1项;
3)产出蚂蚁认可的CCF A类论文1篇。
5.应用NbSP安全范式系统研究TEE设计与实现
背景:传统的安全系统构建范式是基于攻击的,即根据已知的攻击手段构建防御系统。零越范式(Non-bypassed Security Paradigm)尝试从攻击路径和控制点角度重新审视了安全系统,要求安全系统在所有攻击路径上增加不可绕过的审查点。
当下围绕TEE设计漏洞的新攻击不断涌现,如:侧信道攻击,亡羊补牢的现象尤为突出,究其本质是设计之初缺乏系统化分析。本研究希望应用NbSP安全范对 TEE设计展开系统化梳理,进而让现有或未来TEE设计,有据可依,有迹可循,更加从容的应对未知攻击。
目标:
1)基于NbSP安全范式对业界主流硬件TEE TDX、SEV等,以及蚂蚁自研TEE HyperEnclave进行的系统分析,具体包含:1) 已知与潜在攻击路径 2) 访问控制点 3) 完备性;
2)产出蚂蚁认可的CCF A类论文1篇。
6.可信应用代码透明化研究
背景:构建以数据为关键要素的数字经济已经成为国家的重要战略, 而数据的安全流通涉及到端到端各个层面安全可信机制的保障,其中可信应用的代码透明化具有重要的意义,代码越透明,数据的流通越值得信任。 虽然可信执行环境TEE 和远程证明机制能保证应用和使用中的数据相对TCB以外软硬件组件和人员都是黑盒隔离和安全的,但是仅仅这些是不够的,我们也希望运行在TEE内部的可信应用程序的逻辑是透明和无害的。
可信应用透明化研究是构建完整可信透明化信任体系的一个重要环节, 目前常规的做法是开放源码给专家用户审核,但这对非专业用户几乎是不可能的,我们希望可以借助有效的工具解决和改善这个问题; 另外,我们还需要保证可信应用度量值和实际运行的代码对应关系,严格意义上只能通过可复制构建过程验证,但是这个方式对用户有专业能力和资源依赖,我们同样希望可以通过工具抽象可复制构建过程,延迟验证过程到审计追责阶段。 具体的讲:可信应用代码透明化需要解决以下问题:1). 生命周期管理流程和安全透明化 2). 供应链安全和可信申明 3). 威胁检查, 源码或者二进制级别 4).配置,环境变量等敏感外部输入透明化和验证技术 5). 相关的存证、溯源技术
目标:
1)POC源代码:设计与相关的原型代码;
2)申请发明专利至少1项;
3)产出蚂蚁认可的CCF A类论文1篇。
1.可证可信混合计算加速研究
背景:数据已成为新的生产要素和战略性资源,推动着科技进步、政策制定和经济发展。隐私计算作为解决数据要素流通中的关键技术,越来越受到重视。然而,单一的加密计算(如多方安全计算和同态加密)由于性能的局限性难以处理大规模数据;而单一的机密计算由于依赖硬件信任根,端侧部署成本高,短时间内难以大面积推广。因此,本课题拟研究如何结合加密计算和机密计算技术,特别是在部分机构拥有可信硬件的情况下,如何通过软硬结合的手段加速整体隐私计算性能。旨在设计一种高效、安全、可扩展的隐私计算框架,从而解决现有技术在性能和安全性上的瓶颈,推动数据要素的安全流通与应用。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1篇。
2.密态关系型算子加速研究
背景:数据已成为新的生产要素和战略性资源,推动着科技进步、政策制定和经济发展。隐私计算作为解决数据要素流通中的关键技术,越来越受到重视。然而,目前的加密计算技术(如多方安全计算和同态加密)主要聚焦于线性代数和机器学习相关算子的加速,对常见的关系代数-数据分析算子(例如排序和洗牌)的支持较差。本项目旨在设计创新的协议,以解决数据分析中关键算子的性能问题,从而提升隐私计算在数据分析领域的实用性和效率。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1篇。
3.可信执行环境新型证明算法研究
背景:在隐私计算相关的技术路线中,可信执行环境(TEE)有相对较高的可落地性。然而TEE对硬件安全的依赖又一定程度影响用户对它安全性的信赖程度。在隐私计算的广泛应前景(例如toC隐私计算、密态大模型推理服务等)中,用户对安全性可能会提出更高的要求,但又缺乏对 TEE 硬件内部安全机制的审计验证能力。TEE底层的密码协议相应需要提供更高的安全性,通过零知识证明等技术的结合,降低用户的安全度量机制对硬件安全的依赖,提升用户对自身数据安全的管控能力。本项目希望结合上述技术,为TEE设计更加完备的远程证明与应用度量算法,降低用户端安全验证的门槛,提升用户对TEE云服务安全性的信任程度。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1-2篇。
1.核身场景大模型身份信息隐私保护
背景:蚂蚁核身平台是数字身份的基础设施,为业务提供可信便捷的身份验证服务 。应用生物识别(指纹、人脸、声纹等)、大数据、Al技术在数字化时代和为消费者解決“我是我”、为机构解決 “你是谁”这个挑战。目前服务核心系统链路承载着亿级流量,服务国内外十亿用户。为数十亿支付宝用户的资金安全保驾护航。蚂蚁域内核身覆盖国际、网商、消金等多个场景,由于数据隐私合规的诉求需要在多端多地进行本地化部署。
身份相关模型尤其是目前的大模型的独立部署存在大量的隐私数据泄漏问题。攻击者可以通过逆向等恢复原有训练数据中的人脸,身份证件等信息。目前核身平台通过基于多模态大模型的实时视频流主动交互推动核身,随着scaling-up下的模型容量的增大,模型的信息量进一步增加,模型逆向的空间和风险更大,更为突出。
目标:
1)源代码:相关隐私保护代码;
2)POC报告和相关的三方背书;
3)申请发明专利至少3项;
4)产出蚂蚁认可的CCF A类论文2篇。
2.大模型数据合成中的隐私计算技术
背景:在一体化大模型数据合成供给的业务实践中,面临着一个复杂而迫切的挑战:如何高效地利用客户私有的丰富数据资源及内部知识库,以合成高质量的训练数据,进而增强大模型的泛化能力和对特定任务的掌握度。这些数据不仅是企业宝贵的智力资产,同时也高度敏感,涉及严格的隐私保护与合规要求。因此,传统的数据集中处理方式已不再适用, 必须寻找一种既能保障数据隐私,又能实现数据价值最大化的创新路径。“大模型数据合成中的隐私计算技术”聚焦于利用隐私计算与数据合成技术,在不暴露个人隐私或商业机密的前提下,对分散于不同客户间的私有数据进行高效、安全的整合与加工。本课题探索将联邦学习框架扩展到数据合成领域,通过在本地合成数据并仅分享合成模型或合成结果的差分更新,避免直接传输或集中处理原始数据,降低了隐私泄露的风险。
然而,与标注数据的联邦精调相比,大模型数据合成中的隐私计算技术需克服一系列独特的技术难关。首先,如何在保留数据真实性和多样性的同时,确保合成数据能够反映原始数据的统计特性及复杂结构,是提升合成数据质量的核心。其次,合成过程中的计算效率与通信开销,尤其是在跨域、跨机构合作时的异构数据兼容性问题,对算法设计提出了更高要求。此外,还需建立有效的评估机制,确保合成数据不仅在数量上满足大模型训练需求,更能在质量和隐私保护层面达到高标准。鉴于此,开展“大模型数据合成中的隐私计算技术”的课题研究,意味着要在隐私保护、数据合成算法的创新与优化、以及跨机构协同机制设计等多个维度上深入探索。通过与高校及研究机构的紧密合作,引入最新的理论成果与技术工具,旨在构建一个既安全又高效的合成数据供给体系,为大模型的持续进化提供强大动力,进而推动 AI 技术在尊重隐私、保障安全的基础上,更好地服务于各行各业的智能化转型与升级。
目标:
1)源代码:大模型跨域数据合成及迁移框架及模型;
2)申请发明专利至少3项;
3)产出蚂蚁认可的CCF A类论文1-2篇。
3.针对语言大模型的高效水印技术研究
背景:大语言模型(如ChatGPT,GPT-4,LLaMA等)在内容理解、文本生成、对话系统等领域的应用日益广泛,然而LLMs在生成高质量文本方面的卓越能力也带来了一些问题,例如生成内容的知识产权保护,合成虚假新闻、诈骗信息的泛滥等。在此背景下,水印技术作为一种有效的数字版权保护手段,日益受到研究者的关注。水印技术通过在生成内容中嵌入特定的标识信息,可以对内容来源进行认证,防止内容被篡改或未经授权的传播。这一技术在图片和视频领域已有较为成熟的应用,但在大语言模型生成的文本内容中,仍处于探索阶段。大语言模型文本水印的研究,不仅涉及到如何在不影响文本质量的前提下嵌入隐蔽信息,还需考虑如何在复杂多变的语言环境中实现稳健的水印提取。该研究不仅具有理论价值,对业务模型的防伪认证,知识产权保护等也有重要意义。
目标:
1)源代码:大模型水印技术的集成代码库以及新方案技术源码;
2)申请发明专利至少2项;
3)产出CCF-A类论文至少1篇;
4)性能指标:
效果方面,水印检测的TPR和F1在0.99以上;
鲁棒性方面,可以抵抗现有攻击手段的干扰;
通用能力影响方面,水印算法对模型生成文本质量不能造成过大影响。
4.高效实时可验证计算与隐私计算融合系统研究
背景:可验证计算的能力与隐私计算相结合,为数据价值流转带来新的协作模式。实现可验证计算的主要技术是零知识证明。在数据要素流通的大背景下,可验证计算有非常重的应用场景和价值,特别是在区块链与RWA(实物资产证券化)的应用方向上,可验证性尤为重要。既包括复杂的如AI推理运算、也包括在计算资源受限的计算终端上数据处理的实时性证明。这对当前可验证计算从算法到架构乃至异构加速都提出了全面的挑战。当前,面向通用、专用领域计算提出的可验证计算算法已经成为该领域的研究热点,大量创新算法不断提出,但距离实时性证明的要求,还是有差距。本项目期望在特定的领域切入, 构建实时性满足应用要求的证明系统。
目标:
1)提出和落地新型证明协议、面向特定AI场景或者资源受限的端侧计算场景,设计新型专用可验证计算处理器,实现更优底层IOP协议、更快底层承诺方案等;
2)基于创新的协议或虚拟机完成端到端原型验证(如区块链+IOT、可验证AI等场景);
3)产出通用零知识证明业界调研报告 及CCF A类论文1篇和相关专利。
5.基于隐私计算的Deepfake检测模型开发与应用
背景:随着公司国际业务的加速发展,对用户身份验证(KYC, Know Your Customer)的需求日益增长,特别是在线金融服务领域,确保交易安全与用户真实性成为至关重要的环节。传统的KYC流程包括用户证件上传及后续的活体人脸识别验证,然而,这一过程频繁遭遇Deepfake技术的挑战。Deepfake技术通过高精度的人脸合成,使不法分子得以伪造身份,绕过安全检查,对企业的反欺诈体系构成了严重威胁。为应对此类风险,构建高效准确的Deepfake检测模型成为当务之急。然而,模型训练需要广泛而多样化的真人人脸数据集,这在国际业务场景下意味着数据需跨国界流通,直面数据出境与隐私保护的法律约束。因此,迫切需要一种创新的解决方案,利用隐私计算技术,在保护个人隐私的同时,实现跨国数据的安全共享与模型训练。
目标:
1)Deepfake检测模型:一个基于联邦学习框架的高精度Deepfake 检测模型,能够在保护用户隐私的前提下,跨地域进行模型训练与优化,有效识别合成人脸;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1篇。
6.针对在黑盒情况下垂域大模型价值窃取攻击的防御技术
背景:垂域大模型比通用大模型蕴含更多的专业知识,训练垂域大模型的数据是有较高的商业价值。为了保护垂域大模型,可以把其部署在安全的云端环境内。虽然垂域模型部署在安全的环境中,但也不可避免地遭受恶意prompt的输入,让垂域大模型输出远超普通query对应的垂域知识输出。如果频繁地进行此类恶意prompt的输入,垂域大模型的价值会被恶意泄露。需研究此类价值窃取攻击的特点,根据其特点设计相应的检测算法,并通过相关技术手段增强大模型本身的针对价值窃取攻击的鲁棒性。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1篇。
7.满足最小可用原则的数据脱敏/安全蒸馏技术
背景:数据要流通,数据的安全性问题就需要被解决。结合密码学计算技术的方法在大模型应用中存在效率低的问题。数据脱敏/安全蒸馏技术是使得处理后的数据可以直接被大模型训练使用的一种安全数据处理技术。另外,大量的数据蕴含丰富的价值,在实现某一垂域大模型能力的需求下并不一定需要全部数据。如何在满足最小可用原则的条件下(可以是以选取的数据数量或每个数据信息大小等角度来考虑),对数据进行脱敏/安全蒸馏,是数据高效安全流通亟待解决的问题。
目标:
1)源代码:相关的原型代码;
2)申请发明专利至少2项;
3)产出蚂蚁认可的CCF A类论文1篇。
1.GPU跨域跨异构训练研究
课题背景
当下供应链安全由于特殊原因受到了极大的挑战,多品牌战略有效缓解了供应问题,但是带来了新的挑战。目前大模型训练对于算力资源的诉求日益增加,动辄上万卡的训练集群依然在向着数万甚至数十万卡的规模延生,对于资源拥有者而言如何能够有效的统一化资源的使用,将异构卡统一组合为统一的更大的资源池用于分布式训练是一个急需解决的问题。对于联合统一资源池进行训练,不仅需要解决跨机通信问题还需要解决调度算力一致性问 题,以及不同卡对于算子精度等一致性的问题。
研究方向(可选1~2个方向深入研究)
(1)跨机集合通信
不同品牌的算力卡尤其是NVIDIA(GPGPU架构)与其他厂商例如DSA架构的算力卡,在通讯库上均有自有集合通讯库,如何实现跨卡通讯,尤其是高效通信是联合训练的首要问题。
(2)GPU算力精度问题
对于不同架构的GPU加速卡,GPGPU架构以及DSA架构,两种架构除了设计理念,架构上的区别外,在精度上也有不同表现,需要研究一种方法实现在不同精度的前提下实现分布式并行的方法。
(3)GPU算效等价模型
不同GPU的算力不一致,受通讯效率以及拓扑结构等众多因素影响,如何能够基于算效一致性模型进行调度成为制约整个训练效率提升的重要因素。需要建立一个算力等效模型,为算力调度及算力平衡作为依据。
(4)跨域并行训练加速
探索如何合理选择和调整并行策略,根据实际带宽优化跨域网络传输,使得训练作业能够在不同的集群间高效并行运行,提升训练效率。
本项目可以实现异构GPU集群算力融合,在AI基础架构侧实现最终一致性,有效屏蔽异构带来的调度问题,通信问题,伸缩问题,集群规模等问题。
预期目标和产出
本研究计划开发出一个面向分布式大模型跨域跨异构训练系统,实现多集群异构卡(NVIDIA与其他DSA架构加速卡)间高效整合,实现跨域训练效率损失不大于20%,跨卡训练相比同卡训练性能(在归一化算力情况下)损失不大于10%,具体指标根据所选方向可以有选择性。
(1)1套分布式训练并行方案及原型软件/文档,能够实现跨域跨异构高效通信,并最终实现性能损失低于10%(根据方向选定,产出物可有方向侧重点);
(2)1篇蚂蚁认可的高质量顶级学术会议CCF-A类论文;
(3)申请2项以上专利。
2.面向推理服务的动态显存管理研究
研究背景
高效的显存管理对于提升大模型推理服务的吞吐量和降低AIDC运营成本至关重要。显存利用效率的提升也是业界关注的热点。从解决碎片化(如 PagedAttention)、动态内存管理(如vAttention)、memory tiering(如 ServerlessLLM、AttentionStore)到分布式管理、策略优化和压缩技术(如 FlexGen),围绕显存优化的研究十分活跃。本课题旨在通过优化推理引擎的显存管理策略,提高模型混部成功率、长上下文应用效果和推理业务吞吐量。
研究方向
(1)显存消耗预测算法
研究如何在推理过程中结合众多的GPU指标以及流量特征预测显存的消耗量。
(2)按需申请显存的动态显存管理算法
研究如何在推理引擎不预先分配实际显存的情况下,按照请求的实际需求按需取申请显存,同时确保不会因为分配显存的延迟影响在线服务的时延。
(3)在离线推理场景下的混部策略
研究如何将在线推理服务和离线推理服务混部,最大化推理卡的GPU利用率,而且不影响在线服务的SLA。
预期目标和产出
(1)动态显存管理的推理引擎原型
通过本课题的研究,产出一个能够按需申请显存的动态显存管理的推理引擎原型,启动时不预留显存,接收流量时按需申请显存,同时尽量减少因为分配显存导致的时延问题。需要提供benchmark 报告,证明TTFT,TPOT,RT等指标符合性能要求。
(2)提升GPU利用率的混部策略
结合动态显存管理,提高GPU显存的利用率,减少显存的闲置问题,同时结合实际环境的流量特征提供benchmark证明该混部策略的有效性。
(3)1 -2篇相关领域的创新专利或者软件著作权。
(4)发表1-2篇 CCF-A类会议论文。
(5)交付一套完整可执行的原型系统及相关文档。交付一套完整的代码和文档,并鼓励整合开源,以促进技术交流和行业发展。
3.Kata机密容器GPU安全性增强
研究背景
Kata Containers是由蚂蚁团队参与发起和维护的OpenInfra Foundation顶级开源项目,是云原生行业安全容器的标准实现。传统的Kata容器以虚拟机为安全边界,允许在容器中运行不可信的代码并保护容器基础设施不被攻击。TDX/SEV是Intel和AMD推动的最新的TEE(Trusted Execution Environments)实现方式,把内存加密技术和虚拟化技术结合起来,克服了上一代 TEE 技术的兼容性缺点,让 TEE 技术被广泛使用成为可能。
基于TDX/SEV等VM-TEE技术,Kata Containers实现了一套机密容器方案,把 Kata 的安全边界从保护基础设施扩展到了同时保护容器执行内容。这项技术适合用在需要高数据保密级别的场景,非常适合用来保护在第三方提供的基础设施中运行和保存的蚂蚁业务数据信息。
同时,随着AI大模型训练以及大模型推理等在云上部署的需要,对于第三方用户的训练数据和推理数据进行保护也势在必行。因此,使 TEE 能够保护需要GPU 处理的数据也成为一个必然。然而,在支持GPU的TEE方面存在几个关键挑战。首先,大多数GPU硬件缺乏机密计算(CC)特性、信任根和内存加密模块。其次,连接CPU和GPU的通道通常不受信任,当数据需要在CPU和GPU之间流动时,需要进行数据加密/解密。NVIDIA虽然发布了几款支持CC特性的GPU,但是由于对中国禁止售卖,所以国内很难拿到这样的GPU卡。
研究方向
(1)验证TDX/SEV的根信任机制和可信传导链路,对存在的问题提出修复建议或方案;
(2)基于virtio标准的构建可信IO通道,实现可信的虚拟化IO链路;
(3)提出适合Kata机密容器的通用GPU数据加密方案,推动形成行业标准。
预期目标和产出
在Kata安全容器和CoCo社区开源项目框架内合作完成相关开源项目(Kata, QEMU, Linux kernel等)的特性增强,PR和文档合入上游代码仓库。
(1)专利:1-2项国内或国际专利。
(2)论文:1-2篇CCF-A类或者同等级领域内顶级会议或期刊论文。
4.面向高效智能信息服务的RAG(检索增强生成)策略优化与应用研究
研究背景
随着人工智能技术的快速发展,智能化信息检索和生成系统在各个领域中的应用日益增多。然而,现有的RAG(Retrieval-Augmented Generation)策略在实际应用中存在一些瓶颈,例如检索内容的准确性不高、上下文不一致、系统性能不佳等问题。这些问题限制了RAG在智能客服、财保、医疗等场景中的广泛应用。学术界和工业界已提出了诸多优化方向,如上下文增强检索(Contextual Retrieval)和改进的检索算法(如BM25),但这些方法仍有提升空间,特别是在大规模知识库下的实际应用中。
本课题旨在通过创新性的检索算法优化与上下文建模,提升RAG在实际应用中的检索精度和上下文一致性,并推动其在智能信息服务中的有效落地。
研究方向
(1)检索算法优化
研究如何优化检索算法,提升系统在大规模知识库中的信息检索质量。研究可参考但不限于现有的方法(如上下文检索、BM25、Dense Retrieval),探索如何在实际应用场景中有效减少噪声数据的引入,确保检索结果的相关性。
(2)上下文建模与生成优化
探索在多轮对话或长文本生成中,如何保持上下文的一致性和连贯性。此方向鼓励创新型方法,例如通过动态调整上下文窗口大小、优化模型与检索段落的交互方式等,提升生成内容的连贯性。
预期目标和产出
(1)智能检索系统原型构建
构建一个结合优化后的RAG策略的端到端智能检索与生成系统,能够高效检索外部知识库并生成高质量、上下文相关的个性化内容。
(2)检索与生成效率提升
检索精度提升:相较于优化前的基线系统(无优化或仅采用基础 BM25),优化后的系统应能将检索精度(例如,通过NDCG或Recall评估)提升至少30%。
上下文一致性提升:在多轮对话或长文本生成任务中,优化后的模型应使上下文一致性得分(如BLEU或ROUGE)相较基线系统提升 20%。
响应时间优化:在大规模知识库下,优化后的系统应能相较于未优化的基线系统减少系统响应时间至少15%,确保在高并发请求场景下依然能保持较好的实时性。
生成错误率降低:通过检索和上下文优化,生成的语义错误率相较基线系统降低至少10%。
(3) 发表1-2篇CCF-A类会议论文。
(4)申请1项创新专利或软件著作权。
5.最小化推理成本:同构及异构模型极致合并部署降本研究
研究背景
大模型应用市场规模近几年得到了飞速发展,2024年大模型应用市场规模将达到217亿。随着业务需求的不断增长,越来越多的企业提出了私有化部署和低成本要求,以满足数据合规与隐私安全。
然而,一套完整的大模型SaaS应用软件如果要做到高准确率,就会依赖大量针对细分场景微调的模型,需要消耗大量的GPU资源,这无疑给企业带来了高昂的使用成本,导致大模型应用在私有化模式下无法普及。
研究方向
在24GB或更小显存下,实现模型的极致合并部署,包括:
(1)对同一个基础模型的不同Lora微调模型合并部署在同一张卡。
(2)将异构的基础模型合并到同一张卡,并且具备显存管理和限额能力。
(3)如何在低QPS场景几乎不损失性能的前提下,使用小显存部署比其容量更大的多个模型。
预期目标和产出
(1)研究并产出一套推理模型合并、显存管理算法,在低端推理卡(如 A10),实现同构和异构模型的极致合并部署。
(2)研究并产出一套显存与内存联合管理算法,在QPS < 10的小场景下,用低端推理卡(如A10)部署比显存容量更大的多个模型,并且几乎不损失推理性能。最终实现专有云场景下的最小化交付。
(3)1篇顶级学术会议CCF-A 类或B类论文。
(4)1篇相关领域的创新专利或者软件著作权。
1.面向高效任务协作的多智能体框架研究与应用
研究背景
随着人工智能技术的飞速发展,AI Agent作为新兴技术正逐步成为推动 AI 应用落地的重要力量。同时为了支撑企业内部复杂场景的落地,在单智能体之上业界提出了类似于AgentVerse、MetaGPT等多智能体协作框架,促使这一领域进入新的发展阶段。多智能体系统是由多个自主的智能体组成的系统,这些智能体可以在一个共享的环境中相互作用、协调和协作,以完成复杂的任务。目前在多智能体的企业内部大规模场景落地探索中,主要面临几个主要问题:
(1)智能体协作稳定性
多智能体系统中的智能体必须能够稳定、高效地协作,尤其在处理复杂任务时,需要保证智能体之间的任务分配和依赖关系合理且可执行。当前的多智能体框架中,智能体在执行任务时可能因为信息缺失、任务重叠或冲突以及模型幻觉问题等,导致执行效率降低或中途失败。这就要求系统具备完善的任务分配机制和智能体间的协调策略,确保每个智能体在合适的时间点执行正确的任务。
(2)任务处理与评估机制
多智能体系统在任务处理的过程中,如何评估系统的整体性能和各个智能体的表现,是衡量系统是否稳定高效的核心问题。具体来说,评估应涵盖任务的完成速度、轮次消耗、任务质量,以及智能体在各个节点的执行情况。当前的评估标准大多集中于任务的完成情况,而忽视了对系统内各个节点的稳定性、智能体间信息传递的有效性等更细粒度的分析。因此, 需要设计更全面的评估机制,以量化多智能体系统在复杂任务处理中的表现。
研究目标和产出
(1)研究多层次的任务调度和环境管理机制:如何在复杂任务处理过程中确保智能体之间协作的稳定性。并最终保证复杂任务的执行成功率在70%以上。
(2)研究多智能体任务处理评测机制:构建评测模型、评测算法,针对多智能体运行过程中的整体目标完成情况、完成质量、子目标完成情况、完成质量、轮次消耗、指令遵从、幻觉率等方面进行评测,评测达到准确率80%以上。
(3)发表1-2篇CCF-A类会议论文:在国际顶级会议上发表研究成果,提升项目的学术影响力。
(4)申请1-2项相关领域的创新专利或软件著作权:保护研究成果,巩固公司在 AI和智能协作领域的技术优势。
2.面向大模型集群的网络监测与诊断方案
研究背景
为计算密集型任务的核心。大模型集群作为支持这些任务的基础设施,通常由数百到数千台计算节点构成。节点内部的计算资源(例如GPU)通过高速的主机网络相连(例如NVLink),其带宽可达Tbps级别(例如第五代NVLink);而节点间一般通过基于RDMA的高速网络相连,其带宽可达数百Gbps。这种大规模的集群不仅对计算资源和通讯资源提出 了高要求,还对监测与诊断能力提出了新的挑战。
监测与诊断方案的有效性直接影响到模型训练的效率和推理服务的稳定性。目前,大模型集群面临几个主要问题:
(1)复杂性与动态性
大模型集群的节点和连接数量庞大,且其流量模式与传统网络区别较大。例如,大模型训练流量的典型特点是能够预测、突发性强、峰值流量极大、具有周期性等,而推理流量表现为受到调度和分批处理的流量整形作用影响。随着任务的增加,网络负载和拓扑结构可能发生变化。这种动态性使得传统的监测方案难以适应。
(2)故障影响与检测延迟
在大规模环境中,由于分布式的集合通讯方式是主流,即使是单一节点故障和网络异常都导致性能下降甚至整个任务的失败。及时响应业务告警、快速定位故障区域以及分析故障类型成为了关键需求。
(3)多维度数据的处理
大模型集群的监测不仅需要关注计算节点的状态,还需综合考虑网络流量、存储状态等多维度的数据。这对监测系统的数据处理和分析能力提出了更高的要求。
研究目标
(1)研究充分覆盖大模型集群的网络监测机制,达到99%故障覆盖率水平,有效降低网内和端侧故障识别和定位的时间,并在端侧与网内实现低峰值开销。
(2)研究面向大模型集群的故障诊断机制,有效降低故障类型判别时间,保证类型识别的综合准确率水平。
(3)研究自动化故障恢复机制,针对部分典型的网络侧及端侧问题,在故障严重影响业务质量的前提下,快速进行故障组件隔离与恢复,减少对于现有流量的影响。
预计产出
(1)一套大模型集群的网络监测与诊断的算法代码;
(2)1篇CCF-A类论文;
(3)申请1-2项相关领域的创新专利或软件著作权。
1.自适应多路径高性能网络传输协议
研究背景
大模型训练过程中,不同训练节点之间通过高速网络连接来同步模型参数、梯度等信息,流量具有低熵、周期性大象流等特征,传统ECMP hash负载均衡策略在 AI数据中心里容易出现hash极化导致网络拥塞。
为了解决这种网络负载不均问题,网络侧目前存在两种常见思路:一种思路是在集合通信组网规划阶段通过控制器对通信flow流量路径进行规划来避免hash冲突,另一种思路是通过交换机芯片的包喷洒、flowlet、自适应路由等拥塞感知和自适应路径切换机制来实现流量负载均衡。这两种思路都存在一些问题,要么不具备混部任务等场景的普适性和快速响应网络变化,要么不能满足运维过程中的转发确定性。
端侧解决方案一般通过集合通信库层面建立多条QP连接的方式,将原本的端到端单条连接拆分多QP连接进行传输,增加网络中通信的熵值,结合网侧改进的 ECMP hash算法, 来降低hash冲突概率。部分解决方案可以在集合通信库层面感知多条路径上的网络状态,据此动态选择合适的路径进行通信。但是这种方式存在的问题是拆分多QP进行通信需要额外的性能开销,且集合通信库对于故障路径感知不敏感,无法做到快速感知并快速切换链路。
研究方向
(1)基于多路径的高性能网络传输协议
设计并实现基于多路径的高性能网络传输协议,协议层面原生支持多路径传输;
(2)基于多路径协议的拥塞控制算法
设计并实现一套基于多路径的拥塞控制算法,实现对多条路径的统一拥塞控制管理;
(3)基于多路径协议的路径调度算法
设计并实现一套基于多路径的路径调度算法,通过ms级感知网络运行状态,节点或者链路故障,各条路径的网络拥塞情况,智能并无感的进行路径切换;
(4)基于多路径网络传输的性能影响分析
分析上述方案在端到端部署场景下,整体的性能开销情况,包括但不限于网卡内存影响, 网络包乱序,拆分多路径通信等对性能的影响;
预期目标和产出
本研究希望实现一套基于多路径的高性能网络传输协议,在避免多路径额外性能开销的同时,可以根据不同路径的网络拥塞状况自适应进行速率调整和路径切换,同时保障整体方案满足可运维的稳定性诉求。
(1)方案原型和仿真结果;
(2)发表1-2篇CCF-A类或者同等级领域内顶级会议或期刊论文;
(3)申请专利1-2项。
2.高性能异构集合通信优化技术
研究背景
AI大模型已经成为引领下一代人工智能发展的关键技术。相比于传统模型,AI大模型的参数规模庞大,需要在千卡、万卡的分布式集群环境下对海量数据进行训练。在训练过程中,不同集群服务器间需要进行频繁的数据交换,而这种交互具有广播式、超大流量、超低时延、超高频率、零容忍丢包和严格时间同步等特点,这对网络传输提出了极大性能挑战。另外在异构算力日益增长的趋势下,对于异构算力的连接也至关重要。同时,集合通信库xCCL作为连接整个AIDC算力能够被高效利用的关键,是底层异构硬件算力/网力和顶层AI Infra业务承上启下的位置。因此,研究高性能异构集合通信优化技术极为重要。
研究方向
(1)异构通信,通过研究异构跨芯的集合通信技术,实现NVIDIA系和国产芯片的算力连接,充分发挥异构算力聚合的能力。
(2)负载均衡,通过研究集合通信库的QP负载均衡、路径规划等端网协同的流量调度技术,实现流量在端-网全链路的均衡性,有效缓解流量冲突导致的拥塞问题。
(3)通信算子优化,通过分析集合通信算法以及传输流量特征,实现训练数据传输在空间和时间上的打散以及更优的集合通信算法,提升集合通信效率。
(4)网络容错,通过研究集合通信库的网络心跳保持、故障绕路等网络高可用技术, 实现毫秒级网络故障容错能力,避免中断训练任务。
研究目标与产出
本课题目标在于探索面向AI大模型训练的高性能网络技术,旨在通过结合大模型训练流量特征,从异构通信、负载均衡、通信算子优化、网络容错等方面出发,实现AI大模型训练的高性能异构集合通信库技术。
(1)交付1套完整的系统代码及使用说明文档,基于提出的高性能网络传输技术体系,实现集合通信(AllReduce、AllGather 等)带宽利用率达到95%以上;
(2)实现异构卡在同一个集群做集合通信,性能损耗<=20%;
(3)产出1篇CCF-A或蚂蚁认可的领域内顶级会议或期刊论文;
(4)申请专利1项。
1.面向大语言模型的混合位宽训练优化技术研究
研究背景
伴随着ChatGPT为代表的大语言模型(LLM)在自然语言理解、视频理解等领域的成功,如何将大语言的模型推向下一个高度是产业界和工业界共同关注的热点话题。然而,大语言模型的训练通常遵循Scaling Law,追求更高的性能需要更多更优质的数据以及更大的模型规模,目前的SOTA 大模型已经突破400B大关,但是支撑大模型训练的加速卡内存仍旧停留在百GB层次,如何缓和两者之间的矛盾,成为大模型预训练需要解决的关键难题。
研究目标和产出
针对大语言模型日趋庞大的规模和加速卡有限的内存空间之间的矛盾,提出一套高效的混合位宽大模型训练框架,包括 1)针对大语言模型的混合位宽训练方法,研究大语言模型的权重、激活、优化器等的混合位宽优化,探索如何在保证精度的前提下缓解大语言模型训练的内存压力;2)针对大语言模型的混合位宽优化方法,研究如何结合加速器的运算特征、访存特征加速混合位宽计算,提升端到端训练效率。
(1)1套在国产智能芯片上支持混合位宽大模型预训练的框架系统及详尽的用户手册;
(2)1篇CCF-A类论文;
(3)1项软件著作权。
2.面向大模型的在离线GPU混部技术
研究背景
大模型蓬勃发展对异构算力如GPU需求巨大,一方面线上推理服务有较严格的性能要求(包括首字延迟和生成速度等)和稳定性SLA(如成功率);另一方面流量通常存在潮汐现象,在波谷阶段流量稀少,预留并常驻使用GPU资源容易导致巨大的资源浪费和成本问题。
如何既满足大模型在线性能和稳定性要求,同时显著提升异构算力集群利用率、降低成本具有重要的研究价值和实际效益(亿级别)。
预期目标和产出
面向大模型多卡部署场景(典型LLM >=70B参数,文生视频模型 >=10B参数),本课题希望深入探索并研究有效提升大模型混部的关键问题、核心技术与方法,实现GPU算力的按需分配和SLA保障。特别是以下技术方向:
(1)动态混部:优化大模型服务计算和显存管理,实现算力和显存的按需动态分配;保障在线大模型首字延迟、生成速度和成功率不影响的前提下,提高资源利用率。
(2)灵活混部:针对不同大模型的特点,探索融合混部技术,提升总吞吐。
(3)训推一体弹性混部:充分挖掘全体集群的存、算、传资源,优化调度和分布式策略,实现高效、弹性的训推一体混部,提升吞吐性能或降低成本。
最终,希望在以上领域有方法创新和效果对比验证。典型产出包括:
(1)原型系统实现和对比分析报告;
(2)核心方法产出CCF-A类论文 >= 1篇;或发明专利 >= 2项。
3.高效分布式推理与异构算力调度
研究背景
模型更大:典型大模型参数变大、上下文序列变长,对算力需求越来越大;以及推荐模型增长迅速,达到数百GB甚至上TB,在模型加载、更新和推理都面临更大的显存和性能压力。
算力多元:算力呈现多元异构并存现象,包括GPU、CPU以及多种国产卡;同时加速卡内部也有多种不同的算力单元。多种算力通过不同级别的互联实现协同计算和加速(例如cross-bus, C2C, NVLink/NVSwitch、PCIe/CXL、RDMA 等)。如何充分发挥多种算力或组合提供高效的并行或分布式机制,从而更快、更高效、更绿色,具有重要的研究价值和经济效益。
预期目标和产出
面向典型AI推理场景,包括大模型(语言、多模态)和推荐模型等,本课题希望深入探索如何更好使用多元异构算力,提升推理性能或资源效能的关键技术与方法。特别是以下两个技术方向:
(1)高效并行与分布式推理:高效使用多卡、多机算力,或组合使用多种类型算力(CPU 、 GPU等),提高系统扩展性和性能。目标模型包括3类(覆盖至少一种):1)LLM(>=70B参数);2)多模态文生视频(>=10B 参数);3)推荐模型(>=100GB参数)
(2)推理请求高效弹性调度:实现总吞吐显著提升或能耗、成本显著降低。最终,希望在以上领域有方法创新和实测效果优化。典型产出包括:
(1)原型系统实现和对比分析报告;
(2)核心方法产出和CCF-A 类论文>= 1篇;或发明专利>= 2项。
4.大规模异构计算环境下大模型训练性能和稳定性提升方法研究
研究背景
近期,蚂蚁集团在基础大模型建设方面投入了大量资源,其中用于大模型训练的计算资源在类型和数量上都得到了大幅扩充。除了继续增加Nvidia GPU的数量外,蚂蚁还引入了来自不同国产厂商的大批量加速卡。为充分利用这些算力资源,我们必须持续提升训练性能和稳定性。大规模异构计算带来的新挑战包括:
(1)在超大规模(如万卡资源)训练中,慢节点、网络拥塞等问题严重影响训练效率;
(2)超大规模训练过程中,上下游的各类稳定性问题被放大,影响训练的稳定性,进而降低有效训练时长;
(3)不同厂商的加速卡具有各自的特性,例如特有的算子亲和性和网络通信特性,这些特性对训练性能和稳定性的影响各不相同,需进行针对性优化;
(4)不同厂商的基础软件栈存在差异,需要进行相应的适配;
(5)在各种针对性优化的背景下,需要确保训练代码的可维护性,保证快速切换硬件的能力;
(6)需要融合硬件厂商提供的技术栈与蚂蚁自身的AI Infra技术栈,以实现最佳整体效果;
(7)超大规模训练需要与算法工程师协同,权衡训练效果与效率,达到整体优化。
预期目标和产出
(1)1-2篇CCF-A类full paper;
(2)1-2个发明专利;
(3)可在蚂蚁落地的训练策略源代码。
1.面向超长上下文的大模型绿色部署优化应用研究
研究背景
模型服务化落地场景中,除了模型参数规模增大对显存占用增多,更大的显存来自于超长上下文的推理阶段产生的KV缓存。典型的超长下文场景包括多文档检索,文档摘要,多轮对话等。仅仅采用传统推理并行技术(模型并行/流水线并行),一方面需要大量的推理显 存,成本过高;另一方面,底层硬件并行通信损耗难以为超长上下文场景提供可扩展的高吞吐服务。因此,对于超长上下文的支持也成为大模型学术界和工业界的研究热点。头部大模型公司争先推出支持百万超长上下文的服务入口,学术界也在探索从不同维度优化超长上下文的性能。 作为产学研的切入点,超长上下文推理优化既可以提升核心技术竞争力,又可以快速落地支持业务需求,我们期望如下方向的研究(包括但不限于):
(1)优化显存占用,使得长下文在GPU上可执行,推进如下技术的创新
KV 缓存压缩优化:基于不同token对应KV缓存重要性分析,动态淘汰历史KV缓存,结合低Bit量化技术,降低上下文对于显存的占用;
输入压缩优化:采用输入词裁剪去除不重要token、保留语义信息的总结、主旨token 软压缩等方式;甚至结合Encoding的前置模型的输入压缩,降低最终输入给目标大模型的上下文长度;
(2)解决显存问题之后,进一步提升推理速度,推进如下技术的创新
模型架构优化:研发基于后训练或者预训练的新attention架构,在模型结构上降低推理时每个token对应的KV缓存占用和推理速度
新型的投机采样技术,比如query可以自适应计算,提前退出推理;
(3)优化服务链路:服务链路上将 prefill & decoding阶段分离,采用分布式资源池化技术,充分利用CPU cache、DRAM、SSD等缓存资源,联合调度优化、弹性扩缩容策略, 提升缓存复用率,降低超长上下文推理TTFT;
预期目标和产出
(1)部署服务所支持的上下文长度提升:定义明确的上下文长度、模型推理精度、推理性能指标;和业界SOTA方案,有一定对比
(2)清晰的落地策略:提供可执行的源代码,或者集成到通用框架(TGI, TensorRT-LLM, vLLM等);提供清晰的实践报告和可行的落地方案。
(3)蚂蚁认可的CCF-A/B类会议论文1+篇;
(4)提出1+项创新提案专利申请。
2.面向端侧的绿色小模型技术研究和应用
研究背景
近年来,大模型在业界取得了显著成功,然而其庞大的参数量和复杂的注意力机制带来了巨大的资源消耗与成本。具体而言,注意力机制的时空复杂度为序列长度的平方,导致部署与推理过程中对计算资源的需求极高。端侧模型在微软 Windows,苹果iPhone和以及笔记本厂商的AIPC战略中逐步体现出重要性。端侧场景通常资源有限且需要快速响应,基于经典transformer的LLM的高复杂度对端侧使用构成了重大挑战。
在这些场景中,理想模型不仅应保持出色的性能,还应具备较小的参数量和时空复杂度。因此,研发性能优秀且计算效率高的端侧小模型,成为一个亟待解决的课题。在行业内,微软的Phi系列小模型通过使用高质量数据训练,证明了小模型也能取得优良效果。同时,Mamba和gated linear attention系列的研究发现,整合有限的隐状态和灵活的门控机制,能够有效降低计算复杂度,从二次方缩减到线性,同时保持模型性能。这一领域的持续深入研究,旨在实现人人可用的小模型目标。
面向绿色端侧小模型的研究,不仅能显著提升技术的竞争优势,还能推动模型在实际业务中的快速落地应用。这一领域亟需探索的新理念和新方案,将为未来的智能设备与应用拓展全新的可能性。基于上述背景,我们期待在以下领域进行深入研究(包括但不限于):
——下一代小模型架构研究:传统的注意力机制复杂性高,不适合端侧应用。目标是设计低复杂度且性能有保障的新型模型架构,以适应端侧环境的时空复杂度需求。
——训练端侧小模型的数据选择策略:高质量数据对提升模型表现的重要性已得到验证。然而,目前缺乏系统化的数据选择方案。考虑到端侧小模型的容量有限,迫切需要精心挑选数据进行训练,以最大化模型性能。
预期目标和产出
(1)通过优化模型架构和训练数据,研发出具有行业领先水平(SOTA)的绿色端侧小模型;
(2)蚂蚁认可的CCF-A/B类会议上发表1+篇高质量论文;
(3)提出1+项具有创新性的专利申请。
3.多方时空大模型绿色联合计算
研究背景
大数据时代人类活动与地理环境相关的时空数据被多种媒介所记录:如地图软件、车载定位、卫星遥感等。这些时空数据对于刻画区域以及用户的真实经营状况和信用水平有重要价值,可以有效的服务网商业务,如基于时空数据识别客户的职业、是否种植户、以及识别地区的富裕程度等。如何利用不同媒介不同渠道的时空数据,通过安全合规的联合建模是当前的重点工作,如何平衡联合建模环境下的有限算力资源(缺乏GPU)和时空大模型的加工计算复杂度,是当前面临的核心挑战。一方面,时空数据规模巨大,基本PB级别,往往需要剔除其中的高速运动点、噪声点以及聚类采样,同时能够尽量保留有价值信息。另一方面, 业界对于大模型的多方联合建模处于起步阶段,主要采用模型压缩方案,包括量化、剪枝、蒸馏、低秩分解等,我们需要折中考虑位置大模型的压缩率和效果损失。因此,需要针对时空数据预处理、数据降噪和压缩、模型压缩和部署等一系列问题提出一套整体联合建模解决方案。
预期目标和产出
基于时空大模型研究探索一种更高效更低资源的多方联合建模方案
(1)时空大模型在TEE CPU环境下高效联合建模:要求时空大模型压缩的同时保证效果;
(2)大规模时空数据的高效处理能力:要求同时减少信息的损失;
(3)一套满足实际业务应用的原型系统;
(4)一篇专利;
(5)发表一篇蚂蚁认可的CCF-A/B类会议高质量论文。
4.基于大模型的多模态评测系统研究
研究背景
随着多模态应用场景和数据规模的高速增长,针对多模态数据的人工智能算法设计日益复杂和多样化,传统评测框架已难以全面覆盖实际需求。在此背景下,基于大模型方法的细粒度自动化多模态评测系统将发挥重要作用。通过大模型算法优化多模态数据的采集、标注以及多模态算法的评测流程,不仅能够提升评测系统在不同数据模态与算法下的准确性与效率,还能帮助开发者快速定位和解决问题,优化算法性能和效果。
本项目旨在突破现有评测工具的局限,依托支付宝终端技术部的海量数据采集与分析能力,以及其对广泛业务场景的覆盖,构建一套全新的大模型评测方案与指标体系,降低传统评测所需的大规模人工成本,提升各业务场景下的评测效率和能力,同时助力算法优化更快更准,减少算法迭代次数和训练成本,助力业务高速发展。
技术价值:1)研究并建立基于多模态数据理解的评测大模型算法研究;2)建立完备的多模态场景评测数据集基线,使更多业务可以更快接入体验。
业务价值:通过精确的评测指标和计算工具实现AIGC、音视频等业务的算法优化迭代次数的降低,减少训练调优成本,助力业务快速、绿色发展。
预期目标和产出
(1)开源评测系统:包含多模态评测数据、全面的大模型评测指标及其计算工具/可调用的计算接口;
(2)申请发明专利至少2项;
(3)产出CCF-A类论文1篇。
5.面向APP应用的终端大模型推理性能优化
研究背景
端AI使用海量用户设备完成本地模型推理,这种天然的分布式计算大大降低了AI 应用的计算成本,是绿色计算重要的一环。在大模型应用爆发式增长的时代,将部分算力转移到终端手机成为智算领域新的课题。随着模型参数量的增加,端AI 的价值背后也面临的更加严峻的挑战。国内外厂商和研究机构的技术发展也非常迅速,其中3B参数基础模型已经具备较强的能力,利用最新的终端芯片进行推理,使得端大模型也已经达到商用水平。但是在例如支付宝这类APP中,端AI面对着有限资源、模型下载、碎片化环境的额外挑战。因此, 本课题从APP应用落地角度出发,从以下几个方面进行深入研究。
研究方向
(1)极致的模型压缩算法:APP端大模型采用的是运行时下载的方式,物理尺寸太大不仅会影响运行时内存,更关系到触达到终端的成功率。相较于业界常用的4bit量化,APP端模型压缩需探寻2bit以下的量化技术。
(2)场景模型构建:基于量化后基模,探究面向多场景垂类应用的模型微调方案,避免基础模型的频繁更新和保持多任务下的效果稳定性。
(3)推理性能优化:在GPU/CPU/NPU碎片化计算环境下,探究内存占用等资源极致优化和推理速度提升。基于不同硬件的特性,综合考虑基础模型压缩算法、垂类建模算法和引擎实现之间的相互影响,探究联合优化方案。
(4)端云协同新模式:结合智能助理等场景特点,探讨大模型生态下的端云协同模式,包括端云功能一致的模型内协同、端云完成不同任务的跨模型协同、端云场景交互的跨场景协同等方式,实现可行的业务落地方案。
预期目标和产出
(1)大模型压缩方案:通过本课题的研究,在精度损失小于10%情况下,实现 1B~3B参数模型2bit以内的压缩技术,实现物理尺寸和内存占用的极致优化。
(2)高效的模型推理SDK:在终端异构环境下,实现上述定制化量化方案的高效推理,可覆盖到支付宝APP 60%以上机型。
(3)端云协同方案的业务应用:提出一套适用于支付宝APP业务的端云协同方案,将研究成果在智能助理等业务中进行验证和推广。
(4)产出CCF-A类论文1-2篇。
(5)申请发明专利1项。
(6)面向端侧大模型推理的源代码,性能超过业界公开SDK。
6.基于多源异构用户理解大模型的人群圈选
研究背景
风控、营销、用增是支付宝内部重要的业务方向。随着相关需求的不断增加,对人力和计算资源的要求越来越高。传统的方法需要累积样本、训练模型等过程,需要消耗比较大的人力资源和计算资源。面临成百上千的人群圈选诉求,传统的方式已经无法快速支持,因此需要找到更加快速、绿色的方法进行人群产出。
基于大模型的人群圈选通过融合领域专家经验,只需一句话的描述,通过一句简单的SQL产出人群,对资源的消耗极小(约1CU),相比传统方法节省资源几十倍,并能够快速的为业务提供端到端的人群圈选服务,助力业务拓展和降本增效。
技术价值:该方法探索了用户多源异构数据预训练算法,并创新的将用户行为与自然语言描述对齐,以一种带预测能力的方式更准确地识别目标人群。这种方法使得用户可以用简洁的语言描述其需求,而系统能够理解并圈选符合条件的人群。科研基金将进一步增强在结构化数据预训练、自然语言对齐上的技术深度。
自然语言处理的应用:该项目展示了自然语言处理(NLP)在用户行为分析中的实际应用,提升了用户交互的自然性和便捷性,降低了技术门槛。
大模型的优势:利用大规模预训练模型,可以有效处理复杂的语言理解任务,从而实现更高的圈选准确率。大模型的能力使得系统能够理解多样化的语言表达,提高了灵活性。同时冷启动效果好,不需要复杂的特征和模型设计。
行为数据的深度挖掘:项目能够结合用户的行为数据进行深度分析,识别潜在的用户特征和兴趣点,为后续的个性化推荐或市场分析提供支持。
预期目标和产出
(1)1篇CCF-A论文投稿;
(2)完成2篇以上专利;
(3)开发基于Agent和自然语言交互的系统,实现低资源消耗下有效的人群圈选。
7.风控模型算力优化研究
研究背景
近年来AI能力不断突破,模型越来越多的应用到业务场景中。然后在提供模型服务时, 成本巨高不下,需要重点突破以下难点:
(1)如何对模型进行量化压缩,在不影响模型效果的同时尽少模型计算量和模型大小,并能对主流模型的量化压缩提供方法和框架。
(2)推理引擎优化,如何在推理过程中让算力性能最优,吞吐量最大?
(3)算力资源运筹优化,线上流量是不断变化的,如何依据流量变化动态调配适当的资源,减少资源浪费的同时保障线上服务的稳定性。
(4)异构算力推理,线上有着不同公司、不同的推理卡类型,如何使用异构算力进行模型推理?
由于风控的全场景、高响应要求,成本和耗时是制约多模态数据和大模型广泛在风控场景应用的最重要原因,降低推理成本、提升GPU资源利用率、RT和稳定性是现阶段提升蚂蚁风控智能化水平的重要部分,对其他场景高实时响应的场景也有借鉴意义。
在技术上层面上,大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而, 大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。在量化压缩、推理引擎优化、算力资源运筹优化、异构算法上持续攻坚和突破,能降低推理成本的同时,也能持续保持行业领先。
通过算法优化、硬件加速、分布式推理、资源运筹优化、推理成本下降和运态模型部署模式与模型性能优化等技术手段实现目标。当前研究多集中在单点的模型压缩,或者集群的混部优化,工程优化与业务割裂,风控业务中存在多模型串联、多模型流量波动差异、cpu/gpu混合计算、大模型和小模型混合编排等特点,因此大部分的研究不能解决实际问题, 我们期望探索一套在风控场景具有普适性的模型部署架构方案,用于部署时的理论指导,包括但不限于如下研究方向:(1)大小模型协同推理架构优化(2)基于agent的日志分析与性能瓶颈定位技术(3)基于流量与资源预估的模型混部技术(4)模型合并与动态弹性路由技术。
预期目标和产出
(1)两篇顶会论文;
(2)一套模型量化压缩的代码系统;
(3)一套算力资源运筹优化的算法;
(4)通过在智能凭证业务上应用,整体模型RT提升20%,助力业务完成智审率 90%;
(5)模型推理成本下降30%。
8.面向异构场景下多模态大模型训推一体化最优规划研究与应用
研究背景
消金公司存在多个机房,包括CPU、GPU等多种算力,其中GPU算力存在多种不同型号。在保证数据安全的前提下,数据可以在跨机房、跨服务器流动。随着大模型在消金多个场景的落地,对异构算力的合理化利用提出新的挑战。消金大模型应用场景包括:智能营销中文案生成、跨域用户行为特征表征、交互式自证材料解析、自证材料真实性检测、投诉纠纷化解方案生成等,这些场景的数据覆盖文本、图片、视频、图谱等多种模态数据。不同场景存在共用和独享大模型基座的情况,场景对模型训练紧迫程度、推理时效各不相同、服务稳定保证不相同,实践中训练和推理共存,推理场景居多,训练较少。期望通过研究给出一套合理的大模型应用适配方案、算力分配和任务调度策略,实现计算/推理资源的最大化利用,减少碳排放。
研究方向
(1)多种算力混合部署和调度,实现消金公司多机房、多型号GPU的资源统一调度能力。
(2)训练和推理弹性部署,实现训练环节与推理环节灵活切换。
(3)最优规划与调度,根据不同场景的优先级、时效、算力需求、吞吐量等多种因素合理规划和制定算力调度策略。
预期目标和产出
(1)交付一套完整可执行的系统;
(2)产出1篇公司认可的高质量会议(CCF-A 类)论文;
(3)申请专利2项。
点击阅读原文,下载申报表。