探索具有自主主权 AI 和 NVIDIA 机密计算的超级协议案例
机密和自主主权人工智能是一种新的人工智能开发、训练和推理方法,其中用户的数据是去中心化的、私密的,并由用户自己控制。这篇文章探讨了如何通过使用区块链技术的去中心化来扩展机密计算 (CC) 的功能。
通过使用个人人工智能代理,最能体现出所要解决的问题。这些服务可以帮助用户完成许多任务,从撰写电子邮件到准备税务和查看医疗记录。毋庸置疑,所处理的数据具有敏感和个人性质。
在集中式系统中,这些数据由人工智能服务提供商在云端处理,而这些服务提供商通常并不透明。当用户的数据离开他们的设备时,他们就失去了对自己数据的控制权,这些数据可能被用于训练、泄露、出售或以其他方式被滥用。此时无法追踪个人数据。
这种信任问题阻碍了人工智能行业发展的特定方面,尤其是对于尚未拥有声誉或证据来支持其诚实意图的初创企业和人工智能开发者而言。机密且自主主权的人工智能云为必须保护其数据并确保数据主权的客户提供了解决方案。
解决自主主权 AI 云需求
Super Protocol 已基于机密性、去中心化和自主主权原则构建了同名的 AI 云和市场。在 Super Protocol 云中,机密计算技术在执行过程中保护数据,而基于区块链的去中心化网络则为所有流程提供编排、透明度和可验证性。
NVIDIA 机密计算使用 CPU 和 NVIDIA GPU 来保护正在使用的数据,使恶意行为者甚至主机所有者都无法看到和访问这些数据。
NVIDIA Hopper 架构引入了机密计算功能,NVIDIA Blackwell 架构对其进行了增强,其性能几乎与大型语言模型 (LLM) 的未加密模式相同。
用例:在超级协议中微调和部署 AI 代理即服务
图 1. 超级协议生态系统的主要参与者
这是一个实际的用例:一位人工智能开发人员希望通过从超级协议人工智能市场租用预先训练的基础模型并对新层进行微调以实现特定目的来推出商业人工智能代理服务,该目的涉及处理最终用户的私人和敏感数据。
预训练模型是专有的,不能下载,只能在其所有者设定的某些条件下租用。微调可能包括各种方法,例如知识蒸馏、低秩自适应 (LoRA)、检索增强生成 (RAG) 和其他不改变基础模型结构和权重的方法。
上传和发布
作为先决条件,基础模型的所有者将其预训练模型上传到去中心化文件存储 (DFS) 系统中的帐户,并在超级协议 AI 市场上发布报价(模型的公开列表)(图 2 中的步骤 1-3)。这使得模型能够按照预设条件进行租赁,在本用例中,即按每小时使用付费。
现在,作为 AI 开发人员,您可以安全地将数据集上传到 DFS 系统中的帐户(图 2 中的步骤 4-5)。这些是用于微调基础模型的私有数据集。
图 2. 将基础模型和微调后的数据集上传至 DFS 系统
以下是参与此步骤序列的组件和服务:
DFS: 去中心化文件存储是一种点对点网络,例如
Filecoin和 Storj,用于在去中心化文件系统中存储和共享数据。由于 DFS 系统本身致力于自我主权原则,因此用户可以完全控制自己的数据和帐户。在通过 Web 界面或 CLI 上传过程中,数据会被存档和加密。
AI 市场:AI 市场是模型开发者、数据所有者和 CC 资源提供者发布的报价账本。它基于区块链和智能合约,可通过 Web 界面或 CLI 访问。它用于上传和管理内容以及创建和管理部署订单和报价。
区块链:一种透明的、基于多边形的去中心化账本,用于存储有关提供商、优惠和订单的信息。这些信息包括描述、定价条件(免费、每小时、固定、收益分成)、系统要求以及各种使用规则和限制。此记录是透明的,但不可变且无法更改。
智能合约:透明、分散的区块链应用程序,根据要约中指定的使用规则和限制来协调部署。
微调
在 AI 市场中,您可以选择适合未来 AI 服务用途的预训练基础模型。然后,您可以创建部署订单,从 AI 市场租用预训练基础模型,并使用您自己的数据集对其进行微调(图 3 中的步骤 6-7)。
然后智能合约自动从机密计算云中选择一台或多台符合模型微调要求的机器,执行控制器位于每台机器中 TEE 内的机密 VM 中,验证订单、下载内容并发送给可信加载器(图 3 中的步骤 8-10)。
然后,可信加载器部署工作负载以供执行。AI 训练引擎采用基本预训练模型,并根据部署顺序规范使用数据集对其进行微调(图 3 中的步骤 11-12)。
此过程可能会重复多次,直到您对结果满意为止。新的微调层将上传回您的 DFS 系统。我没有在图表上显示这些步骤,以避免不必要的视觉复杂性。
预训练模型的所有者和计算机的所有者都会按小时获得其产品和服务的报酬(图 3 中的步骤 13)。
图 3. 微调基础预训练模型
以下是参与这些步骤的组件和服务:
机密计算云
球座
机密虚拟机
执行控制器
值得信赖的加载器
机密计算云
机密计算云具有分布式强大机器集群,其中 CPU 和 NVIDIA H100 Tensor Core GPU 中启用了 CC。
由于 Super Protocol 是一个去中心化的云,因此它没有中央数据中心。相反,覆盖网络将参与部署的容器连接到本地网络,确保工作负载的分配类似于集中式数据中心,同时坚持去中心化的原则。模型和数据集的所有者可以将其产品的分发限制在特定的 TEE 设备和地理位置。
所有机器均由独立提供商在网络上提供,类似于挖矿,但用于有用的工作量。机器由智能合约协调,提供商因提供资源而获得网络奖励。
共识机制可以验证机器是否存在于网络上并准备好接受订单、其声明的系统配置是否真实、TEE 是否有效,同时还可以删除任何欺诈或恶意的计算提供商。
可以在不同 GPU 云服务提供商 (CSP) 的多台机器上创建单一部署,从而提高未充分利用的 CSP 资源的利用率、提高稳定性、负载平衡并产生更具竞争力的定价交易。
容错功能可以确保如果一台计算机离线,则自动订购另一台计算机作为替代品,并且整个部署不会中断。
图 4. 超级协议云中的机密计算机
球座
可信执行环境( TEE) 是 CC 的一个关键组件,是 RAM 中的一个受保护区域,实际工作负载在每台机器中执行。它是专门为每个部署订单创建的,并使用会话密钥加密。TEE 保护数据免受任何未经授权的第三方(包括主机所有者和超级协议团队)的侵害。
传统机密虚拟机的 TEE 历来仅限于 CPU 及其分配的 RAM,而 NVIDIA CC 解决方案将 TEE 扩展为包括 NVIDIA Hopper GPU。
在 CC 模式下配置的 NVIDIA GPU 具有基于硬件的加密引擎、防火墙和远程证明流程,以确保 TEE 的完整性,以便最终用户可以确保并验证他们的机密工作负载在 GPU 上使用时受到保护。
Hopper CC 使用 AES-GCM256 对 PCIe 总线上的所有用户数据进行加密和签名,并使用经过签名和可证明的固件配置的防火墙阻止基础设施和带外访问。
NVIDIA 还提供公共远程证明服务,以便最终用户或依赖方可以获得最新的信心,确保他们的驱动程序和固件没有因为错误或漏洞而被撤销。
机密虚拟机
机密虚拟机是执行控制器、可信加载器和工作负载在每个参与计算机器上运行的地方。
执行控制器
执行控制器(EC)按照区块链上写入的资源路径从DFS系统下载数据。它根据参与报价的智能合约和区块链条件创建主要部署订单。
值得信赖的加载器
可信加载器建立安全的 CC 层,适用于单个机器或集成到计算集群中的机器网络。可信加载器在区块链上发布TEE 确认块(TCB),即远程证明报告,解密工作流文件,通过比较哈希值验证其完整性,并创建要执行的工作负载。
这里的目标是确认订单的完整性:机密性不允许访问 TEE 内部,只能验证输入和输出。
图 5. TCB 安全组件
生产启动
现在到了生产启动的时候了。步骤 14-19(图 2-4)与上一阶段类似。
主要区别始于第 20 步(图 5),其中部署的 AI 引擎具有 Web 界面,并支持多用户交互和支付处理。它采用基础预训练模型,并使用新的微调层运行它。
还部署了一组机密隧道,以确保最终用户能够安全稳定地访问(图 5 中的步骤 22-23)。您向最终用户提供访问 AI 引擎 Web 界面的 URL。它也可以作为另一个解决方案的一部分通过超级协议启动,但这是不同的用例。
最终用户通过便捷的支付工具支付AI代理服务的使用费用,定价由开发者决定。
对于生产启动,您需要订购多台并行运行的机器,以确保负载平衡和容错能力。隧道服务器应在与隧道客户端不同的机器上运行。
图 6. 生产启动和商业化
AI 引擎:用于部署的推理 AI 引擎。它具有用户友好的 Web 界面,支持支付处理,并使用新的微调层执行预训练模型。这些引擎是开源的,并经过超级协议验证,以确保它们不会泄露数据。
机密隧道:Super Protocol 开发了一项技术,使您可以在 TEE 内部以机密模式启动隧道网络协议,其中隧道客户端作为包含 AI 代理服务的 Web 服务运行。隧道服务器提供外部公共 IP 地址。
支付工具:一种开源服务,也与 AI 引擎一起在 TEE 中运行,并代表开发人员接受来自最终用户的付款。
AI 代理即服务用例的结果
在超级协议场景中微调和部署 AI 代理即服务产生以下结果:
开发人员通过训练新的层为基础模型添加新功能,并推出机密 AI 代理作为商业服务。
基础模型所有者可以根据其预训练模型的每个小时使用情况获得报酬。
CC 资源的提供者将按小时获得其机器使用费的报酬。
最终用户可以通过网络访问有用的 AI 代理,并享有便捷的支付选项,并且可以放心他们的敏感数据不会被泄露或用于模型训练。
超级协议云确保所部署的AI服务的容错和去中心化。
安全性、透明度和可验证性
超级协议通过流程完整性和组件的真实性实现安全性和透明度,这可以由独立的安全研究人员进行验证:
区块链和智能合约透明度
由可信加载器进行内容验证
TCB 验证
开源验证
AI引擎开源验证
E2E加密
TEE 认证
分布式机密
区块链和智能合约透明度
所有区块链记录和智能合约都是不可篡改的,对互联网上的任何人都是透明的。报价、订单和提供商都是可见的,但却是匿名的,部署订单的内容也是保密的。
由可信加载器进行内容验证
部署订单的所有输入数据(模型、数据集和解决方案)的完整性通过哈希值和签名的计算来证明,然后在运行时由受信任的加载器进行验证。
可信加载器向任何相关方提供运行时报告,以独立验证报告中的哈希值是否与所提供内容的哈希值匹配,以及是否未被篡改。
GPU 报告可直接与NVIDIA 远程证明云服务一起使用,以独立验证 GPU 的 CC 状态。
TCB 验证
TCB 由 TCB 服务自动写入区块链。但是,任何人都可以手动验证 TCB。方法是验证 TEE 设备签名和设备本身是否真实,然后将 VM 映像的哈希值与 TCB 的哈希值进行比较。
可信加载器的开源验证
测试网阶段完成后,执行控制器、可信加载器、隧道和其他超级协议中间件可在 GitHub 上作为开源提供。
模型和数据的所有者在创建部署订单之前证明包含可信加载器密钥的 TCB,然后传输机密以访问其数据。这样,所有者就可以确信可信加载器应用程序未被篡改并且与官方开源版本相同。
AI引擎开源验证
超级协议中的所有人工智能引擎都是开源的。这使安全研究人员能够审核它们是否存在内置漏洞,例如数据泄露。
E2E加密
整个过程采用端到端加密。上传到DFS系统的数据是加密的,并且仅在受信任的加载器内部解密。
TEE 认证
为了对机密环境进行完整的认证,可信加载器首先会收到来自 NVIDIA GPU TEE 的签名报告。此报告和可信加载器公钥包含在通过远程认证收到的通用 CPU TEE 报告中。
由两个相连的证明报告组成的 TCB 被写入区块链。Super Protocol 使用 NVIDIA 和 Intel 库来验证报告和证明,检查可信加载器哈希,然后验证机密 VM 环境。
分布式机密
它是 DFS 系统上的加密秘密保险库,其中包含由超级协议上部署的解决方案生成的任何私人或敏感用户数据。
目标是确保解决方案开发人员无法访问存储的数据。保险库的密钥由受信任的加载器生成并共享,而保险库本身可由具有相同解决方案哈希的不同部署实例访问。
结论
从历史上看,大多数人工智能模型都是开源的,任何人都可以免费获取和重复使用。然而,新兴趋势是模型和数据集正变得越来越专有。