生成式AI带来无限商机,但我们仍然面临着一个阻碍广泛采用的巨大挑战:运行推理的高昂成本。
训练大型语言模型(LLM)涉及的成本相当惊人,主要体现在对大量GPU的需求及随之而来的高额电费上。据分析师预测,Meta在2024年可能需耗资约150亿美元用于购置GPU。生成式AI的实现需要大量的内存和带宽以支持权重计算与数据处理,这构成了大规模部署此类模型的主要挑战之一。OpenAI的Sam Altman也坦承:“没有根本性的突破,这一目标难以达成。”目前,尽管CPU、GPU以及一些专门设计的加速器是支持AI运算的首选方案,但它们依然受限于传统的冯·诺伊曼架构。定制化的ASIC、FPGA和APU虽能提供更高的内存带宽和专控性能,但运行这些模型仍需消耗大量的RAM资源,使得生成式AI的经济性部署成为难题。即便面临成本和技术上的限制,企业仍在迅速推进多种AI模型的应用,并刺激了对推理技术的需求。这意味着对计算能力提出了更高要求——鉴于当前模型远超以往非生成式机器学习模型的规模,生成式AI推理不仅需要更多的计算资源,还需要更大的内存容量。此外,推理过程中的计算量不仅受到模型大小的影响,还与用户输入的提示长度相关。例如,当OpenAI的GPT-4使用的提示长度从8K增加到32K时,其运行成本几乎翻了一番。同时,模型产生每个输出token的速度也是影响用户体验的重要因素。因此,内存带宽的重要性不言而喻,然而现有架构下的内存带宽局限进一步增加了推理过程的成本和能耗问题。
术语“内存墙”由William Wulf和Sally McKee于1995年提出,它涵盖了存储容量的限制以及存储传输带宽的问题。分布式推理作为一种策略,可以规避单个加速器在内存容量和带宽上的局限性,但这种方法同样会遇到内存墙问题——特别是在加速器间的数据传输过程中出现的通信瓶颈,这比在同一芯片内移动数据要慢且效率低。生成内容的过程依赖于从训练过的权重中进行大量细微计算,这些计算通过GEMM(通用矩阵乘法)操作完成。尽管GEMM不需要庞大的处理器支持,但它依赖于快速且高效的小规模计算过程。“内存墙”在这里构成了障碍。在执行每个操作时,数据需要在DDR RAM与处理器之间以及处理器之间频繁交换。即便这段距离仅有毫米之遥,由于冯·诺依曼架构下存储与计算单元的分离,这一过程消耗了时间和能量,尤其当涉及海量计算时。每次数据经由存储总线移动,DRAM访问每字节大约消耗60皮焦耳的能量,相比之下,实际运算仅需消耗50到60飞焦耳每字节。这意味着,在数据来回传输过程中消耗的能量是使用数据进行计算所需能量的一千倍。考虑到全球范围内数百万用户的请求、数百个GPU的应用,以及数千台服务器和数据中心的运作,这种能耗累积使得Sam Altman认为,为解决此问题,我们需要在能源方面取得突破。
如果在存储和处理之间来回移动数据的效率如此之低,那么我们是否可以将计算移到内存中呢?近年来,存内计算(in-memory computing,简称IMC)通过直接在内存单元附近/内部执行MAC(乘-累加)操作而成为一种很有前途的替代方法。普渡大学的研究表明,与机器学习推理的既定基线相比,存内计算架构的能耗降低至0.12倍。位于比利时KU Leuven研究型大学的MICAS中心支持IMC,强调其降低访问开销和实现大规模并行化机会的能力,可能导致能源效率和吞吐量的数量级提高。该领域的早期探索将模拟IMC视为评估权重和在预训练的LLM上运行推理的有效方法。然而,这种方法需要昂贵的数模转换器和额外的错误检查。数字存内计算(DIMC)提供了一种替代方案,避开了模拟IMC的挑战,提供无噪声计算和更大的空间映射灵活性。与模拟相比,DIMC牺牲了一些面积效率,但为处理未来的AI需求提供了更多的灵活性和能力。KU Leuven的研究还支持SRAM作为IMC的首选解决方案,因为与基于NVM的解决方案相比,SRAM具有鲁棒性和可靠性。DIMC有望彻底改变AI推理,降低成本并提高性能。鉴于生成式AI的采用速度很快,只有通过将计算引入内存并提高性能来追求降低成本和功耗的新方法才有意义。通过减少不必要的数据移动,我们可以显著提高AI的效率,并改善AI未来的经济状况。存算一体技术作为解决冯诺依曼架构下存储墙问题的重要方案,吸引了国内外众多企业的研发投入。在全球范围内,存算一体技术的研究和实践正由传统芯片巨头如三星电子、SK海力士、台积电、美光、IBM、英特尔等主导。SK海力士也展示了其基于GDDR的存内计算产品,大幅提高了计算速度并降低了功耗。其他如台积电、美光、IBM、英特尔等也都在存内计算领域取得了积极进展,探索将存储与计算紧密结合的创新方案。2021年开始,存内计算相关产品逐步落地。包括三星、海力士、TSMC在内的国际巨头以及Mythic等公司经过技术沉淀,已经开始试产存内计算芯片。
三星展示了基于HBM2-PIM技术的存内计算芯片、海力士展示了GDDR6-AiM的样品,TSMC展示了其在SRAM、ReRAM、PCM、STT-MRAM等多种器件上实现存内计算的探索成果。
存内计算产业化初见成果,越来越多的存内计算产品落地。美国处理器公司Mythic推出M1076处理器,采用模拟存内计算方案,存储介质为Flash,在40nm制程工艺下实现25TOPS的算力与3W的功耗。
在国内,新兴AI和存储企业的蓬勃发展也为存算一体技术注入了新的活力。
2022年国内知存科技推出首款量产存内计算SOC芯片WTM2101,采用模拟存算计算范式,以Flash为介质,在40nm成熟工艺下以2.6x3.2mm²极小封装实现了50Gops的高算力,功耗低至5uA,已商用至智能可穿戴设备中;2023年后摩智能推出鸿途H30芯片,采用数字存算计算范式,以SRAM为介质,实现256TOPS的算力与35W的功耗。
图 3 后摩鸿途H30芯片示意图
在高校科研方面,清华大学集成电路学院教授吴华强、副教授高滨团队基于存内计算计算范式,研制出全球首颗全系统集成的、支持高效片上学习的忆阻器(RRAM)存内计算芯片。该研究成果以《面向边缘学习的全集成类脑忆阻器芯片》为题在线发表在《Science》上[9]。北京大学集成电路学院与人工智能研究院黄如院士课题组基于存内计算技术,提出高效的无ADC架构SRAM存内计算加速引擎,并在ISSCC 2022上发表文章。
声明:本文不构成任何投资建议。我们尊重原创,也注重分享;文字、图片版权归原作者所有,不代表本号立场。如有侵犯您的权益请及时联系,我们将第一时间删除,谢谢!