本文是对发表于MobiCom2024的文章《Mobile Foundation Model as Firmware》的解读。该文提出了一种新的移动AI范式,其中移动操作系统和硬件共同管理一个能够服务于广泛移动AI任务的基础模型,称为M4。该基础模型功能类似于固件,不可由应用程序或操作系统修改,作为系统服务暴露给应用程序。应用程序可以通过一个小型的、离线微调的“适配器”调用此基础模型以执行各种下游任务。作者利用公开可用的预训练模型进行了原型制作,并构建了一个包括38个移动AI任务和50个数据集的综合基准测试,涵盖5种多模态输入。广泛的实验表明M4取得了显著的成果:在85%的任务中达到了可比的准确率,在存储和内存的可扩展性方面提供了增强,并且算子大为简化。
MPIWasm运行时基于Wasmer运行时实现,支持:(1)通过将基于MPI的HPC应用程序编译为Wasm来实现高性能执行;(2)通过零复制内存操作实现 MPI 调用的低开销;(3)支持高性能互连,例如Infiniband和Intel OmniPath;(4)通过在Wasm和主机MPI库间提供转换层使得开发人员无需了解目标 HPC 系统上存在的特定MPI库或网络互连。随着人工智能的快速进展,移动设备如智能手机已成为执行深度神经网络(DNN)的主要平台,以支持各种移动AI应用,例如语音助手、图像编辑器和增强现实应用。这些设备在本地处理复杂的AI任务,既能改善用户体验,也有助于增强数据隐私和服务可用性。然而,移动设备上实现这些功能面临重大挑战。首先,与数据中心相比,移动设备的资源(如处理能力、存储空间和电池寿命)相对有限。此外,移动设备需要处理来自各种传感器的多模态数据,这些数据类型繁多,任务需求各异,如高精度、低延迟等,这进一步增加了实现高效AI系统的复杂性。更为复杂的是,目前的移动深度模型在架构、算子和实现上高度碎片化。不同的应用和服务往往需要特定的优化,而这种优化往往是临时和非系统的,难以适应不断变化和扩展的应用需求。此外,模型碎片化导致了算法、系统和硬件之间难以协同优化,影响了AI任务的执行效率和可扩展性。这种碎片化问题的存在,加上移动设备上的资源限制,成为当前移动AI发展的主要障碍,亟需解决以推动移动AI技术的进一步发展和普及。
MPIWasm运行时基于Wasmer运行时实现,支持:(1)通过将基于MPI的HPC应用程序编译为Wasm来实现高性能执行;(2)通过零复制内存操作实现 MPI 调用的低开销;(3)支持高性能互连,例如Infiniband和Intel OmniPath;(4)通过在Wasm和主机MPI库间提供转换层使得开发人员无需了解目标 HPC 系统上存在的特定MPI库或网络互连。为了解决上述问题,作者提出了使用大语言模型(Large Language Model,LLM)作为移动设备的基础固件,使用硬件和操作系统共同管理并为上层应用提供基础服务。作者将这种LLM称为M4。M4模型是在现有的基础模型架构上进行的创新,它旨在通过统一的架构来支持广泛的移动AI任务,从而减少设备资源的消耗并提高执行效率。M4模型的设计基于三个核心原则:统一性(Unified)、弹性(Elastic)、多模态(Multimodal)。统一性原则意味着M4避免为每种可能的输入/输出模态组合创建独立的基础模型,而是提供一个可以最大化跨不同模态能力共享的统一架构。弹性原则允许M4轻松扩展到更多的模态(无论是输入还是输出),例如,可以适应新类型的传感器或应用数据。多模态原则确保M4能够根据需要接受多模态输入或生成多模态输出,例如,用于高级移动应用程序,如视觉问答或音频描述。
模型架构
M4的整体架构包括三个主要构件:多模态嵌入(Multimodal Embedding)、基础模型骨干(Foundation Backbone)和多模态生成器(Multimodal Generator)。- 多模态嵌入:该构件的作用是将来自不同模态的输入数据对齐并转换为统一的表示形式(例如,向量)。它通常实现为针对每种模态的一组transformer编码器。
- 基础模型骨干:该构件用于理解和推理输入数据。它包含了大量的知识,以理解复杂的嵌入数据,并为生成器执行特定任务的推理和生成易于理解的输出。
- 多模态生成器:根据任务需求,将基础模型骨干的输出适应到特定的数据格式。例如,对于分类任务,它可能是一个简单的多层感知机(MLP)和softmax层;对于图像任务,则可能使用稳定扩散模型。
表1:作者总结的50个面向边缘/移动设备的任务,并将其分为NLP、CV等5类
M4包含三个可训练部分,这些部分将针对下游移动AI任务进行微调:分别插入到多模态嵌入和基础模型骨干中的两个参数高效微调(PEFT)模块;以及一个MLP映射层,该层将多模态嵌入的输出适应到基础模型骨干所需的表示形式。基于开源LLM的原型设计
多模态嵌入:由五个并行模块组成,每个模块都采用transformer编码器架构:图像(IMG_enc)、文本(TXT_enc)、惯性测量单元(IMU_enc)、音频背景(AUD-B_enc)和音频意图(AUD-I_enc)。这些编码器针对其对应的模态转换输入数据。
基础模型骨干:使用Meta训练的LLaMA模型作为M4的骨干,它是一个预训练的大型语言模型,专注于处理文本数据,但具有足够的泛化能力支持多模态输入。
多模态生成器:由三个并行的解码器组成,用于处理不同类型的输出需求。
M4采用了多路径任务执行设计,允许根据任务的具体需求激活M4的不同部分。这种设计可以减少对计算资源的需求,并提高处理效率。例如,对于一些简单的任务,只需要激活模型的一部分即可完成。作者在文中总结38个常见的移动端的任务以及50个基础数据集,并将其进行了分类,如表1所示。同时,作者将这些任务按照执行路径的不同进行了划分,每一类任务根据M4模型中不同的路径被执行,如图1所示。图1:不同任务在M4中的执行路径
综上,M4的设计充分考虑了移动环境中AI任务的多样性和复杂性,通过创新的架构和灵活的执行路径,实现了对广泛移动AI任务的高效支持。这种基础模型不仅优化了资源使用,还简化了移动AI的开发和部署流程,为移动设备上的AI应用提供了强大的支撑。MPIWasm运行时基于Wasmer运行时实现,支持:(1)通过将基于MPI的HPC应用程序编译为Wasm来实现高性能执行;(2)通过零复制内存操作实现 MPI 调用的低开销;(3)支持高性能互连,例如Infiniband和Intel OmniPath;(4)通过在Wasm和主机MPI库间提供转换层使得开发人员无需了解目标 HPC 系统上存在的特定MPI库或网络互连。图2 在50个任务上M4与专用模型准确率比较
如图2所示,实验表明M4在大部分任务中能够达到与专门模型相当的准确率。M4模型在50个数据集中的85%任务上达到了与针对每个任务设计的专门模型相当的准确率。这表明M4具备广泛适应性和较高的模型泛化能力,能够处理多种类型的移动AI任务。这一发现突出了M4设计的有效性,尤其是它在解决移动设备AI碎片化问题上的潜力。图3 使用LLaMA2构建M4效果
与此同时,实验表明M4可以被扩展到更强大的LLM上,如图3所示。M4模型可以通过集成更新进化的基础模型来进一步增强其性能。图3展示了通过将最新的LLaMA2集成到M4中,与旧版本LLaMA相比,性能得到了显著提升。使用LLaMA2的M4在T5 emoji预测任务和T42图像标题生成任务上分别实现了15%的准确率提升和2%的BLEU分数提高。由于M4天生能够适应其基础架构的变化,它能无缝集成并利用最新的构件。
图4 M4可扩展性分析
如图4所示,在存储和内存使用方面,M4证明了其高度的可扩展性。尽管M4在处理少量任务时的存储需求较高,但随着任务数量的增加,其存储效率显著提高,特别是在多任务处理上展现出更好的性能。这一结果表明M4在移动设备上部署多AI任务时可以更有效地利用有限的硬件资源。图5 M4简化模型算子种类
M4的设计简化了算子,提高了系统整体效率,如图5所示。M4简化了算子的复杂性,其所需的运算算子种类显著少于传统的任务特定模型。这不仅减少了对硬件的需求,还简化了模型的维护和升级过程,有助于加速AI应用的部署和执行。这些结果显示了M4在实际应用中可以大幅度降低移动AI系统的复杂性和成本。MPIWasm运行时基于Wasmer运行时实现,支持:(1)通过将基于MPI的HPC应用程序编译为Wasm来实现高性能执行;(2)通过零复制内存操作实现 MPI 调用的低开销;(3)支持高性能互连,例如Infiniband和Intel OmniPath;(4)通过在Wasm和主机MPI库间提供转换层使得开发人员无需了解目标 HPC 系统上存在的特定MPI库或网络互连。该论文设计了一种由移动硬件和操作系统共同管理的多模态基础模型M4,该模型作为系统服务对移动应用程序开放,几乎可以服务于设备上的所有AI任务。作者使用现成的大型语言模型(LLMs)设计并原型化了第一个M4原型。在包含50个代表性移动AI任务的综合基准测试中评估,M4展示了良好的准确性、更好的可扩展性和降低的运行成本。编辑:王启鹏
原文作者:Jinliang Yuan, Chen Yang, Dongqi Cai, Shihe Wang, Xin Yuan, Zeling Zhang, Xiang Li, Dingge Zhang, Hanzi Mei, Xianqing Jia, Shangguang Wang, Mengwei Xu