AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
LLMs 的高 GPU 内存占用和计算成本通常使得其只能通过云 API 部署,用户需上传数据查询,可能引起数据泄漏及隐私问题,特别是在医疗、金融和电商等敏感领域。 在移动设备上调用云端 LLMs 时面临云延迟问题,而直接部署又面临高参数和缓存需求超出普通设备能力的问题。 LLMs 庞大的参数数量可能导致几秒至几分钟的推理延迟,不适合实时应用。 LLMs 在专业领域如医疗和法律的表现不佳,需要成本高的微调来提升性能。 虽然通用 LLMs 功能强大,但许多应用和任务只需特定功能和知识,部署 LLMs 可能浪费资源且性能不如专门模型。