“ 忍耐和坚持虽是痛苦的事情,但却能渐渐地为你带来好处。”
文|小鱼
要点速览
1、阿里云与零一万物达成战略合作,成立“产业大模型联合实验室”
2、清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制
3、Meta AI 推出 LIGER 混合检索 AI 模型,计算效率与推荐精度兼得
小窗AI问答机是一家AI问答机产品研发商,公司推出的全球首款AI问答机“小窗”,是以语音交互和无屏设计为核心特色的儿童AI硬件。
2、产业级AI应用服务商「明心数智」完成2亿人民币B轮融资,由柏睿资本领投,国方创新、狮城资本、鼎晖投资跟投。
明心数智是一家基于大模型的产业级AI应用服务商,专注于提供AI跨境数字化解决方案,致力于为产业互联网平台及小微企业搭建完善的产业经营评估体系及普惠金融服务管理平台、提升产融结合效率。公司从出海行业的刚需场景切入,运用云计算、物联网、区块链、大数据、人工智能等技术,基于用户需求,构建了丰富稳定的全链条产品矩阵,主要为企业提供基于大模型的出口报关、退税申报、产融服务等AI跨境数字化解决方案。明心自主研发的产业经营评估系统现已广泛应用于汽车、跨境、纺织、玻璃、MRO等不同领域。
赛泰诺是一家智能AI检测终端全套解决方案提供商。公司基于检测技术与人工智能AI技术,致力于提供工业化生产智能质量控制智能AI检测终端全套解决方案。公司拥有独立自主知识产权的人工智能AI检测系统QD Infinity及智能快速检测终端,产品在食品安全检测、粮食安全检测、中药饮品质量检测等领域发挥重大作用。
星图测控是一家数字太空科技服务提供商,致力于以数字化手段提升、增强和拓展卫星、火箭等实体进出空间、探索空间、利用空间、开发空间的能力与效益。以数字太空科技服务为主线,依托包括航天器高精度轨道、姿态、控制计算,测控资源智能筹划与调度,卫星全生命周期健康管理在内的三大核心技术,建立自主研发形成的洞察者-空间信息分析平台、洞察者-航天仿真平台、洞察者-空间资产管理与服务平台、洞察者-模拟训练平台及洞察者-智能评估平台等系列平台,面向航天任务设计、测试、发射及星座管理等应用场景,聚焦航天测控管理与航天工业设计两大主营业务,提供技术开发与服务、软件销售以及系统集成等产品或服务。
1、阿里云与零一万物达成战略合作,成立“产业大模型联合实验室”
1 月 2 日消息,阿里云和大模型企业零一万物今日达成模型平台业务的战略合作,双方将成立“产业大模型联合实验室”,联手加速大模型从技术到应用的落地,进一步扩大产业大模型的生态整合。
据了解,双方深度战略合作的产业大模型联合实验室包含技术、业务、人才等板块,双方将结合两个团队的大模型研发实力,形成从下一代基座模型技术探索到产业落地大模型服务的组合拳,全面通过阿里云百炼大模型平台的模型服务层面向市场。
阿里云与零一万物此前已经有过合作,2024 年 6 月,零一万物 Yi-Large 等系列大模型登陆阿里云百炼平台,这是零一万物首次通过云厂商提供 API 服务。
创新工场董事长兼 CEO 李开复于 2023 年创办了 AI 大模型创业公司“零一万物”,当时就有消息称该公司获得阿里云领投。(IT之家)
2、清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制
1 月 2 日消息,清华大学智能产业研究院(AIR)于 2024 年 12 月 24 日发布论文,介绍推出 AutoDroid-V2 AI 模型,在移动设备上利用小语言模型,显著提升了自然语言控制的自动化程度。
该系统采用基于脚本的方法,利用设备端小型语言模型(SLM)的编码能力,高效执行用户指令。相比依赖云端大型语言模型(LLM)的传统方法,AutoDroid-V2 在效率、隐私和安全性方面均有显著优势。
项目背景
大型语言模型(LLMs)和视觉语言模型(VLM)通过自然语言命令,彻底改变了移动设备控制的自动化,为复杂的用户任务提供了解决方案。
自动化控制设备主流采用“逐步 GUI 智能体”(Step-wise GUI agents)方式,通过在每个 GUI 状态查询,LLM 进行动态决策和反思、持续处理用户的任务,并观察 GUI 状态直至完成来进行操作。
但这种方式严重依赖基于云端的模型,在分享个人 GUI 页面时,还存在隐私和安全风险,此外还存在大量的用户端流量消耗以及高昂的服务器端集中服务成本等严重问题,阻碍大规模部署 GUI 智能体。
项目简介
不同于传统的逐步操作,AutoDroid-V2 根据用户指令生成多步骤脚本,一次性执行多个 GUI 操作,大幅减少了查询频率和资源消耗。
利用设备上的小型语言模型进行脚本生成和执行,避免了对强大云端模型的依赖,有效保护了用户隐私和数据安全,并降低了服务器端成本。
该模型在离线阶段会构建应用程序文档,包含 AI 引导的 GUI 状态压缩、元素 XPath 自动生成和 GUI 依赖分析,为脚本生成奠定基础。
此外用户提交任务请求后,本地 LLM 生成多步骤脚本,由特定域解释器执行,确保可靠高效的运行。
性能
基准测试上,在 23 个移动应用上测试 226 项任务,与 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基线相比,任务完成率提高 10.5%-51.7%。
在资源消耗方面,输入和输出 token 消耗分别减少至 43.5 分之一和 5.8 分之一,LLM 推理延迟降低至 5.7~13.4 分之一。
跨 LLM 测试中,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表现一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。(IT之家)
3、Meta AI 推出 LIGER 混合检索 AI 模型,计算效率与推荐精度兼得
1 月 2 日消息,Meta AI 的研究人员提出了一种名为 LIGER 的新型 AI 模型,巧妙地结合密集检索和生成检索的优势,显著提升了生成式推荐系统的性能。
LIGER 有效地解决了传统推荐系统在计算资源、存储需求和冷启动项目处理上的难题,为构建更高效、更精准的推荐系统提供了新的思路。
项目背景
想要把用户与相关内容、产品或服务联系起来,推荐系统是其中重要一环。该领域的常规方法是密集检索(Dense retrieval),利用序列建模来计算项目和用户表示。
但这种方法由于要嵌入每个项目,因此需要大量的计算资源和存储。随着数据集的增长,这些要求变得越来越繁重,限制了它们的可扩展性。
而另一种新兴的方法叫做生成检索(Generative retrieval),通过生成模型预测项目索引来减少存储需求,但该方式存在性能问题,在冷启动项目(用户交互有限的新项目)中表现尤为明显。
项目介绍
Meta AI 公司联合威斯康星大学麦迪逊分校、ELLIS Unit、LIT AI Lab、机器学习研究所、JKU Linz 等机构,混合密集检索和生成检索,推出了 LIGER(LeveragIng dense retrieval for GEnerative Retrieval)模型。
该模型混合了生成检索的计算效率和密集检索的精度,利用生成检索生成候选集、语义 ID 和文本属性的项目表示,再通过密集检索技术进行精练,平衡了效率和准确性。
LIGER 采用双向 Transformer 编码器和生成解码器。密集检索部分整合了项目文本表示、语义 ID 和位置嵌入,并使用余弦相似度损失进行优化。生成部分使用波束搜索根据用户交互历史预测后续项目的语义 ID。
通过这种混合推理过程,LIGER 降低了计算需求,同时保持了推荐质量。LIGER 还能很好地泛化到未见过的项目,解决了先前生成模型的关键限制。
LIGER 性能
在 Amazon Beauty、Sports、Toys 和 Steam 等基准数据集上的评估显示,LIGER 的性能持续优于 TIGER 和 UniSRec 等现有最先进模型。
例如,在 Amazon Beauty 数据集上,LIGER 对冷启动项目的 Recall@10 得分为 0.1008,而 TIGER 为 0.0。在 Steam 数据集上,LIGER 的 Recall@10 达到了 0.0147,同样优于 TIGER 的 0.0。
随着生成方法检索的候选数量增加,LIGER 与密集检索的性能差距缩小,展现了其适应性和效率。(IT之家)
4、我国首台空间站智能助手“小航”进驻空间站:哈工大研制,可协助拍照、情感互动
1 月 2 日消息,综合央视新闻及哈工大新闻网消息,哈尔滨工业大学张立宪教授带领的多学科交叉团队承担研制的中国首台空间站舱内智能飞行机器人(航天员智慧助手“小航”)功能测试在轨验证成功,于 2025 年第一天亮相中国空间站。
“小航”通过航天员语音指控(IT之家注:无遥控器)使用,旨在替代 / 协助航天员在空间站内移动拍照、舱内巡检、物资管理、产品检查、答疑,与航天员情感互动等。
具体来看,其目前可以完成拍照、运动等操作,航天员王浩泽通过语音指令让“小航”完成了在空间站内飞行,根据口令上升下降等操作。后续通过升级,“小航”还能实现舱内巡检、物资管理、产品状态检查、答疑解惑等功能。(IT之家)
1、英伟达新一代显卡领衔 一波AIPC芯片产品有望亮相CES展
▌好文推荐
推荐阅读