生成式AI
一、 控制电脑手机的智能体人人都能造,微软开源了OmniParser
1. 大模型智能体控制设备热潮中,OmniParser为微软开源的屏幕解析工具,能将UI截图转化为结构化数据;
2. OmniParser通过UI解析与GPT-4V等模型结合,可识别界面元素,执行复杂任务,实现高效智能操控;
3. 项目包括两个关键数据集及双模型微调,显著提升GPT-4V在多项基准性能,是通用屏幕解析工具。
https://mp.weixin.qq.com/s/yEC32W-dobHF7pycDSHcPg
二、 谷歌版贾维斯也将问世,最强Gemini 2.0加持!新时代来临
1. 谷歌Project Jarvis将在年底推出,借助Gemini 2.0自动化Chrome任务,实现日常网页操作;
2. 该项目通过屏幕解析和动作预测技术,实现如信息收集和购物等复杂任务的自动化;
3. Project Jarvis依赖云端操作,短期内尚难以在终端设备上独立运行。
https://mp.weixin.qq.com/s/wl6G0PpX90Kc8S_qcQtjVw
三、 智谱AI悄悄发布AutoGLM,这一次,贾维斯真的要成现实了
1. 智谱AI推出的AutoGLM,通过自主完成复杂任务,实现类似“贾维斯”功能,在国产AI Agent中表现出色;
2. AutoGLM可代替用户执行手机上的一系列指令,从预定酒店到社交互动,展现了高度自主性;
3. AutoGLM的问世,标志AI从“能说”进化到“能干”,让“智能助手”概念逐步接近现实,尽管现阶段支持的软件有限。
https://mp.weixin.qq.com/s/nKvr-8FKsu4hi52B6TJBrQ
四、 智谱推出「众包」端到端多模态情感语音模型 GLM-4-Voice
1. 智谱推出的GLM-4-Voice能实时理解和生成多语言、多情绪语音对话,模拟多种情绪表达,实现更自然的人机交流;
2. GLM-4-Voice通过端到端音频建模,避免传统级联方案的信息损失,显著降低延迟,并支持随时指令打断和语速调节;
3. GLM-4-Voice开源并上线清言app,实现多模态交互和情绪识别,是模型迈向AGI的重要进展。
https://mp.weixin.qq.com/s/fTO-KiPtImR3hnlwoeoaEQ
五、 Notion重磅新功能:Notion Email来了,官方模版市场上线!
1. Notion推出Notion Email,支持AI辅助的邮件整理、自动回复及日程管理,并集成Notion日历,2025年上线;
2. 官方推出模版市场,创作者可在Notion平台内实现模版的构建、销售和退款,且收取10%交易费用;
3. 新增表单、自定义布局及自动化功能,支持多平台联动,进一步丰富Notion的工作流程和共享方式。
https://mp.weixin.qq.com/s/y8JZWezKXseOLUgrrequsw
六、 10秒创造一个世界!斯坦福团队新作实时交互式3D世界生成
1. 斯坦福与MIT合作推出WonderWorld系统,通过FLAGS方法实现10秒内生成3D场景,速度比现有技术快100倍;
2. WonderWorld用户可从单一图片生成无限3D场景,实时交互移动视角并定制场景内容,提升沉浸式体验;
3. 系统解决了多场景衔接的几何裂缝问题,无需训练预设模型,可跨多种场景类型生成连贯3D世界。
https://mp.weixin.qq.com/s/tojd3ToplmYgqC5OLS8cAA
七、 田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判
1. 「Agent-as-a-Judge」框架由AI智能体自行评估AI决策路径,减少97%成本和时间,提供丰富中间反馈;
2. 引入DevAI基准数据集,包含55个真实AI任务,用于验证「Agent-as-a-Judge」的实际应用效果;
3. 通过模块化设计和多格式数据理解,Agent-as-a-Judge有效提升评估质量,可在部分情况下替代人类评估员。
https://mp.weixin.qq.com/s/z48LtC7FhO0T6FgsDvizfw
前沿科技
八、 深圳一家公司造出世界上行走最像人类机器人,卖2-3万美元
1. 深圳众擎机器人推出高度拟人化的双足机器人SE01,售价约2-3万美元,具备复杂运动和高度灵活性;
2. SE01搭载高性能谐波力控关节与NVIDIA和Intel双处理器,具备强大的深度视觉和360度感知能力;
3. 众擎机器人成立仅一年,专注人形机器人研发,计划年底推出全系列产品,希望在2025年达年销千台目标。
https://mp.weixin.qq.com/s/wnNTH1qOWeILfGVwjmp6cg
报告观点
九、 OpenAI科学家TED:让AI模型思考20秒,提升10万倍性能!
1. OpenAI科学家Noam Brown提出AI应用“系统二思维”可在不增加数据和计算资源的情况下显著提升模型性能,效果相当于将模型扩展10万倍;
2. 系统二思维让AI进行深度推理并缓解决策中的不确定性,已在o1模型中显现,通过自我对弈增强复杂任务的推理能力;
3. 该方法在数学、金融等领域表现优异,为提升AI的任务适应力和人机交互体验提供新途径。
https://mp.weixin.qq.com/s/tE8qoQYoBvxptJa-dLTuOA
十、 哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」!
1. 大模型主要依赖训练数据中的共现概率,像众包一样输出广泛共识观点,在常识性问题上表现良好;
2. 大模型在缺乏共识或数据稀缺的领域易生成幻觉,表现不稳定,且难以处理晦涩或争议性强的问题;
3. 实验结果表明,大模型适合处理常见任务,但在处理复杂和敏感问题时准确性欠佳,需谨慎解读。
https://mp.weixin.qq.com/s/jKYCy8fqM2XdeECefBripg
👇订阅下方合集,获取每日推送