腾讯研究院AI速递 20241028

学术   2024-10-28 00:01   广东  

生成式AI

一、  控制电脑手机的智能体人人都能造,微软开源了OmniParser

1. 大模型智能体控制设备热潮中,OmniParser为微软开源的屏幕解析工具,能将UI截图转化为结构化数据;

2. OmniParser通过UI解析与GPT-4V等模型结合,可识别界面元素,执行复杂任务,实现高效智能操控;

3. 项目包括两个关键数据集及双模型微调,显著提升GPT-4V在多项基准性能,是通用屏幕解析工具。

https://mp.weixin.qq.com/s/yEC32W-dobHF7pycDSHcPg

二、  谷歌版贾维斯也将问世,最强Gemini 2.0加持!新时代来临

1. 谷歌Project Jarvis将在年底推出,借助Gemini 2.0自动化Chrome任务,实现日常网页操作;

2. 该项目通过屏幕解析和动作预测技术,实现如信息收集和购物等复杂任务的自动化;

3. Project Jarvis依赖云端操作,短期内尚难以在终端设备上独立运行。

https://mp.weixin.qq.com/s/wl6G0PpX90Kc8S_qcQtjVw

三、  智谱AI悄悄发布AutoGLM,这一次,贾维斯真的要成现实了

1. 智谱AI推出的AutoGLM,通过自主完成复杂任务,实现类似“贾维斯”功能,在国产AI Agent中表现出色;

2. AutoGLM可代替用户执行手机上的一系列指令,从预定酒店到社交互动,展现了高度自主性;

3. AutoGLM的问世,标志AI从“能说”进化到“能干”,让“智能助手”概念逐步接近现实,尽管现阶段支持的软件有限。

https://mp.weixin.qq.com/s/nKvr-8FKsu4hi52B6TJBrQ

四、  智谱推出「众包」端到端多模态情感语音模型 GLM-4-Voice

1. 智谱推出的GLM-4-Voice能实时理解和生成多语言、多情绪语音对话,模拟多种情绪表达,实现更自然的人机交流;

2. GLM-4-Voice通过端到端音频建模,避免传统级联方案的信息损失,显著降低延迟,并支持随时指令打断和语速调节;

3. GLM-4-Voice开源并上线清言app,实现多模态交互和情绪识别,是模型迈向AGI的重要进展。

https://mp.weixin.qq.com/s/fTO-KiPtImR3hnlwoeoaEQ

五、  Notion重磅新功能:Notion Email来了,官方模版市场上线!

1. Notion推出Notion Email,支持AI辅助的邮件整理、自动回复及日程管理,并集成Notion日历,2025年上线;

2. 官方推出模版市场,创作者可在Notion平台内实现模版的构建、销售和退款,且收取10%交易费用;

3. 新增表单、自定义布局及自动化功能,支持多平台联动,进一步丰富Notion的工作流程和共享方式。

https://mp.weixin.qq.com/s/y8JZWezKXseOLUgrrequsw

六、  10秒创造一个世界!斯坦福团队新作实时交互式3D世界生成

1. 斯坦福与MIT合作推出WonderWorld系统,通过FLAGS方法实现10秒内生成3D场景,速度比现有技术快100倍;

2. WonderWorld用户可从单一图片生成无限3D场景,实时交互移动视角并定制场景内容,提升沉浸式体验;

3. 系统解决了多场景衔接的几何裂缝问题,无需训练预设模型,可跨多种场景类型生成连贯3D世界。

https://mp.weixin.qq.com/s/tojd3ToplmYgqC5OLS8cAA

七、  田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判

1. 「Agent-as-a-Judge」框架由AI智能体自行评估AI决策路径,减少97%成本和时间,提供丰富中间反馈;

2. 引入DevAI基准数据集,包含55个真实AI任务,用于验证「Agent-as-a-Judge」的实际应用效果;

3. 通过模块化设计和多格式数据理解,Agent-as-a-Judge有效提升评估质量,可在部分情况下替代人类评估员。

https://mp.weixin.qq.com/s/z48LtC7FhO0T6FgsDvizfw

前沿科技

八、  深圳一家公司造出世界上行走最像人类机器人,卖2-3万美元

1. 深圳众擎机器人推出高度拟人化的双足机器人SE01,售价约2-3万美元,具备复杂运动和高度灵活性;

2. SE01搭载高性能谐波力控关节与NVIDIA和Intel双处理器,具备强大的深度视觉和360度感知能力;

3. 众擎机器人成立仅一年,专注人形机器人研发,计划年底推出全系列产品,希望在2025年达年销千台目标。

https://mp.weixin.qq.com/s/wnNTH1qOWeILfGVwjmp6cg

报告观点

九、  OpenAI科学家TED:让AI模型思考20秒,提升10万倍性能!

1. OpenAI科学家Noam Brown提出AI应用“系统二思维”可在不增加数据和计算资源的情况下显著提升模型性能,效果相当于将模型扩展10万倍;

2. 系统二思维让AI进行深度推理并缓解决策中的不确定性,已在o1模型中显现,通过自我对弈增强复杂任务的推理能力;

3. 该方法在数学、金融等领域表现优异,为提升AI的任务适应力和人机交互体验提供新途径。

https://mp.weixin.qq.com/s/tE8qoQYoBvxptJa-dLTuOA

十、  哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」!

1. 大模型主要依赖训练数据中的共现概率,像众包一样输出广泛共识观点,在常识性问题上表现良好;

2. 大模型在缺乏共识或数据稀缺的领域易生成幻觉,表现不稳定,且难以处理晦涩或争议性强的问题;

3. 实验结果表明,大模型适合处理常见任务,但在处理复杂和敏感问题时准确性欠佳,需谨慎解读。

https://mp.weixin.qq.com/s/jKYCy8fqM2XdeECefBripg

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章