腾讯研究院AI速递 20250123

学术   2025-01-23 00:11   北京  

生成式AI

一、  特朗普宣布OpenAI成立新公司Stargate,投资5000亿美元

1. OpenAI、软银、甲骨文联合成立Stargate公司,未来四年投资5000亿美元建设AI基础设施,首期投入1000亿;

2. 软银负责财务、OpenAI负责运营,孙正义任董事长,已在德克萨斯州启动建设;

3. Arm、微软、NVIDIA、Oracle作为技术合作伙伴,OpenAI将继续增加对Azure的使用。

https://mp.weixin.qq.com/s/oNKEGNlo0UJSICUxkbIAbA

二、  1M长上下文,满血版Gemini 2.0再登上Chatbot Arena榜首

1. 谷歌发布Gemini 2.0 Flash Thinking加强版,支持1M token长上下文理解,强化自我纠错能力,并再次登顶Chatbot Arena排行榜;

2. 模型实现数学、科学和多模态推理能力的显著提升,特别是数学成绩提升54%,同时能保持连贯思维和灵活运用上下文信息;

3. 谷歌推出Google AI Studio统一平台,整合API、开发和调优功能,强调打造全面均衡的通用模型,并通过Project Mariner项目增强多模态交互能力。

https://mp.weixin.qq.com/s/NqtKUUuM0WrN0oShfba7gQ

三、  OpenAI 开源项目 openai-realtime-agents实时语音协作系统

1. OpenAI发布基于Realtime API的开源项目openai-realtime-agents,用户可通过自然语言描述构建多Agents语音应用,无需编程技能;

2. 项目核心是基于状态机Prompt的Agent设计,只需定义Agent角色、职责和响应关系,配合Voice Agent Metaprompter GPT可快速生成高质量Agent指令;

3. 系统支持实时语音交互和Agent间自动切换,可用于客服、导购等场景,降低了AI应用开发门槛。

https://mp.weixin.qq.com/s/3hS0B6zx2pjqAFfbEriWgg

四、  Meta 2025年AI眼镜战略大曝光:1000美元高端AI眼镜亮相

1. Meta公布2025年AI眼镜战略,计划推出Oakley联名运动AI眼镜和价格约1000美元的高端"Hypernova"眼镜,后者配备显示屏和腕带控制器;

2. Meta首款面向消费者的AR眼镜"Artemis"计划2027年发布,目标是解决成本、显示技术和制造方面的挑战;

3. Meta正在探索带摄像头的AirPods竞品和智能手表项目,但技术挑战仍待克服,可能不会正式发布。

https://mp.weixin.qq.com/s/jDPNYsUtclzIdtnLRUAMxw

五、  微信秒剪,上线了 3 个非常不错的新AI视频功能,好用到爆

1. 微信官方剪辑工具"秒剪"更新新功能,包括公众号转视频、AI漫画视频和带货视频,完全免费;

2. "公众号转视频"可一键将文章转为视频,支持多种音色配音和声音克隆,自动识别配图;

3. AI漫画视频支持文本和音频输入,提供5种视频风格;带货视频功能可一键生成AI文案,支持本地和AI生成素材。

https://mp.weixin.qq.com/s/elZ4Y5WxJ30gIOPccosqOQ

六、  豆包基础模型 Doubao-1.5-pro 发布,融合并提升多模态能力

1. 豆包发布新版Doubao-1.5-pro基础模型,采用MoE架构将性能杠杆提升,仅用较小激活参数即可比肩超大稠密预训练模型;

2. 构建高度自主的数据生产体系,不使用其他模型数据,通过高效标注团队与模型自提升相结合方式持续优化数据质量;

3. 模型融合并提升了视觉、语音等多模态能力,支持百万级分辨率图片识别,提出Speech2Speech端到端框架,实现语音理解生成一体化。

https://mp.weixin.qq.com/s/gRrkoMQwrjXLk2D2QTUpIw

七、  灵敏度高达94.9%!牛津团队AI多模态ctDNA癌症早期筛查

1. 牛津团队开发基于TAPS的多模态ctDNA检测方法,可同时分析基因组和甲基化数据,在癌症早期筛查中灵敏度达94.9%、特异性达88.8%;

2. 该方法采用TET酶和硼烷组合,仅转化5%甲基化胞嘧啶,保留基因组信息,即使在低ctDNA含量下也能保持高灵敏度;

3. 通过整合拷贝数变异、体细胞突变和甲基化信号的多模态分析,成功应用于癌症早期检测和术后监测,为液体活检提供新技术路径。

https://mp.weixin.qq.com/s/vHkphm4gPOW04fLASkT5EQ

前沿科技

八、  智元机器人北大实习生推出OmniManip,引入自我校正机制

1. 智元机器人与北大团队推出OmniManip框架,通过对象规范化交互原语和双闭环规划执行系统,实现精确机器人操控,无需特定任务训练;

2. 引入RRC(重采样、渲染与检查)自我校正机制,通过闭环规划减少大模型幻觉问题,通过姿态跟踪实现实时闭环执行,提升系统稳定性;

3. 在12项真实场景操控任务测试中,该方法显著优于现有解决方案,将刚性与关节化对象操控任务性能提升15%以上。

https://mp.weixin.qq.com/s/JFhdMnBhWdEWYm5wMd4AQw

报告观点

九、  Anthropic CEO达沃斯惊人预测:2027年实现超人类水平AI

1. Anthropic CEO预测2027年前AI将超越人类水平,AI发展超预期,没有遇到技术瓶颈;

2. Claude即将推出网络访问、记忆功能,并已与亚马逊合作构建大型算力集群提升性能;

3. Anthropic强调与云计算巨头合作必要性,但通过多方合作保持独立,并重视AI安全与社会责任。

https://mp.weixin.qq.com/s/Fx5H2rXwFXvY81amnzMggg

十、  现代计算型强化学习之父:从瞬时到持续,迈向更好的深度学习

1. Rich Sutton提出动态深度学习新框架,强调从瞬时学习转向持续学习,解决传统深度学习在可塑性和遗忘问题上的局限;

2. 网络分为稳定的主干网络和探索性的边缘网络,通过影子权重机制,让边缘单元逐步融入主干,实现网络的动态成长;

3. 主干网络通过反向传播学习,边缘网络则利用影子权重和印刻机制,配合步长优化来防止灾难性遗忘。

https://mp.weixin.qq.com/s/bQdeNjefuom3PQVv70LPZw

AI50节选

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。
 最新文章