阿里云发布 Qwen2.5-Coder 32B-Instruct 模型
Scaling Law “撞墙”,OpenAI 策略转向新模型 o1,GPT-5 或告别经典命名
大模型在数学新基准“FrontierMath”集体翻车,正确率不足2%,陶哲轩称还需数年努力
Anthropic CEO 大胆预测 2027 年前实现 AGI,百亿级 AI 数据中心即将诞生
AlphaFold3 代码开源,生命科学研究迎来新里程碑
Gemini 接入 OpenAI 库,开发者可快速上手
Google 正在 iPhone 上测试一款独立的「Google Gemini」应用
国内外 AI 要闻
阿里云发布 Qwen2.5-Coder 32B-Instruct 模型
今日,阿里云发布 Qwen2.5-Coder 32B-Instruct 模型,标志着开源模型达到 SOTA 水准,代码生成和修复能力接近 GPT-4,特别是在 EvalPlus、LiveCodeBench 等基准测试中表现优异,在代码推理、多语言支持和代码修复方面脱颖而出,覆盖超过 40 种编程语言。
Qwen2.5-Coder 系列新增 0.5B、3B、14B 和 32B 四个尺寸,全系列如今涵盖从 0.5B 到 32B 的六个主要模型尺寸,以满足不同开发者需求,0.5B 和 1.5B 适合资源有限的设备,32B 则更适合大规模开发。每个尺寸提供基础版本(Base)供二次开发以及指令版本(Instruct)供直接使用。Qwen2.5-Coder 在 Artifacts 场景中能够生成适用于可视化展示的代码内容,如曲线图、简历模板、小游戏等,并可在 Open WebUI 平台应用。支持生成网站、小游戏、数据图表等多种可视化应用,将在通义官网上线相应支持功能,简化开发者的创作流程。
另外,Qwen 官方还在今天暗示下个月将会有新发布,敬请期待。
Scaling Law “撞墙”,OpenAI 策略转向新模型 o1,GPT-5 或告别经典命名
近日,外媒 The Information 报道,OpenAI 下一代模型“猎户座”(Orion)性能提升不如预期,未能达到 GPT-4 相对 GPT-3 的突破幅度,或标志 AI 模型进入收益递减阶段。尽管“猎户座”仅完成20%训练便达到了GPT-4性能,但因高质量数据有限,传统 Scaling Law 已遇到瓶颈,导致改进速度放缓,高昂的训练成本也加大了财务压力。
消息放出后,在 AI 圈引起轩然大波,悲观派学者 Gary Marcus 加以警告:“若这种趋势持续,AI 公司估值可能下降,并引发行业价格战。”
随后,The Information 在今日临时“打补丁”,在最新报道中进一步披露 OpenAI 将通过测试时的计算优化以提升 LLM 性能,但受限于数据质量和资源,传统 Scaling 的效果仍在减弱。CEO 奥特曼在 Reddit 上透露,公司已将重点转向“o1”及其后续版本,而非继续扩展 GPT 系列,因为计算资源不足,难以同时推进多个大型模型。他暗示未来或不再沿用 2018 年始于 GPT-1 的命名方式,可能将猎户座与 Q*/Strawberry 推理功能结合,形成新代号“o2”模型。该逻辑推理框架引入了新的扩展可能性,通过对数线性计算扩展提升推理质量,然而 o1 运行成本是传统模型的 6 倍,暂时限制了市场推广。
大模型在数学新基准“FrontierMath”集体翻车,正确率不足 2%,陶哲轩称还需数年努力
近日,由菲尔兹奖得主陶哲轩等 60 余位顶尖数学家参与设计的全新数学基准“FrontierMath”正式推出,旨在测试 AI 模型的高级数学推理能力。该基准包含数百道原创高难度数学问题,涵盖数论、代数几何、范畴论等多个现代数学分支。尽管 AI 模型在现有数学基准上表现优异,常见正确率超过 90%,但在 FrontierMath 上,包括 o1、Claude 3.5、GPT-4o 和 Gemini 1.5 Pro在内的先进模型,正确率均未能突破 2%。
此基准由非营利组织 Epoch AI 发起,其目的是解决 AI 在常规基准测试中表现过于优异的问题,因部分基准题目可能已在训练数据中被“污染”,影响模型对真正未知问题的解题能力。FrontierMath 的设计遵循三个原则:确保问题全新且未发表、答案自动可验证,以及防止通过简单猜测得出答案。为此,机构严格控制了题目的保密性,使用加密通信和专门的抄袭检测工具,避免数据泄露或重复性题目出现。
测试结束后,陶哲轩等数学家表示,这些题目将继续困扰大模型,模型至少还需数年改进才能应对。Epoch AI 表示,他们将定期评估大模型在 FrontierMath 上的表现,同时逐步增加题目数量,确保题目难度与挑战性不变。此外,机构计划在未来发布部分题目供公众讨论,并加强专家审查流程,以提高基准的可靠性。AI 专家 Andrej Karpathy 表示,对 FrontierMath 的引入充满期待,并呼吁为更多复杂但重要的任务创建新基准,探索 AI 模型在逻辑推理、长程规划和自适应多模态任务中的潜力。
Anthropic CEO 大胆预测 2027 年前实现 AGI,百亿级 AI 数据中心即将诞生
近日,Anthropic CEO Dario Amodei 接受知名播客 Lex Fridman 采访,阐述了对 AI 未来发展的看法。Anthropic 是一家领先的 AI 研究公司,开发了 Claude 系列 AI 模型,致力于在强大性能与安全控制之间寻找平衡。
采访中,Amodei 明确表示“人类智能并非智能上限,未来 AI 的智力水平完全有可能超越人类。” 他还指出:“在智能的顶端有很大的空间,让 AI 变得更聪明。” 这意味着 Anthropic 不仅关注 AI 在现有智能水平上的发展,还在探索 AI 超越人类智能的可能性。
谈到 AI 的进展规律,Amodei 认为 Scaling Law 仍将有效,并称其存在某种“神奇之处”,尽管理论解释尚不充分。基于这一推论,他预测 AGI(通用人工智能)可能在 2026 或 2027 年实现。Anthropic 的研究方向也与此高度吻合,其团队专注于通过大规模模型提升 AI 的认知能力,同时在安全性和可控性上采取严谨措施。
AlphaFold3 代码开源,生命科学研究迎来新里程碑
近日,谷歌宣布开源其备受瞩目的 AI 模型 AlphaFold3,所有科学家现可免费下载并自行运行代码。这一突破直接获得了 Nature 推荐,并在 GitHub 上引发关注,短短几小时就收获了超过 1.5k 星。
与前两代不同,AlphaFold3 不仅能预测蛋白质结构,还扩展到所有生命分子的相互作用预测。这包括 DNA、RNA、配体、离子、化学修饰等广泛的生物分子结构,开启了探索生命基本过程的新方向。DeepMind AlphaFold 团队负责人、诺贝尔奖得主 John Jumper 表示:“我们非常期待看到科学家们利用这一技术的成果。”在药物发现、疾病治疗等方面,AlphaFold3 的发布将大幅缩短实验时间并降低研究成本。
今年 5 月,AlphaFold3 发布时 DeepMind 仅开放服务器使用权限,每位用户每天只能进行 10 次预测,引发科学界关于透明性和可重复性的争议。科学家批评此限制阻碍了研究自由,质疑 DeepMind 可能借 AlphaFold3 独家推动旗下药物开发公司 Isomorphic Labs 的利益。对此,DeepMind 承诺将在半年内发布完全开源版本,并兑现了这一承诺,模型权重虽需申请但大体开放。
DeepMind 的科学 AI 主管 Pushmeet Kohli 透露,目前已有多个 AlphaFold3 的复现版本流传,显示该模型在未完全开源时就被成功复现。
GitHub 链接:
https://github.com/google-deepmind/alphafold3?tab=readme-ov-file
Gemini 接入 OpenAI 库,开发者可快速上手
谷歌 AI 产品经理 Logan Kilpatrick 宣布,自今日起,开发者可通过 OpenAI Library 和 REST API 调用最新的 Gemini 模型。只需更新三行代码,即可快速使用 Gemini 进行开发。目前支持 Chat Completions 和 Embeddings API,更多兼容性功能将在未来推出。Gemini 的加入使开发AI应用更加便捷。
Google 正在 iPhone 上测试一款独立的「Google Gemini」应用
谷歌近日正在测试 iOS 的独立 Gemini 应用,这款新应用将包含目前在 iOS 上无法使用的 Gemini Live 功能,允许用户通过语音命令与 AI 对话。Gemini Live 首次亮相于 2024 年的 Made by Google 大会,其类似 ChatGPT 的高级语音功能,也具有视觉能力。该功能自 2024 年 9 月起已经可供 Android 用户使用,很有可能随着 Gemini 2.0 的发布一同正式上线。