本周 AI 领域迎来多项重大进展:OpenAI 发布全新的 o1 模型,在复杂推理任务中展现出前所未有的能力;中文长文本大模型基准测评 SuperCLUE-Long 结果出炉,评估了多个主流模型的长文本处理能力;Claude 3.5 在一个创新的 Prompt 测试中展现出卓越的理解和生成能力。这些进展标志着 AI 技术正在向更高层次迈进,在复杂任务处理、长文本理解和创新应用等方面都取得了显著突破。
01
—
OpenAI 发布革命性 o1 模型
AI 能力跃升至新高度
OpenAI 在没有任何预告的情况下发布了全新的 o1 模型,这是一个在复杂推理任务中展现出惊人进步的 AI 模型。o1 模型在多个高难度测试中的表现远超前代模型,甚至在某些领域超越了人类专家水平。
o1 模型在 AIME 2024 数学竞赛中准确率达到 83.3%,远超 GPT-4 的 13.4%。
在代码竞赛中,o1 模型准确率达到 89%,而 GPT-4 仅为 11.0%。
在博士级科学问题(GPQA Diamond)上,o1 模型达到 78% 的准确率,超过人类专家水平(69.7%)。
OpenAI 重新设置了模型系列命名,将这一系列命名为 OpenAI o1,表明这是一个重大突破。
背后的原理
识别和纠正自己的错误 将复杂步骤分解为更简单的步骤 在当前方法不起作用时尝试不同的方法
为什么重要
标志着 AI 在复杂推理能力上的重大突破,向 AGI(通用人工智能)迈进了一大步。 o1 模型的能力可应用于医疗研究、物理学、软件开发等多个领域,有望推动这些领域的创新和发展。 作为新一代的数据飞轮,o1 模型有望加速 AI 技术的迭代和进步。
02
—
中文长文本大模型基准测评结果出炉
GPT-4 领先但国内模型紧随其后
GPT-4 以 68.39 分的成绩位居榜首,但仍有提升空间。
国内模型 Moonshot(kimi) 得分 66.79 分,仅落后 GPT-4 1.6 分。
不同模型在不同任务上各有优势,如豆包在数理分析任务中表现最佳。
部分模型在处理较长文本时会出现性能下降的情况。
3 个一级维度和 12 个二级维度的评估体系 不同文本长度(4K 到 128K)的测试 涵盖多种文本类型和任务类型 细粒度的评分标准
提供了中文长文本大模型能力的客观评估,有助于了解当前技术水平。 揭示了不同模型在长文本处理方面的优势和不足,为模型改进提供方向。 展示了国内大模型与国际顶尖模型的差距正在缩小,反映了中国 AI 技术的进步。
03
—
Claude 3.5 在创新 Prompt 测试中展现卓越能力
一个名为"汉语新解"的创新 Prompt 在 AI 社区引起关注,测试结果显示 Claude 3.5 在理解复杂指令和生成创意内容方面表现优异,远超其他模型。
Claude 3.5 能够准确理解并执行复杂的 Lisp 语言编写的 Prompt。
在生成创意文案和图像代码方面,Claude 3.5 表现出色。
Claude 3.5 的代码生成能力显著提升,能稳定输出 200 行代码。
采用 Self-play RL 技术进行强化学习 提升了模型对复杂指令的理解能力 增强了代码生成和创意内容生成能力
展示了 AI 模型在理解和执行复杂指令方面的重大进步。 为 AI 辅助创意和编程开辟了新的可能性。 预示着 AI 技术可能带来的产品开发和创新方式的革命性变化。
参考链接:试完这个神级Prompt,我发现Claude3.5确实就是现在的No.1。
04
—
总结