AI 广播站周刊-2024/09/16：OpenAI 全新发布 o1 模型，长文本大模型测评结果出炉

财富 2024-09-17 07:17 广东

本周 AI 领域迎来多项重大进展：OpenAI 发布全新的 o1 模型，在复杂推理任务中展现出前所未有的能力；中文长文本大模型基准测评 SuperCLUE-Long 结果出炉，评估了多个主流模型的长文本处理能力；Claude 3.5 在一个创新的 Prompt 测试中展现出卓越的理解和生成能力。这些进展标志着 AI 技术正在向更高层次迈进，在复杂任务处理、长文本理解和创新应用等方面都取得了显著突破。

—

OpenAI 发布革命性 o1 模型

AI 能力跃升至新高度

OpenAI 在没有任何预告的情况下发布了全新的 o1 模型，这是一个在复杂推理任务中展现出惊人进步的 AI 模型。o1 模型在多个高难度测试中的表现远超前代模型，甚至在某些领域超越了人类专家水平。

o1 模型在 AIME 2024 数学竞赛中准确率达到 83.3%，远超 GPT-4 的 13.4%。
在代码竞赛中，o1 模型准确率达到 89%，而 GPT-4 仅为 11.0%。
在博士级科学问题（GPQA Diamond）上，o1 模型达到 78% 的准确率，超过人类专家水平（69.7%）。
OpenAI 重新设置了模型系列命名，将这一系列命名为 OpenAI o1，表明这是一个重大突破。

背后的原理

o1 模型的核心技术是 Self-play RL（自我对弈强化学习），这使得模型能够：

识别和纠正自己的错误
将复杂步骤分解为更简单的步骤
在当前方法不起作用时尝试不同的方法

这些能力模拟了人类的"慢思考"过程，使 AI 能够处理更复杂的推理任务。

为什么重要

标志着 AI 在复杂推理能力上的重大突破，向 AGI（通用人工智能）迈进了一大步。
o1 模型的能力可应用于医疗研究、物理学、软件开发等多个领域，有望推动这些领域的创新和发展。
作为新一代的数据飞轮，o1 模型有望加速 AI 技术的迭代和进步。

参考链接：OpenAI全新发布o1模型 - 我们正式迈入了下一个时代。

—

中文长文本大模型基准测评结果出炉

GPT-4 领先但国内模型紧随其后

中文原生长文本测评基准 SuperCLUE-Long 发布了最新的榜单，评估了多个主流大模型在长文本处理方面的能力。测评涵盖了摘要、解析和创作三大任务，结果显示 GPT-4 仍然领先，但国内模型表现也很出色。

GPT-4 以 68.39 分的成绩位居榜首，但仍有提升空间。
国内模型 Moonshot(kimi) 得分 66.79 分，仅落后 GPT-4 1.6 分。
不同模型在不同任务上各有优势，如豆包在数理分析任务中表现最佳。
部分模型在处理较长文本时会出现性能下降的情况。

背后的原理

SuperCLUE-Long 基准测试采用了多维度评估方法，包括：

3 个一级维度和 12 个二级维度的评估体系
不同文本长度（4K 到 128K）的测试
涵盖多种文本类型和任务类型
细粒度的评分标准

为什么重要

提供了中文长文本大模型能力的客观评估，有助于了解当前技术水平。
揭示了不同模型在长文本处理方面的优势和不足，为模型改进提供方向。
展示了国内大模型与国际顶尖模型的差距正在缩小，反映了中国 AI 技术的进步。

参考链接：长长长文本大模型中文基准测评结果出炉！得分均未超过70分

—

Claude 3.5 在创新 Prompt 测试中展现卓越能力

一个名为"汉语新解"的创新 Prompt 在 AI 社区引起关注，测试结果显示 Claude 3.5 在理解复杂指令和生成创意内容方面表现优异，远超其他模型。

Claude 3.5 能够准确理解并执行复杂的 Lisp 语言编写的 Prompt。
在生成创意文案和图像代码方面，Claude 3.5 表现出色。
Claude 3.5 的代码生成能力显著提升，能稳定输出 200 行代码。

背后的原理

Claude 3.5 的卓越表现归功于以下几点：

采用 Self-play RL 技术进行强化学习
提升了模型对复杂指令的理解能力
增强了代码生成和创意内容生成能力

为什么重要

展示了 AI 模型在理解和执行复杂指令方面的重大进步。
为 AI 辅助创意和编程开辟了新的可能性。
预示着 AI 技术可能带来的产品开发和创新方式的革命性变化。

参考链接：试完这个神级Prompt，我发现Claude3.5确实就是现在的No.1。

—

总结

本周 AI 领域的重大进展集中体现在三个方面：复杂推理能力、长文本处理和创新应用。OpenAI 的 o1 模型在复杂推理任务中的惊人表现，标志着 AI 向 AGI 迈出了关键一步。SuperCLUE-Long 基准测评结果不仅展示了主流大模型的长文本处理能力，也反映出国内 AI 技术与国际水平的差距正在缩小。Claude 3.5 在创新 Prompt 测试中的出色表现，则揭示了 AI 在理解复杂指令和生成创意内容方面的潜力。

这些进展对 AI 从业者的启示主要有：

1. 复杂推理能力将成为未来 AI 模型的关键竞争点，需要更多关注 Self-play RL 等先进技术。

2. 长文本处理能力的提升将拓展 AI 在实际应用中的场景，如文档分析、学术研究等。

3. 创新的 Prompt 工程和应用将持续推动 AI 能力的边界，为产品开发和创意领域带来新机遇。

总的来说，这一周的发展表明 AI 技术正在以惊人的速度向更高层次迈进，为各行各业带来革命性的变革潜力。AI 从业者应当密切关注这些进展，积极探索新技术在实际应用中的可能性，同时也要思考 AI 发展带来的伦理和社会影响。

凡哥杂谈

三年后台研发路，一朝沦为产品汪。焊过板子，编过内核，写过前端，AGI 实干派。

最新文章

《小而美》：打造 10 亿美元级企业梦想破灭后的自我反思

《做难而正确的事》：爱上问题并倾听用户声音才是找到PMF的唯一途径

强化学习之父--里奇·萨顿：苦涩的教训，算力才是王道，摩尔定律仍有效

被大众低估的 OpenAI o1，如何开启 AI 新纪元

AI 广播站周刊-2024/09/16：OpenAI 全新发布 o1 模型，长文本大模型测评结果出炉

硅谷投资教父保罗·格雷厄姆：创始人模式 vs 经理人模式 vs 微观管理

Perplexity CEO：从未尝试在 Google 擅长的领域与其竞争

中国企业生成式 AI 应用落地现状？我们采访了数百家企业先行者

硅谷投资教父保罗·格雷厄姆：如何在复杂环境中做出正确决策

定价及定位：如何为 SaaS 产品中 AI 功能定价

SaaS 产品从 0 到 1 的艰辛历程：Atlassian 产品负责人独家揭密（上篇）

SaaS 产品从 0 到 1 的艰辛历程：Atlassian 产品负责人独家揭密（下篇）

重新定义用户增长策略：Duolingo 如何扭转局势

AI Agent：三个臭皮匠（低配模型+Agent）顶个诸葛亮（GPT-4o 或者更强大模型）

探索 Perplexity：产品经理的新式 AI 工具

硅谷教父保罗·格雷厄姆：追随你的好奇心并终生学习的超线性回报

Coze工作流的深度体验：打造家庭会议助手并浅谈插件生态

《李飞飞：我看见的世界》，一位人工智能领域先驱的不凡人生

AI 如何颠覆产品经理的工作模式

红杉 2024 AI 大会：生成式 AI 的机遇与挑战

《技术陷阱：从工业革命到AI时代，技术创新下的资本、劳动与权力》

张津剑·如何抓住 AI 带来的创业信号

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉