圣诞特辑!OpenAI近期动作大盘点!一文get领头军OpenAI全套战略布局!多模态、端侧布局、用户体验、开发者生态..AGI

文摘   2024-12-25 18:04   浙江  

点击箭头处“蓝色字”,关注我们哦!!



OpenAI的“12天直播”活动从12月5日持续到12月20日,期间发布内容涵盖了技术、产品形态、商业模式和产业生态等多个领域的重要更新,包括完整的推理模型 o1、强化微调、文生视频 Sora、更强的写作和编程工具 Canvas、与 Apple 生态系统的深度整合、语音和视觉功能、Projects 功能、ChatGPT 搜索、给 ChatGPT 打电话和 WhatsApp 聊天等等。


(我大概是全网最后一个来总结的吧TT..但作为圣诞礼物再回顾一下是不是也还说得过去!)

这其中第12天发布的o3 实属重量级王炸,作为 o1 的下一代推理模型,在数学、代码、物理等多项测试中表现惊人,甚至被业内评价—「AGI 已来」。

也许正如之前参与开发了o1的 OpenAI科学家Noam Brown在采访中说的一样,“2024年,OpenAI是在实验,而2025年就是全速前进的一年。”

发布内容速览:

发布内容重点回顾

王炸模型O3:《o3 preview & call for safety researchers》

推出新模型o3,在数学、代码等领域超越前代

OpenAI发布了新模型o3和o3-mini(没法O2是因为跟英国电信服务提供商O2可能存在版权或商标冲突,所以直接跳过了O2,发布o3)

在SWE-Bench Verified软件工程考试中,o3 的成绩:71.7%,比O1模型高出20%以上。在实用性上迈出了重要的一步。

另外,在竞争编码方面,O1在一个叫 Codeforces 的比赛网站上达到了1891的ELO分数,而O3几乎可以达到2727的ELO分数,甚至超过了OpenAI的首席科学家雅科夫高的得分,这个得分相当于整个榜单的第175名,已经超越了99.99%的人类了。

在竞赛数学基准AIEM 2024上O3获得了96.7分,在评估模型在博士级科学问题的基准GPQA Diamond上得到了87分,这里的表现并没有数学和编程进化的那么突出,但也取得了很先进的一个进展。

接下来是Epic AI的前沿数学基准测试,这个基准被认为是目前最难的数学测试,包含了新颖的、未发表的,以及非常难到极难的数学问题的数据集。即使是专业数学家,解决其中一个问题也得花上好几个小时甚至几天,目前现在所有的测试结果准确率都不到2%,而在O3的激进测试时间设置下,可以达到超过25%的分数!

接下来的内容算得上是惊喜和惊艳了-Arc AGI

Arc Prise基金会现在是一个非营利组织,使命是引领通用人工智能(AGI)的发展。该组织的第一个基准测试Arc AGI是在2019年由Francois Chollet提出的,他在一篇关于智力测量的论文中介绍了这个概念。然而,在人工智能领域,这个基准已经保持了5年的不败纪录,因此,能够超越Arc AGI的系统将是通用智能发展的一个重要里程碑。

简单理解下ARC-AGI的特别之处,因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。而关于增强型通用人工智能(AR AGI)独特的地方就在于此——每个任务都需要不同的技能,要求AI识别模式规律,并进行迁移以解决新遇到的问题。答题方式是需要根据给定的输入生成正确的输出,测试其推理和抽象能力,也就是找规律。(有点像很多大厂面试时的智力测试考试...)

这也就意味着Arc AGI考验模型的不是死记硬背,而是真正在解决问题的能力。Arc AGI的第一个版本花了5年时间才从0%提升到5%,而O3在低计算条件下验证过,得分是75,而在允许更长时间的思考,并且实际提高计算能力时,O3的得分达到了85。下面这张图可以直观的看出来历代openAI的模型的得分:

而对应的,人类的阈值分数,是85%。不过虽然ARC-AGI测试中表现出色,但也并不意味着o3已达到了AGI水平,因为它仍会在一些非常简单的任务中失败,和人类智能有根本性的差别。

根据 ARC-AGI 测试标准,o3-low(低计算量模式)每个任务耗费 20 美金,o3-high(高计算量模式)每个任务耗费数千美金——哪怕问一个最简单的问题,也要花费近两万元。收益和成本目前还无法持平,或许o3还需要一段时间才能有落地的可能。

目前O3还在红队大佬的体验圈内并没有对公众开放,申请地址如下:https://openai.com/index/early-access-for-safety-testing/

O3虽然还不给用,但OpenAI基于o3训练的小尺寸模型O3-mini还有有盼头的,预估在1月底可以对外开放。

几天前OpenAI在API中发布了自适应思维时间,而O3-mini将支持三种不同的选项:低、中、高思维努力,用户可以自由调整思维方式。下面是三种思考模式的O3-mini在一些基准测试中的战绩对比。

完整版O1:发布完整版O1模型与图像分析功能

OpenAI发布了完整版的O1模型:

1. 多模态图像识别功能解锁:O1 正式版全面解锁了多模态图像识别功能,它使 O1 能够对图像进行更复杂的分析和处理,比如转录手写笔记、测算物体的相对大小、以及对特定图纸进行深入的解读和推理。

2. 错误率下降34%:相比之前的模型,o1模型在处理复杂问题时显著减少了错误率,特别是在编程和数学计算方面表现优异。

3. 响应时间提升60%:对于简单问题的回答速度比 O1-preview 快了约 60%。以查询 “罗马帝国在公元 2 世纪的统治者及其成就” 为例,O1 用时仅需 18 秒,而 O1-preview 则需要 34 秒,极大地提升了用户获取信息的效率。

4. 推理与逻辑能力提升:在国际数学奥林匹克预选赛题目(AIME 2024)、编程能力测试(CodeForces)中,其解决问题的能力大幅提高,能解决高达 83% 的问题,相比之下,前一版本 GPT-4O 仅能解决 13%。

但它的价格也相当贵,只有200美金的ChatGPT Pro版订阅用户才能享受无限使用,其他普通20美元订阅用户仅能享受每日20次使用权限。特别是 O1 Pro 模式下可以利用更多的计算资源,在处理数学、科学、编码等复杂问题时表现更为出色。

强化微调技术(RFT)

OpenAI介绍了强化微调(AI Reinforcement Fine-Tuning)技术,这是一种新的模型训练方法,指的是模型能通过少量数据,优化推理能力、提升性能,结合强化学习算法优化模型的输出,使其更符合用户的预期。

具体来说,在训练过程中,首先使用监督微调方法对模型进行预热,让模型对特定领域的知识有初步的了解。接着采用在线强化学习算法(如 PPO 算法)对模型进行进一步优化,模型根据给定的问题自动采样大量的推理路径,并根据真实答案来获取奖励或惩罚信号。

OpenAI 还引入了评分器的概念,评分器能够根据参考答案对模型的回应进行精确评分,从而为强化学习算法提供有效的反馈信号,促使模型性能不断提升,逐渐学会在特定领域中高效推理和准确回答问题的能力。

RFT技术尤其适合在精细化领域的应用中,OpenAI 技术人士称,它能帮助任何需要在 AI 模型方面拥有深厚专业知识的领域,比如法律、金融、工程、保险。OpenAI通过强化学习推进AI模型的自我优化,这在长期将加速行业应用的深化。

不过RFT预计要到2025年春季才开放给用户。

Sora文本转视频模型的独立发布

OpenAI推出了Sora文本转视频模型的正式版,支持生成高达1080p分辨率、最长20秒的视频,并提供多种视频编辑功能。Sora目前仅面向ChatGPT Plus和Pro用户开放。

年初 OpenAI 发布 Sora 的 demo 时,引发了全球科技圈的震撼。Sora具备基本的高质量视频生成能力,能够生成包含多个角色、特定动作类型,且主体与背景细节精确的复杂场景。不仅能够精准理解用户在提示中所提出的要求,还能深入把握这些元素在现实世界中的呈现方式,生成的视频在质量、细节和一致性方面都表现出色。

但这一年期间,字节、快手、MiniMax、智谱、生数、爱诗等公司均推出了自己的文生视频产品,Sora 的效果和实力综合来看并无明显领先优势。

但是亮点的部分在于OpenAI 确实更关注产品体验了,在基础的文生视频、图生视频以外,提供了一些提升视频创作体验的编辑功能,比如故事板功能,它相当于按时间轴的方式,把一段故事(视频)切成了多个不同的故事卡(视频帧)。用户只需要设计和调整每张故事卡(视频帧),Sora 会自动把它们补成一段流畅的故事(视频)——这很像电影里的分镜、动画的手稿,当导演画好分镜、漫画师写好手稿、一个动画、片子就做好了。它能让创作者更好地表达自己。

除了基础的视频生成和故事板功能外,Sora 还提供了一系列高级视频编辑功能,相当于为视频添加了特效。其中包括:Re-cut(重新剪切)、Remix(重新组合)、Blend(融合)、Style Presets(风格预设)。可以文字直接修改视频、无缝融合两段不同的视频、给视频改变画风等功能,它们相当于是直接给视频加「特效」了。而一般的文生视频产品,无法直接修改原视频,只能不断调整 prompt(提示词)、生成新视频,给创作者了更大的自由创作空间。

这也对应到了Sam Altman在发布上阐释的做 Sora 的原因:一是工具性价值,为创意人员提供创作工具;二是交互价值,大模型不应只通过文本交互,也应扩展多模态;三是Sora和 AGI 技术愿景是一致的,Sora 在学习更多关于世界的规律,在向着建立理解物理规律的世界模型而努力。

虽然目前Sora的效果没有达到大家一整年的预期,但是Sora 发布后、会有更多人来尝试和探索它的物理模拟能力,这些反馈也会推送Sora的不断优化,我们期待住!

Canvas功能正式发布

Canvas 是OpenAI推出的一款全新创作工具,是OpenAI尝试从聊天机器人向生产力工具转型的标志,也是OpenAI首次尝试打造AI版Google Docs的产品。

作为 AI 版的 Google Docs,具备智能写作助手的功能。它能够为用户提供编辑意见,帮助用户优化文章的结构、语法和表达。

Canvas 内置了 webassembly python 模拟器,创造了一个几乎无延迟的编程环境,为程序员提供了便捷的代码协作平台。提供了一个共享画布,用户和ChatGPT可以共同编辑文档和代码,Canvas不仅能够理解代码的意图,还能提供相关的代码示例和解释,帮助程序员更快地编写和调试代码。

Canvas同时上线了定制化 AI 智能体的能力,用户可以根据自己的需求创建和训练特定的 AI 智能体,使其能够完成一系列复杂的操作。

Canvas的三大功能无缝集成,构成了一个多功能的创作工作室。然而,单独对比功能,其文本编辑不如Claude的Artifacts,编程便利性也逊色于Cursor。

ChatGPT与苹果设备的整合

OpenAI宣布积极推动与苹果等企业的深度合作,探索 AI 融入终端设备和操作系统。ChatGPT将正式集成到Apple Intelligence苹果智能生态,融入 iOS、MacOS 和 iPadOS,支持用户跨平台、跨应用调用 AI 能力,整合主要体现在三个方面:

与Siri协同:用户可以通过Siri使用ChatGPT的功能,Siri可以复杂任务移交给ChatGPT处理。

写作工具(Writing Tools)能力:支持从零开始撰写文档、细化、文档润色、总结和提取关键点等。

视觉智能(Visual Intelligence):通过iPhone 16的相机控制功能,用户可以深入了解拍摄对象,智能识别场景内容

通过这次合作,ChatGPT 触达了全球数十亿苹果用户,也开启了大模型与端侧、操作系统合作的先例。

这一合作足以看出OpenAI在跨平台用户体验的战略布局,ChatGPT 会从单纯的会话助手向更为强大的代理工具转变,据说OpenAI 创立之初的愿景就是打造一个「无所不能」的 Agent,它能理解人类的指令、自动调用不同的工具、满足人类的需要。发布会的现场演示中,用户在 Apple Notes 中设定「节日派对歌单」,并语音征询 ChatGPT 对候选歌曲的意见。ChatGPT 能指出用户的错误,如将圣诞歌曲《Frosty the Snowman》误写为《Freezy the Snowman》。

OpenAI 推出屏幕共享与视频聊天功能

OpenAI 宣布在其高级语音模式中新增了期待已久的视频聊天和屏幕共享功能。支持屏幕共享的视频通话和圣诞老人语音模式,视频通话功能允许用户在与AI对话时分享屏幕或展示周围环境,而圣诞老人语音模式则为节日氛围增添了趣味。本次升级主要内容如下:

语音功能升级:新的语音合成技术让AI的语音更加接近人类,语调和情感表达更加真实;支持多语言交互,适合跨文化交流场景,为教育、客服等领域提供专业的语音解决方案。

视频功能增强:通过结合语音与视频,用户可以使用ChatGPT制作带有语音解说的视频内容,这为在线教育、企业演示等场景提供了极大的便利。

实时视频通话与交互:OpenAI 的高级视频语音模式早在 5 月 13 日的 gpt-4o 演示中就已出现,此次正式亮相。该模式允许工作人员与 gpt-4o 进行视频通话,gpt-4o 不仅能够看到实时的手机屏幕内容,还能根据相机里的实时画面和用户聊天或解答问题。

这一新功能现已在 iOS 和 Android 移动应用程序中向 ChatGPT Teams、Plus 和 Pro 用户开放,预计将在明年1月向 ChatGPT 企业版和教育版订阅用户推送。不过,来自欧盟、瑞士、冰岛、挪威和列支敦士登的用户将无法使用这一高级语音模式。

ChatGPT 的屏幕共享功能与微软和谷歌近期推出的类似功能有相似之处。微软近期推出了 C o p i l o t Vision 的预览版本,允许 Pro 订阅用户在浏览网页时打开 C o p i l o t 聊天,能够识别网页上的照片或帮助进行地图猜谜游戏。而谷歌的 Project Astra 也可以以相似方式读取浏览器内容。

另外OpenAI 还推出了一个轻松有趣的 “圣诞老人模式”,用户可以与模仿圣诞老人声音的 ChatGPT 进行对话。

Projects对话管理模块

OpenAI推出了新的组织功能“Projects”,帮助用户管理与特定任务相关的对话和文件。用户可以将相关资料、文件、聊天记录等信息集中到一个“Project”中,支持项目管理与写作、文件与数据管理,让对话更加有针对性,AI的回答更贴近需求。

ChatGPT搜索功能开放

OpenAI宣布将ChatGPT的搜索功能向所有免费用户开放,并优化了速度和移动端体验。用户可以像使用传统搜索引擎一样进行搜索,还新增了地图界面和语音搜索功能。

用户可以在对话中直接进行搜索,并且搜索结果支持多模态输出。搜索结果的呈现形式更加丰富,包含地图、图片、列表,甚至视频等。

OpenAI 宣布将 ChatGPT 的搜索功能向全体用户免费开放,此前该功能仅限 Plus 会员和 Team 用户使用。这一举措使所有人都能使用 SearchGPT 集成到 ChatGPT 中的实时搜索内容功能,尽管目前功能不及Google Search全面,但这一改进使得ChatGPT在信息获取上的能力得到了显著提升,对传统搜索引擎构成了一定威胁。

O1模型API开放

OpenAI正式推出 OpenAI o1 和多项开发者工具,作为o1-preview 的继任者,在处理复杂多步骤任务方面精度更高,在简化客户支持、优化供应链决策和预测复杂财务趋势等领域展现出巨大潜力。

o1 模型关键功能:包括函数调用,可无缝连接到外部数据和 api;结构化输出,能生成遵守自定义 json 架构的响应;开发人员消息,可定义模型的语气、样式等行为指导;视觉功能,能够对图像进行推理;更低延迟,其使用的推理令牌比 o1-preview 平均少 60%;以及 'reasoning_effort'api 参数,可控制模型在回答前的思考时间。

实时 api 更新:引入了 webrtc 集成,简化了实时语音应用的构建和扩展,提供流畅且响应迅速的交互体验

首选项微调与新 sdk 推出:首选项微调技术可教模型区分首选输出和非首选输出,适用于主观任务,能提高模型性能。此外,还推出了 go 和 java 两个新的官方 sdk,扩展了开发者生态,方便开发者使用 OpenAI 的模型构建更智能、更高效的应用程序。

更低成本、更高质量的 4o 语音模型:4o 音频价格下调 60%,降至输入 $40/百万 tokens、输出 $80/百万 tokens,缓存音频价格降低 87.5%、至 $2.50/百万 tokens;对于预算有限的开发者,OpenAI 推出 GPT-4o mini,音频费用仅为 4o 的四分之一。

API接口的开放让开发者能够更方便地将OpenAI的强大模型整合到自己的应用中。通过降低音频处理成本和推出GPT-4o mini,OpenAI进一步降低了使用门槛,其更新的实时语音、视觉识别等功能,将能更好地在助力营销、电话客服和销售外呼等场景应用的发展。

通过电话和WhatsApp与ChatGPT互动

OpenAI推出了一个创新的服务:通过免费电话号码(1-800-CHATGPT)和WhatsApp提供ChatGPT服务,美国用户每月可拨打该号码享受 15 分钟的免费通话。同时上线的还有 WhatsApp 联系人(1-800-242-8478),全球任何用户均可通过 WhatsApp 向该号码发送消息,目前只限文字信息。

通过电话和WhatsApp提供服务,OpenAI让AI助手变得更加普及和易接触,尤其是在网络不稳定或对智能手机不熟悉的用户群体中,全球部分国家、地区的智能手机和移动互联网渗透率还远远不足,通过电话这种最基础的通讯工具,ChatGPT 触达了这些人群。同时它也通过 WhatsApp,触达了其近 30 亿用户,实属非常创新和普惠的智能服务方式了。

ChatGPT与桌面软件集成

OpenAI扩展了ChatGPT与桌面软件的集成,支持与JetBrains系列IDE、VS Code、Apple Notes、Notion等工具的无缝对接。这使得ChatGPT能够在更多的编程和生产力工具中发挥作用,极大提升了用户的工作效率。

对于Windows用户而言,新版本的应用程序引入了几项新功能,如Alt + Space快捷键可快速调出ChatGPT;伴随窗口功能允许用户恢复之前的对话;屏幕共享和高级语音模式则提升了协作和交流的体验。这些改进基于用户的反馈进行了优化。

面向macOS用户,新推出的ChatGPT桌面应用特别加强了对开发者的支持。“应用协同工作”功能让用户授权后,ChatGPT可以访问并读取其他应用程序中的内容。此功能目前支持的开发者工具包括VS Code、Xcode、TextEdit、Terminal和iTerm2。这使得开发者无需复制粘贴代码片段,ChatGPT可以直接分析应用中的代码,提供更智能、上下文相关的建议。该功能目前仅限于Plus和Team用户使用,未来将扩展至企业和教育账户。

总结

通过这场为期12天的发布会,OpenAI展现了其在推动人工智能领域技术革新与应用普及方面的强大能力与影响力,也为整个行业的发展提供了新的方向和动力。这些发布不仅展示了OpenAI的技术进展,也展现了其在AI多模态能力、开发者生态、企业应用和用户体验方面的战略布局。

但是尽管第12天的王炸o3发布的的确确让我们看到了更多AGI的可能,但就短期来看,模型和落地应用之间还有很大距离。只有实现 AGI 的大众化、普惠化,即让每个人拥有自己的大模型、解决好自己日常的问题,才意味着真正的智能革命。

HAPPY CHRISTMAS

圣诞快乐呀!




同桌的AI小纸条
一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用,探索人工智能领域的无限可能,并征服他们,让AI赋能生活快乐每一天!
 最新文章