内乱后的OpenAI，开发者大会带来惊喜了吗？

科技 2024-10-02 17:46 北京

点击上方蓝字关注我们

OpenAI 的宫斗大戏刚落下帷幕，今日凌晨就在旧金山召开了第二届 DevDay 开发者大会。

不过，与去年盛大的活动相比，今年略显低调，他们没有推出重大产品，而是选择对其现有的 AI 工具和 API 进行增量改进。

在这次活动中，OpenAI 发布了四大API新功能：视觉微调（Vision Fine-Tuning）、实时 API（Realtime API）、模型蒸馏（Model Distillation）和提示缓存（Prompt Caching）。

这些新工具突出了 OpenAI 的战略转变，即转向赋予其开发者生态系统更多能力，而不是直接在最终用户应用领域竞争。

Sam Altman 也在 X 上表示，从 GPT-4 到 4o mini，每个 token 的成本降低 98%，同时处理 token 的数量暴涨 50 倍。

最后，Altman 还不忘「鼓舞士气」：通往 AGI 的道路从未如此清晰。

实时 API：构建快速的语音到语音体验

OpenAI 在开发者大会上正式推出实时 API 的公测版，允许所有付费开发者在他们的应用程序中构建低延迟、多模态的体验。

与 ChatGPT 的高级语音模式类似，实时 API 支持使用 API 中已经支持的 6 种预设语音进行自然的语音到语音对话。这意味着开发者可以开始将 ChatGPT 的语音控制添加到应用程序中。

他们还推出了聊天完成 API（Chat Completions API）中的音频输入和输出功能，以支持那些不需要实时 API 低延迟优势的使用场景。

以前，要创建类似的语音助手体验，开发者需要使用像 Whisper 这样的自动语音识别模型来转录音频，然后将文本传递给文本模型进行推理，最后使用文本到语音模型播放模型的输出。这种方法常常导致情感和口音的丢失，以及明显的延迟。

现在有了聊天完成 API，开发者可以用一个 API 调用来处理整个流程，尽管它仍然比人类对话慢。实时 API 通过直接流式传输音频输入和输出来改进这一点，使得会话体验更加自然。它还可以自动处理中断，就像 ChatGPT 中的高级语音模式一样。

实时 API 本质上简化了构建语音助手和其他会话 AI 工具的过程，消除了将多个模型组合用于转录、推理和文本到语音转换的需要。

例如，一个名为 Speak 的语言学习平台，使用实时 API 来驱动其角色扮演功能，鼓励用户练习用新语言进行对话。

实时 API 使用文本和音频 token 价格也已出炉。

文本输入 token 的价格是每 100 万个 5 美元，输出 token 每 100 万个 20 美元。

音频输入的价格是每 100 万个 100 美元，输出是每 100 万个 200 美元。这相当于每分钟音频输入约 0.06 美元，每分钟音频输出约 0.24 美元。

对于希望创建基于语音的应用程序的开发者来说，这个价格还是比较公道的。

视觉微调：使用图像和文本微调 GPT-4o

自从 OpenAI 在 GPT-4o 上首次引入微调功能以来，已经有成千上万的开发者使用仅限文本的数据集定制模型，以提高特定任务的性能。然而，在许多情况下，仅对文本进行模型微调并不能提供预期的性能提升。

因此，此次 OpenAI 宣布为 GPT-4o 引入视觉微调功能，允许开发者使用图像和文本来自定义模型的视觉理解能力，从而实现增强的视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测，以及更准确的医学图像分析等应用。

例如，东南亚的一家食品配送和共享出行公司 Grab 已经利用这项技术来改进其地图服务。仅使用 100 个示例的视觉微调，Grab 在车道计数准确率上提高了 20%，在限速标志定位上提升了 13%，超过了基础 GPT-4o 模型。

这一现实世界的应用展示了视觉微调的可能性，即使用少量的视觉训练数据，也能显著增强各行各业的人工智能服务。

目前，所有付费用户都可以使用视觉微调功能，直到 2024 年 10 月 31 日，OpenAI 每天为开发者提供免费的 100 万个训练 token，用于通过图像微调 GPT-4o 模型。

2024 年 10 月 31 日之后，微调 GPT-4o 模型的费用将是每 100 万个 token 25 美元，推理的费用是每 100 万个输入 token 3.75 美元，每 100 万个输出 token 15 美元。

提示缓存：成本可降低50%

许多开发者在构建 AI 应用程序时会在多个 API 调用中重复使用相同的上下文，比如在编辑代码库或与聊天机器人进行长时间、多轮次的对话时。

今天，OpenAI 引入了提示缓存（Prompt Caching），这是一个旨在降低开发者成本和延迟的功能。

该系统会自动对模型最近处理过的输入 tokens 应用打 50% 的折扣，对于频繁重复使用上下文的应用来说，这可能会带来成本的大幅降低。

提示缓存将自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini，以及这些模型的微调版本。

（来源：OpenAI）OpenAI 在 2024 DevDay 上公布的定价表显示，AI 模型使用成本大幅降低，缓存输入 tokens 相比未缓存 tokens 在各种 GPT 模型中最多可节省 50% 的费用。新的 o1 模型展示了其高级功能的溢价定价。

「我们一直很忙，」OpenAI 平台产品负责人奥利维尔・戈德蒙特（Olivier Godement）在公司旧金山总部举行的小型新闻发布会上说，「就在两年前，GPT-3 还处于领先地位。现在，我们已经将成本降低了近 1000 倍。我试图想出一个在两年内将成本降低了近 1000 倍的技术示例 —— 但我想不到这样的例子。」

这种显著的降成本，为初创企业和企业探索新应用提供了重大机遇，这些应用此前由于成本高昂而无法触及。

模型蒸馏：让小模型拥有尖端模型功能

OpenAI 此次还引入了模型蒸馏（Model Distillation）。这种集成的工作流程允许开发者使用 o1-preview 和 GPT-4o 等高级模型的输出，来提高像 GPT-4o mini 这样更高效模型的性能。

模型蒸馏涉及使用更强大的模型的输出来微调更小、更经济的模型，使它们能够在特定任务上以更低的成本匹配高级模型的性能。

直到现在，蒸馏一直是一个多步骤、容易出错的过程，需要开发者手动协调多个操作，从生成数据集到微调模型和测量性能提升。由于蒸馏本质上是迭代的，开发者需要重复运行每一步，增加了显著的工作量和复杂性。

OpenAI 新模型蒸馏套件包括：

存储完成：开发者现在可以通过自动捕获和存储我们的 API 生成的输入输出对，轻松地为蒸馏生成数据集，比如 GPT-4o 或 o1-preview。有了存储完成，你可以轻松地使用生产数据构建数据集来评估和微调模型。开发者可以查看这个集成指南来学习如何选择存储完成。

评估（beta）：开发者现在可以在我们平台上创建和运行自定义评估，以测量模型在特定任务上的性能。与手动创建评估脚本和整合不同的日志工具相比，评估提供了一种集成的方式来测量模型性能。你可以使用存储完成的数据或上传现有数据集来设置你的评估。评估也可以独立于微调使用，以定量评估模型在用例中的性能。

微调：存储完成和评估完全集成到我们现有的微调服务中。这意味着开发者可以在他们的微调作业中使用存储完成创建的数据集，并使用评估在微调模型上运行评估，所有这些都在我们的平台上完成。

这种方法可以使小型公司利用与高级模型相似的能力，而不必承担相同的计算成本。它解决了 AI 行业中长期存在的一个分歧，即尖端、资源密集型系统与更易访问但能力较弱的对应系统之间的分歧。

比如一家小型医疗技术初创公司，该公司正在为农村诊所开发一个 AI 驱动的诊断工具。使用模型蒸馏，该公司可以训练一个紧凑的模型，该模型在标准笔记本电脑或平板电脑上运行时，能够捕捉到更大模型的大部分诊断能力。这可能会将复杂的 AI 能力带到资源受限的环境中，有可能改善服务不足地区的医疗保健结果。

总体来说，今年 OpenAI 的开发者大会稍显低调，甚至可以说是乏善可陈。

要知道，2023 年 DevDay 开发者大会上，OpenAI 推出了 GPT Store 和自定义 GPT 创建工具，不少网友将其称为「iPhone 时刻」。

这似乎也意味着，OpenAI 正进行战略转变，优先考虑生态系统的发展，而不是仅发布吸引人眼球的重磅产品。

领略科技魅力，体验出彩产品！加入我们的群组，一起探讨、分享最新的科技资讯，扫码即刻加入！如若下方二维码失效则可以进入公众号在对话框中输入“福利群”即可。

往期推荐

无人机充当国庆堵车闹钟，AI智驾能否代替？

印度制造梦碎？印度iPhone工厂火灾背后的隐忧

提供线索及合作，请在后台回复“合作”

声明：此公号（ID：TechVortex）发布内容和图片的目的在于传播更多信息，版权归原作者所有，不为商业用途，如有侵犯，敬请作者与我们联系。

http://mp.weixin.qq.com/s?__biz=MjM5NTU5NjU5NA==&mid=2447823882&idx=1&sn=cd565687b09419b2f705e2add3f24752

科技旋涡

专注于科技、智能、硬件领域。实时解析科技趋势，全面报道产品发布，深度解读技术突破，助您把握科技前沿动态，洞见未来生活。

最新文章

“杨笠代言”事件再升级，连京东金融都遭遇挤兑？

22亿投资的张家界古城客流惨淡，文旅的未来在哪？

钛度热评来线下啦！10月25日科技文旅活动，欢迎您来

京东请杨笠代言，引消费者退款抵制，脱口秀演员代言为何屡遭非议？

涉及国家安全不容小觑！多家汽车智驾企业连夜发声

航空评测网红被拘，账号被禁

连特斯拉都在照顾中国观众，联想创新大会为何在凌晨？

顺丰员工“偷家”京东奖励1.2万，双十一前夕惊现商战大片？

获赔5000万元？成都的居民真·一夜暴富了吗？

听泉鉴宝北大学历是假，高学历抽象人设崩塌？

知名导演喊话马斯克抄袭机器人设计

BOE（京东方）登峰 · 造极旗舰新品发布会盛大举行携手一加定义高端柔性OLED新标杆

网红主播接连塌房，都是他们自找的？

告别“算术题”，今年的双十一你会“剁手”吗？

发力智能家居，苹果要做加强版小米？

没见过世面的老美，居然让字节跳动版“小红书”海外爆火了

学到了周鸿祎的精髓，漏雨迈巴赫的流量谁接住了？

“缺乏信仰”是我国AI落后的主因，清华教授真这么说的？

没有方向盘的特斯拉，百度有机会超越吗？

AMD=英特尔+英伟达，如此野心能否实现？

劝人炒股的大蓝被骂，他有什么可委屈的？

科技进步画质倒退，亏钱是视频平台喊冤的理由吗？

车圈女神宋紫薇与Redmi明星，自由和专注哪个更重要？

百度自动驾驶闯世界，胜算几何？

频繁换号删视频，东北雨姐大约是慌了

纯血鸿蒙公测，京东、钉钉上架，微信还在内测

卷不动也要硬卷的苹果玩起分散式发布策略

腾讯会当“刺客信条”开发商育碧的接盘侠吗？