OpenAI DevDay 2024：实时 API、视觉微调与模型蒸馏发布

文摘 2024-10-03 09:57 美国

2024 年 10 月 1 日，OpenAI DevDay 开发者大会在旧金山、伦敦和新加坡三地盛大举行，为全球开发者带来了一场 AI 领域的饕餮盛宴。大会上，OpenAI 发布了一系列重磅产品和功能更新，实时 API、视觉微调 API、提示缓存以及模型蒸馏技术的横空出世，将 AI 开发的门槛大幅降低，开发效率显著提升，赋能开发者以更低的成本、更快的速度构建更加强大、更具商业价值的 AI 应用程序！

一、实时 API：流畅语音交互，打造如真人般 AI 体验

试想一下，你只需说一句话，AI 就能立刻理解你的意图，并用自然流畅的语音与你进行实时对话，如同与真人交谈一般，这将是一种怎样的体验？ OpenAI 推出的实时 API (Realtime API) 让这一切成为可能！

实时 API 基于强大的 GPT-4o 模型，支持自然语音对话，并提供六种预设语音，为用户带来更接近真人对话的体验。开发者无需再将语音识别、文本生成、语音合成等多个模型拼接在一起，只需使用单个 API 调用，即可构建完整的语音交互体验，大大简化了开发流程。

实时 API 还支持函数调用，使语音助手能够通过触发操作或访问外部信息来响应用户请求，例如帮助用户下单、查询信息或个性化回复等。这意味着开发者可以利用实时 API 构建功能更强大、更智能的语音助手。

实时 API 的应用场景非常广泛，例如：

• 语言学习应用： 实时 API 可以模拟真人对话，为用户提供更沉浸式的语言学习体验。例如，Healthify 和 Speak 等公司已经开始利用实时 API 为其应用赋能，打造更自然、更便捷的用户体验。
• 智能客服： 实时 API 可以实现自然流畅的语音交互，提升用户咨询体验，降低人工客服成本。
• 语音助手： 实时 API 可以帮助开发者构建更智能的语音助手，能够理解更复杂的指令，执行更复杂的任务。

二、视觉微调 API：GPT-4o 视觉理解能力再升级，开启 AI“慧眼”

一直以来，让 AI 真正理解图像内容都是一个巨大的挑战。OpenAI 的视觉微调 API (Vision Fine-tuning API) 为 GPT-4o 模型赋予了更强大的视觉理解能力，为解决这一难题提供了新的思路。

开发者可以使用图像和文本数据对 GPT-4o 模型进行微调，以提升其在特定视觉任务上的性能。仅需 100 张图像，开发者就可以开始微调 GPT-4o 模型，并通过更大的文本和图像数据集进一步提升其性能。 视觉微调 API 支持使用 JSON 格式的文本和图像数据进行微调，为开发者提供了更大的灵活性。

视觉微调 API 的应用前景十分广阔，例如：

• 增强型视觉搜索： 可以开发更精准的图像搜索引擎，能够理解图像内容，并根据用户 query 返回更精准的搜索结果。
• 自动驾驶和智慧城市： 可以提升自动驾驶系统对周围环境的感知能力，例如识别交通标志、行人、车辆等，提高行驶安全性。
• 医疗图像分析： 可以开发更精准的医学图像分析工具，帮助医生更快、更准确地诊断疾病。

Grab、Automat、Coframe 等公司已经成功利用视觉微调 API 提升了其应用的性能和效率。

• Grab 公司利用视觉微调 API 训练 GPT-4o 模型识别交通标志和车道分隔线，将其地图数据的准确性提升了 13% 至 20%。通过仅使用 100 个示例图像对 GPT-4o 进行视觉微调，Grab 能够将其车道计数准确率提高 20%，并将限速标志定位准确率提高 13%。
• Automat 公司利用视觉微调和截图数据集训练 GPT-4o，使其能够根据自然语言描述在屏幕上定位 UI 元素，将其 RPA 代理的成功率从 16.60% 提高到 61.67%，与基础 GPT-4o 模型相比，性能提升了 272%。此外，Automat 仅用 200 张非结构化保险文档图像对 GPT-4o 进行了训练，就在信息提取任务中实现了 7% 的 F1 分数提升。
• Coframe 公司 构建了一个 AI 增长工程助手，帮助企业持续创建和测试其网站和 UI 的变体，以优化业务指标。这项任务的关键部分是根据网站的其余部分自动生成网站的新的品牌部分。Coframe 要求 GPT-4o 根据图像和现有代码生成网站下一部分的代码。通过使用图像和代码对 GPT-4o 进行微调，与基础 GPT-4o 相比，他们将模型生成具有一致视觉风格和正确布局的网站的能力提高了 26%。

三、模型蒸馏：以小博大，经济高效，GPT-4o mini 性能再上一层楼

模型蒸馏是一种利用大型模型的知识来训练小型模型的技术，OpenAI 将其整合到 API 中，为开发者提供了一种更经济高效的 AI 应用构建方案。

开发者可以使用更强大、更昂贵的模型（例如 GPT-4o 或 o1-preview）的输出数据来微调更小、更经济的模型（例如 GPT-4o mini），从而在特定任务上获得相似的性能，但成本更低。例如，开发者可以利用模型蒸馏技术开发更轻量级的聊天机器人，部署在移动设备上，为用户提供更便捷的服务。

**OpenAI 平台提供了完整的模型蒸馏工作流，包括存储完成功能、评估功能和微调功能，使开发者能够轻松管理整个蒸馏过程。**开发者可以使用存储完成功能自动记录模型的输入和输出数据，并使用评估功能对模型性能进行评估。

模型蒸馏技术的应用可以显著降低 AI 应用的开发和部署成本，使更多开发者能够负担得起 AI 技术的应用。

四、提示缓存：重复利用，节省成本，API 调用速度再加速

在 AI 应用开发过程中，开发者经常需要多次调用 API 来处理相同的提示信息。OpenAI 推出的提示缓存 (Prompt Caching) 功能可以自动识别并缓存最近使用过的提示信息，从而降低 API 调用次数，节省开发成本。

当开发者重复使用相同的提示信息时，提示缓存功能可以自动识别并使用缓存结果，从而避免重复计算，提升 API 调用速度。提示缓存功能支持 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 的最新版本，以及这些模型的微调版本。

提示缓存定价：

	未缓存输入令牌	缓存输入令牌	输出令牌
GPT-4o	$2.50	$1.25	$10.00
GPT-4o 微调	$3.75	$1.875	$15.00
GPT-4o mini	$0.15	$0.075	$0.60
GPT-4o mini 微调	$0.30	$0.15	$1.20
o1	$15.00	$7.50	$60.00
o1 mini	$3.00	$1.50	$12.00

提示缓存功能的使用非常简单，开发者无需修改任何代码，即可自动享受其带来的成本节省和性能提升。 API 响应中的 usage 字段会显示缓存的令牌数量，方便开发者了解缓存的使用情况。 根据 OpenAI 的数据，提示缓存功能可以帮助开发者节省高达 50% 的 API 使用成本，并显著提升 API 调用速度。

总结

OpenAI DevDay 2024 推出的一系列新产品和功能，为开发者提供了更强大的工具和更灵活的选择，帮助他们构建更强大、更具成本效益、更易于使用的 AI 应用程序。 实时 API 让流畅自然的语音交互成为现实，视觉微调 API 进一步提升了 GPT-4o 模型的视觉理解能力，提示缓存功能帮助开发者节省成本，模型蒸馏技术则为开发者提供了更经济高效的 AI 应用构建方案。

可以预见，OpenAI 的这些创新将加速 AI 技术的普及和应用，推动 AI 领域进入一个全新的发展阶段。

http://mp.weixin.qq.com/s?__biz=Mzg2MjkwNzY4OA==&mid=2247489652&idx=1&sn=df24bbfd4c89c593c3800fcd1e322eb7

子非AI

子非AI，焉知AI之乐：分享AI的有趣应用和创新案例，让你了解AI的乐趣。

国产开源模型推理的O1时刻：DeepSeek-R1-Lite-Preview震撼发布

年度规划必读：斯坦福 2024 AI 指数报告深度解读

微软&IDC AI变革之力报告系列之一：赋能员工，释放潜能——70个提升员工体验的真实案例

2024 AI智能体发展现状与未来趋势：LangChain深度报告解读

Andrew Ng 揭秘未来 AI：从 ChatGPT 到 AgentGPT

Google AlphaFold 3 部分开源：诺奖加冕，AI 揭秘生命密码

哈佛商业评论：AI的100种玩法！

AI应用的金矿是服务而非标品：从 Palantir 的成功探寻 AI 服务浪潮的万亿机会

Magentic-One：微软开源多智能体系统，让 AI 自己动手解决问题

重磅！腾讯开源中文最强MoE巨模型Hunyuan-Large，参数规模PK Llama！

AI Agent 驱动招聘：LinkedIn Hiring Assistant 助力选举年人才争夺战

特朗普王者归来：2024美国大选胜选演讲深度解读

OpenAI O1 引爆推理革命：红杉资本深度解读 AI 应用层变革

微软开源 GenAIScript：用 JavaScript 掌控 LLM 的力量

Google AI 语音生成黑科技：像人类一样对话！

ChatGPT Search：对话式AI搜索，开启信息检索新纪元

GPT-4O 驱动，Zerox 让 OCR 更智能：开源利器解放你的文档

BitNet.cpp：微软让百亿参数大语言模型在你的笔记本CPU上飞奔

ima.copilot一个会思考的知识库：腾讯如何重塑AI时代的知识

Skyvern：让浏览器拥有 AI 大脑，自动化从此更智能

Salesforce CEO Benioff 谈企业级 AI：Agent 智能体重塑商业未来

Claude 3.5 重磅发布：AI 编码能力再升级，还能像人一样使用电脑！

从 GPT-4 赋能的 Copilot 到 O1 驱动的 Agent：微软引爆 AI 应用新热点

AI 投资狂潮：把握科技牛市，解码智能新时代

Meta 开放炼丹炉：全面拥抱开放硬件，加速 AI 算力基础设施建设

Dash 深度分析：Dropbox的 AI 办公产品进化论

人工智能点燃非洲希望之火

Anthropic CEO 的五大预言：AI将如何重塑世界？

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

比尔·盖茨预言：Agent 智能体将如何改变世界

[概要]人工智能现状报告（2024）：技术融合、行业变革与全球竞争

人工智能现状报告（2024）：技术融合

人工智能现状报告（2024）：行业变革

人工智能现状报告（2024）：安全及预测

AI 撬动生命科学：解读 2024 年诺贝尔化学奖

诺奖加冕，AI先驱：Hopfield与Hinton，点燃智能时代之火

金融大模型哪家强？OFLL 零样本评估告诉你答案！

Meta AI 重磅发布 MovieGen，视频生成新王者来袭！

欧洲核子研究组织 (CERN)：用粒子物理学的 AI 力量革新癌症治疗

OpenAI DevDay 2024：实时 API、视觉微调与模型蒸馏发布

从文档中释放结构化数据：利用大型语言模型革新表格提取技术

解密多人协作编辑的黑科技：Eg-walker 算法如何实现高效同步？

Llama 3.2 加速 Open AI 发展：开源视觉模型与边缘AI齐头并进

OpenAI剧震！CTO等多位高管突发离职，未来走向引担忧

ControlEdit：AI 赋能服装设计，开启个性化定制新时代！

人工智能何时将在思考量上超越人类？

解码 Sam Altman 的预言：OpenAI 与即将到来的智能时代

OpenAI O1：Sam Altman 和团队探索 AI 推理的未来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉