2024 年 10 月 1 日,OpenAI DevDay 开发者大会在旧金山、伦敦和新加坡三地盛大举行,为全球开发者带来了一场 AI 领域的饕餮盛宴。大会上,OpenAI 发布了一系列重磅产品和功能更新,实时 API、视觉微调 API、提示缓存以及模型蒸馏技术的横空出世,将 AI 开发的门槛大幅降低,开发效率显著提升,赋能开发者以更低的成本、更快的速度构建更加强大、更具商业价值的 AI 应用程序!
一、实时 API:流畅语音交互,打造如真人般 AI 体验
试想一下,你只需说一句话,AI 就能立刻理解你的意图,并用自然流畅的语音与你进行实时对话,如同与真人交谈一般,这将是一种怎样的体验? OpenAI 推出的实时 API (Realtime API) 让这一切成为可能!
实时 API 基于强大的 GPT-4o 模型,支持自然语音对话,并提供六种预设语音,为用户带来更接近真人对话的体验。开发者无需再将语音识别、文本生成、语音合成等多个模型拼接在一起,只需使用单个 API 调用,即可构建完整的语音交互体验,大大简化了开发流程。
实时 API 还支持函数调用,使语音助手能够通过触发操作或访问外部信息来响应用户请求,例如帮助用户下单、查询信息或个性化回复等。这意味着开发者可以利用实时 API 构建功能更强大、更智能的语音助手。
实时 API 的应用场景非常广泛,例如:
• 语言学习应用: 实时 API 可以模拟真人对话,为用户提供更沉浸式的语言学习体验。例如,Healthify 和 Speak 等公司已经开始利用实时 API 为其应用赋能,打造更自然、更便捷的用户体验。
• 智能客服: 实时 API 可以实现自然流畅的语音交互,提升用户咨询体验,降低人工客服成本。
• 语音助手: 实时 API 可以帮助开发者构建更智能的语音助手,能够理解更复杂的指令,执行更复杂的任务。
二、视觉微调 API:GPT-4o 视觉理解能力再升级,开启 AI“慧眼”
一直以来,让 AI 真正理解图像内容都是一个巨大的挑战。OpenAI 的视觉微调 API (Vision Fine-tuning API) 为 GPT-4o 模型赋予了更强大的视觉理解能力,为解决这一难题提供了新的思路。
开发者可以使用图像和文本数据对 GPT-4o 模型 进行微调,以提升其在特定视觉任务上的性能。仅需 100 张图像,开发者就可以开始微调 GPT-4o 模型,并通过更大的文本和图像数据集进一步提升其性能。 视觉微调 API 支持使用 JSON 格式的文本和图像数据进行微调,为开发者提供了更大的灵活性。
视觉微调 API 的应用前景十分广阔,例如:
• 增强型视觉搜索: 可以开发更精准的图像搜索引擎,能够理解图像内容,并根据用户 query 返回更精准的搜索结果。
• 自动驾驶和智慧城市: 可以提升自动驾驶系统对周围环境的感知能力,例如识别交通标志、行人、车辆等,提高行驶安全性。
• 医疗图像分析: 可以开发更精准的医学图像分析工具,帮助医生更快、更准确地诊断疾病。
Grab、Automat、Coframe 等公司已经成功利用视觉微调 API 提升了其应用的性能和效率。
• Grab 公司利用视觉微调 API 训练 GPT-4o 模型识别交通标志和车道分隔线,将其地图数据的准确性提升了 13% 至 20%。通过仅使用 100 个示例图像对 GPT-4o 进行视觉微调,Grab 能够将其车道计数准确率提高 20%,并将限速标志定位准确率提高 13%。
• Automat 公司利用视觉微调和截图数据集训练 GPT-4o,使其能够根据自然语言描述在屏幕上定位 UI 元素,将其 RPA 代理的成功率从 16.60% 提高到 61.67%,与基础 GPT-4o 模型相比,性能提升了 272%。此外,Automat 仅用 200 张非结构化保险文档图像对 GPT-4o 进行了训练,就在信息提取任务中实现了 7% 的 F1 分数提升。
• Coframe 公司 构建了一个 AI 增长工程助手,帮助企业持续创建和测试其网站和 UI 的变体,以优化业务指标。这项任务的关键部分是根据网站的其余部分自动生成网站的新的品牌部分。Coframe 要求 GPT-4o 根据图像和现有代码生成网站下一部分的代码。通过使用图像和代码对 GPT-4o 进行微调,与基础 GPT-4o 相比,他们将模型生成具有一致视觉风格和正确布局的网站的能力提高了 26%。
三、模型蒸馏:以小博大,经济高效,GPT-4o mini 性能再上一层楼
模型蒸馏是一种利用大型模型的知识来训练小型模型的技术,OpenAI 将其整合到 API 中,为开发者提供了一种更经济高效的 AI 应用构建方案。
开发者可以使用更强大、更昂贵的模型(例如 GPT-4o 或 o1-preview)的输出数据来微调更小、更经济的模型(例如 GPT-4o mini),从而在特定任务上获得相似的性能,但成本更低。例如,开发者可以利用模型蒸馏技术开发更轻量级的聊天机器人,部署在移动设备上,为用户提供更便捷的服务。
**OpenAI 平台提供了完整的模型蒸馏工作流,包括存储完成功能、评估功能 和微调功能,使开发者能够轻松管理整个蒸馏过程。**开发者可以使用存储完成功能 自动记录模型的输入和输出数据,并使用评估功能 对模型性能进行评估。
模型蒸馏技术的应用可以显著降低 AI 应用的开发和部署成本,使更多开发者能够负担得起 AI 技术的应用。
四、提示缓存:重复利用,节省成本,API 调用速度再加速
在 AI 应用开发过程中,开发者经常需要多次调用 API 来处理相同的提示信息。OpenAI 推出的提示缓存 (Prompt Caching) 功能可以自动识别并缓存最近使用过的提示信息,从而降低 API 调用次数,节省开发成本。
当开发者重复使用相同的提示信息时,提示缓存功能 可以自动识别并使用缓存结果,从而避免重复计算,提升 API 调用速度。提示缓存功能 支持 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 的最新版本,以及这些模型的微调版本。
提示缓存定价:
未缓存输入令牌 | 缓存输入令牌 | 输出令牌 | |
GPT-4o | $2.50 | $1.25 | $10.00 |
GPT-4o 微调 | $3.75 | $1.875 | $15.00 |
GPT-4o mini | $0.15 | $0.075 | $0.60 |
GPT-4o mini 微调 | $0.30 | $0.15 | $1.20 |
o1 | $15.00 | $7.50 | $60.00 |
o1 mini | $3.00 | $1.50 | $12.00 |
提示缓存功能 的使用非常简单,开发者无需修改任何代码,即可自动享受其带来的成本节省和性能提升。 API 响应中的 usage
字段会显示缓存的令牌数量,方便开发者了解缓存的使用情况。 根据 OpenAI 的数据,提示缓存功能 可以帮助开发者节省高达 50% 的 API 使用成本,并显著提升 API 调用速度。
总结
OpenAI DevDay 2024 推出的一系列新产品和功能,为开发者提供了更强大的工具和更灵活的选择,帮助他们构建更强大、更具成本效益、更易于使用的 AI 应用程序。 实时 API 让流畅自然的语音交互成为现实,视觉微调 API 进一步提升了 GPT-4o 模型的视觉理解能力,提示缓存功能帮助开发者节省成本,模型蒸馏技术则为开发者提供了更经济高效的 AI 应用构建方案。
可以预见,OpenAI 的这些创新将加速 AI 技术的普及和应用,推动 AI 领域进入一个全新的发展阶段。