众大佬出走后的OpenAI DevDay发布了什么新内容?实时API可能颠覆CallCenter市场格局

文摘   2024-10-02 13:23   北京  
抽奖:国庆礼物来了!参与就有机会获得畅销书《AI提示工程必知必会》
在旧金山举行的OpenAI DevDay 2024大会上,OpenAI面向开发者发布了什么内容。下面是一些重点内容。

1.实时 API-构建低延迟的语音转语音应用

推出了实时 API 的公开测试版,允许付费开发者在应用中构建低延迟、多模态的体验。该 API 支持自然的语音对话,与 ChatGPT 的高级语音模式(Advanced Voice Mode)类似,可使用六种预设语音,并引入了音频输入和输出功能。开发者可以通过一次 API 调用实现自然的对话体验,无需拼凑多个模型,这对于当下的tts/asr的缝合怪解决方案将是巨大冲击,如果价格能够进一步下降,传统人力密集型的callcenter业务或将迎来洗牌。实时 API 通过 WebSocket 连接与 GPT-4o 交换消息,支持函数调用,能够自动处理中断。该 API 已在健康和语言学习应用中测试,定价为每百万文本token 5美元,音频token 100 美元。OpenAI 还计划增加更多模态、提高速率限制和扩展模型支持。
详见:Introducing the Realtime API[1]

2.提示缓存(Prompt Caching)—— 更经济更快速

推出了 Prompt Caching 技术,解决开发者常常需要在多个 API 调用中重复使用相同的上下文,增加成本,还延长了响应时间的问题。Prompt Caching 允许开发者重复使用最近见过的输入 token,从而获得 50%的折扣和更快的处理时间。该技术自动应用于最新版本的 GPT-4o 、GPT-4o mini 、o1-preview 和o1-mini,以及这些模型的微调版本。缓存的提示将享受折扣,显著降低成本并提高响应速度。API 会自动缓存超过 1,024 个token 的提示,缓存通常在 5-10 分钟不活动后清除。

以下是定价概览:
模型版本未缓存输入Token缓存输入Token输出Token
GPT-4ogpt-4o-2024-08-06$2.50$1.25$10.00
GPT-4o微调
$3.75$1.875$15.00
GPT-4o minigpt-4o-mini-2024-07-18$0.15$0.075$0.60
GPT-4o mini微调
$0.30$0.15$1.20
o1o1-preview$15.00$7.50$60.00
o1 mini
$3.00$1.50$12.00
使用提示缓存的请求在 API 响应的 "usage "字段中有一个 "cached_tokens "值:
usage: {
  total_tokens: 2306,
  prompt_tokens: 2006,
  completion_tokens: 300,
  
  prompt_tokens_details: {
   cached_tokens: 1920,
    audio_tokens: 0,
  },
  completion_tokens_details: {
    reasoning_tokens: 0,
    audio_tokens: 0,
  }
}
Prompt Caching 不仅是降低成本的利器,更是提升 AI 应用性能的关键工具。
详见:Prompt Caching in the API[2]

3.模型蒸馏工具套件——微调出更具性价比的模型

推出了全新的模型蒸馏工具套件,简化了 AI 模型优化流程。该套件包括存储完成(Stored Completions)、评估(Evals)和微调(Fine-tuning)三大核心功能。存储完成功能允许自动捕获和存储高级模型的输入输出对,生成高质量数据集。评估功能提供了一体化的方式来衡量模型性能,而微调功能则与存储完成和评估功能完全集成,使得开发者可以在一个平台上完成所有操作。该工具套件现已开放,提供免费训练 token 和评估机会,帮助开发者高效地优化模型性能。
如何使用模型蒸馏工具套件步骤
  1. 创建评估
首先,创建一个评估来衡量目标模型(例如GPT-4o mini)的性能。这个评估将用于持续测试蒸馏模型的性能,帮助开发者决定是否部署该模型。
模型蒸馏评估示例
  1. 使用存储完成创建蒸馏数据集
使用GPT-4o的输出为要微调的任务创建一个蒸馏数据集。通过在Chat Completions API中设置‘store:true’标志,可以自动存储这些输入输出对,而不会影响延迟。这些存储的完成可以进行审查、过滤和标记,以创建高质量的数据集用于微调或评估。
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "what's the capital of the USA?"
}
]
}
],
store=True,
metadata={"username": "user123", "user_id": "123", "session_id": "123"}
)
  1. 微调GPT-4o mini
使用存储完成的数据集作为训练文件来创建微调模型。微调完成后,可以返回Evals测试微调后的GPT-4o mini模型是否满足性能标准,与GPT-4o进行比较。
通过这一全新的模型蒸馏工具套件,OpenAI为开发者提供了一个简化且高效的工作流程,使得AI模型的优化过程更加便捷和可靠。无论是生成数据集、微调模型还是评估性能,开发者都可以在一个集成的平台上完成所有操作,大大降低了开发成本和复杂性。
详见:Model Distillation in the API[3]

4.视觉微调 ——支持通过图像和文本对 GPT-4o 进行微调,以提高视觉功能

推出了 GPT-4o 的视觉微调功能,允许开发者在图像和文本数据上进行微调,增强模型的图像理解能力,应用于视觉搜索、自动驾驶物体检测、医疗图像分析等领域。微调过程与文本微调类似,开发者需准备图像数据集并上传,即使只有 100 张图像也能显著提升性能。OpenAI 对微调模型进行安全评估,确保符合使用政策。视觉微调功能现已开放,2024 年10 月31 日前提供免费额度,之后按每百万 token $25 收费。
  • Grab案例:

视觉微调 GPT-4o 模型成功标记限速标志,而 GPT-4o 基本模型却错误地标记了该标志。

详见:Introducing vision to the fine-tuning API[4]

5.Playground 新功能——更快构建原型应用

推出新的 Playground 功能,快速将想法转化为原型。只需要描述你使用模型的目的,Playground 就会自动生成提示以及函数和结构化输出的有效模式。
体验: https://platform.openai.com/playground/chat

本次开发者大会虽然全新的东西不多,却更加关注生态开发者实际需要,更倾向于帮助开发者更快,更经济的使用这些技术探索落地应用。这也是OpenAI向商业性公司转头的一个体现吧。


参考资料

[1]

Introducing the Realtime API: https://openai.com/index/introducing-the-realtime-api/

[2]

Prompt Caching in the API: https://openai.com/index/api-prompt-caching/

[3]

Model Distillation in the API: https://openai.com/index/api-model-distillation/

[4]

Introducing vision to the fine-tuning API: https://openai.com/index/api-model-distillation/

后台回复“入群”进群讨论。

近期原创文章:

橱窗有更多精选好书,欢迎光临!


AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
 最新文章