▼国庆直播超级多,预约保你有收获
—1—
OpenAI 第二届开发者大会
在今日凌晨,OpenAI 于美国旧金山举办了第二届开发者大会,推出了四项全新的 API 功能。
这些功能涵盖了实时 API、微调 API 中融入的视觉能力、API 提示的缓存机制以及 API模型 的蒸馏技术,极大地简化了模型调用、微调和蒸馏等步骤,使得开发过程变得异常简便高效,几乎达到了“一键式”操作。
Sam Altman 指出,借助这些创新 API 功能,不仅能够打造出强大且多样化的生成式 AI 应用,还能将 GPT-4、GPT-4o mini 等模型的成本削减至 2%,并且在处理 token 的数量上实现了50倍的增长。
—2—
4 大 API 功能
一、实时 API
例如,开发者可以创建一个外语口语练习应用,利用 ChatGPT 的语音功能帮助用户改善发音。
OpenAI 还增加了聊天完成 API 的音频输入和输出功能,以适应那些不需要实时 API 低延迟特性的场景。开发者可以将文本或音频数据传递给 GPT-4o,模型将根据开发者的选择以文本、音频或两者的结合形式回应。
得益于实时 API 的推出,以及即将在聊天完成 API 中增加的音频功能,开发者不再需要将多个模型组合使用。只需一个 API 调用,就能构建出自然的对话体验。
关于费用,实时 API 的定价如下:文本输入 token 的价格为每100万个5美元,输出 token 为每100万个20美元。音频输入的价格为每100万个100美元,输出则为每100万个200美元。这意味着每分钟的音频输入成本大约为0.06美元,每分钟的音频输出成本大约为0.24美元,整体性价比非常高。
二、视觉功能引入微调 API
自 OpenAI 为 GPT-4o 推出微调功能后,数十万开发者已用文本数据集定制模型,以提升特定任务表现。但文本微调有时不足以满足需求。
因此,OpenAI 为 GPT-4o API增加了视觉微调,允许通过图像数据定制模型,增强图像理解能力,用于视觉搜索、自动驾驶、智能城市和医学图像分析等。
视觉微调流程与文本微调相似,开发者需准备至少100张图像的数据集上传至OpenAI 平台。例如,Automat 平台通过视觉微调和200张图像训练,将 GPT-4o 的UI元素定位成功率从16.60%提升至61.67%,性能提升272%,信息提取F1分数提高7%。
目前,GPT-4o视觉微调每日免费提供100万token,至10月31日。之后,微调训练每100万token 25美元,推理每100万输入token 3.75美元,输出token 15美元。
三、API 提示词缓存
开发者常在构建生成式 AI 应用时多次调用 API 使用相同上下文,如代码修改或多轮聊天。OpenAI 推出 API 提示缓存功能,以降低成本和延迟,重用输入token享50%折扣,处理更快。
此功能自动应用于 GPT-4o 系列及微调版本。API 调用超过 1,024 个token时自动启用提示缓存,缓存最长前缀,初始1,024个token,每128个token递增。
重用相同前缀提示将自动应用缓存折扣,无需 API 集成更改。缓存一般在5-10分钟无活动后清除,最多保留一小时。
四、API 模型蒸馏
新服务特点:
- 存储完成:自动收集模型输入-输出对,简化数据集生成。
- 评估集:平台内创建自定义评估,衡量模型性能。
- 微调:集成存储完成和评估,简化微调过程。
流程:
1. 创建评估,测试目标模型性能。
2. 使用存储完成生成数据集,用大型模型输出微调小型模型。
3. 微调后,用评估测试性能,迭代至满足需求。
—3—
每日大模型技术精选
—4—
加我微信
有很多不方便公开发公众号的我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇
⬇戳”阅读原文“,立即预约!
END