众大佬出走后的OpenAI DevDay发布了什么新内容？实时API可能颠覆CallCenter市场格局

文摘 2024-10-02 13:23 北京

在旧金山举行的OpenAI DevDay 2024大会上，OpenAI面向开发者发布了什么内容。下面是一些重点内容。

1.实时 API-构建低延迟的语音转语音应用

推出了实时 API 的公开测试版，允许付费开发者在应用中构建低延迟、多模态的体验。该 API 支持自然的语音对话，与 ChatGPT 的高级语音模式（Advanced Voice Mode）类似,可使用六种预设语音，并引入了音频输入和输出功能。开发者可以通过一次 API 调用实现自然的对话体验，无需拼凑多个模型，这对于当下的tts/asr的缝合怪解决方案将是巨大冲击，如果价格能够进一步下降，传统人力密集型的callcenter业务或将迎来洗牌。实时 API 通过 WebSocket 连接与 GPT-4o 交换消息，支持函数调用，能够自动处理中断。该 API 已在健康和语言学习应用中测试，定价为每百万文本token 5美元，音频token 100 美元。OpenAI 还计划增加更多模态、提高速率限制和扩展模型支持。

详见：Introducing the Realtime API^[1]

2.提示缓存（Prompt Caching）—— 更经济更快速

推出了 Prompt Caching 技术，解决开发者常常需要在多个 API 调用中重复使用相同的上下文，增加成本，还延长了响应时间的问题。Prompt Caching 允许开发者重复使用最近见过的输入 token，从而获得 50%的折扣和更快的处理时间。该技术自动应用于最新版本的 GPT-4o 、GPT-4o mini 、o1-preview 和o1-mini，以及这些模型的微调版本。缓存的提示将享受折扣，显著降低成本并提高响应速度。API 会自动缓存超过 1,024 个token 的提示，缓存通常在 5-10 分钟不活动后清除。

以下是定价概览：

模型	版本	未缓存输入Token	缓存输入Token	输出Token
GPT-4o	gpt-4o-2024-08-06	$2.50	$1.25	$10.00
GPT-4o微调		$3.75	$1.875	$15.00
GPT-4o mini	gpt-4o-mini-2024-07-18	$0.15	$0.075	$0.60
GPT-4o mini微调		$0.30	$0.15	$1.20
o1	o1-preview	$15.00	$7.50	$60.00
o1 mini		$3.00	$1.50	$12.00

使用提示缓存的请求在 API 响应的 "usage "字段中有一个 "cached_tokens "值：

usage: {
  total_tokens: 2306,
  prompt_tokens: 2006,
  completion_tokens: 300,
  
  prompt_tokens_details: {
   cached_tokens: 1920,
    audio_tokens: 0,
  },
  completion_tokens_details: {
    reasoning_tokens: 0,
    audio_tokens: 0,
  }
}

Prompt Caching 不仅是降低成本的利器，更是提升 AI 应用性能的关键工具。

详见：Prompt Caching in the API^[2]

3.模型蒸馏工具套件——微调出更具性价比的模型

推出了全新的模型蒸馏工具套件，简化了 AI 模型优化流程。该套件包括存储完成（Stored Completions）、评估（Evals）和微调（Fine-tuning）三大核心功能。存储完成功能允许自动捕获和存储高级模型的输入输出对，生成高质量数据集。评估功能提供了一体化的方式来衡量模型性能，而微调功能则与存储完成和评估功能完全集成，使得开发者可以在一个平台上完成所有操作。该工具套件现已开放，提供免费训练 token 和评估机会，帮助开发者高效地优化模型性能。

如何使用模型蒸馏工具套件步骤

创建评估

首先，创建一个评估来衡量目标模型（例如GPT-4o mini）的性能。这个评估将用于持续测试蒸馏模型的性能，帮助开发者决定是否部署该模型。

使用存储完成创建蒸馏数据集

使用GPT-4o的输出为要微调的任务创建一个蒸馏数据集。通过在Chat Completions API中设置‘store:true’标志，可以自动存储这些输入输出对，而不会影响延迟。这些存储的完成可以进行审查、过滤和标记，以创建高质量的数据集用于微调或评估。

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "what's the capital of the USA?"
        }
      ]
    }
  ],
  store=True,
  metadata={"username": "user123", "user_id": "123", "session_id": "123"}
)

微调GPT-4o mini

使用存储完成的数据集作为训练文件来创建微调模型。微调完成后，可以返回Evals测试微调后的GPT-4o mini模型是否满足性能标准，与GPT-4o进行比较。

通过这一全新的模型蒸馏工具套件，OpenAI为开发者提供了一个简化且高效的工作流程，使得AI模型的优化过程更加便捷和可靠。无论是生成数据集、微调模型还是评估性能，开发者都可以在一个集成的平台上完成所有操作，大大降低了开发成本和复杂性。

详见：Model Distillation in the API^[3]

4.视觉微调 ——支持通过图像和文本对 GPT-4o 进行微调，以提高视觉功能

推出了 GPT-4o 的视觉微调功能，允许开发者在图像和文本数据上进行微调，增强模型的图像理解能力，应用于视觉搜索、自动驾驶物体检测、医疗图像分析等领域。微调过程与文本微调类似，开发者需准备图像数据集并上传，即使只有 100 张图像也能显著提升性能。OpenAI 对微调模型进行安全评估，确保符合使用政策。视觉微调功能现已开放，2024 年10 月31 日前提供免费额度，之后按每百万 token $25 收费。

Grab案例：

视觉微调 GPT-4o 模型成功标记限速标志，而 GPT-4o 基本模型却错误地标记了该标志。

详见：Introducing vision to the fine-tuning API^[4]

5.Playground 新功能——更快构建原型应用

推出新的 Playground 功能，快速将想法转化为原型。只需要描述你使用模型的目的，Playground 就会自动生成提示以及函数和结构化输出的有效模式。

体验: https://platform.openai.com/playground/chat

本次开发者大会虽然全新的东西不多，却更加关注生态开发者实际需要，更倾向于帮助开发者更快，更经济的使用这些技术探索落地应用。这也是OpenAI向商业性公司转头的一个体现吧。

参考资料

[1]

Introducing the Realtime API: https://openai.com/index/introducing-the-realtime-api/

[2]

Prompt Caching in the API: https://openai.com/index/api-prompt-caching/

[3]

Model Distillation in the API: https://openai.com/index/api-model-distillation/

[4]

Introducing vision to the fine-tuning API: https://openai.com/index/api-model-distillation/

后台回复“入群”进群讨论。

近期原创文章：

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

AirLLM：突破显存限制，让 4GB GPU 也能运行 70B 大模型

超越v0chat，开源的AI前端开发神器——screenshot-to-code

Anthropic提出的Contextual RAG开源实现Open Contextual RAG来了

Claude 3.5 Sonnet登陆Github，Cursor亚历山大

chromem-go：零依赖嵌入式向量数据库，Go 开发者的新宠！

RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架

微软 OmniParser：超越GPT4V的视觉屏幕界面解析利器

为什么大模型会算错“9.11与9.8谁大？”，这个可观测工具帮你一探究竟

Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

探索 Claude Artifacts 的无限可能：一周内构建的14个实用工具

最快体验 Claude 3.5 Sonnet 控制电脑方法来了！

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

开源向量数据库性能对比: Milvus, Chroma, Qdrant

重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力

AIGC利器ComfyUI V1 发布：简化安装，跨平台支持，非技术用户福音

每天写代码：Jquery作者John Resig透露程序员高产秘诀

超简单！手把手从零构建神经网络

StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

一个 Python 文件实现 Perplexity 搜索?

Agora 协议:打造Agent互联网的第一步

Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

OpenAI：AI不仅仅对你名字有偏见，这些方面也差别对待

Google AI 助手 NotebookLM 正式发布：多模态理解能力大幅提升

Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

NVIDIA 发布 Llama 3.1 70B 模型：性能超越 Claude 3.5 和GPT-4o

Ollama 平台新功能：轻松运行 Hugging Face Hub 上的 GGUF 模型

AI 能自查幻觉了！谷歌苹果联手打造“真话检测器”

AutoGen: 我也能实现OpenAI Swarm中的handoff

Mem0上架chrome插件商店，把记忆交给AI！

A16Z：导出"你的大脑"给AI,你将收获什么？

Meta：无需人工标注，LLM 评估器也能自我提升？

非广告免费使用Qwen2.5 72B等付费模型的方法来了，很实用！

为什么 AI 在数学题前抓瞎？苹果研究揭示 AI 推理能力的局限性

Swarm：一个OpenAI开源的multiAgent框架，简单哲学的代表

Python 3.13.0 震撼发布：性能飞跃，AI 项目迎来新机遇

Dario Amodei 最新博文预言我们这代人将有可能活到150岁！

Anthropic CEO 撰文《慈爱机器》，畅谈他的低调策略与宏伟愿景

红杉年度文章解读：生成式AI进入第二阶段，应用层价值凸显以及商业模式将重塑

回忆录（3）：从 Hinton 到你们——AI 时代的科学革命

如何管理各种GPU构建企业私有LLM服务——GPUStack

回忆录（2）：从诺贝尔奖到 AI 新纪元

回忆录（1）：从"人类之父"到"AI 之源"：Geoffrey Hinton 与我们的起源

看哭了！“从学生到大师：AI 的诺奖之旅与 Hinton 的传奇”

将代码库或网站一键转成单个文件供给LLM，这些项目你应该知道！

AI交互不再是Chat：OpenAI推出Canvas功能，应对Claude崛起，头狼竞争白热化

众大佬出走后的OpenAI DevDay发布了什么新内容？实时API可能颠覆CallCenter市场格局

国庆礼物来了！参与就有机会获得畅销书《AI提示工程必知必会》

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉