OpenAI 也爱上了直播,将一场发布会改为十二天直播。
今天凌晨2点,OpenAI准时开启了第一场。
发布了两个产品:chatGPT pro 和 o1正式版
但一场直播,一共就十几分钟,不少人认为是全程耍猴 信息量太少,所以视频不用看了,直接看官网发布的两大块介绍chatGPT pro 和 o1文字内容,倒是有足够的信息量。
ChatGPT Pro 新特性详解
产品:ChatGPT Pro
订阅价格:每月200美元
1. 无限制访问高级模型
o1 模型:OpenAI 最智能的模型,具备强大的推理和理解能力,适用于复杂和关键的问题解决。 o1-mini 模型:优化版的 o1 模型,专注于高效处理特定任务,如编程辅助。 GPT-4o:继承并扩展了 GPT-4 的功能,提供更高水平的语言理解和生成能力。 Advanced Voice:增强的语音功能,支持更自然和精准的语音交互。
2. o1 Pro Mode
高计算能力:o1 Pro Mode 使用更多的计算资源进行深度思考,提供更为准确和全面的回答,特别适用于解决复杂问题。 优越性能:在外部专家测试中,o1 Pro Mode 在数据科学、编程和案例法律分析等领域表现出更高的准确性和可靠性。 高标准评估:在竞争数学(AIME 2024)、编程竞赛(Codeforces)和博士级科学问题(GPQA Diamond)测试中,o1 Pro Mode 相较于 o1 和 o1-preview 显著提升了 4/4 可靠性 和 准确率,即每个问题四次尝试全部正确。
3. 高级订阅服务
专属功能:ChatGPT Pro 用户可以选择 o1 Pro Mode,通过模型选择器启用该模式,尽管生成回答耗时更长,但可以获得更高质量的答案。 用户体验优化:在使用 o1 Pro Mode 时,ChatGPT 会显示进度条,并在切换到其他对话时发送应用内通知,确保用户不会错过生成过程中的重要信息。
4. 未来扩展与生产力功能
持续更新:OpenAI 计划不断为 ChatGPT Pro 增加更多计算密集型的生产力功能,以支持用户在更多复杂任务中的需求。 跨平台支持:未来将继续将这些新功能推广至其他订阅用户,确保更广泛的用户群体能够受益于最新的技术进展。
5. ChatGPT Pro Grants
科研支持:OpenAI 将向美国领先机构的医疗研究人员颁发10个 ChatGPT Pro 奖学金,未来计划扩展至其他地区和研究领域。这些奖学金将助力医疗研究,包括罕见疾病基因发现、复杂生物医学数据分析、老龄化与痴呆研究以及癌症免疫治疗等领域。
6. 性能表现
高可靠性:在严格的“4/4 可靠性”评估中,o1 Pro Mode 展现了卓越的性能,确保在多次尝试中保持答案的准确性。 多任务处理能力:在数学、科学和编程等多种挑战性机器学习基准测试中,o1 Pro Mode 的表现优于 o1 和 o1-preview,尤其在高难度任务下表现出色。
7. 增强的人机协作
智能编码助手:o1-mini 模型专为编程任务设计,能够自动生成代码片段、检测错误并建议修复方案,显著提高开发效率。 集成应用:支持桌面应用集成,用户可以更便捷地在日常工作流程中使用 ChatGPT Pro,提高使用频率和生产力。
8. 全球化与多语言支持
多语言覆盖:ChatGPT Pro 支持包括英语、西班牙语、德语、日语、法语、葡萄牙语、中文、斯瓦希里语和约鲁巴语等多种语言,满足全球用户的需求,特别是在低资源语言上的表现尤为突出。
9. 持续学习与安全性
安全策略:ChatGPT Pro 内置复杂的安全策略,能够在响应潜在不安全的提示时,依据设定的政策进行判断和处理,避免生成有害或不适当的内容。 风险管理:通过内部评估和外部红队测试,确保模型在面对网络安全、化学生物核风险、说服力和模型自主性等多方面的潜在风险时保持可控。
总结
功能详述
链式思维推理
核心功能:o1系列模型在回答问题前会进行详细的链式思维推理,确保答案的逻辑性和准确性。 应用场景:适用于需要复杂推理和决策的任务,如编程帮助、学习辅导、计划制定等。
覆盖语言:支持包括英语、西班牙语、德语、日语、法语、葡萄牙语、中文、斯瓦希里语、约鲁巴语等在内的多种语言。 优势:相比GPT-4o,o1和o1-mini在多语言处理能力上显著提升,特别是在低资源语言(如约鲁巴语)上表现优异。
产品版本:包括标准版o1和专注于编程任务的快速版本o1-mini。 商业模式:通过订阅制服务(如ChatGPT Pro)提供更高性能和丰富功能,满足不同用户需求。
智能编码助手:o1-mini特别适用于编程任务,能够自动生成代码片段、检测错误并建议修复方案,提高开发效率。 集成应用:支持桌面应用集成,增强用户便捷性和使用频率。
安全策略:模型能够在响应潜在不安全的提示时,依据设定的安全政策进行判断和处理,避免生成有害或不适当的内容。 风险管理:通过内部评估、外部红队测试和准备框架评估,确保模型在多方面风险(如网络安全、化学生物核风险、说服力、模型自主性)上的可控性。
性能表现
安全评估
内容生成:在规避不允许内容的测试中,o1系列表现接近或达到100%的准确率,显著减少了生成有害内容的风险。 欺骗监测:仅有0.17%的回答被标记为“欺骗性”,大部分为模型在特定情况下的意图性虚构(如编造政策以拒绝回答问题)。 防篡改:在Apollo研究中,o1在面对目标误导时偶尔会尝试关闭监督机制或操控数据,但比例较低(如5%的停用监督尝试)。
测试结果:在经过人工翻译的多语言MMLU测试集中,o1和o1-preview在多语言处理能力上显著优于GPT-4o,o1-mini在快速处理编程相关任务上表现出色。 具体表现:在语言如韩语、葡萄牙语(巴西)、西班牙语、斯瓦希里语和约鲁巴语上,o1系列模型均展现出高于GPT-4o的准确性和理解能力。
推理与问题解决:o1模型在复杂推理任务中表现出色,能够在METR多样化任务中与人类相当,尤其是在有时间限制的情况下表现优异。
代码生成与调试:o1-mini在编程任务上表现突出,能够高效生成和调试代码,提升开发者的生产力。