今日凌晨，ChatGPT重磅更新！— 我心目中的终极 AGI 界面

学术 2024-10-04 22:59 浙江

Datawhale分享

来源：机器之心，编辑：Datawhale

我心目中的终极 AGI 界面是一张空白画布（canvas）。

今日凌晨，OpenAI 发布 canvas，一个与 ChatGPT 合作写作和编程的新界面！

canvas：使用 ChatGPT 写作和编程的新方式

首先，我们先来了解一下 canvas 可以干什么。

文本编辑：

视频源：https://openai.com/index/introducing-canvas/

代码编辑：

视频源：https://openai.com/index/introducing-canvas/

目前，已有用户分享了自己使用 canvas 的惊喜成果，比如用户 @bilawalsidhu 分享自己让 ChatGPT 使用 ThreeJS 创建超立方体查看器的过程：

在 canvas 这个界面，可以与 ChatGPT 一起完成写作和编码项目，而不再局限于简单的聊天。

canvas 是一种新的交互方式，也是 OpenAI 推出 ChatGPT 以来的首个重大视觉界面更新。

canvas 会在单独的窗口中打开，方便用户与 ChatGPT 一起协作完成项目。canvas 的 Beta 版本为用户提供了一种全新的合作方式：你不仅能够通过对话进行创作，还能与 ChatGPT 成为并肩作战的伙伴，一起创造和完善。

canvas 由 GPT-4o 支持，在 Beta 期间可以在模型选择器中手动选择。不过，现在 Beta 版本只提供给 ChatGPT Plus 与团队用户。企业和教育用户将在下周获得访问权限。ChatGPT 免费用户需要等到 canvas 正式发布后才能使用。

canvas提供精准修改的解决方案

和 ChatGPT 聊天对于我们来说已经是十分简便的信息获取方式，这也包括写作与编码。不过当你想要及时对写作内容或者编码内容进行修改时，对话方式可能就显得力不从心了。

canvas 的出现就是为了解决这个难题。

在这个新的界面中，你可以通过高亮的方式，告诉 ChatGPT 具体需要关注什么，让它更精准地理解你的用意。这就类似于编辑，你可以在全部上下文中具体地提出反馈和建议。

此外，你的调整方式也十分便捷，直接编辑代码或文本都不成问题。你的项目，你做主。canvas 还提供了快捷菜单，可以让 ChatGPT 帮你调整文本长度、调试代码，或者快速执行其他实用操作。如果想要之前的版本，一键返回即可恢复。

写作快捷操作，图源：https://openai.com/index/introducing-canvas/

当 ChatGPT 发现某个场景中 canvas 能帮上忙时，它会自动打开。你也可以在提示中直接加一句「使用 canvas」，这样 ChatGPT 就会切换到 canvas 界面，帮助你更方便地处理现有项目。

canvas帮助迭代代码

代码是一个迭代过程，但是在聊天之中，很难跟踪代码的改进过程。canvas 让我们可以更轻松地跟踪和理解 ChatGPT 的修改过程，OpenAI 也承诺「计划继续提升这类编辑过程的透明度」。

canvas 目前提供了以下编程快捷操作：

审阅代码：ChatGPT 可提供改进代码的行内建议；
添加日志：插入 print 语句来帮助用户进行调试和理解代码；
添加注释：为代码添加注释，让其更容易理解；
修复 bug：检测和重写有问题的代码，以修复错误；
支持多语言导出：可将用户的代码转译成 JavaScript、TypeScript、Python、Java、C++、PHP 等语言。

OpenAI将模型训练为协作伙伴

OpenAI 的研究团队对 GPT-4o 进行了训练，以使其能够作为创意合作伙伴进行协作。该模型知道何时打开 canvas，何时进行目标性编辑，以及何时需要完全重写。同时，它还能够理解更广泛的上下文，从而提供精准的反馈和建议。

为了支持这一点，研究团队开发了以下核心行为：

在写作和编码时触发 canvas
生成多样化的内容类型
进行目标性编辑
重写文档
提供 inline 评论

OpenAI 通过 20 多项自动化内部评估来衡量进展，并使用了新颖的合成数据生成技术，例如从 OpenAI 的 o1-preview 中提取输出，来对模型进行核心行为的后训练。这种方法能够快速应对写作质量和新的用户交互需求，从而无需依赖人工生成的数据。

对研发团队来说，一个关键挑战是何时触发 canvas。OpenAI 训练模型在像「写一篇关于咖啡豆历史的博客文章」这样的提示词下打开 canvas，同时避免对像「帮我做一道新的晚餐食谱」这样的一般问答任务进行过度触发。

在写作任务中，他们优先改进了「正确触发」的情况（以牺牲「正确不触发」为代价），达到了 83%，相较于作为基线的零样本提示词式 GPT-4o 有了显著提升。

值得注意的是，此类基线的质量对特定提示词非常敏感。不同的提示词可能导致基线在表现不佳的同时，呈现不同的错误分布。

例如，在编码和写作任务中会出现「均匀地不准确」情况，导致不同类型的错误分布和表现不佳的形式。在编码方面，OpenAI 有意让模型在触发方面偏向保守，以避免干扰高级用户的体验。之后，OpenAI 也是承诺将继续根据用户反馈对其进行优化。

针对写作和编码任务，OpenAI 改进了准确触发 canvas 决策边界的能力，分别达到了 83% 和 94%，相较于作为基线的零样本提示词式 GPT-4o 有明显提升。

第二个挑战在于对模型在触发 canvas 后的编辑行为进行调优，特别是决定何时进行目标性编辑，何时重写整个内容。

OpenAI 训练模型在用户通过界面明确选择文本时进行目标性编辑，否则就更倾向于重写内容。随着模型的不断完善，canvas 的编辑行为也在持续演变。

针对写作和编码任务，OpenAI 优先优化了 canvas 的目标编辑功能。带有 canvas 的 GPT-4o 在性能上比基线的提示词式 GPT-4o 高出 18%。

最后，训练模型生成高质量评论需要经过仔细的迭代。与前两个可以轻松适应自动化评估并辅以详细人工审查的案例不同，自动衡量评论的质量尤其具有挑战性。

因此，OpenAI 使用人工评估来衡量评论的质量和准确性。他们所整合的 canvas 模型在准确性上比使用提示词指令的零样本 GPT-4o 高出 30%，在质量上高出 16%。

这表明合成训练显著提升了相较于带有详细指令说明的零样本提示词下的响应质量和行为表现。

canvas 目前仍处于早期测试阶段，OpenAI 后续计划快速提升其功能。

“终极 AGI 界面是一张空白画布”

"我心目中的终极 AGI 界面是一张空白画布。它会随着人类的偏好不断演变，自我变形，并创造出与人类互动的新颖方式，重新定义我们与 AI 技术及整个互联网的关系。"OpenAI 的研究主管这样说道。

正如研究主管所说，今日 ChatGPT 的更新不仅仅是一个界面的升级，更像是人机交互新形态的开启，让我们共同期待它将带来的无限可能。

参考链接：

https://openai.com/index/introducing-canvas/

https://twitter.com/OpenAI/status/1841887707020329173

https://techcrunch.com/2024/10/03/openai-launches-new-canvas-chatgpt-interface-tailored-to-writing-and-coding-projects/

http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247681196&idx=1&sn=4cdb21f2513f8f4fd3ffb6b4c54cf640

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

最新文章

CCF 大模型安全挑战赛获奖队伍公示！

陶神回应：AI还无法达到他12岁时的水平

又一外企巨头在中国裁员了

4所高校、1000+师生受益，9月AI+X高校行圆满举行！

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

陶哲轩用AI证明方程理论，19天进度99.99%，论文将上线

起诉Open AI：一场科技巨头与小人物的纷争

苦撑30年，离职时75岁！看完老爷子的简历，我失眠了。。

探索AI+硬件新范式，10月26日与交大、商汤、面壁、蔚来、OPPO等各界技术大咖相约上海

提升动手实践能力！Datawhale精选赛事合集

2025泰晤士世界大学排名公布！

真见证历史！SpaceX 星舰第五飞试飞一级回收成功，首次实现“筷子”夹大火箭

两年倒数！Claude 公司 CEO万字长文预言：「强大AI」26年降临，人类寿命将翻倍

红杉资本行业总结篇：生成式 AI 的发展

马斯克：这将是载入史册的一天！

深度｜李飞飞：我不知道什么是AGI

十月组队学习来了！🥳

刚刚，诺贝尔化学奖，揭晓！AI是没有边界的！

报名开启 | 10月27日 Google活动来杭州了

2024 年中国开源年度报告——问卷篇

刚刚，2024年诺贝尔物理学奖，颁给了搞AI的！

近60万总奖金 + offer 直通！国内首个大模型攻防主题赛事

某大厂被爆明文存储密码，罚7亿！

17岁孩子开发AI应用，4个月入百万，人人都是AI产品经理的时代快来了

今日凌晨，ChatGPT重磅更新！— 我心目中的终极 AGI 界面

员工：把工作外包给 AI 是在胡扯！

为什么多数程序员都不做个人独立开发？

顶会卷到中学了！人大附中高中生入选NeurIPS

重磅！美国加州否决SB 1047法案！

聊一聊大模型六小虎生存现状！

Datawhale走进上市企业，（人工智能能力培训）活动圆满举行！

苹果退出投资！OpenAI高管震荡内幕：CEO压榨员工，漠视安全仓促上线4o，追名逐利初心已不再

Sam Altman最新撰文：几千天后，人类将进入智能时代

国家超算互联网平台，提供免费算力了！

捡漏拿奖赛事（目前拿奖率60%）：科大讯飞多语种个性化语音识别挑战赛

每日互动（个推）2025届校招来啦！

实战精选 | 5分钟利用 OpenVINO™ 部署 Qwen2.5

事关就业！中共中央、国务院，发布！

捡漏拿奖赛事（目前拿奖率75%）：科大讯飞自然场景视频文本跟踪匹配挑战赛

9月28日，杭州阿里见！

在校研究生总量首次超过本科生总量，张雪峰回应争议

o1发布后，信息量最大的圆桌对话：杨植麟、姜大昕、朱军探讨大模型技术路径

突发！高通拟全盘收购 intel

算法岗和开发岗有什么区别？

清华大学（深圳）Agentland 实验室，游戏开发工作坊[第1期]开始招募！

倒计时三天！大模型RAG智能问答挑战赛

9月21日，厦门见！

2024年国家杰青、优青入选情况汇总

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

交大ACM班团队出品，动手学数据结构！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉