首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

刚刚，OpenAI 安全副总裁、北大校友 Lilian Weng 宣布离职，有时间写博客了

科技 2024-11-09 10:54 安徽

金磊发自凹非寺
量子位 | 公众号 QbitAI

就在刚刚，那个掌管OpenAI安全的北大校友，OpenAI研究副总裁（安全）翁荔，离职了。

翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。

北大毕业后，翁荔在2018年加入OpenAI，后来在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

最著名的Agent公式也由她提出，即：Agent=大模型+记忆+主动规划+工具使用。

而就在前不久，她还刚刚现身2024 Bilibili 超级科学晚活动，发表了《AI安全与“培养”之道》的主题演讲。

在她宣布离职消息之后，包括OpenAI在内的众多同事发来了祝福：

翁荔的离职信

在推文中，翁荔也分享了他跟团队做的最后的道别。

以下为离职信的完整内容。

亲爱的朋友们：

我做出了一个非常艰难的决定，将于11月15日离开OpenAI，这将是我在公司最后一天。

OpenAI是我成长为科学家和领导者的地方，我将永远珍惜在这里与每一位共事的伙伴度过的时光。OpenAI团队一直是我的知己、导师以及我身份的一部分。

我仍然记得2017年初加入OpenAI时的那份好奇和热情。当时我们是一群怀抱着不可能与科幻未来梦想的人。

我在这里开始了我的全栈机器人挑战之旅——从深度强化学习算法，到感知，再到固件开发——目标是教会一个简单的机械手如何解开魔方。这花费了整个团队两年时间，但最终我们成功了。

当OpenAI进入GPT领域时，我们开始探索如何将最先进的AI模型应用于现实世界。我建立了第一个应用研究团队，推出了初始版本的微调API、嵌入API和审核端点，为应用安全工作奠定了基础，还为早期的API客户开发了许多新颖的解决方案。

在GPT-4发布后，我被要求承担新的挑战，重新考虑OpenAI的安全系统愿景，并将所有工作集中到一个负责整个安全体系的团队。

这是我经历过的最困难、最紧张又令人兴奋的事情之一。如今，安全系统团队拥有超过80位出色的科学家、工程师、项目经理、政策专家，我为我们作为一个团队所取得的一切成就感到极为自豪。

我们见证了每次发布的核心——从GPT-4及其视觉和Turbo版本，到GPT Store、语音功能以及01版本。我们在训练这些模型以达到负责任和有益的目标上设立了新的行业标准。

我特别为我们最新的成就o1预览版感到自豪，它是我们迄今为止最安全的模型，展现了出色的抗破解能力，同时保持了模型的有用性。

我们的集体成就令人瞩目：

我们训练模型如何处理敏感或不安全的请求，包括何时拒绝或不拒绝，并通过遵循一套明确的模型安全行为政策，达成安全与实用之间的良好平衡。
我们在每次模型发布中提升了对抗性鲁棒性，包括针对破解的防御、指令层次结构，并通过推理大幅增强了鲁棒性。
我们设计了严格且富有创意的测试方法，使模型与《准备框架》保持一致，并为每个前沿模型进行了全面的安全测试和红队测试。
我们在详细的模型系统卡中强化了对透明性的承诺。
我们开发了业内领先的审核模型，具有多模式能力，并免费向公众共享。我们当前在一个更通用的监控框架和增强安全推理能力的方向上工作，将赋能更多的安全工作流。
我们为安全数据日志、度量、仪表盘、主动学习管道、分类器部署、推理时间过滤以及一种新的快速响应系统奠定了工程基础。

回顾我们所取得的成就，我为安全系统团队的每一个人感到无比自豪，并极为确信这个团队将继续蓬勃发展。我爱你们。

在OpenAI的七年之后，我准备好重新出发，探索一些新的领域。OpenAI正沿着火箭般的轨迹前进，我衷心祝愿这里的每一个人一切顺利。

附注：我的博客将继续更新。我或许会有更多时间来更新它 & 可能也会有更多时间编写代码。

爱你们的，
Lilian

铁打的OpenAI，流水的安全主管

自OpenAI成立以来，安全主管这个关键职位历经多次更替。

最早在2016年，OpenAI的安全主管由达里奥·阿莫代伊（Dario Amodei）担任，在他的领导下，安全系统团队专注于减少现有模型和产品的滥用风险，尤其是围绕GPT-3的安全性开展了深入研究。

阿莫代伊主导了GPT-3的全面安全评估，以确保模型在发布前经过严格的安全测试和评估，最大限度地降低潜在的滥用风险。

他在OpenAI的工作为后来人工智能的安全治理奠定了重要基础。

2021年，阿莫代伊离开OpenAI创立了Anthropic公司，继续致力于人工智能的安全研究，推动构建更具可信度和安全性的AI模型。

在阿莫代伊之后，还有短暂任职2个月的安全主管，亚历山大·马德里（Aleksander Madry）。

他在职期间主要聚焦对新模型的能力进行评估，并开展内部红队测试，以识别和缓解潜在的安全风险。

虽然他的任期较短，但他在红队测试和威胁预测上的重要推进，为OpenAI的安全实践提供了新的视角和方法论。

在2023年7月后，马德里转而专注于“AI推理”方面的工作，离开了安全主管的职位。

在他之后的第三位安全主管，则是杨·莱克（Jan Leike），在2023年7月至2024年5月担任这一职务，和Ilya一起领导“超级对齐”项目，目标是在四年内解决超智能AI的对齐问题。

在此期间，杨·莱克推动了使用小型模型监督和评估大型模型的研究，开创了对超人类能力模型进行实证对齐的新方法。

这种方法对于理解和应对高级人工智能模型的行为具有深远影响。

然而，由于与公司在安全和产品优先级上的分歧，杨·莱克于2024年5月宣布离职。

尽管如此，他在对齐研究方面的贡献，为后续人工智能的可控性研究奠定了理论和实践基础。

而翁荔则是于2024年7月担任OpenAI安全主管。

关于翁荔

翁荔是OpenAI华人科学家、ChatGPT的贡献者之一，本科毕业于北大，在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间，第一份工作则是就职于Dropbox，担任软件工程师。

她于2018年加入OpenAI，在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中，翁荔领导安全系统团队（Safety Systems），解决减少现有模型如ChatGPT滥用等问题。

翁荔在Google Scholar的引用量也达到了13000+次。

此前她提出的提出LLM外在幻觉（extrinsic hallucination）的博文也是非常火爆。

翁荔重点关注外在幻觉，讨论了三个问题：产生幻觉的原因是什么？幻觉检测，抵抗幻觉的方法。

关于研究的细节，可以点击这里查看：万字blog详解抵抗办法、产幻原因和检测方式。

至于翁荔离职后的去向，我们也会保持持续的关注。

参考链接：
[1]https://x.com/lilianweng/status/1855031273690984623
[2]https://www.linkedin.com/in/lilianweng/

推荐阅读

（点击标题可跳转阅读）

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线

重磅！

1700多页的《人工智能学习路线、干货分享全集》PDF文档

扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。

长按扫码，申请入群

感谢你的分享，点赞，在看三连

http://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247567896&idx=1&sn=fedaedfa555a77e6d027b73485a9f52c

一个值得关注的 AI 技术公众号。主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为您提供切实可行的 AI 学习路线。

最新文章

确实可以封神了：一个悄然崛起的国产项目！

新的 Mamba 架构又双叒来了！上交大 & 华为提出 QuadMamba ：多个视觉任务 SOTA!

绝了，图片秒变代码，开发越来越简单了！

不是，现在都流行用 Kaggle 写论文了吗？

吴恩达出手，开源最新 Python 包，一个接口调用 OpenAI 等模型！

超越 GPT-4o！开源科研神器登场

小红书，把“失业线”压到了32岁

斯坦福大学发布全球人工智能实力排行榜

更新了！带 Agent 的 Cursor 太疯狂了

王者归来！Transformer 彻底爆发了！

突破 XGBoost！时间序列预测！！

美国 AI 曼哈顿计划 793 页文件曝光！全力研发 AGI，十大战略直指中国

万字长文，大模型分布式训练的学习过程总结

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

特朗普上台，第一刀再次扎在了留学生身上。。。

大模型中上分技巧大总结！！

FLUX“官方版ControlNet”来了！

训练大模型，这次竟卡在没图这里了。。。

Make U-Nets Great Again！北大&华为强强联合

计算机视觉顶尖期刊和会议有哪些？

王炸！字节又一爆款面试神器诞生了！

突破 LSTM！时间序列预测！！

谷歌浏览器，要被强制出售！

ChatGPT 4.0 与 Claude Pro 国内直接用！

史上最强！YOLOv11 杀疯了！

知名开源项目，阿里官宣停更，太痛了！

机器学习中降维和特征选择的对比介绍

直播预约 | CDCC 施耐德电气专场：算领未来，赋能无限！

已注销！985 新校区，不建了

12 个 ChatGPT 写作秘诀让你事半功倍！OpenAI 官方发布

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

打破纪录！中国科学家让薛定谔的猫活了 23 分钟

最新世界大学学科排名发布：浙大第一、中山第二，清华、北大、上海交大并列中国内地第三

好生猛，全球首款 AI 游戏问世！

谷歌 2024 博士奖学金名单揭晓！清华姚班大神吕欣，KAN一作刘子鸣获奖

211 大学教授、博导，落马！

深入理解机器学习中的正则化

教授何恺明在 MIT 的第二门课——《深度生成模型》，讲座PPT陆续已出

裁员 9000 人。

ChatGPT 4o 国内直接用！

全球首例：14 岁男孩和 AI 聊天网恋后被诱导自杀，生前对话曝光

今年顶会这情况。。。大家提前做准备吧！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

Ilya 认错，Scaling Law 崩了？自曝 SSI 秘密技术路线取代 OpenAI

被导师放养，后果可能很严重。。。

GPT-5 被曝不及预期，OpenAI 员工：没什么科学突破了，接下来只需要工程

开源版 SearchGPT 来了，两张 3090 就可复现，超越 Perplexity 付费版

80w，确实可以封神了！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉