首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

科技 2024-11-09 09:59 北京

金磊发自凹非寺
量子位 | 公众号 QbitAI

就在刚刚，那个掌管OpenAI安全的北大校友，OpenAI研究副总裁（安全）翁荔，离职了。

翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。

北大毕业后，翁荔在2018年加入OpenAI，后来在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

最著名的Agent公式也由她提出，即：Agent=大模型+记忆+主动规划+工具使用。

而就在前不久，她还刚刚现身2024 Bilibili 超级科学晚活动，发表了《AI安全与“培养”之道》的主题演讲。

在她宣布离职消息之后，包括OpenAI在内的众多同事发来了祝福：

翁荔的离职信

在推文中，翁荔也分享了他跟团队做的最后的道别。

以下为离职信的完整内容。

亲爱的朋友们：

我做出了一个非常艰难的决定，将于11月15日离开OpenAI，这将是我在公司最后一天。

OpenAI是我成长为科学家和领导者的地方，我将永远珍惜在这里与每一位共事的伙伴度过的时光。OpenAI团队一直是我的知己、导师以及我身份的一部分。

我仍然记得2017年初加入OpenAI时的那份好奇和热情。当时我们是一群怀抱着不可能与科幻未来梦想的人。

我在这里开始了我的全栈机器人挑战之旅——从深度强化学习算法，到感知，再到固件开发——目标是教会一个简单的机械手如何解开魔方。这花费了整个团队两年时间，但最终我们成功了。

当OpenAI进入GPT领域时，我们开始探索如何将最先进的AI模型应用于现实世界。我建立了第一个应用研究团队，推出了初始版本的微调API、嵌入API和审核端点，为应用安全工作奠定了基础，还为早期的API客户开发了许多新颖的解决方案。

在GPT-4发布后，我被要求承担新的挑战，重新考虑OpenAI的安全系统愿景，并将所有工作集中到一个负责整个安全体系的团队。

这是我经历过的最困难、最紧张又令人兴奋的事情之一。如今，安全系统团队拥有超过80位出色的科学家、工程师、项目经理、政策专家，我为我们作为一个团队所取得的一切成就感到极为自豪。

我们见证了每次发布的核心——从GPT-4及其视觉和Turbo版本，到GPT Store、语音功能以及01版本。我们在训练这些模型以达到负责任和有益的目标上设立了新的行业标准。

我特别为我们最新的成就o1预览版感到自豪，它是我们迄今为止最安全的模型，展现了出色的抗破解能力，同时保持了模型的有用性。

我们的集体成就令人瞩目：

我们训练模型如何处理敏感或不安全的请求，包括何时拒绝或不拒绝，并通过遵循一套明确的模型安全行为政策，达成安全与实用之间的良好平衡。
我们在每次模型发布中提升了对抗性鲁棒性，包括针对破解的防御、指令层次结构，并通过推理大幅增强了鲁棒性。
我们设计了严格且富有创意的测试方法，使模型与《准备框架》保持一致，并为每个前沿模型进行了全面的安全测试和红队测试。
我们在详细的模型系统卡中强化了对透明性的承诺。
我们开发了业内领先的审核模型，具有多模式能力，并免费向公众共享。我们当前在一个更通用的监控框架和增强安全推理能力的方向上工作，将赋能更多的安全工作流。
我们为安全数据日志、度量、仪表盘、主动学习管道、分类器部署、推理时间过滤以及一种新的快速响应系统奠定了工程基础。

回顾我们所取得的成就，我为安全系统团队的每一个人感到无比自豪，并极为确信这个团队将继续蓬勃发展。我爱你们。

在OpenAI的七年之后，我准备好重新出发，探索一些新的领域。OpenAI正沿着火箭般的轨迹前进，我衷心祝愿这里的每一个人一切顺利。

附注：我的博客将继续更新。我或许会有更多时间来更新它 & 可能也会有更多时间编写代码。

爱你们的，
Lilian

铁打的OpenAI，流水的安全主管

自OpenAI成立以来，安全主管这个关键职位历经多次更替。

最早在2016年，OpenAI的安全主管由达里奥·阿莫代伊（Dario Amodei）担任，在他的领导下，安全系统团队专注于减少现有模型和产品的滥用风险，尤其是围绕GPT-3的安全性开展了深入研究。

阿莫代伊主导了GPT-3的全面安全评估，以确保模型在发布前经过严格的安全测试和评估，最大限度地降低潜在的滥用风险。

他在OpenAI的工作为后来人工智能的安全治理奠定了重要基础。

2021年，阿莫代伊离开OpenAI创立了Anthropic公司，继续致力于人工智能的安全研究，推动构建更具可信度和安全性的AI模型。

在阿莫代伊之后，还有短暂任职2个月的安全主管，亚历山大·马德里（Aleksander Madry）。

他在职期间主要聚焦对新模型的能力进行评估，并开展内部红队测试，以识别和缓解潜在的安全风险。

虽然他的任期较短，但他在红队测试和威胁预测上的重要推进，为OpenAI的安全实践提供了新的视角和方法论。

在2023年7月后，马德里转而专注于“AI推理”方面的工作，离开了安全主管的职位。

在他之后的第三位安全主管，则是杨·莱克（Jan Leike），在2023年7月至2024年5月担任这一职务，和Ilya一起领导“超级对齐”项目，目标是在四年内解决超智能AI的对齐问题。

在此期间，杨·莱克推动了使用小型模型监督和评估大型模型的研究，开创了对超人类能力模型进行实证对齐的新方法。

这种方法对于理解和应对高级人工智能模型的行为具有深远影响。

然而，由于与公司在安全和产品优先级上的分歧，杨·莱克于2024年5月宣布离职。

尽管如此，他在对齐研究方面的贡献，为后续人工智能的可控性研究奠定了理论和实践基础。

而翁荔则是于2024年7月担任OpenAI安全主管。

关于翁荔

翁荔是OpenAI华人科学家、ChatGPT的贡献者之一，本科毕业于北大，在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间，第一份工作则是就职于Dropbox，担任软件工程师。

她于2018年加入OpenAI，在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中，翁荔领导安全系统团队（Safety Systems），解决减少现有模型如ChatGPT滥用等问题。

翁荔在Google Scholar的引用量也达到了13000+次。

此前她提出的提出LLM外在幻觉（extrinsic hallucination）的博文也是非常火爆。

翁荔重点关注外在幻觉，讨论了三个问题：产生幻觉的原因是什么？幻觉检测，抵抗幻觉的方法。

关于研究的细节，可以点击这里查看：万字blog详解抵抗办法、产幻原因和检测方式。

至于翁荔离职后的去向，量子位也会保持持续的关注。

参考链接：
[1]https://x.com/lilianweng/status/1855031273690984623
[2]https://www.linkedin.com/in/lilianweng/

— 完 —

报名即将截止！

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247757407&idx=1&sn=0c237f76619e67a7265744722b3cb667

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉