首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

顶级围棋AI被发现漏洞：“超人类人工智能”还有很长的路？

文摘文化 2024-07-09 23:01 中国

围棋机器人通常被视为人工智能（AI）领域最成功的系统之一。然而，近期一项研究揭示了顶级围棋机器人存在的缺陷。研究人员认为围棋机器人的致命缺陷同样存在于ChatGPT（聊天机器人）在内的大型语言模型中，这引发了人们对通用人工智能是否会遭受漏洞影响从而危及其安全性和可靠性的质疑。

2022年11月19日，云南昆明，南亚博览会，参展商在和弈棋机器人下围棋。（新华社/图）

编译丨李永博

“超人类人工智能”（superhuman AI）是最近人工智能领域比较热门的话题。根据OpenAI首席科学家伊尔亚·苏茨克维（Ilya Sutskever）的说法，“超人类人工智能”指的是那些在某些领域上能够表现得比人类更优秀的AI系统。然而最近的一项研究对“超人类人工智能”的前景提出了质疑。

根据《自然》杂志报道，近期发布的一项研究以KataGo2（被认为是目前最成功的开源围棋人工智能系统）为例，指出人工智能系统并非总是可以在围棋领域轻易地击败人类。

这项研究作为预印本于今年6月在线发布，还未经过同行评审。研究人员使用了“对抗性攻击”来发现围棋AI系统的漏洞，这是一种向AI系统输入设计好的数据，诱使系统犯错的策略。例如，某些提示可以让聊天机器人“越狱”，使其提供出它们被训练禁止表达的有害信息。

科幻纪录片《我们需要谈谈AI》（AI We Need To Talk About A.I.，2020）画面。

在围棋中，研究人员通过训练对抗性AI机器人击败KataGo，这是目前最好的开源围棋AI系统。研究人员表示，这些对抗性机器人找到了能够经常击败KataGo的漏洞，尽管它们在其他方面表现并不好。此外，人类可以理解这些机器人的技巧并采用它们来击败KataGo。

KataGo的漏洞是一次偶然现象，还是指向了所有“超人类人工智能”的根本弱点？为了调查这一点，研究人员使用对抗性机器人测试了围棋AI三种应对防御策略。结果显示，面对三种不同的防御策略，对抗性机器人最终还是找到了围棋AI的弱点，胜率可以达到80%-90%。

在所有这些情况下，对抗性机器人虽然能够击败KataGo和其他顶级围棋系统，但它们被训练的目的是发现其他AI的隐藏漏洞，而不是成为全面的战略家。“这些对手仍然相当弱，人类自己也能轻松击败它们，”研究人员说道。

这项研究结果不仅局限于围棋AI，也可能对包括ChatGPT在内的大型语言模型的AI系统产生广泛影响。“关键的结论是漏洞难以消除，如果我们不能在像围棋这样简单的领域中解决这个问题，那么在短期内，似乎不太可能修复类似于ChatGPT中的越狱问题。”

多位专家指出，这篇论文提供了迄今为止最有力的证据，表明让高级AI模型稳定地表现出预期行为是很难的，这说明想要构建一个可以信任的、强大的现实世界的AI系统还有很长的路，“最重要的结论是我们今天构建的AI系统，人类自己并不完全理解。”

参考资料：

(1)Can AI be superhuman? Flaws in top gaming bot cast doubt

https://www.nature.com/articles/d41586-024-02218-7

(2)OpenAI Co-Founder, Who Helped Oust Sam Altman, Starts His Own Company

https://www.nytimes.com/2024/06/19/technology/ilya-sutskever-openai-safe-superintelligence.html

本文为编译内容。编译：李永博；编辑：西西；校对：柳宝庆。欢迎转发至朋友圈。文末含《新京报·书评周刊》2023合订本广告。

点击“阅读原文”

即刻购买《新京报·书评周刊》2023合订本～

http://mp.weixin.qq.com/s?__biz=Mzg2NzI1MDMxMw==&mid=2247504078&idx=1&sn=0b1a73ebb555fb83f0bfc7ff1711886e

新京报文化客厅，用文字搬运想象，一起寻找新的可能。

最新文章

大学学历贬值？美国加州州立大学系统宣布将重点关注学生就业率

荷兰出版商将推出使用人工智能翻译的小说

英国最新调查发现，青少年儿童阅读率跌至近20年来最低水平

《小丑2》被骂烂片，鬼才导演昆汀·塔伦蒂诺公开表示“我真的非常喜欢它”

著名导演蒂姆·伯顿：从书中删除攻击性语言是“非常错误的”

因预算消减，英国公共图书馆遭遇“关闭潮”

《银翼杀手2049》制片方起诉埃隆·马斯克，未经授权盗用电影视觉创意

英国女演员凯拉·奈特莉出版儿童读物：作家对名人写书感到沮丧？

殖民史图书被归类为小说，美国得州一县引争议

作家聂华苓去世，曾为沈从文作传丨逝者

著名心理学家菲利普·津巴多逝世，曾设计“斯坦福监狱实验”

艺术展“地球上的生命”在洛杉矶举办，从性别视角重思21世纪环境问题

J.K.罗琳被指“煽动愤怒”：再度发声反对跨性别群体使用女性卫生间

可重复率越高，研究的结论就一定越可靠吗？

诗人痖弦去世，享年92岁丨逝者

2024诺贝尔文学奖得主韩江：她以充满诗意的散文，揭露人类生命的脆弱

萨尔曼·拉什迪将出版自2022年刺杀事件以来的第一部小说

托卡尔丘克出新书：女性需要面对自己在文学作品中的缺席

文科学者影响二战？新书揭开不为人知的谍战故事

明星作家尼尔·盖曼被指控性行为不端，多个电影改编项目被搁置

女性如何闯入华尔街？又一本新书填补女性历史空白

萨莉·鲁尼：《正常人》成功得“太过分了”，渴望摆脱固有标签

美国知名创意写作平台对人工智能态度暧昧，疑似为相关创作形式“开绿灯”

HBO将拍摄《哈利·波特》电视剧，现已开始公开选角

英国调查发现，接近一半的作家遭遇过拖欠版税问题

斯坦福大学拟解雇23名创意写作课讲师，“全部转为短聘制”

魔法结束了？霍格沃茨返校日被取消，《哈利·波特》书迷表示不满

“被撤稿的参考文献”：当引用的文献有问题，研究结论还可靠吗？

就是要搞艺术！9月6日至8日，开启勇者的冒险！北京·CALLING艺术节市集总攻略

意大利一窃贼作案时被书吸引，忘记逃跑后被捕

“为什么一页书上有那么多字？”网红博主言论引发热议

新公开的信件揭露了查尔斯·狄更斯家庭中不为人知的细节

良渚，“玉成中国”的关键节点 | 叶舒宪、刘斌对谈回顾

人工智能正在冲击动画行业？电影《智能大反攻》照进现实

一名窗户清洁工发现了莎士比亚生前的唯一一幅肖像

首部德国摇滚口述史出版，揭开一场从“零”开始的音乐重建运动

室温超导研究再也不能取信于人？丑闻阴影还远未散去

英国利物浦的图书馆被烧毁，150余位作家承诺捐赠藏书帮助重建

历经30年，弗洛伊德的英文版著作全集迎来更新

加入特朗普团队之后，万斯旧作《乡下人的悲歌》销量飙升

当论文使用伪造的实验数据，期刊杂志应如何应对？

“中国比较文学学科的拓荒者”乐黛云逝世，享年93岁

最新民调显示，美国民众对高等教育的信心急剧下降

雨果奖披露舞弊现象，377票虚假选票将被剔除

AI脸逼真分不清？有研究提出用天文学的方法可以识别

门罗之女揭开真相后，文学教授们正在思索如何教授门罗作品

《杀戮一代》作者埃文·赖特自杀身亡，作家心理问题引发关注

英国伯明翰削减图书馆开支，多家图书馆面临关闭风险

练瑜伽能缓解科研压力吗？心理健康危机中的博士生和年轻学者

顶级围棋AI被发现漏洞：“超人类人工智能”还有很长的路？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉