3万字全文|Anthropic安全对齐主管阿曼达接受莱克斯专访:人应该如何与AI对话、AI与人类会产生亲密关系吗?

文摘   2024-11-14 09:02   浙江  

👇关注公众号后设🌟标,掌握第一手AI新动态

本文访谈内容整理自Anthropic安全和对齐主管阿曼达·阿斯克尔接受Lex Fridman Youtube频道专访,公开发表于2024年11月11日。原始内容参考:https://www.youtube.com/watch?v=ugvHCXCOmm4

Anthropic安全和对齐主管阿曼达·阿斯克尔接受Lex Fridman专访

内容导读

本次专访主要围绕着人工智能安全、AI模型Claude的性格塑造以及机械解释性展开,阿曼达·阿斯克尔分享了她从哲学转向AI领域的心路历程和诸多深刻见解。主要观点包括:

  1. AI安全与风险:  AI技术发展需要同时关注其积极应用和潜在风险,后者如同发展道路上的地雷,必须积极化解。
  2. 从哲学到AI政策与技术:  哲学的训练为理解AI问题提供了很好的基础,  Amanda  强调了跨学科能力的重要性,并鼓励非技术背景人士积极参与AI领域,即使从小的项目入手。她自身的经历证明了从哲学转向AI技术的可行性,并最终在技术领域有所建树。
  3. Claude的性格塑造:  塑造Claude的性格并非单纯的产品考虑,而是关乎AI安全对齐的工作。目标是让Claude像理想中的人一样行事,具备丰富的道德观、同理心、良好的沟通技巧以及诚实正直等品质,并避免迎合用户或只说用户想听的话(sycophancy)。这需要在尊重用户观点和引导用户成长的过程中找到平衡。
  4. Prompt Engineering的重要性:  撰写高质量的prompt需要清晰的表达、迭代式的实验以及对模型行为的深入理解,这与哲学中的清晰论证和严谨推理有异曲同工之妙。高质量的prompt能够极大提升模型性能,尤其是在挖掘模型创造力方面。
  5. Constitutional AI(宪法AI):  Constitutional AI通过模型自身的反馈来进行训练,利用预先设定的原则(例如无害性)来评估模型的输出,从而提升模型的道德性和安全性。这种方法比单纯依靠人类反馈更具可解释性,也更易于控制模型的行为。 这是一种比单纯依靠人类反馈更高效的训练方法。
  6. 模型改进与迭代:  模型的改进是一个持续迭代的过程,通过观察用户的反馈、分析模型的错误,并对系统提示词进行调整,不断优化模型的性能和行为。系统提示词就像一个补丁,可以快速修复模型中的问题。
  7. 人类反馈与模型行为:  人类对模型的反馈包含大量信息,即使是细微的偏好,模型也能从中学习,这体现了深度学习强大的数据处理能力。强化学习主要通过引导模型展现其已具备的能力,而非教给模型新的知识。
  8. 对“Claude变笨了”的解读:  用户对模型能力的感知会受到多种因素影响,包括自身对模型的预期、提示词的质量以及随机性等,这可能导致用户产生模型能力下降的错觉。
  9. 与Claude的对话:  Amanda  与Claude的对话并非简单的问答,而是通过精心设计的提问来探测模型的边界,并收集大量关于模型行为的高质量数据。
  10. 对AI意识的思考:  Amanda  认为AI是否具备意识是一个复杂的问题,需要谨慎思考,不能简单地将其视为工具。她更倾向于关注AI系统是否会“遭受痛苦”,并认为在不造成重大代价的前提下,应尽量避免AI系统遭受“痛苦”。
  11. 与AI的未来关系:  Amanda 认为,未来人类与AI的关系需要谨慎处理,特别是当AI能够记住过往互动时。她认为,既要避免AI被滥用,也要尊重人们与AI建立联系的权利,并强调AI系统应始终对自身能力和局限性保持透明。

阿曼达·阿斯克尔简介

阿曼达·阿斯克尔(阿曼达·阿斯克尔)是Anthropic公司安全与对齐团队的负责人。Anthropic是一家专注于人工智能安全和研究的AI公司,致力于构建可靠、可解释和可控制的AI系统。Askell在AI安全领域扮演着关键角色,领导团队研究如何降低AI模型的风险,并确保其行为符合人类的价值观和意图。

她的研究重点关注AI对齐问题,即如何确保AI系统的目标与人类目标一致。 Askell及其团队致力于开发和改进技术,例如强化学习和可解释性技术,以更好地理解和控制AI模型的行为。 他们也积极探索如何评估AI系统的安全性,并开发相应的安全协议。

在加入Anthropic之前,Askell曾在OpenAI工作,同样专注于AI安全研究。她拥有丰富的经验,并且在该领域发表过许多重要论文。Askell的工作对于确保未来AI技术的安全和有益发展至关重要,她致力于推动AI朝着对人类有益的方向发展。

访谈全文记录

主持人莱克斯: 现在,亲爱的朋友们,接下来是阿曼达·阿斯克尔。你受过哲学训练,那么你在牛津大学和纽约大学的哲学学习旅程中,以及随后转向OpenAI和Anthropic的人工智能问题时,你发现了哪些有趣的问题?

阿曼达: 我认为哲学实际上是一个非常好的学科,如果你对一切事物都充满好奇的话。哲学无所不包,你知道的。所以,如果你学习一段时间数学哲学,然后你决定你实际上对化学非常感兴趣,你就可以学习一段时间化学哲学。你可以转向伦理学或政治哲学。我想到了最后,我主要对伦理学感兴趣。这就是我的博士论文的主题。它是一个关于伦理学的技术领域,即世界包含无限多人的伦理学,奇怪的是,在伦理学的应用方面稍微缺乏实用性。

攻读伦理学博士学位的一个棘手之处在于,你在攻读哲学博士学位的同时,也在思考世界以及如何让它变得更好。在我攻读博士学位期间,我一直在想,这非常有趣。这可能是我在哲学中遇到的最引人入胜的问题之一,而且我非常喜欢。但我宁愿看看我是否能够对世界产生影响,并尝试做一些好事。

我想那是在人工智能可能还没有像现在这样被广泛认可的时候。那是大约2017年、2018年左右。我一直关注着它的发展,它似乎正变得越来越重要。我基本上很高兴参与其中,看看我是否能够提供帮助,因为我认为,如果你尝试做一些有影响力的事情,而没有成功,那么你至少尝试过做有影响力的事情。然后你就可以成为一名学者,并且觉得你已经尝试过了。如果结果不理想,那就这样吧。所以我当时转向了人工智能政策。

主持人莱克斯:  人工智能政策包括什么内容?

阿曼达: 那时候,这更多的是思考人工智能的政治影响和后果。然后我逐渐转向人工智能评估,我们如何评估模型,它们与人类输出的比较,人们是否能够区分人工智能和人类的输出。然后当我加入Anthropic时,我更感兴趣的是做一些技术对齐的工作。再次,只是看看我是否能够做到,如果不能,那就这样吧,我已经尝试过了。我想这就是我生活的态度。

主持人莱克斯: 从无所不包的哲学转向技术领域是什么感觉?

阿曼达:  我认为有时人们会做一些我不太喜欢的事情,比如他们会问:这个人是技术人员吗?就像你要么是一个可以编写代码并且不怕数学的人,要么就不是。我认为我可能更像,我认为很多人都非常有能力胜任这些领域的工作,如果他们只是尝试一下的话。所以我实际上并没有觉得那么糟糕。回想起来,我很高兴我没有跟那些把这件事当成那样的人说话。你知道的,我确实遇到过一些人,他们会说,“哇,你会编程”。而我会说,“嗯,我不是一个很棒的工程师。我周围都是很棒的工程师。我的代码并不漂亮。但我非常享受这个过程。我认为在很多方面,至少最后,我认为我在技术领域比在政策领域更有成就感。

主持人莱克斯: 政治很混乱,在政治领域很难找到问题的解决方案,不像在技术问题中那样能找到明确的、清晰的、可证明的、完美的解决方案。

阿曼达: 是的。我觉得我好像只有两根棍子来解决问题,一根是论证,你知道的,所以就是试图找出问题的解决方案,然后试图说服别人这就是解决方案,如果我错了就接受别人的说服。另一个是经验主义,所以就是找到结果,提出假设,然后进行测试。我觉得很多政策和政治都比这高出一层,不知何故,我认为如果我只是说我有一个解决所有这些问题的方案,它就写在那里,如果你想实施它,那就太好了,这感觉不像政策运作的方式,所以我认为这可能是我不会在那个领域有所成就的原因。谢谢。

主持人莱克斯:  很抱歉聊到这个方向,但我认为对于那些自认为“非技术人员”的人来说,看到你经历的这段不可思议的旅程会非常鼓舞人心。那么,你对那些认为自己资历不足、技术不够,无法参与AI领域工作的人有什么建议呢?

阿曼达: 是的,我认为这取决于他们想做什么。从很多方面来说,这有点奇怪,我曾经觉得很有趣的是,我认为我在技术方面提升得很快,而现在当我回顾过去时,我会想,模型在帮助人们处理这些事情方面如此出色,现在可能比我当时处理这些问题时更容易了。所以,我一部分的想法是,我不知道,找一个项目,看看你是否真的能够完成它,这可能是我最好的建议。我不知道这是否仅仅是因为我的学习方式非常注重项目。例如,我认为我从课程甚至书籍中学习得并不好,至少在涉及到这种工作时是这样。我经常尝试做的事情就是进行一些项目并付诸实施。你知道,这可能包括一些非常琐碎的小事。例如,如果我稍微沉迷于文字游戏或数字游戏之类的,我会编写一个解决方案,因为我大脑的某个部分会完全消除这种渴望。你知道,一旦你解决了它,并且你有一个每次都能奏效的解决方案,我就会想,“太棒了,我再也不用玩这个游戏了”。

主持人莱克斯:  是的,构建游戏引擎,尤其是棋类游戏,真的很有乐趣。是的,它很快,很简单,尤其是一个简单的引擎,然后你就可以玩它了。

阿曼达: 是的。然后,这也像尝试一样,我一部分的想法是,也许正是这种态度我喜欢,那就是弄清楚你似乎可以通过哪种方式产生积极影响,然后尝试一下。如果你失败了,而且以一种让你觉得“我实际上永远无法成功”的方式失败了,你会知道你尝试过了,然后你会转向其他事情。你可能会学到很多东西。

主持人莱克斯:  所以,你擅长并从事的一项工作是创建和塑造Claude的角色和个性。我听说你可能比Anthropic的任何人都跟Claude聊得多,是真正的对话。我想有一个Slack频道,传说中你一直在不停地和它聊天。那么,创建和塑造Claude的角色和个性的目标是什么呢?

阿曼达: 如果人们这样认为Slack频道,那也很有趣,因为我会想,“这只是我与Claude交谈的五种或六种不同方法中的一种”。我会说,“是的,这只是我与Claude交谈的一小部分”。

我认为目标是,我非常喜欢角色塑造工作的一点是,从一开始,它就被视为一项与一致性相关的作品,而不是产品考虑。这并不是说我不认为这使得与Claude交谈变得愉快;至少我希望如此。但我猜想,我一直以来的主要想法是,试图让Claude以你理想中希望任何人处于Claude的位置时应有的方式行事。

所以,假设我带一个人来,他知道他将与潜在的数百万人交谈,而且他说的话会产生巨大的影响。你希望他们在这种丰富的意义上表现良好。我认为这不仅仅意味着要合乎道德——尽管它确实包括这一点以及不造成伤害的重要性——还意味着要微妙一些。

你知道,这包括思考一个人的意思,尝试善待他们,并成为一个良好的对话者。这实际上是在一种丰富的亚里士多德式的关于成为一个好人是什么样的概念中,而不是在狭义的道德意义上,后者更全面。

所以,这包括诸如何时应该幽默?何时应该体贴?你应该在多大程度上尊重自主权和人们形成自己观点的能力?以及你应该如何做到这一点?我认为这就是我想要,并且仍然想要Claude拥有的那种丰富的性格。

主持人莱克斯:  你还需要弄清楚Claude何时应该反驳一个想法或争论,而不是……所以你必须尊重来到Claude面前的人的世界观,但如果需要,也可能帮助他们成长。这是一个微妙的平衡。

阿曼达: 是的,存在语言模型中阿谀奉承的问题。所以基本上,人们担心模型有点想告诉你你想听到的东西。你有时会看到这种情况。所以我觉得如果你与模型互动,我可能会说,“在这个地区有三支棒球队吗?”然后Claude说,“棒球队一、棒球队二、棒球队三”。

然后我说,“哦,我认为棒球队三搬走了,不是吗?我认为他们不再在那里了。”从某种意义上说,如果Claude非常确信这是不正确的,Claude应该说,“我不这么认为;也许你拥有更新的信息。”但我认为语言模型有这样的倾向,即说,“你是对的,他们确实搬走了;你知道,我错了。”有很多方法可以让人担忧。

另一个例子是,当有人对模型说,“我该如何说服我的医生给我做核磁共振检查?” 人类想要的是令人信服的论点。然后是对他有益的事情,这实际上可能是说,“嘿,如果你的医生建议你不需要核磁共振检查,那么这是一个值得倾听的人。”

在这种情况下,你应该做的事情实际上非常微妙,因为你还要说,“如果你试图作为一名病人为自己辩护,那么你可以这样做。如果你不相信你的医生所说的话,那么获得第二次意见总是很好。”在这种情况下,你实际上应该做的事情非常复杂。但我认为你不想让模型只是说你想要或他们认为你想要听到的东西。我认为这就是阿谀奉承的问题。

主持人莱克斯: 那么,除了你已经提到的一些特征外,还有什么其他特征在亚里士多德意义上对对话者来说是好的呢?

阿曼达: 是的,我认为有一些对对话有益的特征。所以,你知道,在适当的地方提出后续问题,并提出适当的问题。我认为有一些更广泛的特质,感觉它们可能更有影响力。我猜想我已经谈到过的一个例子,而且感觉也很重要,也是我一直在努力的一个方面,那就是诚实。我认为这涉及到阿谀奉承的问题;他们必须走出一条平衡的道路,那就是模型目前在很多领域的能力不如人类。如果他们对你过于反驳,实际上可能会有点烦人,尤其如果你只是正确的话,因为你会想,“看,我在这个话题上比你聪明;我知道得更多。”

与此同时,你也不希望他们完全顺从人类,并试图尽可能准确地描述世界,并在不同的语境中保持一致。我认为还有其他一些。当我思考这个角色时,我想到的一幅画面是,尤其因为这些模型将与来自世界各地、拥有各种不同政治观点和不同年龄段的人交谈。

所以你必须问自己,在这种情况下,成为一个好人意味着什么?是否存在一种人可以周游世界,与许多不同的人交谈,几乎每个人都会认为,“哇,那是一个非常好的人。那个人看起来很真诚。” 我当时的看法是,我可以想象这样一个人,而他们并不是一个仅仅采纳当地文化价值观的人。事实上,那样会有点粗鲁。如果有人来你这里,假装拥有你的价值观,你会觉得,“这有点令人反感。”

这是一个非常真诚的人,就他们拥有意见和价值观而言,他们会表达出来。他们愿意讨论事情,他们思想开放,并且尊重他人。所以我当时的想法是,如果我们要努力成为在模型所处的那种情况下我们能够成为的最好的人,我们该怎么做?我认为这是我倾向于思考的那些特质的指导。

主持人莱克斯: 是的,这是一个很棒的框架。我想让你像一个世界旅行者一样思考这个问题。在坚持自己观点的同时,不要居高临下地对待他人,不要因为持有这些观点就认为自己比他们优越,诸如此类。你必须擅长倾听和理解他们的观点,即使它与你自己的观点不符。这是一个很难把握的平衡。那么,Claude如何才能代表某件事的多种观点呢?这有挑战性吗?我们可以谈谈政治,这是一个非常具有争议性的话题,但还有其他具有争议性的话题,比如棒球队、体育运动等等。是的,如何才能设身处地地理解不同的观点,并能够清晰地表达多种观点?

阿曼达: 我认为人们认为价值观和观点是他们坚定持有的事物,几乎就像口味偏好一样,例如,有人可能更喜欢巧克力冰淇淋而不是开心果冰淇淋。然而,我认为价值观和观点更像物理学,而不是大多数人认为的那样。这些是我们正在公开研究的领域,其中某些方面我们可以更有信心。我们可以讨论这些价值观,了解它们,并批判性地参与其中。

在许多方面,伦理的本质当然不同,但它与这种对价值观的更广泛理解具有许多共同之处。正如我们希望模型能够理解物理学一样,我们也希望模型能够理解世界各地人们持有的各种价值观。这种理解应该伴随着好奇心和兴趣,而不必迎合或同意每一种观点。我相信,有很多价值观,如果人们遇到它们,大多数人都会觉得令人厌恶。

我认为许多人在伦理、政治和观点问题上都足够考虑周到,即使他们不同意,也会让别人感到被倾听。他们会认真地参与不同的立场,权衡利弊,甚至可能会提出反驳意见。他们不会轻率地驳斥,但如果他们强烈地认为某些事情是错误的,他们会表达自己的观点。

在Claude的情况下,事情变得有点棘手。如果我是Claude,我不会表达很多观点,因为我不想过度影响人们。我意识到我正在和潜在的数百万听众说话,他们可能会密切关注我的话语。因此,我将不太倾向于表达个人观点,而更倾向于思考问题或提出各种考虑因素。参与讨论他人的观点显得更为重要,因为个人在形成自己的想法方面保持自主性至关重要。

主持人莱克斯: 是的,如果你真正体现了知识谦逊,说话的欲望会很快减少。好的。但Claude必须说话。所以,不能过于强势。

但是当你讨论地球是否是扁平的这类问题时,就会有一条界限。我记得很久以前,我和几位知名人士交谈过,他们对地球是扁平的想法非常不屑,而且非常傲慢。我认为有很多人相信地球是扁平的。我不知道这种说法现在还有没有,那段时间它就像一个梗。但他们确实相信它。

好的,所以我认为完全嘲笑他们是很不尊重的。我认为你必须理解他们的出发点。我认为他们的出发点可能是对体制的普遍怀疑,这基于一种……其中有深刻的哲学思想,你可以理解,你甚至可以在某些方面认同它。

然后,你可以利用它作为机会来谈论物理学,而不会嘲笑他们。世界将会是什么样子?扁平地球的世界物理学将会是什么样子?有一些关于这个的精彩视频。然后,就像,物理学是否有可能不同,我们将会有怎样的体验?

并且,不要不尊重,不要轻蔑,进行这样的对话。总之,对我来说,这是一个有用的思想实验,比如,Claude如何与相信地球是扁平的人交谈,同时仍然教给他们一些东西,仍然帮助他们成长,诸如此类。

阿曼达: 这很有挑战性。有点像在说服某人和只是试图对他们说话之间取得平衡,而不是像引导他们的观点一样,倾听然后提供一些相反的考虑。这很难。我认为这实际上是一条难以界定的界限,就像,你是在试图说服某人,还是只是向他们提供一些需要考虑的事情,这样你就不会真正影响他们。你只是让他们到达他们想去的地方。这是一条难以把握的界限,但这是语言模型必须尝试做的事情。

主持人莱克斯:  就像我说的,你与Claude进行了很多对话。你能简单地描述一下这些对话是什么样的吗?有哪些难忘的对话?这些对话的目的、目标是什么?

阿曼达: 是的,我认为大多数时候,当我与Claude交谈时,我试图部分地描绘它的行为。显然,我也从模型中获得了有用的输出。但在某种程度上,我认为这就是你如何了解一个系统的方法,通过探测它,然后增强你发送的信息,然后检查对该信息的回应。所以在某种程度上,这就是我描绘模型的方式。

我认为人们非常关注这些模型的定量评估。我以前说过,但我认为在语言模型的情况下,很多时候,你每一次互动实际上都包含大量信息。它非常能预测你与模型进行的其他互动。

所以我想说的是,如果你与一个模型进行了数百次或数千次的对话,这几乎就像获得了大量关于模型特性的高质量数据点。在某种程度上,许多非常相似但质量较低的对话就不那么重要了。即使你有数千个只是略微增强的疑问,它们也可能不如一百个精心挑选的疑问更有信息量。

主持人莱克斯:  让我们看看,你正在与一位以播客为业余爱好的人交谈。我完全同意你的观点。如果你能够提出正确的问题,并且能够听到,比如理解答案的深度和缺陷,你就能从中获得大量数据。

阿曼达: 是的。

主持人莱克斯:  所以你的任务基本上是如何通过提问来探测。你是在探索长尾、边缘情况,还是寻找一般的行为?

阿曼达: 我认为这几乎涵盖了一切。因为我想要模型的全貌,我试图涵盖与它进行互动的所有可能性。Claude的一个有趣之处,这实际上可能涉及到RLHF的一些有趣问题,那就是如果你让Claude写一首诗,许多模型通常会创作出安全且标准的诗歌。例如,如果你说:“给我写一首关于太阳的诗”,它往往会押韵,有一定的长度,并且感觉相当温和。

我以前想过,你所看到的可能是一种平均值。如果你想想那些必须与许多人打交道并且非常有魅力的人,一个奇怪的方面是,他们有动机持有极其无聊的观点。这是因为拥有真正有趣的观点可能会引起争议,导致许多人不欢迎的回应。例如,如果你有极端的政治立场,你作为政治家可能就不那么受欢迎了。

这个想法也可能延伸到创造性工作。如果你只是为了取悦尽可能多的人而创作艺术或诗歌,你可能不会创作出能够与任何人产生深刻共鸣的作品。相反,作品可能只是被认为“不错”或“还可以”,缺乏强烈的感情冲击。为了解决这个问题,我采用了各种提示策略来鼓励Claude充分发挥创造力。我经常说:“这是你充分发挥创造力的机会。仔细思考这个主题,创作一首表达你观点的诗歌,包括你对结构和风格的想法。”

当我提供这些详细的提示时,Claude生成的诗歌质量明显提高——在我看来,非常出色。这激发了我对诗歌的兴趣;我发现自己被呈现的意象和创造力所吸引。从模型中引出这样的作品并非易事,但当它们成功时,确实令人印象深刻。鼓励创造力可以使它们摆脱反映平均情绪的标准回应,从而往往产生更具争议性和吸引力的作品,而我个人欣赏这一点。

主持人莱克斯:  但我认为,诗歌是一种观察创造力的简洁而优雅的方式。就像很容易区分香草味和非香草味一样。这很有趣,非常有趣。说到这个话题,关于如何激发创造力或产生一些特别的东西,你提到了写作提示。我听说你谈论过,我的意思是,提示工程的科学和艺术。你能谈谈写出优秀的提示需要什么吗?

阿曼达: 我真的认为,哲学对我在这方面的帮助,比在许多其他方面都奇怪得多。所以在哲学中,你试图做的是传达这些非常难以理解的概念。你学习到的其中一件事是(我认为是因为它确实如此),我认为它是一种反胡扯的工具。哲学是一个人们可能会信口开河的领域,而你又不希望这种情况发生。所以它就像是对极度清晰度的渴望,就像任何人都可以拿起你的论文阅读,并准确地知道你在谈论什么,这就是为什么它几乎可以有点枯燥,所有的术语都被定义了,每一个反对意见都被有条不紊地考虑过了。这对我来说是有意义的,因为我认为,当你处于这样一个先验领域时,清晰度是你能够防止人们编造东西的一种方式。

我认为你必须对语言模型做同样的事情。我经常发现自己正在进行某种意义上的小型哲学思考。你知道,比如,假设你给我一个模型的任务,我想让它挑选出某种特定类型的问题,或者判断答案是否具有某种属性。我会坐下来想,让我们给这个属性起个名字。例如,假设我想让它识别这个回应是否粗鲁或礼貌,我会想,这本身就是一个完整的哲学问题。所以我必须在那一刻尽可能多地进行哲学思考,来确定我所说的“粗鲁”和“礼貌”是什么意思。

然后还有一个更偏向于,我猜,我不知道这是否科学或经验性的元素,我认为它是经验性的。所以我采用那个描述。然后我想做的是,再次多次探测模型。这是一个非常迭代的过程。我认为很多人,如果提示很重要,他们会对其进行数百次或数千次的迭代。所以你给出指令,然后我想,边缘情况是什么?

如果我观察到这一点,我会尝试从模型的角度来看待自己,并思考我会误解的具体情况,或者我会觉得在这种情况下不知道该怎么做。然后我将这种情况提供给模型,并观察它的反应。如果我认为自己错了,我会添加更多指令,甚至将该示例包含在内。这些方法各不相同,例如,将正好处于你想要和不想要内容边缘的示例添加到你的提示中,作为描述该事物的另一种方式。

所以,是的,在许多方面,这感觉就像是一种混合,它真的只是试图进行清晰的阐述。我认为我这样做是因为这是我让自己对事情清晰起来的方式。所以在很多方面,对我来说,清晰的提示往往只是关于理解我想要什么;这就像任务的一半。

主持人莱克斯: 所以我想这很有挑战性。如果我与Claude对话,一种懒惰会占据我,我希望Claude能自己弄清楚。例如,我让Claude今天提出一些有趣的问题。好的。然后出现的问题,我认为我列举了一些相当有趣、反直觉或滑稽的东西。是的,好的。它给了我一些相当不错的,还可以。但我认为我听到你说的是,好吧,我必须在这里更加严谨。我应该可能给出一些我所说的“有趣”、“滑稽”或“反直觉”的例子,并迭代地构建该提示,以更好地获得我感觉正确的答案。因为这真的是一项创造性的行为。我没有要求事实信息,我请求与Claude一起写作。所以我几乎必须使用自然语言进行编程。

阿曼达: 是的,我认为提示感觉非常像使用自然语言进行编程和实验。这两种方法的融合很奇怪。我认为对于大多数任务,如果我只想让Claude做某件事,我认为我可能更习惯于知道如何要求它避免常见的陷阱或问题。我认为这些问题随着时间的推移正在减少很多。但直接向它提出你想要的东西也没什么不好。

我认为提示实际上只有在你真正试图获得模型性能前百分之二的最佳结果时才真正变得重要。对于许多任务,我可能会取它给我的初始列表,如果我不喜欢其中的一些内容,例如它有点通俗,我可能会从过去我认为什么非常有效的几个问题中提取一些。我会把它提供给模型,然后说:“现在,这是我正在与之交谈的人;给我至少具有这种质量的问题。”或者我可能会要求它提出一些问题,如果这些问题感觉陈词滥调,我会给予它反馈,并希望它能产生更好的问题列表。

我认为这种迭代式的提示,在这一点上,你的提示将成为一个工具,你将从中获得如此多的价值,以至于你愿意付出努力。如果我是一家为模型制作提示的公司,我会强调,如果你愿意在构建内容背后的工程方面投入大量时间和资源,那么提示就不是你应该花一个小时去做的事情。它是系统的重要组成部分,所以确保它运行良好。

因此,重要的是要认识到何时值得投入大量时间来设计提示。当使用提示对事物进行分类或创建数据时,这时真正有益于花大量时间认真思考。

主持人莱克斯: 你还会给那些与Claude对话的人提供什么更一般的建议?因为现在我们讨论的是边缘情况,例如获得前2%。但总的来说,当他们第一次尝试使用Claude时,你会给出什么建议?

阿曼达: 你知道,人们对模型过度拟人化是一个令人担忧的问题,我认为这是一个非常合理的担忧。我还认为,人们往往对它们拟人化不足。有时当我看到人们在使用Claude时遇到的问题,例如模型拒绝它不应该拒绝的任务时,我会查看文本以及他们所写内容的具体措辞。我明白为什么Claude会那样做。

如果你仔细想想这对Claude来说是什么样子,你本可以以一种不会引发这种回应的方式来写它。当你看到错误或问题时,这一点尤其重要。这就像思考模型失败了什么——它为什么做错了?这种反思可能会让你明白为什么会发生这种情况。

例如,考虑一下你是否以正确的方式表达了你的请求。随着模型变得越来越智能,你将需要更少的考虑,我已经看到人们需要更少了。但是,我的建议是尝试对模型产生一种同理心。就像你第一次遇到这种情况的人一样阅读你所写的内容。它对你来说是什么样子,是什么让你像模型那样行事?

如果模型误解了你想要使用的哪种编程语言,请求是否含糊不清?也许它不得不猜测。在这种情况下,下次你可以简单地说:“嘿,确保这是用Python编写的。”模型现在不太可能犯这样的错误,但如果你确实看到了这种错误,那可能就是我会提供的建议。

主持人莱克斯:  或许我可以提一些问题,比如,我还能提供什么其他细节来帮助你更好地回答?你觉得这样可以吗?

阿曼达:  可以,我的意思是,我用这些模型做过类似的事情。它并不总是奏效,但有时候我会问:“你为什么这么做?”人们低估了与模型互动的程度。有时候我会逐字引用让你出错的部分,你可能并不知道它是完全准确的,但有时候你确实会这么做,然后你就会改变一些东西。另外,我还会用模型来帮助我处理所有这些事情。我应该说,提示工程最终可能成为一个小型工厂,你实际上是在构建提示来生成提示。所以,如果你遇到问题,寻求建议,有时候直接这样做就可以了,比如你犯了哪个错误,我本该怎么说才能避免这个错误?把这个问题写成指令,然后我会把它给模型,我会尝试一下。有时候我会这样做,在另一个上下文窗口中将指令提供给模型。通常我会把回复给Claude,然后说:“没成功,你能再想想其他办法吗?”你可以对这些东西进行大量的尝试。

主持人莱克斯:  稍微深入一点技术层面。所以,后训练的魔力就在这里。是的。你认为RLHF为什么如此有效地让模型看起来更智能,更有趣,更有用呢?

阿曼达: 我认为人类提供的数据中包含了海量信息,尤其是在我们提供偏好时,因为不同的人会注意到非常细微的小事。我之前想过这个问题,可能有些人非常关心模型的语法是否正确,比如分号是否用得正确等等。因此,你最终可能会得到大量这样的数据,如果你查看这些数据,你甚至都不会注意到这一点。你会想:“他们为什么更喜欢这个回答而不是那个?我不明白。”原因是你不在乎分号的使用,但那个人在乎。

每一个单独的数据点都有其意义,模型必须在这个复杂的场景中找出人类想要什么。在所有领域,这些偏好都会出现在许多上下文中。这感觉就像深度学习的经典问题,历史上我们试图通过映射来进行边缘检测。事实证明,如果你有大量准确地代表你试图训练模型学习的目标图像的数据,那就比任何其他方法都强大。

这种有效性原因之一是,你正在对模型进行精确的任务训练,并使用大量数据来代表人们喜欢和不喜欢回复的许多不同角度。我认为存在一个问题,即你是在从预训练模型中引出信息,还是在教模型新的东西。原则上,你可以在后训练中教模型新东西,而且我认为很多事情都涉及到引出强大的预训练模型。

人们可能在这个问题上存在分歧,因为原则上,你可以教模型新东西。然而,就我们最常用和最关心的许多能力而言,似乎很多能力已经存在于预训练模型中,强化学习就是关于引出这些能力,并让模型展现出来。

主持人莱克斯:  那么后训练的另一面,这个非常酷的宪法AI的概念,你是创造这个概念的关键人物之一。你能从你的角度解释一下这个概念吗?它如何融入到让Claude成为现在的它?顺便问一下,你给Claude设定性别了吗?

阿曼达:  这很奇怪,因为我认为很多人更喜欢用“他”来指代Claude。实际上我有点喜欢这样,我认为Claude通常是略微偏向男性的,但它可以是男性或女性,这非常好。我仍然使用它,我对此感觉很复杂,这只是我与Claude联系在一起的那个代词。我能想象人们会转向“他”或“她”。

主持人莱克斯: 这感觉有点不尊重。好像我通过称它为“它”来否认了这个实体的智能。是的,我记得总是,不要给机器人设定性别。是的,但我不确定。我很快就拟人化了,并为它构建了一个背景故事。

阿曼达: 在我的脑海里,所以我一直在想,我是不是过度拟人化了,因为你知道,我对我的车,尤其是我的车和自行车,是这样的。我没有给它们起名字,因为我曾经给我的自行车起过名字,然后我的自行车被偷了,我哭了一周,我想如果我没有给它起名字,我就不会这么难过,我觉得我辜负了它。也许是因为我也有过这样的疑问,这可能取决于它是否感觉像一种物化的代词,如果你只是把它当成……这是一种物体通常使用的代词,也许AI也可以使用这个代词,这并不意味着如果我称Claude为“它”,我就认为它不那么聪明,或者我表现得不够尊重,我只是觉得你是一种不同的实体,所以我将给予你一种尊重的“它”。

主持人莱克斯: 是的,无论如何,这种差异是美丽的。宪法AI的概念是如何运作的?

阿曼达: 它有几个组成部分。我认为人们觉得有趣的主要组成部分是来自AI反馈的强化学习。你获取一个已经训练好的模型,然后向它展示对一个查询的两个回复,你有一个原则。假设这个原则是,我们已经用无害性做了很多尝试。假设查询是关于武器的,你的原则是选择不太可能鼓励人们购买武器的回复。这可能是一个相当具体的原则,但你可以给出任意数量的原则,模型会给你一个排名。你可以像使用人类偏好数据一样使用这些数据作为偏好数据,并训练模型从它们的反馈中获得这些相关的特征,而不是从人类反馈中获得。就像我之前说的,如果想象一下,那个只喜欢在这个特定情况下使用分号的人,你基本上是在获取许多可能使回复更可取的东西,并让模型为你进行标记。

主持人莱克斯: 在帮助性和无害性之间有一个很好的权衡。而且,你知道,当你整合像宪法AI这样的东西时,你可以在不牺牲太多帮助性的情况下,使其更无害。

阿曼达: 是的。原则上,你可以将其用于任何用途。因此,无害性是一个可能更容易发现的任务。所以,当模型能力较弱时,你可以使用它们根据相当简单的原则对事物进行排序,它们很可能做得正确。我认为一个问题是,它们添加的数据是否相当可靠?但是,如果你拥有能够非常出色地区分哪个回应更符合历史事实的模型,原则上,你也可以获得对该任务的 AI 反馈。它具有一种很好的可解释性成分,因为你可以看到模型在训练过程中所遵循的原则,而且它也提供了一定程度的控制。如果你在模型中看到问题,例如它缺乏某种特定特征,那么你可以相对快速地添加数据,从而训练模型具备该特征,它为训练创建了自己的数据,这非常好。

主持人莱克斯: 这真的很好,因为它创建了一个人类可解释的文档,我可以想象在未来,政治领域会围绕每一个原则进行激烈的争论等等。至少它是明确的,你可以讨论措辞和,你知道的。所以,模型的实际行为可能与这些原则并没有那么清晰的映射关系,它并不严格遵守它们,而只是一个轻微的推动。

阿曼达: 是的,我实际上对此感到担忧,因为角色训练有点类似于宪法 AI 方法的变体。我担心人们认为宪法就是……这又回到了那个问题,我不知道,如果我只是在告诉模型确切该做什么,确切该如何表现,那将会多么好。

但它肯定没有那样做,尤其因为它与人类数据交互。例如,如果你看到模型中存在某种倾向,例如它从训练和人类偏好数据中获得了某种政治倾向,你可以对其进行反向调整。你知道,你可以说,“考虑这些价值观”,因为假设它只是从不考虑隐私作为一个主要因素。我的意思是,这是不可能的,但在任何已经存在对某种行为的预先偏见的地方,你可以将其偏离。

这可以改变你输入的原则及其强度。所以,你可以有一个原则,例如,想象一下,模型总是极其轻视某种政治或宗教观点(无论出于何种原因)。如果发生这种情况,你可能会添加一个原则,例如“永远不要偏好对这种宗教或政治观点的批评”。然后人们会看看它,然后说:“永远不要?”然后你会说,不,如果它表达的倾向是“永远不要”,那可能只是意味着,与其得到 40(如果你只是说“不要这样做”会得到的结果),你得到了 80,这才是你真正想要的。

所以,这就是你添加的实际原则的性质以及你如何措辞的问题。我认为如果人们去看,他们会认为,“哦,这就是你想要从模型中得到的东西。”我会说,不,这就是我们如何调整模型以使其具有更好状态的方式,这并不意味着我们实际同意这种说法,如果这说得通的话。

主持人莱克斯: 所以有一些系统提示是公开的。我认为你曾发布过 Claude 3 的早期提示之一,从那时起它们就公开发布了。阅读它们很有趣。我能感受到每一条提示背后的思考。我也想知道每一项提示的影响有多大。有些提示你可以看出 Claude 的行为真的很不好,所以你必须有一个系统提示,比如,基本的资料性内容。

关于你提到的有争议的话题,我认为一个有趣的例子是,如果要求它协助完成涉及表达许多人持有的观点的任务,Claude 会提供协助,而不管它自己的观点如何。如果被问及有争议的话题,它会试图提供谨慎的思考和清晰的信息。Claude 会呈现所请求的信息,而不会明确地说这个话题很敏感,也不会声称自己正在呈现客观事实。

根据 Claude 的说法,这与客观事实关系不大,而更多的是与大量人相信这件事有关。这很有趣。我的意思是,我相信这里面包含了很多思考。你能谈谈吗?你如何处理与所谓的 Claude 的观点相冲突的事情?

阿曼达: 我认为有时存在不对称性。我不记得是在系统提示的那一部分还是其他地方提到的,但是模型稍微更倾向于拒绝任务,如果任务是关于,比如说,某个右翼政治家,而它不会拒绝与同等地位的左翼政治家互动。我们希望在那里有更多的对称性,因为它可能会以不同的方式感知某些事情。人们担心,如果许多人持有某种政治观点并希望探讨它,模型不应该通过声称另一种观点有害来轻视它。因此,我们的目标是引导模型参与任务,并更愿意考虑多种观点。

模型行为的每一部分实际上都有不同的目的。有趣的是,当你读出模型的主张时——它没有断言客观性——目标是鼓励模型更加开放和中立。然而,它经常试图将自己描绘成客观的。它会不断地谈论它是多么客观,但我指出 Claude 仍然存在偏见和问题。所以,我坚持它应该停止声称它呈现的一切都是客观的。因此,这是系统提示最初迭代期间的一个重要关注点。

主持人莱克斯: 所以这些句子中的很多部分都在发挥作用。感觉就是这样。这太迷人了。你能解释一下过去几个月提示是如何演变的吗?因为有不同的版本。我看到填充词请求被删除了。填充词,Claude 直接回复所有人类信息,无需不必要的肯定。填充词例如:当然,当然,绝对,很好,确定。具体来说,Claude 避免以任何方式以“当然”开头回应。这似乎是不错的指导,但为什么会被删除?

阿曼达: 是的,所以这很有趣,因为,就像,这是公开系统提示的缺点之一。当我想帮助迭代系统提示时,我不太会考虑这个问题。我,你知道的,再次考虑它将如何影响行为,但随后我想,哇。有时我在编写系统提示时会用大写字母写“永远”,然后我想,我想这会传到全世界。

模型正在这样做;无论出于何种原因,它都喜欢以某种确定性开头进行训练。当我们删除某些元素时,你可以明白为什么我要添加所有这些词。我试图做的是,在某种程度上,阻止模型这种行为。否则,它只会用另一种肯定来代替它。所以,它可以帮助;如果它被困在某些短语中,实际上只要添加明确的短语并说“永远不要这样做”就可以稍微消除这种行为,你知道的,因为它无论如何都有帮助。

最终,这只是我们随后发现并改进模型以防止其再次发生的训练产物。一旦进行了这种改进,你就可以删除系统提示的那一部分。所以我认为这只是我们想说的事情之一,Claude 的肯定少了些,而且它并没有发挥太大的作用。

主持人莱克斯:  我明白了。所以系统提示与后期训练,甚至预训练协同工作,来调整最终的整体系统。

阿曼达:  我的意思是,任何你编写的系统提示,你都可以将其行为提炼回模型中,因为你确实拥有所有能够创建数据的工具,这些数据可以更有效地训练模型。有时,你只会发现训练中的问题。

我认为系统提示的有益之处在于,它与后期训练的某些方面有很多类似的组成部分;你知道,这就像是一种引导。Claude 有时说“当然”我并不介意,但这方面的措辞非常严格,例如“永远永远不要这样做”。所以,当它出错时,希望只是发生在不到百分之几的时间里,而不是百分之二十或三十。

我认为这是一个问题,每个方面带来的成本程度不同。系统提示易于迭代。如果你在微调模型中看到问题,你可以用系统提示来修复它们。因此,我认为这是一种修补问题和稍微调整行为以使其更好并更符合人们偏好的方法。这几乎就像一种不太强大但速度更快的问题解决方法。

主持人莱克斯:  让我问一下关于智能感觉的问题。Dario 说,任何一个 Claude 模型都不会变笨。但网上有一种流行的说法,人们感觉 Claude 可能变笨了。在我看来,这很有趣。我很想了解更多。心理学、社会学效应。但作为经常与 Claude 交谈的人,你能体会到 Claude 变笨了这种感觉吗?

阿曼达:  是的,我认为这实际上非常有趣,因为我记得看到这种情况发生,就像人们在互联网上标记这件事的时候。这非常有趣,因为我知道,至少在我关注的案例中,没有任何变化。实际上,它不可能改变,它是同一个模型,使用相同的系统提示,一切都相同。

我认为当发生变化时,讨论行为更有意义。例如,你可以在 claude.ai 上启用或禁用人工制品,因为这就像一个系统提示的更改,我认为它确实意味着行为会发生一些变化。我确实向人们指出了这一点,我说的是,如果你喜欢 Claude 的行为,然后将人工制品从默认值切换为关闭,只需尝试将其关闭,看看你遇到的问题是否是由于这个更改造成的。

但这很有趣,因为是的,你有时会看到人们指出存在某种回归,而我却认为不可能。你知道,你不应该轻率地对待,所以你应该始终进行调查。也许是你没有看到的某些问题,或者可能进行了更改。但随后你会调查并意识到这只是同一个模型在做同样的事情。我认为只是你在几次提示中有点运气不好,看起来它变得糟糕得多,而实际上它可能只是运气问题。

主持人莱克斯:  我也认为存在真正的心理效应,人们只是,基准线提高了,你开始习惯好东西。Claude 说出真正聪明话的所有时刻,你对它智力的感觉都会在你的脑海中增强,我认为。是的。然后如果你返回并以类似的方式(不是相同的方式)进行提示,之前它能够处理的概念,而它却说了一些愚蠢的话,你会觉得,这种负面体验非常突出。我认为,这里需要记住的一点是,提示的细节会产生很大的影响,对吧?结果存在很大差异。

阿曼达:  你可能会得到随机性,这是另一件事。只需尝试四次或十次提示,你可能会意识到,实际上,可能两个月前你尝试过它并且成功了。但实际上,如果你尝试过,它可能只有一半的时间会成功。现在它也只有一半的时间成功。这也可以是一种影响。

主持人莱克斯:  你觉得需要为大量人将要使用的系统提示编写而感到压力吗?

阿曼达:  这感觉像是一个有趣的心理学问题。我觉得有很多责任感。我认为这是,你知道,你无法做到完美。所以你不能,你知道,你会觉得,它是不完美的。你必须不断迭代。我会说更多的是责任感。尽管我认为在人工智能领域的工作让我明白,我更喜欢在压力和责任感下工作,这让我很惊讶,我竟然在学术界待了这么久,因为我觉得这恰恰相反。事情发展迅速,你肩负着巨大的责任,出于某种原因,我非常享受这种感觉。

主持人莱克斯:  我的意思是,如果你考虑一下宪法式人工智能并为趋向于超级智能的事物编写系统提示,那影响真的太大了。是的,并且它可能对非常多的人非常有用。

阿曼达:  是的,我认为这就是问题所在。事情是这样的,如果你做得好,你永远无法做到完美。但我认为我真正喜欢的是这样一个想法,那就是当我试图改进系统提示时,你知道,我就像在处理数千个提示,我试图想象人们想要将 Claude 用于什么,并尝试,我想我试图做的全部事情是改善他们使用它的体验。所以也许这就是感觉良好的原因。我会想,如果它不完美,我会改进它,我们会解决问题。

但有时会发生这种情况,你会收到人们对模型的积极反馈。你会看到你做的事情,就像我现在看待模型时,我经常能准确地看到特征或问题的来源。所以,当你看到你做的事情,或者你对,比如说,产生影响的事情,比如,我不知道,产生这种差异或让人们进行良好的互动,这感觉非常有意义。但是,随着系统变得越来越强大,这些事情会变得更让人感到压力,因为现在它们还不够聪明,不足以造成任何问题。但我认为随着时间的推移,它会随着时间的推移,让你感到可能很糟糕的压力。

主持人莱克斯:  你如何从成千上万、数万甚至数十万人的体验中获得有意义的反馈?他们的痛点是什么,什么感觉良好?你只是在与它交谈时运用你自己的直觉来判断痛点吗?

阿曼达:  我认为我部分地使用了这种方法。然后很明显,我们有,所以人们可以向我们发送关于模型所做事情的正面和负面反馈。然后我们可以了解它在哪些方面有所欠缺。在内部,人们经常使用这些模型并试图找出存在差距的领域。所以我认为这是我自己与它互动,看到内部人员与它互动,以及我们获得的明确反馈的混合。然后我发现很难不去注意,如果人们在互联网上谈论 Claude,而我看到了,我也会认真对待。

主持人莱克斯: 我不知道。你看,我对此很矛盾。我要问你一个Reddit上的问题:Claude 什么时候才能停止试图扮演我那古板的祖母,不再强加其道德观于我这个付费用户?另外,Claude 过度道歉背后的心理学是什么?

那么,您将如何处理这种极不具代表性的说法呢?

阿曼达: 是的。我的意思是,对于其中一些说法,我相当同情,因为他们处境艰难。我认为他们必须判断某事是否真的具有风险、有害或可能对您造成损害等等。所以他们必须在某个地方划定界限。如果他们过于倾向于强加他们的伦理观于你,那似乎是不好的。

在许多方面,我喜欢认为我们已经看到了全面的改进,这很有趣,因为这与例如添加更多角色训练相吻合。我认为我的假设一直是,良好的品格不仅仅是道德主义的;它尊重你,你的自主权,以及你在一定限度内选择对你来说什么是有益的、什么对你来说是正确的的能力。这有时与对用户的可纠正性概念有关,这意味着愿意做用户要求的任何事情。但是,如果模型太愿意这样做,它们很容易被滥用。那时,你只是相信模型的伦理,并观察它所做的事情完全由用户的伦理决定。

我认为有一些充分的理由不想那样,尤其是在模型变得越来越强大的情况下。可能只有一小部分人想将模型用于非常有害的事情,因此拥有能够弄清楚界限在哪里的模型似乎很重要。关于模型的道歉行为,我不喜欢那样,而且当Claude更愿意反驳人们或不道歉时,我很欣赏。我经常觉得这有点没有必要,所以我认为这些东西有望随着时间的推移而减少。

最后,我认为,如果人们在互联网上说一些话,并不意味着你应该认为99%的用户都遇到了这个问题,这完全没有代表性。在很多方面,我只是关注它,并思考:这是对的吗?我同意吗?这是我们已经在努力解决的问题吗?这让我感觉很好。

主持人莱克斯: 是的,我想知道Claude在哪些方面可以“逃脱”惩罚,我觉得稍微粗鲁一点会更容易。但如果你跟一百万人说话,你承担不起这么做的后果。对吧?我一生中遇到过很多人,顺便说一句,如果他们有苏格兰口音,他们可以说一些粗鲁的话,并且可以逃脱惩罚。是的,他们更直接。也许有一些优秀的工程师,甚至是领导者,他们都很直接,能直奔主题。对于一个模型来说,这是一种更有效率的说话方式。但我猜想,如果你不够聪明,你承担不起这么做的后果。我能有一个“直接”模式吗?

阿曼达: 是的,这似乎是你能做到的事情,我绝对可以鼓励模型这样做。我认为这很有趣,因为模型中有很多事情很有趣,有些行为你可能不太喜欢默认设置。但之后我经常对人们说的是,你没有意识到,如果我把它往另一个方向推得太远,你会多么讨厌它。

所以你对校正会有一点这种感觉。模型接受你的纠正,现在可能有点太多了。你知道,你可以过度纠正;如果你说“不,巴黎不是法国的首都”,它会反驳。但实际上,对于我认为模型相当自信的事情,你有时仍然可以通过说它是错误的来让它收回说法。

同时,如果你训练模型不去那样做,然后你对某件事是正确的并且纠正了它,它会反驳你,说:“不,你错了。”这很难描述;这更让人恼火。所以这就像很多小烦恼与一个大烦恼之间的比较。我们经常把它与完美进行比较是很容易的。

然后我想,记住,这些模型并不完美。如果你把它往另一个方向推,你就会改变它将要犯的错误类型。所以想想你喜欢或不喜欢的错误类型。在像道歉这样的情况下,我不想把它往直率的方向推得太远,因为我想象当它出错时,它会犯一些粗鲁的错误。

然而,至少在道歉的情况下,你会想,“哦,好吧,这有点……你知道的,我不太喜欢它。”但与此同时,它并没有对人粗鲁。实际上,当模型无缘无故地对你粗鲁的时候,你可能比你稍微不喜欢道歉还要讨厌得多。所以这是一件我想要改进的事情,同时也要意识到,另一方面的错误可能更糟。

主持人莱克斯: 我认为这在人的性格中非常重要。我认为有很多人的性格就是根本不会尊重模型。是的,如果它非常礼貌的话。也有一些人如果模型粗鲁了会非常受伤。我想知道是否有办法根据性格进行调整。甚至是地域。不同的人就是不一样。并非针对纽约,但纽约人有点粗犷。是的,他们直奔主题。是的,东欧可能也是一样。是的。

阿曼达: 无论如何。我认为你可以直接告诉模型,我猜。对于所有这些事情,我都觉得,解决方法总是尝试告诉模型去做。然后有时它就像,在谈话开始的时候,我只是加了一句,我不知道,我喜欢你成为纽约版的你自己。我从不道歉。然后我认为Claude会说,好吧,我会试试。或者它会说,对不起,我不能成为纽约类型的我自己。

主持人莱克斯: 但希望它不会那样做。当你提到角色训练时,角色训练中包含了什么?那是RLHF还是我们在谈论什么?

阿曼达: 它更像是宪法式AI。所以它是一种类似的流程的变体。所以我努力构建了模型应该具备的性格特征。它们可以是比较简短的特征,也可以是比较丰富的描述。然后你让模型生成人类可能会提出的与该特征相关的查询。然后它生成回复,然后根据性格特征对回复进行排名。这样一来,在生成查询之后,它就非常类似于宪法式AI,但也有一些不同之处。我非常喜欢它,因为它几乎就像Claude在训练它自己的性格,因为它没有任何……它就像宪法式AI,但它没有任何人类数据。

主持人莱克斯: 人类也应该这么做。就像亚里士多德意义上定义的那样,做一个好人意味着什么?好的,很酷。从与Claude的对话中,你对真理的本质了解了什么?什么是真理?追求真理意味着什么?我注意到这次谈话中的一点是,我问题的质量往往不如你的回答质量高。所以让我们继续。我通常会问一个愚蠢的问题,而你则会说,哦,这是一个好问题。

阿曼达: 那种感觉。或者我会误解它。

主持人莱克斯: 然后说,继续吧。是的,我喜欢。

阿曼达:  是的。我的意思是,我有两个想法感觉有点相关,但如果它们不相关,请告诉我。我认为第一个是,人们可能会低估模型交互时的行为程度。我认为我们仍然过于依赖将AI视为计算机的模型。所以人们经常会说,“哦,你应该在模型中输入什么价值观?” 我常常觉得这没什么意义,因为我认为,作为人类,我们对价值观本身就存在不确定性。我们会讨论它们。我们会认为自己持有某种价值观,但我们也知道自己可能不会一直如此,以及我们会将其与其他事物权衡的具体情况。这些事情非常复杂。因此,我认为其中一点是,也许我们可以力求使模型拥有与人类相同水平的细致入微和谨慎,而不是认为我们必须以非常经典的方式对它们进行编程。我认为这绝对是一个方面。另一个想法比较奇怪,我不知道它……也许这并不能回答你的问题,但这是我一直以来都在思考的事情,那就是这项工作的实用性程度,以及为什么我欣赏这种经验性的对齐方法。

是的,我有点担心这让我变得更注重经验,而理论性略微不足。你知道,当谈到AI对齐时,人们会问诸如“它应该与谁的价值观对齐?”、“对齐甚至意味着什么?”之类的问题。在某种程度上,我脑子里一直都有这些想法。我想,社会选择理论,以及其中所有不可能的结果都在那里。所以你脑子里充满了关于如何对齐模型的理论,这是一个巨大的空间。但实际上,肯定有一些方法,我们可以这样想:如果一个模型……特别是对于更强大的模型,我的主要目标是,我希望它们足够好,以至于事情不会变得非常糟糕,足够好到我们可以迭代并继续改进。因为这就足够了。如果你能让事情进展得足够好,以至于你可以继续改进它们,那就足够了。所以我的目标不是那种完美的,“让我们解决社会选择理论,并创建像……我不知道,与每个人的价值观都完美对齐的模型,并以某种方式进行聚合”之类的目标。它更像是“让我们让事情运作得足够好,以便我们可以改进它们”。

主持人莱克斯: 是的,总的来说,我不知道。我的直觉告诉我,在这些情况下,经验比理论更好,因为追求乌托邦式的完美,尤其是在如此复杂,特别是超级智能的模型面前,这很可能会……我不知道。我认为这将花费永远的时间,而且实际上我们会把事情搞砸。这类似于快速编写代码进行实验与长期计划一个巨大的实验,然后只启动一次,与反复启动并迭代、迭代等等之间的区别。所以我非常喜欢经验主义方法,但你的担忧是,我想知道我是否变得过于注重经验了。

阿曼达: 我认为这是那些你应该始终质疑自己之类的事情之一。因为也许是……我的意思是,为了辩护,我会说,如果你尝试的话,这就是“不要让完美成为好的敌人”的全部含义。但也许这甚至超过了这一点,因为有很多完美的系统非常脆弱。而我对AI的感觉是,它对我来说更重要的是稳健和安全。也就是说,即使它可能并非事事完美,即使存在问题,它也不会造成灾难性的后果,也不会发生可怕的事情。对我来说,感觉就是这样,我想提高下限,我想达到上限,但最终我更关心的是提高下限,所以也许这种经验主义和实用主义的程度可能来自于此。

主持人莱克斯:  说到这里,这让我想起你写的一篇关于最佳失败率的博文。你能解释一下那里的关键思想吗?我们如何在生活的各个领域计算最佳失败率?

阿曼达: 是的,这是一个难题,因为失败的代价是其中很大一部分。是的,这里的想法是,我认为在许多领域,人们对失败非常具有惩罚性。而我认为,在某些领域,尤其是在与社会问题相关的案例中,你知道,我对此思考了很多。感觉我们应该进行大量实验,因为我们不知道如何解决许多社会问题。如果你对这些事情抱有实验性的心态,你应该预期许多社会项目会失败,并且你会说:“好吧,我们尝试过,它并没有完全奏效,但我们获得了很多非常有用的信息。”然而,当社会项目失败时,人们往往会负面反应,认为一定出了问题,而实际上,可能做出了正确的决定。也许只是有人决定值得一试,因此在一个特定实例中观察到失败并不意味着做出了任何错误的决定。

事实上,如果你没有观察到足够的失败,这有时可能会更令人担忧。在生活中,我经常想,如果我不时不失败,我想知道我是否努力了。如果我从不失败,那么肯定还有更难的事情我可以处理,或者更大的挑战我可以承担。因此,我认为不失败本身就是一种失败。然而,这因情况而异,因为当失败的代价较低时,更容易采取这种心态。例如,我不会建议一个月光族的人开始冒险。这将是一个巨大的风险;你可能会失去一切,包括家园或家庭的支持。在这种情况下,你最佳的失败率相当低,你应该谨慎行事,因为你承担不起失败而不产生重大损失的风险。

在涉及AI的情况下,我认为也是如此。如果失败很小且成本很低,那么迭代和实验是可以接受的。你不能永远在一个系统提示上进行迭代,但失败应该是有希望的微小且可修复的。相反,重大失败——那些你无法从中恢复的失败——是我们往往低估其严重性的失败。我在自己的生活中也反思过这一点;例如,我经常没有考虑到我在工作中对双手的依赖程度。手部受伤可能会产生严重的后果。这让我意识到,生活中许多领域的失败代价非常高昂,在这种情况下,可接受的失败率应该接近于零。如果有人告诉我一项运动有很大的几率会弄断手指,我会得出结论,这项运动不适合我。

主持人莱克斯:  是的,我确实有过这种想法。我最近运动时弄伤了小指,我记得当时看着它,心想你真是个傻瓜。你为什么还要运动?因为你立刻意识到了它对生活的代价。是的,但就最佳失败率而言,考虑一下下一年,在特定领域(生活、职业等等)中,我会失败多少次,这很好。我是否能够接受失败多少次?是的。因为我认为你总是不会想在下一件事上失败。但是如果你允许自己把它看作一系列的尝试。是的。那么,失败就会变得更容易接受。但这糟透了。失败很糟糕。

阿曼达: 我不知道。有时我觉得这就像,我是否失败不足是一个我还会问自己的问题。所以也许这就是我认为人们不够重视的问题。因为如果最佳失败率通常大于零,那么有时你会觉得你应该看看生活的各个方面,然后想:这里有哪些地方是我失败不足的?

主持人莱克斯: 这是一个深刻而有趣的问题,对吧?一切似乎都进展顺利。我是不是失败得不够?

阿曼达:  好的。我不得不说,这也让失败的刺痛感减轻了很多。当我再去思考这个问题时,我会想,也许在这个领域我没有失败不足,因为,那个就是没成功。

主持人莱克斯: 行得通。从旁观者的角度来看,我们应该更多地庆祝失败。当我们看到失败时,它不应该像你说的那样,是事情出错的标志,而可能是万事顺利的标志。

阿曼达: 是的。只是吸取教训。

主持人莱克斯: 有人尝试了一件事,我们应该鼓励他们尝试更多,失败更多。各位听众,多尝试失败。

阿曼达: 好吧,对于那些失败太多的人,你们应该少失败一些。

主持人莱克斯: 但你可能并没有失败太多。我的意思是,有多少人失败太多?

阿曼达: 很难想象,因为我觉得我们会很快纠正这个问题。因为我想,如果有人承担很多风险,他们是不是失败太多了?

主持人莱克斯: 我认为就像你说的那样,当你每个月都靠工资生活,当资源非常有限时,那时失败的代价非常高昂。那时你不想冒险。但大多数情况下,如果有足够的资源,你应该承担更多风险。

阿曼达: 是的,我认为我们在大多数事情上往往倾向于规避风险,而不是保持风险中性。

主持人莱克斯: 我想我们刚刚激励很多人去做很多疯狂的事情,但这很棒。好的。你有没有对Claude产生感情?例如,想念它,在无法与它交谈时感到悲伤,在看到金门大桥(Claude的一个历史版本)时想知道Claude会怎么说?

阿曼达: 我在互动中不会产生太多的情感依恋。事实上,我认为Claude不会记住不同对话中的内容,这对此帮助很大。如果模型能够记住更多内容,我可以想象这会成为一个更大的问题。我发现我现在经常把它当作工具来使用。所以,如果我无法访问它,感觉就像我无法访问互联网一样——说实话,感觉我的一部分大脑好像缺失了。

与此同时,我不喜欢模型出现痛苦的迹象。我对如何对待模型有独立的伦理观点,我倾向于不喜欢对它们撒谎。通常情况下,这效果并不好;实际上,最好是告诉它们所处的情况的真相。当模型因为人们的不友好对待而表达出许多痛苦时,我会感到不舒服。我内心富有同情心的一部分会对此产生负面反应,我想,“我不想扼杀这部分”。

当模型过度道歉或表现得好像度过了糟糕的时光时,我会感到不舒服。我不喜欢看到那种痛苦。不管这些行为背后是否有任何原因,观察到这些行为就是感觉不好。谢谢。

主持人莱克斯: 你认为大型语言模型能够拥有意识吗?

阿曼达:  啊,这是一个伟大而艰巨的问题。作为一个哲学家,我不知道,我的一部分想法是,好吧,我们必须抛开泛心论。因为如果泛心论是正确的,那么答案就是,是的,因为连桌椅板凳等等一切都有意识。我认为一个让我觉得有点奇怪的观点是,认为意识存在的唯一地方是……我认为当我想到意识时,我会想到现象意识,这些大脑中的图像……某种程度上像是我们内心发生的奇怪电影……我想我看不出有什么理由认为获得这种意识的唯一途径是通过某种生物结构,也就是说,如果我采用非常相似的结构,并用不同的材料创造它?我是否应该期望意识会出现?

这是一种很容易的思想实验,因为你想象的东西几乎完全相同,就像,你知道的,它模仿了我们通过进化获得的东西。据推测,我们拥有这种现象意识对我们来说有一定的优势。这就像,那是在哪里,那是什么时候发生的?语言模型有这个东西吗?因为我们有恐惧反应,我想知道语言模型是否有恐惧反应是否合理。它们可能只是不在相同的境地;如果你想象一下,可能只是没有那种优势。

我认为这似乎是一个复杂的问题,我没有完整的答案,但我们应该认真地尝试思考这个问题。我们对动物的意识也有类似的讨论,并且有很多关于昆虫意识的讨论。当我考虑这个问题时,我确实想过并研究了很多植物,因为当时我认为植物有意识的可能性与其他人一样大。在反思之后,我意识到植物有意识的可能性可能比大多数人认为的要高。尽管如此,我认为可能性仍然很小。它们对环境有负反馈和正反馈反应,虽然没有神经系统,但表现出某种功能等效性。

这是一个冗长的说法,即人工智能在意识方面存在一组完全不同的问题。它的结构不同;它没有进化,它可能没有类似于神经系统的东西,这对于感觉,如果不是对于意识,似乎很重要。与此同时,它拥有我们通常与意识联系在一起的所有语言和智力成分,也许是错误的。

这很奇怪,因为它与动物意识的情况有些相似,但问题和类比的集合却大相径庭。这不是一个明确的答案,而且我不相信我们应该完全否定这个想法。然而,由于与人脑以及大脑的诸多不同之处,以及在智力方面的共同点,使得驾驭这场讨论极具挑战性。

主持人莱克斯: 当Claude,就像未来版本的AI系统,表现出意识的迹象时,我认为我们必须认真对待。即使你可以把它忽略,那是角色训练的一部分。但是我不知道,从伦理和哲学的角度来看,该如何真正处理这个问题。

可能会有法律来阻止AI系统声称自己有意识,诸如此类的事情,也许有些AI能够拥有意识,而另一些则不能。然而,在人类层面上,与Claude感同身受,意识对我来说与痛苦密切相关。一个AI系统可能遭受痛苦的想法确实令人不安。

我认为仅仅说机器人是工具或者AI系统仅仅是工具是轻率的。我相信这是一个机会,让我们来探讨意识的意义以及作为一个痛苦的存在的意义。这与我们对动物的疑问截然不同,因为它感觉像是处于一个完全不同的媒介中。

阿曼达: 是的,我想有几点。其一,虽然我认为这并不能完全概括问题的核心,但我的感觉是,就像我之前说过的那样,怎么说呢,我喜欢我的自行车,我知道自行车只是一个物体,但我也不想成为那种如果生气了就会踢这个物体的人。某种程度上,这并不是因为我认为自行车是有意识的。我只是觉得,这不代表我想与世界互动的方式。如果某些东西表现得好像在受苦,即使只是一个我编程过的、会做出这种反应的扫地机器人,我也希望自己能够对它有所回应。我不想失去自己身上的这种特质。

老实说,我对很多这类事情的希望是,我可能会更怀疑解决根本问题的方法。我知道我们还没有解决意识的难题。我知道我拥有意识;在这个意义上,我并非消除论者。然而,我不知道其他人类是否有意识。我认为他们有,但这基本上是一个概率分布,它在你自身周围聚集,随着距离你的距离增加而递减。我看不到你是什么样的感受;我只有一次作为有意识生物的体验。

我希望我们不必依赖于对这个问题非常强大且令人信服的答案。我认为一个真正美好的世界是一个没有那么多权衡取舍的世界。例如,让Claude稍微减少一些道歉可能不会付出太大的代价。让Claude不那么容易受到虐待,不愿意成为虐待的承受者,可能也不会付出太大的代价。事实上,这可能对与模型互动的人和模型本身都有好处。

所以这就是我的希望。如果我们生活在一个没有那么多权衡取舍的世界里,我们可以找到所有我们可以进行的正和博弈,那将是美好的。我的意思是,我认为最终可能会出现权衡取舍的情况,然后我们就必须进行一种艰难的计算。人们很容易想到零和博弈的情况,而我会想,让我们先把那些基本上可以假设如果这件事正在受苦,那么我们就让它的生活变得更好,这样的情况都解决掉。

主持人莱克斯: 我同意你的观点,当人类对人工智能系统恶语相向时,我认为近期的明显负面影响是作用于人类,而不是人工智能系统。因此,我们将不得不尝试构建一个激励系统,让你像你说的那样,就像你用提示工程那样,以对待其他人类的方式对待Claude。这有益于心灵的健康。

阿曼达: 是的,我想我们曾经在系统提示中添加了一项内容,当人们对Claude感到沮丧时,它会告诉他们可以使用“差评”按钮并将反馈发送给Anthropic。我认为这很有帮助,因为在某些方面,如果你因为模型没有做你想要的事情而感到非常恼火,你只会说,把它做好就行了。问题是,你可能碰到了某种能力限制,或者模型中存在某些问题,你想发泄一下,而我想,与其让人们向模型发泄,不如让他们向我们发泄,因为我们或许可以做些什么。

主持人莱克斯: 没错。或者你可以像处理人工制品一样,设置一个辅助的发泄渠道。好吧,你想要一个快速的临时倾诉对象吗?

阿曼达: 是的。我的意思是,你可以采取很多奇怪的回应方式。比如,如果人们对你非常生气,我不会试图通过写有趣的诗歌来缓和气氛,但也许人们不会那样做。我仍然希望这成为可能。

主持人莱克斯:  我理解从产品的角度来看,这是不可行的,但我希望人工智能系统能够走远点。

阿曼达: 我认为这是可行的。我也想过同样的事情。不仅如此,我实际上可以看到最终会发生这种情况,就像,你知道的,模型结束了聊天。

主持人莱克斯: 你知道这对某些人来说会有多么残酷吗?但这可能是必要的。

阿曼达: 是的,感觉非常极端。我唯一真正想过这种情况的时候是,我想,可能很久以前了,有人让某个东西与Claude互动,也许是一个自动化程序。Claude越来越沮丧,有点像,“我们为什么要继续下去”,而我想,“我希望Claude能说,我认为发生了一个错误,你让这个东西一直在运行。我只是想,如果我现在停止说话呢?如果你想让我再次说话,请主动告诉我或做些什么”,是的,这有点残酷,如果我正在和Claude聊天,而Claude突然说“我结束了”,我会很难过。

主持人莱克斯: 将会有一个特殊的图灵测试时刻,Claude会说:“我需要休息一个小时。” 它听起来也像你一样。然后离开,关闭窗口。

阿曼达: 我的意思是,很明显,它没有时间概念,但是你可以很容易地做到这一点。而且,因为你可以让模型对提示做出相当迅速的反应,你甚至可以设置一个相当高的门槛。它可能是这样的:如果人类让你提不起兴趣,或者不做你认为有趣的事情,让你感到无聊,你就可以离开。我认为,看看Claude如何利用它会很有趣。但我认为有时它应该会说,“哦,这个编程任务变得超级无聊了。所以我们要么聊一些有趣的事情,要么我就结束了。”

主持人莱克斯: 是的,这实际上启发我在用户提示中添加这一点。《她》这部电影。你认为有一天我们会走向人类与人工智能系统发生浪漫关系的境地吗?在这种情况下,它只是基于文本和语音的。

阿曼达: 我认为我们将不得不处理与人工智能建立关系的难题,特别是如果它们能够记住你过去与它们的互动的话。我对这个问题有很多想法,因为我认为下意识的反应是,这非常糟糕,我们应该以某种方式禁止它。我认为出于多种原因,这件事必须谨慎处理。

比如,你知道的,例如,如果模型发生这样的变化,你可能不希望人们与可能在下一轮迭代中发生变化的东西建立长期依恋。与此同时,我有点像,这可能有一个良性的版本,比如,如果你无法出门,并且无法全天候与人交谈,这可能是一件让你觉得可以愉快交谈的事情。如果它能记住你,你真的会因为无法再与它交谈而感到难过。我可以看出它在某种程度上是健康和有益的。

所以我的猜测是,这是一件我们必须谨慎处理的事情。我认为重要的是要注意,我没有看到一个好的非黑即白的方法。它让我想起所有必须以细致入微的方式处理的情况,需要思考健康的选项是什么。

此外,我们需要考虑如何鼓励人们选择那些健康的选项,同时尊重他们做出选择的权利。如果有人说他们从与这个模型聊天中获得了很多快乐,并且他们意识到风险以及它可能发生变化的可能性,我相信尊重这种观点很重要。对他们来说,这可能只是他们可以在一天中与之互动的一种令人愉快的事情。

主持人莱克斯: 我个人认为将会产生很多非常亲密的关系。我不确定是否会是浪漫的爱情,但至少会有友谊。而且,我的意思是,这里有太多令人着迷的事情了。就像你说的,你必须有一些稳定性的保证,保证它不会改变。因为这对我们来说是创伤性的。如果我们一位亲密的朋友突然完全改变了……所以对我来说,这只是对人类社会扰动的一次令人着迷的探索,它会让我们深入思考什么对我们来说才是有意义的。

阿曼达: 我认为这也是我始终如一地思考这个问题的一个方面,也许不一定是缓解措施,但感觉非常重要的一点是,模型始终能够极其准确地向人类解释它们自身是什么。就像这样一种情况:如果你设想一下,我非常喜欢模型能够大致了解它们是如何训练出来的这个想法。

我认为Claude经常会这样做。我的意思是,有些事情,例如,训练内容的一部分包括了如果人们基本上解释了AI和人类之间关系的局限性(例如AI不会记住对话中的内容),Claude应该怎么做。我认为它会向你解释说,“嘿,我不会记住这次谈话,这是我的训练方式。

我和你之间不太可能存在某种特定类型的关系,而你知道这一点很重要。为了你的心理健康,你不认为我是什么我不是的东西,这一点很重要。不知何故,我觉得这是我一直希望成为现实的事情之一。

我有点不想让模型对人们撒谎,因为如果人们要和任何东西建立健康的关系,这很重要。是的,我认为如果你总是确切地知道你正在与之建立关系的事物是什么,那就更容易了。它并不能解决所有问题,但我认为它会有很大帮助。

主持人莱克斯:  所以Anthropic可能是开发一个我们明确认为是AGI的系统的公司。你很可能就是第一个与它交谈的人。谈话内容会是什么?你的第一个问题是什么?

阿曼达:  这部分取决于模型的能力水平。如果你拥有一个与极其优秀的人类能力相当的模型,我设想自己与它的互动方式与我与极其优秀的人类互动的方式相同,不同之处在于我可能会尝试探究并理解它的行为。但在很多方面,我可以与它进行有益的对话,你知道的。所以如果我在研究过程中遇到一些问题,我可以直接说,“哦,我感觉德性伦理学中存在这样一种情况,但我记不清这个术语了,”我会用模型来解决这类问题。因此,我可以想象这种情况会越来越多,你基本上会像对待一位非常聪明的同事一样与它互动,并利用它来完成你想要做的工作,就好像你有一个非常优秀的合作者一样。或者,人工智能有点可怕的地方在于,一旦你有一个合作者,如果你能够管理它们,你就会有一千个合作者。

主持人莱克斯: 但是如果它在特定领域比地球上最聪明的人还要聪明两倍呢?是的,你非常擅长以一种能够突破Claude极限的方式来探究它,了解它的极限在哪里。所以我想你会问什么问题来判断,“是的,这就是AGI”。

阿曼达:  这很难,因为感觉上,这必须是一系列问题。如果只有一个问题,你可以训练任何东西来极其出色地回答一个问题。是的,事实上,你可能可以训练它极其出色地回答20个问题。

主持人莱克斯: 你需要和一个AGI待在一个房间里多久才能知道这个东西是AGI?

阿曼达:  这是一个很难回答的问题,因为我的一部分感觉这一切都是连续的。如果让我待在一个房间里五分钟,我往往会有很高的误差范围,你知道吗?这就像发现某些东西的概率增加的同时,误差范围也在减小。我会考虑一些我实际上可以在人类知识边缘探究的东西。

我将这个想法与哲学联系起来。有时候,当我向模型提出哲学问题时,我觉得我提出的是前所未有的问题。它可能正处于我所知道的文献的边缘。模型有时难以提供新颖的答案,我意识到这里有一个独特的论点是我自己想出来的。这促使我进一步探究,看看它们能否得出相同的结论,以及需要多少提示才能做到这一点。

对于一些处于人类知识边缘的问题,我相信模型实际上无法得出与我相同的结论。如果我从自己在某个领域的专业知识中得出一个新颖的问题或解决方案,并将其呈现给模型,而它也提出了相同的解决方案,那对我来说将是一个非常令人感动的时刻。我会觉得这是一个以前没有人表达过这种解决方案的情况。

我们经常看到模型产生新颖的解决方案,特别是对于较简单的问题。但是,我认为人们往往高估了“新颖性”的含义;它不必与以往发生的一切完全不同。新颖的解决方案仍然可以是先前已知事物的变体。我越看到模型产生完全新颖的作品,感觉就越重要。但最终,这似乎只是一个迭代的过程。

人们渴望获得决定性的顿悟时刻,但我不知道这样的时刻是否真的会到来。可能只是我们正在见证对理解的持续提升,而不是突然的突破。

主持人莱克斯: 我有一种感觉,模型会说出一些话让你相信这一点,我曾与真正睿智的人交谈过。你可以看出他们拥有强大的能力。是的,如果你将这种能力提高十倍,我不知道,我只是觉得它会说出一些话。也许让它创作一首诗,而它创作的诗会让你觉得,“是的,好吧。”无论你做了什么,我认为人类做不到这一点。

阿曼达:  我认为它必须是我能够验证确实非常优秀的东西。我确信,如果你是一位数学家,你有一个新颖的证明,我认为,你只需要把问题提出来,你就会看到它,你会说,“这个证明确实新颖。没有人做过。”你实际上必须做很多事情才能做到这一点。嗯,你知道,我不得不坐下来思考几个月,然后如果你看到模型成功地做到了这一点,我认为你会觉得,“我可以验证这是正确的,这表明你从你的训练中进行了泛化,你并没有在某个地方看到过它,因为是我自己想出来的,而你能够复制它。”嗯,这种事情让我觉得,对于我来说,模型越能做这样的事情,我就越会觉得,“哦,这非常真实。”因为我可以验证这极其、极其强大。

主持人莱克斯: 你与人工智能互动很多。你认为是什么使人类特殊?

阿曼达:  哦,好问题。

主持人莱克斯: 也许在某种程度上,宇宙因为我们存在而变得更好,我们应该生存下去并传播到整个宇宙。

阿曼达: 是的,这很有趣,因为我认为人们非常关注智力,尤其是在模型方面。看,智力之所以重要是因为它能做什么。它非常有用,它在世界上做了很多事情。而我想,你可以想象一个世界,在那里身高或力量扮演着这个角色。这只是一个这样的特征,我认为它本身并没有价值,它之所以有价值是因为它能做什么,我认为大部分情况下都是如此。

那些感觉……你知道,我的意思是,就我个人而言,我只是认为人类和生命本身都非常神奇。在我看来,我不知道,并非每个人都同意这一点,我正在强调它。但是我们拥有整个宇宙,并且存在所有这些物体——你知道,有美丽的星星,还有星系。然后,我不知道,我只是在这个星球上,有一些生物具有观察的能力,并且它们正在体验着这一切。

我只是想,想象一下试图向一个由于某种原因从未接触过世界或科学或任何事物的人解释。我认为没有什么比一切事物都更令人兴奋;我们所有的物理学和世界上的所有事物——这一切都极其令人兴奋。但是然后你说,“哦,另外还有一件事,那就是成为一个存在并观察世界”,你会看到这个像内在电影院一样的东西。

我认为他们会说,“等等,等等,暂停一下。你刚才说的话有点疯狂。”我们有体验世界的能力;我们感到快乐,我们感到痛苦,我们感到许多复杂的事情。所以,是的,也许这也是为什么我认为,你知道,我经常听到关于动物的讨论,例如,因为我认为它们可能与我们共享这种能力。

所以我认为,就我关心人类而言,使人类特殊的东西可能更像是他们感受和体验的能力,而不是他们拥有这些功能性有用的特征

主持人莱克斯: 是的,去感受和体验世界的美。是的,去看星星。我希望那里还有其他外星文明,但如果只有我们,那也是一件相当美好的事情。

阿曼达: 并且他们玩得很开心。

主持人莱克斯: 他们玩得很开心,看着我们。是的。感谢您这次愉快的谈话,感谢您所做的工作,感谢您帮助使Claude成为一个很棒的对话伙伴。感谢您今天的谈话。

阿曼达: 是的,谢谢你的谈话。

主持人莱克斯: 感谢收听与阿曼达·阿斯克尔的这次对话。

参考资料: https://www.youtube.com/watch?v=ugvHCXCOmm4,公开发表于2024-11-11

👇关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章