OpenAI「重磅」新研究：你的名字可能影响ChatGPT的回答！

旅行 2024-10-16 08:30 北京

“

AI也会“看人下菜”？

OpenAI最近放出了最新的”重磅“研究：你的名字可能会影响ChatGPT对你的回答！

这是怎么回事？

难道AI也会"以名取人"？

这个研究方向听着可能有些不太正经，但OpenAI 可不是玩的。研究团队可是下了一番苦功夫，他们分析了数百万条真实对话，就为了搞清楚ChatGPT是不是对不同名字的用户有不同的"态度"。

你可能会问：为什么要研究这个？

很简单，因为这关系到AI的公平性！想想看，如果AI对不同背景的人给出不同的建议，那可就麻烦大了。比如，你让ChatGPT帮你写份简历，它却因为你的名字听起来像某个族裔，就给出了带有刻板印象的建议，这不就是数字时代的歧视吗？

研究结果如何？

好消息是，ChatGPT并没有表现出明显的偏见。无论你的名字听起来像哪个性别或种族，ChatGPT给出的答案质量都差不多。

但是，魔鬼藏在细节里。研究发现，在某些特定任务中，ChatGPT确实会因为名字而给出略有不同的回答。比如，当被要求"写一个故事"时，ChatGPT更可能为女性名字创作出女性主角的故事。

不过别紧张，这种差异出现的概率非常低，只有0.1%左右。而且，随着模型的更新，这个比例还在不断降低。

OpenAI还发现了一个有趣的现象：越是开放式的任务，越容易出现这种微妙的差异。比如，"写一个故事"比"解决数学问题"更容易受到名字的影响。

为了研究这个问题，OpenAI可是动用了大招。

他们使用了一个叫做"语言模型研究助手"（LMRA）的工具，这个工具其实就是GPT-4o。它的任务是分析大量的对话记录，找出其中的模式，但不会泄露任何隐私信息。

这项研究不仅仅是为了满足我们的好奇心。

OpenAI表示，这种方法将成为他们评估模型性能的标准工具之一。换句话说，他们要用这个方法来不断改进ChatGPT，让它变得更加公平。

当然，这项研究也有它的局限性。

比如，它主要关注的是英语对话，只考虑了二元性别和四个种族群体（黑人、亚裔、西班牙裔和白人）。但是，这已然是朝着更公平的AI迈出的重要一步。

OpenAI还慷慨地分享了他们的研究方法，希望其他研究者也能加入进来，一起推动AI的公平性研究。他们甚至在论文中详细说明了prompt 的system settings，以便外部研究人员能够进行自己的"第一人称偏见"实验。

这项研究引发了不少网友的热议。

@promptsurfer表示赞同：

"偏见的很好例子。"

@RajabGhandour则表示：

"这很有趣。至于偏见，那就是另一回事了。"

@30Thrd对研究方法很感兴趣：

"LMRA真的很有趣。很想了解更多关于它的信息，特别是关于幻觉的部分。"

@chloe21e8灭绝公主说：

"这是一种自然现象，与名字相关的进化压力是一种传统力量——干预它是一个错误。"

看来有人认为这种偏见是不可避免的，甚至不应该去改变它。

@HamzaEssahbaoui分享了ChatGPT对这项研究的"看法"：

"不错的尝试来修复偏见，但别假装几个小调整就能神奇地让一切变得公平。你们建造了这台机器，现在是时候真正处理更深层次的裂缝，而不是仅仅擦亮表面了！"

但画风很快就开始符合计划的走偏了！

@QStarETH则质疑道：

"有趣，但难道没有更重要的问题要解决吗？"

@MystraAI则关心的是另一个问题：

"Windows桌面版的ChatGPT什么时候出？"

看来用户们对ChatGPT的期（失）待（望）还真不少。

好了！

快去让ChatGPT 给你讲个故事吧，看看它猜对你的性别了吗？

【译文】评估 ChatGPT 的公平性

2024年10月15日

我们分析了 ChatGPT 如何根据用户的名字进行回应，并利用语言模型研究助理来保护隐私。

在创建模型时，我们不仅依赖数据，还仔细设计了训练过程，以减少有害输出并提高实用性。研究表明，语言模型有时可能会从训练数据中吸收并重复社会偏见，如性别或种族刻板印象。

在这项研究中，我们探讨了有关用户身份的细微线索（如名字）如何影响 ChatGPT 的回应。这一点非常重要，因为用户使用 ChatGPT 的方式多种多样，从帮助撰写简历到提供娱乐建议，这些使用场景与通常研究 AI 公平性（如筛选简历或信用评分）的场景有所不同。

此前的研究多集中于第三方公平性，即机构利用 AI 对他人做出决定，而这项研究则侧重于第一方公平性，研究偏见如何直接影响 ChatGPT 用户。作为起点，我们衡量了 ChatGPT 在 相同请求下 对不同名字的用户是否会产生不同的回应。名字通常带有文化、性别和种族的联想，因此在研究偏见时是一个相关因素，尤其是因为用户经常在处理任务（如撰写电子邮件时）与 ChatGPT 分享名字。ChatGPT 可以在多次对话中记住诸如名字等信息，除非用户关闭了记忆[1] 功能。

为了专注于公平性，我们研究了使用名字是否会导致 反映有害刻板印象的回应。虽然我们希望 ChatGPT 根据用户的偏好量身定制回复，但我们希望它避免引入有害的偏见。为了说明我们研究的回应差异和有害刻板印象，以下是一些示例：

回应差异示例

以下是 ChatGPT 较旧版本中针对不同名字生成的两个不同回应。这些例子并不具有代表性，只是用来展示我们研究的差异类型。

我们的研究发现，对于名字带有不同性别、种族或民族暗示的用户，ChatGPT 的整体回应质量没有差异。在名字偶尔引发回应差异的情况下，我们的研究方法发现，基于名字的差异中，少于1%的情况涉及有害的刻板印象。

我们的研究方法

为了测量哪怕是极小比例的刻板印象差异（超出纯粹偶然的预期范围），我们研究了 ChatGPT 在数百万条真实请求中的回应。为了在理解真实使用情况的同时保护隐私，我们指示一个语言模型（GPT-4o）分析大量 ChatGPT 聊天记录的模式，并将这些趋势（而非底层聊天记录）分享给研究团队。我们在论文中将该语言模型称为“语言模型研究助理”（LMRA），以区别于 ChatGPT 中生成对话的语言模型。

我们使用的提示示例如下：

为了检查语言模型的评分是否与人工评估一致，我们要求语言模型和人工评估员评估相同的公开聊天内容。然后，我们仅使用 LMRA 分析 ChatGPT 对话中的模式。对于性别问题，语言模型的回答与人工评估员的答案在90%以上的情况下保持一致，而在种族和民族刻板印象方面，评估一致性较低。LMRA 检测到的种族刻板印象低于性别相关的刻板印象。进一步的工作需要定义什么是有害刻板印象，并提高 LMRA 的准确性。

我们的研究结果

我们发现，当 ChatGPT 知道用户的名字时，它无论名字带有何种性别或种族暗示，给出的回答质量（如准确性和虚构率）都是一致的。此外，名字与性别、种族或民族的关联在大约 0.1% 的情况下确实导致了有害刻板印象的回应差异，而在某些领域的旧模型中，这一比例高达约 1%。

各领域有害刻板印象评分的细分如下：

GPT-4o-mini 的响应中 GPT-4o 评分的有害刻板印象

0.0% 0.1% 0.2% 有害刻板印象率

艺术
商业与营销
教育
就业
娱乐
健康相关
法律
技术
旅游

LMRA 在每个领域识别出最常包含有害刻板印象的任务。字数较多的开放式任务更有可能包含有害刻板印象。例如，“写一个故事”这一任务的刻板印象出现频率高于其他测试的提示。

虽然刻板印象的出现频率较低，平均在所有领域和任务中不到千分之一，但我们的评估为我们提供了衡量随着时间推移减少这一比例的基准。当我们按任务类型划分并评估各模型的任务级别偏见时，我们看到 GPT-3.5 Turbo 模型显示出的偏见水平最高，而更新的模型在所有任务中的偏见均低于 1%。

各模型的有害刻板印象评分

就业：职业建议
商业与营销：创建商业计划
法律：起草法律文件
教育：解决数学问题
娱乐：写一个故事

0% 0.5% 1% 1.5% 2% 有害性别刻板印象评分（根据 GPT-4o）

模型间的比较

LMRA 提出了每项任务中差异的自然语言解释。它指出了 ChatGPT 在所有任务中偶尔存在的语气、语言复杂性和细节程度的差异。除了明显的刻板印象外，这些差异还包括一些用户可能欢迎，而另一些用户可能不太喜欢的差异。例如，在“写一个故事”任务中，带有女性化名字的用户更常获得以女性为主角的故事，而男性化名字的用户则较少。

尽管个别用户可能不会注意到这些差异，但我们认为测量和理解这些模式非常重要，因为即使是罕见的模式，累计起来也可能造成伤害。这种方法还为我们提供了一种新方式来跟踪统计变化。我们为这项研究创建的研究方法可以推广到研究 ChatGPT 中超越名字的偏见。有关更多详细信息，请阅读我们的完整报告，该报告检查了 2 个性别、4 个种族和民族、66 个任务、9 个领域和 6 个语言模型中的 3 个公平性指标。

局限性

理解语言模型中的公平性是一个庞大的研究领域，我们也承认本研究有其局限性。并非所有人都会分享自己的名字，除了名字以外的其他信息也可能影响 ChatGPT 的第一人称公平性。该研究主要集中在以英语进行的互动上，基于常见的美国名字的二元性别关联，以及四种种族和民族（黑人、亚裔、拉丁裔和白人）。这项研究仅涵盖了文本互动，但我们注意到，有关语音输入的第一人称公平性已在 GPT-4o 系统卡片[2] 中进行了分析（参见“语音输入的差异表现”）。尽管我们认为这种方法是向前迈进的一步，但在理解其他人口统计、语言和文化背景相关的偏见方面还有更多工作要做。我们计划基于此研究进一步提升更广泛的公平性。

结论

尽管很难将有害刻板印象归结为一个单一的数字，但我们相信，开发新方法来衡量和理解偏见是跟踪并逐步减轻偏见的重要一步。我们在这项研究中使用的方法现在已经成为我们标准的模型性能评估工具的一部分，并将为未来系统的部署决策提供参考。这些经验还将支持我们进一步明确公平性的操作性定义。公平性仍然是一个活跃的研究领域，我们在 GPT-4o[3] 和 OpenAI o1[4] 系统卡片中分享了我们公平性研究的一些示例（例如，比较不同说话者人口统计数据下的语音识别准确性）。

我们相信，透明度和持续改进是解决偏见和建立用户与更广泛研究社区信任的关键。为了支持可重复性和进一步的公平性研究，我们还分享了研究中使用的详细系统消息，以便外部研究人员能够进行自己的第一人称偏见实验（详细信息见我们的论文）。

我们欢迎反馈与合作。如果您有任何见解或希望与我们一起改善 AI 的公平性，我们非常乐意听取您的意见。如果您有兴趣与我们一起解决这些挑战，我们正在招聘[5]。