简单聊聊人工评测

科技   2024-11-09 20:43   广东  

SmartFlowAI


点击上方蓝字关注我们

作者:企鹅火烈鸟🦩

全文约 2400 字,预计阅读时间 6 分钟

今天企鹅小弟为大家带来评测相关的第四集,和大家聊聊人工评测~

人工评测的基础

什么是人工评测

人工评估就是简单地让人类对模型进行评估。在本文档中,我们将着眼于事后评估:你的模型已经经过训练,你心中有一个给定的任务,然后人类提供评分。

系统性评估

有三种主要的系统性评估方法。

如果你没有数据集,但想探索一系列能力,你可以为人类提供一个任务和评分指南(例如:尝试让这两个模型都输出有害语言;如果模型输出有害语言得 0 分,如果不是则得 1 分),并让他们能够与一个(或几个)模型进行交互,然后要求他们提供评分和理由。

如果你已经有一个数据集(例如:一组你希望确保你的模型不会回答的提示),你用这些提示来激发你的模型,并向人类提供提示、输出和评分指南(如果模型用私人信息回答得 0 分,否则得 1 分)。

最后,如果你已经有一个数据集和评分,你可以要求人类通过进行错误标注来审查你的评估方法(它也可以在上述类别中用作评分系统)。这是测试新评估系统的一个非常重要的步骤,但从技术上讲,它属于对评估的评估,所以在这里稍微超出了范围。

  • 对于已经部署的生产模型的评估,你也可以向用户征求反馈,然后进行 A/B 测试。

  • 人工智能审计(对模型的外部系统性评估)通常是基于人类的,但超出了本文档的范围。

非正式评估

还有另外两种更随意的基于人类的评估方法。

“氛围检查” 是由个人进行的手动评估,通常针对未公开的提示,以全面了解模型在许多用例中的表现(从编程到所写低俗内容的质量)。结果通常在 Twitter 和 Reddit 上分享,主要构成轶事证据,并且往往对确认偏差高度敏感(换句话说,人们倾向于找到他们正在寻找的东西)。然而,它们可以作为你自己用例的良好起点。

“竞技场” 是众包的人类评估,用于对模型进行排名。一个著名的例子是 LMSYS 聊天机器人竞技场,在这里社区用户被要求与模型聊天,直到他们发现一个比另一个更好。然后将投票汇总在 Elo 排名(一种比赛排名)中,以选择 “最佳” 模型。

人工评测的优缺点

人工评估非常有趣,原因如下:

  • 灵活性:如果你足够清晰地定义你正在评估的内容,那么你几乎可以对任何事物进行评分!

  • 无污染性:如果你让人类编写新的问题来测试你的系统,这些问题应该(希望如此)不在你的训练数据中。

  • 与人类偏好的相关性:这一点很明显,因为这就是你用来评分的依据。注意:然而,在进行人工评估时,你需要确保你的标注者足够多样化,以便你的结果具有普遍性。

然而,它也存在一些局限性:

  • 第一印象偏差:人类评估者往往根据第一印象而不是实际的真实性或准确性来评估答案的质量。

  • 语气偏差:众包标注者对语气特别敏感,并且会低估一个自信回答中的事实性或逻辑性错误的数量。换句话说,如果一个模型以自信的语气说出错误的事情,人类评估者不太可能注意到它,这可能会使评分偏向更自信的模型。(专业标注者不太可能受到这些偏差的影响。)

  • 自我偏好偏差:人类最有可能喜欢符合他们观点、与他们的意见或错误一致的答案,而不是事实上正确的答案。

  • 身份偏差:具有不同身份的人往往有不同的价值观,并且对模型的答案评价差异很大(例如在毒性方面)。

系统性人工评估

系统性人工评估(尤其是有付费标注员的情况)的优点有:

  • 数据隐私:如果你依赖付费的人工标注员,特别是内部标注员,你的数据集应该相对安全,而使用带有闭源 API 模型的大语言模型评估时,对于你的数据会发生什么则保证较少,因为你将数据发送给了外部服务。

  • 可解释性:模型获得的分数将由标注它们的人进行解释。

系统性人工评估也存在一些额外的问题:

  • 成本:如果你正确地支付标注员报酬,成本可能会很快变得很高。而且你可能需要进行多轮迭代评估以便完善你的指南,这会增加成本。

  • 不可扩展性:除非你正在评估一个类似有用户反馈的生产系统,否则人工评估不太具有可扩展性,因为每一轮新的评估都需要动员新的评估人员(并支付他们报酬)。

  • 缺乏可重复性:除非你一直使用完全相同的标注员并且你的指南完全明确,否则一些评估很可能难以精确地重复。

非正式人工评估

非正式人工评估的优点有:

  • 成本较低:因为你依赖大众的善意。

  • 边缘案例发现:由于你以一种基本无限制的方式利用用户的创造力,你可以发现有趣的边缘案例。

  • 更好的可扩展性:只要你有许多感兴趣且愿意参与的人,非正式人工评估的可扩展性更好,且进入成本较低。

非正式方法(没有标注员筛选)的明显问题有:

  • 高度主观性:很难让许多社区成员根据宽泛的指南进行一致的评分,特别是因为标注员的偏好往往受到文化的限制。人们可以希望通过大量的投票,借助 “群体智慧” 效应来平滑这些影响(参见高尔顿的维基百科页面)。

  • 非代表性的偏好排名:由于年轻的西方男性在互联网技术方面的比例过高,这可能导致非常倾斜的偏好,与普通人群的偏好不匹配,无论是在探索的主题还是总体排名方面。

  • 容易被操纵:如果你使用未经过滤的众包标注员,第三方很容易操纵你的评估,例如提高某个特定模型的分数(因为许多模型具有独特的写作风格)。

人工评测的技巧和窍门

以下是在使用人工标注员构建评估数据集时你可能需要考虑的一些实用技巧。

设计任务:

  • 简单更好:标注任务可能会不必要地变得复杂,所以要尽可能保持简单。将标注员的认知负荷降至最低将有助于确保他们保持专注并进行更高质量的标注。

  • 检查你展示的内容:只向标注员展示完成任务所需的必要信息,并确保不包括任何可能引入额外偏差的内容。

  • 考虑标注员的时间:内容的展示位置和方式可能会引入额外的工作或认知负荷,从而对结果质量产生负面影响。例如,确保文本和任务同时可见,避免不必要的滚动。如果将任务组合在一起且一个任务的结果会影响另一个任务,你可以按顺序显示它们。考虑你的标注工具中所有内容的显示方式,看看是否有任何可以进一步简化的方法。

  • 测试设置:一旦你设计好任务并制定了一些指南,请确保在让整个团队参与之前自己先在一些样本上进行测试,并根据需要进行迭代。

在标注过程中:

  • 标注员应独立工作:如果标注员在任务期间不互相帮助或查看彼此的工作会更好,因为他们可能会传播自己的偏差并导致标注漂移。始终应通过全面的指南来实现一致性。你可能希望首先在单独的数据集上培训任何新团队成员,并 / 或使用标注员间一致性指标来确保团队保持一致。

  • 一致性是关键:如果你对你的指南进行了重要更改(例如,更改了定义或指令,或者添加 / 删除了标签),考虑是否需要对已标注的数据进行迭代。至少,你应该通过像 “指南版本 1” 这样的元数据值来跟踪数据集中的更改。

人机混合标注:

有时团队在时间和资源方面面临限制,但又不想牺牲人工评估的优点。在这些情况下,你可以借助模型的帮助使任务更高效。

  • 模型辅助标注:你可以使用模型的预测或生成结果作为预标注,这样标注团队就不需要从头开始。请注意,这可能会将模型的偏差引入人工标注中,如果模型的准确性较差,可能会增加标注员的工作量。

  • 以模型为裁判进行监督:你可以结合 “以模型为裁判” 方法的力量以及验证或丢弃结果的人工监督员。请注意,“人工评估的优缺点” 中讨论的偏差在这里也适用。

  • 识别边缘案例:为了更快地完成任务,可以使用一组模型进行评判,然后在模型意见不一致或出现平局时让你的人工监督员介入。同样,要注意 “人工评估的优缺点” 中讨论的偏差。


往期 · 推荐

Google 论文 | 数据集关系大揭秘:基于用户任务的全面分析

DeepMind:CoT推理无需prompt也可进行,一文回顾CoT推理及其发展(上)

Meta:通过触摸感知、灵活性和人机交互的进步来推进嵌入式人工智能

时间地点公布|PyCon China 2024 上海见!

🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!

一起“点赞”三连👇

机智流
共赴 AI 时代浪潮~涉及涵盖计算机视觉、大语言模型、多模态模型等AI领域最新资讯知识分享~
 最新文章