使用大语言模型进行自动且多功能的评估

科技 2024-11-30 20:00 北京

SmartFlowAI

点击上方蓝字关注我们

作者：企鹅火烈鸟🦩
全文约 3400 字，预计阅读时间 10 分钟
本文翻译并修改自：Using LLM-as-a-judge 🧑‍⚖️ for an automated and versatile evaluation

前言

大型语言模型（LLM）的评估通常是一项艰巨的任务：鉴于其通用的能力，赋予它们的任务通常应根据非常宽泛且定义不严格的要求进行判断。例如，助手对问题的回答可能是：

没有基于上下文
重复，重复，重复
语法错误
过长且用词过多，导致话语或书面内容变得过于详细和冗长
不连贯
……

标准不胜枚举。而且，即使我们有一个合理的，其中每一项是否达标也都很难衡量：“设计一个基于规则的程序来评估输出是极具挑战性的。基于输出与参考答案之间的相似性的传统评估指标（例如 ROUGE、BLEU）对于这些问题也不起作用。”

✅一个以人类方式评估输出的强大解决方案，无需耗费大量人力时间，那就是将大语言模型用作评判者。

这个想法很简单：让一个大型语言模型为你进行评分。🤖

上代码！

下面我们直接上代码环节！你需要仔细设置它才能获得好的结果。

!pip install huggingface_hub datasets pandas tqdm -q

import re
import pandas as pd
from tqdm.auto import tqdm
from datasets import load_dataset
from huggingface_hub import InferenceClient, notebook_login

tqdm.pandas()  # load tqdm's pandas support
pd.set_option("display.max_colwidth", None)

notebook_login()

repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"

llm_client = InferenceClient(
    model=repo_id,
    timeout=120,
)

# Test your LLM client
llm_client.text_generation(prompt="How are you today?", max_new_tokens=20)

1. 准备创建和评估我们的大语言模型评估器

假设你想给一个大型语言模型一个特定的任务，比如回答开放式问题。困难在于，衡量答案的质量是很困难的，例如，完全的字符串匹配会将许多正确但措辞不同的答案标记为错误。你可以让人类标注员来评判输出结果，但这对他们来说非常耗时，而且如果你想更新模型或问题，你就得重新再来一遍。

✅在这种情况下，你可以设置一个大型语言模型作为评判者。

但是要使用大语言模型作为评判者，你首先需要评估它对你的模型输出的评分有多可靠。

➡️所以第一步将是……创建一个人工评估数据集。但是你只能为少数示例获得人工标注——大约 30 个。这足以很好地了解性能。并且每次你想要测试你的作为评判者的大语言模型时，你都能够重复使用这个数据集。

在我们的案例中，我们将使用feedbackQA，它包含每个问题/答案对的两个人工评估和分数：使用 30 个示例的样本将代表你的小型评估数据集可能的样子。

ratings = load_dataset("McGill-NLP/feedbackQA")["train"]
ratings = pd.DataFrame(ratings)

ratings["review_1"] = ratings["feedback"].apply(lambda x: x["rating"][0])
ratings["explanation_1"] = ratings["feedback"].apply(lambda x: x["explanation"][0])
ratings["review_2"] = ratings["feedback"].apply(lambda x: x["rating"][1])
ratings["explanation_2"] = ratings["feedback"].apply(lambda x: x["explanation"][1])
ratings = ratings.drop(columns=["feedback"])

# Map scores to numeric values
conversion_dict = {"Excellent": 4, "Acceptable": 3, "Could be Improved": 2, "Bad": 1}
ratings["score_1"] = ratings["review_1"].map(conversion_dict)
ratings["score_2"] = ratings["review_2"].map(conversion_dict)

计算分数baseline永远是个好主意：在这里，例如可以是两位人类评分者之间的一致性，通过他们给出的分数的皮尔逊相关性来衡量。

print("Correlation between 2 human raters:")
print(f"{ratings['score_1'].corr(ratings['score_2'], method='pearson'):.3f}")

Correlation between 2 human raters:
0.563

两位人类评分者之间的这种相关性不是那么好。如果你的人类评分真的很糟糕，这可能意味着评分标准不够清晰。这意味着我们的“真实值”包含噪声：因此我们不能期望任何算法评估能与之非常接近。然而，我们可以减少这种噪声：

通过将平均得分作为我们的真实值，而不是任何单一得分，我们应该可以消除一些不规则性。
通过只选择人类评审员意见一致的样本。

在这里，我们将选择最后一个选项，并且只保留两位人类评审员意见一致的示例。

# Sample examples
ratings_where_raters_agree = ratings.loc[ratings["score_1"] == ratings["score_2"]]
examples = ratings_where_raters_agree.groupby("score_1").sample(7, random_state=1214)
examples["human_score"] = examples["score_1"]

# Visualize 1 sample for each score
display(examples.groupby("human_score").first())

2. 创建我们的大模型评判器

我们使用一个基本提示构建我们的大型语言模型评估器，其中包含以下元素：

任务描述
类型描述：minimum、maximum、值类型（这里是float）
输出格式说明
一个答案的开头，尽可能引导大型语言模型

JUDGE_PROMPT = """
You will be given a user_question and system_answer couple.
Your task is to provide a 'total rating' scoring how well the system_answer answers the user concerns expressed in the user_question.
Give your answer as a float on a scale of 0 to 10, where 0 means that the system_answer is not helpful at all, and 10 means that the answer completely and helpfully addresses the question.

Provide your feedback as follows:

Feedback:::
Total rating: (your rating, as a float between 0 and 10)

Now here are the question and answer.

Question: {question}
Answer: {answer}

Feedback:::
Total rating: """

examples["llm_judge"] = examples.progress_apply(
    lambda x: llm_client.text_generation(
        prompt=JUDGE_PROMPT.format(question=x["question"], answer=x["answer"]),
        max_new_tokens=1000,
    ),
    axis=1,
)

def extract_judge_score(answer: str, split_str: str = "Total rating:") -> int:
    try:
        if split_str in answer:
            rating = answer.split(split_str)[1]
        else:
            rating = answer
        digit_groups = [el.strip() for el in re.findall(r"\d+(?:.\d+)?", rating)]
        return float(digit_groups[0])
    except Exception as e:
        print(e)
        return None


examples["llm_judge_score"] = examples["llm_judge"].apply(extract_judge_score)
# Rescale the score given by the LLM on the same scale as the human score
examples["llm_judge_score"] = (examples["llm_judge_score"] / 10) + 1

print("Correlation between LLM-as-a-judge and the human raters:")
print(f"{examples['llm_judge_score'].corr(examples['human_score'], method='pearson'):.3f}")

Correlation between LLM-as-a-judge and the human raters:
0.567

这还不错，但考虑到两个随机、独立变量之间的皮尔逊相关系数为 0！我们可以轻松做得更好。🔝

3. 提升大模型评判器

正如 Aparna Dhinakaran 所示，大型语言模型在评估连续范围内的输出方面表现不佳。本文为我们提供了一些构建更好提示的最佳实践：

⏳ 通过在最终答案之前添加“评估”字段，留出更多思考时间。
🔢 使用像 1-4 或 1-5 这样的小整数范围，而不是像我们之前使用的大浮点数范围。
👩🏫 提供一个指示性范围以作指导。

我们甚至添加了一个激励因素来激励大型语言模型！

IMPROVED_JUDGE_PROMPT = """
You will be given a user_question and system_answer couple.
Your task is to provide a 'total rating' scoring how well the system_answer answers the user concerns expressed in the user_question.
Give your answer on a scale of 1 to 4, where 1 means that the system_answer is not helpful at all, and 4 means that the system_answer completely and helpfully addresses the user_question.

Here is the scale you should use to build your answer:
1: The system_answer is terrible: completely irrelevant to the question asked, or very partial
2: The system_answer is mostly not helpful: misses some key aspects of the question
3: The system_answer is mostly helpful: provides support, but still could be improved
4: The system_answer is excellent: relevant, direct, detailed, and addresses all the concerns raised in the question

Provide your feedback as follows:

Feedback:::
Evaluation: (your rationale for the rating, as a text)
Total rating: (your rating, as a number between 1 and 4)

You MUST provide values for 'Evaluation:' and 'Total rating:' in your answer.

Now here are the question and answer.

Question: {question}
Answer: {answer}

Provide your feedback. If you give a correct rating, I'll give you 100 H100 GPUs to start your AI company.
Feedback:::
Evaluation: """

examples["llm_judge_improved"] = examples.progress_apply(
    lambda x: llm_client.text_generation(
        prompt=IMPROVED_JUDGE_PROMPT.format(question=x["question"], answer=x["answer"]),
        max_new_tokens=500,
    ),
    axis=1,
)
examples["llm_judge_improved_score"] = examples["llm_judge_improved"].apply(extract_judge_score)

print("Correlation between LLM-as-a-judge and the human raters:")
print(f"{examples['llm_judge_improved_score'].corr(examples['human_score'], method='pearson'):.3f}")

Correlation between LLM-as-a-judge and the human raters:
0.843

相关性仅通过对提示进行一些微调就提高了近 30%（其中几个百分点是由于我无耻地向大语言模型提供提示导致的，在此我声明这在法律上不具约束力）。非常令人印象深刻！👏

让我们展示一些我们的大语言模型评判的错误来分析它们：

errors = pd.concat(
    [
        examples.loc[examples["llm_judge_improved_score"] > examples["human_score"]].head(1),
        examples.loc[examples["llm_judge_improved_score"] < examples["human_score"]].head(2),
    ]
)

display(
    errors[
        [
            "question",
            "answer",
            "human_score",
            "explanation_1",
            "llm_judge_improved_score",
            "llm_judge_improved",
        ]
    ]
)

分歧很小：总体而言，我们的系统似乎已经达到了良好的性能水平！

4. 如何让我们的大模型评判器走的更远？

🎯你永远无法达到 100%： 首先让我们注意到，我们人类的基本事实肯定存在一些噪声，所以即使有一个完美的语言模型评判者，一致性/相关性也永远不会达到 100%。

🧭提供参考： 如果你能为每个问题都获得一个参考答案，那么你一定要在提示中把这个答案提供给评判语言模型，以获得更好的结果！

▶️提供少样本示例： 在提示中添加一些问题和基本事实评估的少样本示例可以提高结果。（我在这里试过了，在这种情况下它没有提高结果，所以我跳过了，但它可能对你的数据集有效！）

➕加法尺度： 当判断可以拆分为原子标准时，使用加法尺度可以进一步提高结果：见下文👇。

ADDITIVE_PROMPT = """
(...)
- Award 1 point if the answer is related to the question.
- Give 1 additional point if the answer is clear and precise.
- Provide 1 further point if the answer is true.
- One final point should be awarded if the answer provides additional resources to support the user.
...
"""

使用结构化生成：

使用结构化生成，你可以配置 LLM 评判器，使其直接以包含Evaluation和Total rating字段的 JSON 格式提供输出，这使得解析更加容易

结论

今天就到这里，这就是关于使用大模型进行自动且多功能评估的全部了。

往期 · 推荐

简单聊聊评判模型评测

15min 一文掌握开源协议！

LiveBench: 一个具有挑战性且无污染的 LLM 评测基准

「学术趋势」EMNLP 24 复杂推理 Top15 被引盘点

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉