judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury),实现更全面的评估。
参考文献:
[1] http://github.com/quotient-ai/judges
NLP工程化(星球号)
欢迎加入我的知识星球,长按或下方二维码。星球号针对公众号提供增值服务:Dify源码剖析及答疑,电子书籍报告下载,公众号所有付费资料。
<<<左右滑动见更多>>>