judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型

科技   2024-12-01 00:00   浙江  

judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury),实现更全面的评估。

参考文献:
[1] http://github.com/quotient-ai/judges



NLP工程化(星球号)
欢迎加入我的知识星球,长按或下方二维码。星球号针对公众号提供增值服务:Dify源码剖析及答疑,电子书籍报告下载,公众号所有付费资料。

<<<左右滑动见更多>>>

NLP工程化
专注于对话系统领域的技术分享,重点写《Dify应用操作和源码剖析》专栏。
 最新文章