首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

judges：一个轻量级的LLM评估库，提供多种预设的AI评判模型

科技 2024-12-01 00:00 浙江

judges：一个轻量级的LLM评估库，提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式，可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury)，实现更全面的评估。

参考文献：
[1] http://github.com/quotient-ai/judges

NLP工程化(星球号)
欢迎加入我的知识星球，长按或下方二维码。星球号针对公众号提供增值服务：Dify源码剖析及答疑，电子书籍报告下载，公众号所有付费资料。

<<<左右滑动见更多>>>

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

Diffbot LLM Inference Server：智能推理服务器

Vision Parse：将PDF文档转换为Markdown的智能工具

Solana Agent Kit：连接AI Agent与Solana协议的开源工具包

JupyterLab Magic Wand：JupyterLab笔记本中的智能助手

Smolgrad：小型自动微分引擎

CodebaseToPrompt：将本地文件转换为大型语言模型（LLM）提示的工具

LLM Cursor Rules：在软件开发中用Cursor和LLM的最佳实践规则

ts-rs：Rust与TypeScript之间的桥梁

llmstxt-generator：网站内容整合工具，将网站内容爬取并整合成文本文件

Prodigy+ScheduleFree：一种新的优化器

SQLFlow：流数据处理的SQL工具

less_slow.cpp：学习如何编写更高效的C++代码

有大佬已经放出了 DeepSeek-V3 的Q4_k_m 量化版本了

中国科学技术大学的人工智能基础课

Devin.cursorrules：Cursor或Windsurf升级成接近Devin智能编程

一个基于 AI 驱动的软件开发多智能体平台：OpenHands

GitDiagram：将任何GitHub代码库一键转换成互动式图表

LLM合集：awesome-llm-apps

推荐一款高效文本生成音频（Text-to-Audio）模型：TANGOFLUX

Panel Graphic Walker：像操作Tableau一样直观探索数据的图形界面工具

FlexRAG：为科研人员和开发者量身打造的高性能RAG框架

LLM-as-an-Interviewer：一个通过模拟面试过程来评估LLMs能力的框架

Mainframe-Orchestra：多智能体团队协作框架

OS-Genesis：自动化GUI Agent轨迹构建工具

MEDEC数据集：首个医疗错误检测与纠正的临床笔记数据集

青龙字幕工具：基于Lance数据库格式的视频自动字幕生成工具，使用Gemini API进行

机器学习系统学习资源库：为机器学习系统新手提供的入门阅读列表

独立开发者出海工具箱：一个集合了独立开发者出海所需技术栈和工具的平台

ai-hedge-fund，投资决策AI Agent，探索使用AI做出交易决策

2024生成模型综述

Text-to-CAD：写文本 Prompt 就能生成一个 CAD 模型

GitHubDaily 2024 年在微博所分享的开源项目，已分类整理到 GitHub 上

Cherry Studio 是一款支持多个大语言模型（LLM）服务商的桌面客户端

5个开源的LLM构建RAG的方案

Agentarium：一个强大的Python框架，用于轻松管理和协调AI Agent

Alibaba LangEngine：基于 Java 的 AI 应用开发框架

基于Docling和Llama 3.2实现本地部署的一个Excel表格的RAG

Hugging Face正式发布smolagents新型agent框架

Hugging Face 的智能体分级

NeurIPS 2024 LLM推理教程代码：大型语言模型推理Tutorial

Harbor：一站式管理本地AI环境

AI赋能技术栈全景指南

Trend Finder - 全天候社交趋势捕手

Simple CSC：一款基于大型语言模型的中文拼写纠错工具

Resume Matcher 是一个基于 AI 的免费开源工具，用于优化简历

Termite：AI驱动的终端界面生成器

一款将模特穿着服装的图像还原成平铺商品图的工具：TryOffAnyone

计算帝国：1500年以来技术与权力谱系

华佗GPT-o1：一款专为复杂医学推理设计的人工智能模型

分享一款 GitHub 上开源的 LLM 应用评估框架：opik

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉