🏆 基座模型
①项目:LongCite
★LongCite 是一个旨在使大型语言模型(LLMs)能够在长上下文问答中生成细粒度引用的项目。该项目开源了两个模型:LongCite-glm4-9b 和 LongCite-llama3.1-8b,分别基于 GLM-4-9B 和 Meta-Llama-3.1-8B 训练,支持长达 128K 的上下文。用户可以通过这些模型生成准确的响应和精确的句子级引用,方便验证输出信息。
☆一键收藏:
https://sota.jiqizhixin.com/project/longcite
②项目:MiniMind
★MiniMind是一个开源项目,旨在从零开始快速训练一个仅有26M的小参数GPT模型。该项目改进自DeepSeek-V2和Llama3结构,包含数据处理、预训练、指令微调、偏好优化等全部阶段。MiniMind极其轻量,适用于普通个人GPU进行快速推理和训练,目标是降低上手大语言模型(LLM)的门槛。
☆一键收藏:
https://sota.jiqizhixin.com/project/minimind
🛠️框架平台、必备工具
①项目:SWIFT
★SWIFT支持300多个LLM和50多个MLLM的训练(预训练/微调/RLHF)、推理、评估和部署。开发者可以直接将此框架应用于自己的研究和生产环境,实现从模型训练和评估到应用的完整工作流程。除了支持PEFT提供的轻量级训练解决方案外,还提供了一个完整的Adapters库,以支持最新的训练技术,如NEFTune、LoRA+、LLaMA-PRO等。为了方便不熟悉深度学习的用户使用,提供了一个Gradio web-ui来控制训练和推理,并附有深度学习课程和最佳实践。
☆一键收藏:
https://sota.jiqizhixin.com/project/swift
②项目:iText2KG
★iText2KG 是一个 Python 包,旨在通过利用大语言模型从文本文档中提取实体和关系,逐步构建一致的知识图谱。它具有零样本能力,可以在没有特定训练的情况下跨多个领域进行知识提取。该包包括文档蒸馏、实体抽取和关系抽取模块,确保解析和唯一的实体和关系。它不断更新知识图谱,并将新文档集成到 Neo4j 中进行可视化表示。
☆一键收藏:
https://sota.jiqizhixin.com/project/itext2kg
③项目名称:Langflow
★Langflow 是一个低代码应用构建器,专为RAG和多代理AI应用设计。它基于Python开发,对任何模型、API或数据库都具有高度的兼容性。用户可以通过拖放的方式在可视化IDE中构建和测试工作流,并立即在Playground中进行迭代。Langflow还提供了多代理编排、对话管理和检索功能,支持将工作流发布为API或导出为Python应用程序。
☆一键收藏:
https://sota.jiqizhixin.com/project/langflow
④项目名称:MemoRAG
★MemoRAG 是一个创新的 RAG 框架,基于高效的超长记忆模型构建。与主要处理显式信息需求的标准 RAG 不同,MemoRAG 利用其记忆模型实现对整个数据库的全局理解。通过从记忆中回忆查询特定的线索,MemoRAG 增强了证据检索,从而生成更准确和上下文丰富的响应。
☆一键收藏:
https://sota.jiqizhixin.com/project/memorag
🤖 Agent开发
①项目名称:Agent4SE-Paper-List
★本项目系统性地总结了基于大语言模型(LLM)的代理在软件工程(SE)中的应用和进展。通过增强LLM的外部资源和工具感知与利用能力,LLM代理显著扩展了LLM的多功能性和专业性。项目收集了106篇相关论文,并从软件工程任务和代理架构两个角度进行分类和讨论,提出了该领域的开放挑战和未来方向。
☆一键收藏:
https://sota.jiqizhixin.com/project/agent4se-paper-list
👋网页端访问:https://sota.jiqizhixin.com