今日开源(2024-09-06):面壁智能MiniCPM3-4B,性能超过GPT-3.5-Turbo,理论上可处理无限上下文

文摘   2024-09-06 17:41   美国  


🏆 基座模型

①项目:MiniCPM3-4B

★MiniCPM3-4B 是 MiniCPM 系列的第三代模型。其整体性能超过了 Phi-3.5-mini-Instruct 和 GPT-3.5-Turbo-0125,并且与许多最近的 7B~9B 模型相当。相比于 MiniCPM1.0 和 MiniCPM2.0,MiniCPM3-4B 拥有更强大和多功能的技能集,支持函数调用和代码解释器。MiniCPM3-4B 具有 32k 的上下文窗口,并配备了 LLMxMapReduce,可以在理论上处理无限的上下文,而无需大量内存。

☆一键收藏:

https://sota.jiqizhixin.com/project/minicpm3-4b


②项目:SoulChat2.0

★SoulChat2.0是华南理工大学未来技术学院-广东省数字孪生人实验室推出的心理咨询师数字孪生大模型。该项目旨在通过少量的心理咨询案例,生成大量高质量的心理咨询对话数据,模拟特定心理咨询师的语言风格和咨询技术。SoulChat2.0在多个专业维度上对生成的数据进行了评估,并通过微调大模型实现了对心理咨询师的数字孪生建模,显著提升了大模型在心理咨询领域的表现。

☆一键收藏:

https://sota.jiqizhixin.com/project/soulchat2-0


③项目:FluxMusic

★FluxMusic 是一个基于 Rectified Flow Transformer 的文本生成音乐项目。该项目探索了扩展基于扩散的 Rectified Flow Transformer 用于文本到音乐生成的可能性。项目提供了 PyTorch 模型定义、预训练权重以及训练和采样代码。

☆一键收藏:

https://sota.jiqizhixin.com/project/fluxmusic


④项目:Reflection 70B

★Reflection Llama-3.1 70B 是一款在Llama 3.1 70B Instruct基础上进行微调的模型,采用了一种名为反思调优的新技术,能够检测并纠正其推理中的错误。该模型在由 Glaive 生成的合成数据上进行训练,适用于需要复杂推理和反思能力的任务。

☆一键收藏:

https://sota.jiqizhixin.com/project/reflection-70b


⑤项目:LongLLaVA

★LongLLaVA 是一个多模态大语言模型项目,旨在扩展多模态大型语言模型(MLLM)的长上下文能力。LongLLaVA 模型架构调整为 Mamba 和 Transformer 块的混合,使用多幅图像之间的时间和空间依赖性来构建数据,并采用渐进式训练策略。它在效率和有效性之间取得了更好的平衡。LongLLaVA不仅在各种基准测试中取得了有竞争力的结果,还保持了高吞吐量和低内存消耗。特别是在单个A100 80GB GPU上可以处理近千张图片,在广泛的任务中展现出良好的应用前景。

☆一键收藏:

https://sota.jiqizhixin.com/project/longllava


🛠️必备工具

①项目:HF-LLM.rs

★HF-LLM.rs 是一个命令行工具,用于访问托管在 Hugging Face 上的大型语言模型(LLMs),如 Llama 3.1、Mistral、Gemma 2、Cohere 等。用户可以在终端环境中与各种模型进行交互,提供输入并接收响应。

☆一键收藏:

https://sota.jiqizhixin.com/project/hf-llm-rs


👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章