今日开源(2024-09-13):元象科技发布XVERSE-MoE-A36B,中国最大开源MoE模型,助力AI应用低成本部署

文摘   2024-09-13 18:05   云南  


🏆 基座模型

①项目:XVERSE-MoE-A36B

★XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型,采用混合专家模型(MoE)架构模型总参数规模为 2554 亿,实际激活的参数量为 360 亿。采用了 4D 拓扑架构,平衡了通信、显存和计算资源的分配。该模型通过海量高质量、多样化的数据进行训练,支持 40 多种语言,特别在中英两种语言上表现优异

☆一键收藏:

https://sota.jiqizhixin.com/project/xverse-moe


②项目:OpenAI-o1

★OpenAI的o1系列模型是新一代大型语言模型,经过强化学习训练,旨在执行复杂推理。o1模型在回答之前会进行思考,并能够在回应用户之前生成较长的内部思维链o1模型在科学推理方面表现出色,在竞争性编程问题(Codeforces)中排名第89百分位,在美国数学奥林匹克(AIME)预选赛中跻身前500名学生之列,并在物理、生物和化学问题的基准测试(GPQA)中超越了人类博士生的准确性

☆一键收藏:

https://sota.jiqizhixin.com/project/openai-o1


🤖 Agent开发

①项目:Agent Workflow Memory

Agent Workflow Memory (AWM) 提出了一种将工作流引入、整合并利用到代理记忆中的方法。工作流通常是解决任务的常见子程序,具体上下文被抽象出来。AWM 可以在离线和在线两种设置下操作:离线模式下,代理从标注的真实例子中引导工作流;在线模式下,代理从过去的经验中即时引导工作流。

☆一键收藏:

https://sota.jiqizhixin.com/project/agent-workflow-memory


🛠️框架平台、必备工具

①项目:Ell

Ell是一个轻量级的函数式prompt工程框架,旨在将prompt视为程序而非字符串。它提供了丰富的工具用于prompt的版本控制、监控和可视化,并支持多模态数据类型(如文本、图像、音频和视频)的处理和生成。

☆一键收藏:

https://sota.jiqizhixin.com/project/ell


②项目:DataGemma

★谷歌最新推出的DataGemma 是一系列经过微调的 Gemma 2 模型,旨在帮助大型语言模型(LLMs)访问和整合来自 Data Commons 的可靠公共统计数据。DataGemma RAG 使用检索增强生成技术DataGemma RIG 采用检索交织生成技术进行训练,训练模型生成自然语言查询,以便 Data Commons 的现有自然语言接口能够理解并回答用户查询。

☆一键收藏:

https://sota.jiqizhixin.com/project/datagemma


③项目:Chronos-Divergence

★Chronos-Divergence-33B 是基于原始 Chronos-33B 的独特模型,专注于角色扮演和故事写作的提示遵循该模型在 16,834 个 token 上训练,可以在不使用 RoPE 或其他模型扩展技术的情况下,处理大约 12,000 个 token 而不出现退化。其独特之处在于几乎没有“GPT-isms”或重复短语,并避免了“紫色散文”。未来计划实施 GQA(分组查询注意力)以减少内存负担。

☆一键收藏:

https://sota.jiqizhixin.com/project/chronos-divergence

④项目:PresentationGen

PresentationGen是一个通过大语言模型生成PPT文件的SpringBoot Web应用。用户可以通过该应用快速生成PPT文件,支持自定义模板和内容替换,适用于各种场景的PPT制作需求。

☆一键收藏:

https://sota.jiqizhixin.com/project/presentationgen

👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章