DeepSeek大模型新王|DeepSeek R1/R1-Zero开源来袭~

文摘 2025-01-22 10:25 北京

DeepSeek-V3，这是一个强大的专家混合（MoE）语言模型，总共有 671B 个参数，每个令牌激活了 37B。

论文链接：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

为了实现高效的推理和具有成本效益的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。

此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练，然后是监督微调和强化学习阶段，以充分利用其功能。

综合评估表明，DeepSeek-V3 的性能优于其他开源模型，并实现了与领先的闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。此外，它的训练过程非常稳定。在整个训练过程中，我们没有遇到任何无法恢复的损失峰值或执行任何回滚。

延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。

怎么说呢，QLoRA一作的一个词评价就是：优雅。

具体来说，DeepSeek V3是一个参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。

在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕

其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%。

在创建 API key 之后，你可以使用以下样例脚本的来访问 DeepSeek API。样例为非流式输出，您可以将 stream 设置为 true 来使用流式输出。

# Please install OpenAI SDK first: `pip3 install openai`
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
response = client.chat.completions.create(    model="deepseek-chat",    messages=[        {"role": "system", "content": "You are a helpful assistant"},        {"role": "user", "content": "Hello"},    ],    stream=False)
print(response.choices[0].message.content)

距离DeepSeek-V3开源不到一个月，DeepSeek刚刚又开源了全新推理模型DeepSeek R1、DeepSeek R1-Zero，全面提升推理能力，效果媲美o1。

DeepSeek-R1正式发布：API上线、技术报告公开、一口气开源了8个模型，DeepSeek-R1-Distill不要671B，最低只有1.5B（7B, 8B, 14B, 32B, 和70），完全可以run起来~

DeepSeek-R1-Distill 模型的使用方式与 Qwen 或 Llama 模型相同。

例如，您可以使用 vLLM 轻松启动服务：

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

AI技术研习社

专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践！

最新文章

用微调、量化与推断，玩转 Qwen2-VL多模态大模型自定义OCR数据！

AirLLM：低内存硬件的颠覆性分层推理技术，引领AI性能新高度

DeepSeek大模型新王|DeepSeek R1/R1-Zero开源来袭~

一文详解！大模型性能测试全指标、计算方法及优化指南

MiniRAG来了！检索增强生成从未如此简单！

LLaMA2秒变SQL小能手！开源本地LLM玩转数据隐私神器！

多模态RAG破局：ImageSearch引领图像搜索新革命

RAG+LlamaParse：引领PDF解析与检索新时代！

缓存增强生成 (CAG) 开启RAG知识任务新范式

ImageBind：统一多模态的嵌入空间，打造全能 AI！

硬核攻略！图像+文本多模态 RAG 全能指南

GraphRAG × AutoGen × Ollama × Chainlit = 本地免费多代理 RAG 超级 AI 助手

用Python实现RLHF奖励模型构建，全方位提升模型表现！

如何提升预训练LLMs：从零打造到微调优化的全攻略

LlamaFactory：解锁LLM微调效率的终极神器！

RAG评估框架：RAG Triad框架及其实战

AI Agents：揭秘数字化工人构建术，颠覆未来职场格局！

揭秘监督微调（SFT）：语言模型性能跃升的秘密武器！

LLMs开发者必看！Pydantic AI代理框架震撼登场！

Long Term Memory：揭开人工智能自我进化的核心秘密！

手把手教你打造通用型LLM智能体，一文读懂核心原理！

3 大智能体开发平台详细对比：FastGPT、Dify和Coze

RAG内容生成革新：STORM与Co-STORM引领智能检索与人类协作

2025年Agents预测：知识研究领域Agent将迎来革命性突破！（附Top 3免费工具推荐）

RAG as a Service：开发者必备的新晋神器！

VLM论文深度解析：揭秘多模态大模型如何联动权重、任务与视觉嵌入

RAGAs评估工具：用指标与LLM优化你的RAG管道性能

视觉语言模型（VLMs）：复合人工智能系统的未来

《LLM 推理必知参数，全网最全解析！》

架构师必修之项目篇：基于ASR+GPT4.0+TTS实现全双工智能语音助手

Mobile-Agent重磅来袭：视觉感知+多模态智能助理，玩手机更高效！

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

构建Agent应用：Development Roadmap

检索增强生成（RAG）：解密AI如何融合记忆与搜索

揭秘汽车语音助手：从语音识别到智能回复的全流程解析！

RAG 和 RAU：自然语言处理中检索增强语言模型的调查

RAG 驱动的 NER：构建自定义模型的入门指南

基于BERT的对话意图和槽位联合识别模块

GLM-4-Plus上线：杀进“世界前三”，它真的好用吗？

揭秘RAG背后的人机对话流程：从语音识别到智能生成

揭秘RAG：全方位解析RAG检索中的意图识别，如何助力智能问答

Agent智能大揭秘：企业如何利用AI代理驱动高效增长！

LLMs+SQL：用自然语言轻松搞定数据查询，彻底解锁数据库潜能！

秒懂LLM流式输出的SSE原理！一文带你搞定SSE实现和Python实战案例

RAG实战：打造可扩展的智能文档系统：终极 RAG 管道全解析

RAG工具：FlashRAG用于高效 RAG 研究的 Python 工具包

重磅上线！ChatGPT引入Search功能，秒查秒懂新体验！

RAG评估：RAGChecker重磅发布！精准诊断RAG系统的全新细粒度框架！

RAGFlow重磅开源！基于深度文档理解的智能检索神器！

从零开始，用万行代码打造专属向量数据库！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉