雷递网 乐天 1月26日
DeepSeek正成为AI领域崛起的“黑马”。DeepSeek的横空出世,打破了国内大模型原有格局。
就在本周,DeepSeek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1遵循 MIT License,允许用户通过蒸馏技术借助R1训练其他模型。
DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。
DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
DeepSeek-R1在开源DeepSeek-R1-Zero和DeepSeek-R1两个 660B模型的同时,通过 DeepSeek-R1 的输出,蒸馏6个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标OpenAI o1-mini 的效果。
DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16元。
DeepSeek震动美国科技界,不仅是因为其性能上比肩OpenAI的o1,并完全开源,且以极低的成本实现了这一突破。
知名投资人马克·安德森也表示:“DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。”
AI科技初创公司Scale AI创始人亚历山大·王(Alexandr Wang)称,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。DeepSeek的AI大模型性能大致与美国最好的模型相当。
Alexandr Wang认为,DeepSeek-R1与GPT-4o和Claude 3.5 Sonnet 相当,训练时计算量减少10倍。DeepSeek-V3展示给外界的教训是:在美国人休息时,中国人在工作,并以更便宜、更快、更强的产品迎头赶上。
“The bitter lesson of Chinese tech: they work while America rests, and catch up cheaper, faster & stronger。”
Alexandr Wang出生于1997年,他于19岁那年从美国麻省理工学院辍学创立公司,如今,Scale AI估值超百亿美元,获得包括Y Combinator、英伟达、AMD风投、亚马逊、Meta等投资,该公司为OpenAI、谷歌和 Meta等提供训练数据。
DeepSeek的动作让Meta的生成式AI团队陷入恐慌。Meta CEO扎克伯格宣布加速研发 Llama 4,计划投资650亿美元扩建数据中心,并部署130万枚 GPU 以“确保2025年 Meta AI 成为全球领先模型”。
当然,DeepSeek带来的最大震撼在于,如果中国公司能够以更低的成本实现同等或更好的性能,而且这些模型还大都开源,美国公司赖以维持的技术优势和高估值可能会受到挑战。
———————————————
雷递由媒体人雷建平创办,若转载请写明来源。