AI界的拼多多又来整活啦!
作者丨不寒
编辑丨刘欢
幻方量化旗下AI初创公司DeepSeek宣布其推理模型R1-Lite预览版正式上线!AI领域再次掀起了波澜!
DeepSeek的产品线以开源为主,包括多个百亿级参数的模型,如DeepSeek-LLM、DeepSeek-Coder,以及混合专家模型(MoE)DeepSeek-V2和V2.5。
DeepSeek-R1-Lite模型的推出,标志着公司在推理模型领域的重要进展。
DeepSeek R1系列模型采用先进的强化学习技术进行训练,其推理过程深入细致,并包含大量的反思与验证环节。
模型在思维链的长度上能够达到数万字的级别,并在数学、代码以及各类复杂逻辑推理任务上展现出卓越的性能。
正式版的DeepSeek-R1模型将完全开源
图:DeepSeek-R1-Lite预览版的推理扩展法则,推理越深入,性能越好。
AI界拼多多-DeepSeek是谁?
DeepSeek(深度求索)是由幻方量化创始人梁文锋创立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。
公司成立于2023年,源于梁文锋在量化投资领域的成功和对AI的热衷,幻方量化是国内量化私募领域的巨头之一,管理规模曾一度飙升至千亿,为DeepSeek提供了强大的资金和硬件支持。
DeepSeek的核心技术包括其创新的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse结构。这些技术使得推理成本大幅降低。
例如,DeepSeek V2模型的推理成本仅为每百万token 1块钱,远低于市场上的其他同类产品。这种架构创新不仅降低了显存占用,还减少了计算量,从而实现了成本的大幅下降。
DeepSeek的主要产品包括多个百亿级参数的模型,如DeepSeek-LLM、DeepSeek-Coder、DeepSeek-V2和V2.5等。这些模型在数学、代码和复杂逻辑推理任务上表现出色。
DeepSeek还提供了API服务,支持128K上下文长度,并且与OpenAI API兼容容。DeepSeek的API定价为每百万输入token 0.14美元,每百万输出token 0.28美元。
这一价格显著低于当前市场上的其他同类产品,仅为GPT-4-Turbo价格的近百分之一。
由此,引发了中国大模型价格战,迫使包括字节、腾讯、百度、阿里等大厂纷纷降价。
deepseek也一举成名。
也是为什么DeepSeek被称为AI界的拼多多。
拜“金”大模型,蛋糕难啃? 新能源大模型:2024遍地开花
重磅!首个计算机使用功能大模型横空出世!升级版Claude3.5 Sonnet与Claude 3.5 Haiku发布!
OpenAI最新发布类人高级语音模式AVM,国产大模型厂商走到岔路口