| 技术优势与创新
超大规模混合专家模型:DeepSeek采用了极大规模的混合专家模型,通过细粒度的专家分工和协作,实现了高效的计算资源利用和模型性能提升。
多头潜在注意力机制:通过低秩联合压缩注意力键和值来减少推理期间的键值缓存需求,提高了模型的推理效率。
多令牌预测技术:每个token除了精确预测下一个token外,还会预测一个额外的token,通过投机采样的方式提高推理效率。
高效的训练策略:如FP8混合精度训练、双向管道调度等,显著降低了训练成本,提高了训练效率。
| 开放性与生态支持
完全开源:DeepSeek选择开源部分模型,允许研究者和开发者免费使用、微调和商用,这一举措迅速吸引全球开发者社区参与,极大激发了AI领域的创新活力。
完善的工具与文档支持:配套提供微调工具、部署方案和详细文档,降低技术落地门槛,加速模型在行业内的应用。
| 成本与效益优势
低成本训练:相较于其他大语言模型,DeepSeek的训练成本显著降低,为AI研发和应用降低门槛。
高性能表现:DeepSeek在知识类任务、多语言处理能力等方面表现出色,能够快速解决复杂数学问题及算法优化、数据分析等任务,同时支持多语言互译和多轮对话。
如需了解更多信息,可以访问其官方网站或查阅相关的技术文档。
GitHub地址 https://github.com/deepseek-ai
官方网站
https://www.deepseek.com/
在线网页版
https://chat.deepseek.com/sign_in
| 安装部署
本地安装DeepSeek可以通过ollama完成,然后再安装用户交互界面即可,整个安装过程相对简单。
安装ollama
GitHub地址
https://github.com/ollama/ollama
在ollama官网下载安装包
下载安装包
https://ollama.com/download
下载后以管理员身份运行,根据操作提示安装即可。
安装成功后,ollama官网点击“Models”,点击并选择“deepseek-r1”
根据不同模型版本选择相应安装指令
复制安装指令并在终端输入,以Windows为例,在CMD窗口输入指令并等待安装即可。
安装完成后,在终端可以直接使用DeepSeek,下次使用可以输入指令开启
开启DeepSeek
ollama run deepseek-r1:7b
安装用户交互界面
我们通过ollama安装了DeepSeek,下一步安装用户交互界面,目前用户交互界面很多,例如Chatbox或Page Assist等。
以Page Assist为例,在谷歌浏览器或GitHub下载安装即可。
GitHub地址
https://github.com/n4ze3m/page-assist
GitHub下载插件
https://github.com/n4ze3m/page-assist/releases
从GitHub下载谷歌浏览器插件,打开谷歌浏览器扩展程序,打开开发者模式,将已下载的浏览器插件拖拉到浏览器即可安装。
打开扩展程序
chrome://extensions/
打开扩展程序
点击设置,设置中文格式
打开RAG设置,设置模型
设置完成后,回到主页即可使用了
更多内容也可看笔者出版图书!