突然爆火!AI界的“拼多多”DeepSeek登顶,法媒如何看待(la start-up chinoise )

教育   2025-01-27 15:29   美国  
DeepSeek, cette start-up chinoise qui fait mieux qu'OpenAI pour 96% moins cher

DeepSeek,一家比 OpenAI 做得更好的中国初创公司,但价格降低了 96%

(建议阅读时间:3分钟;文本难度:C1)

(中文部分仅为该新闻事件背景信息补充,非法语原文一一对照翻译)

背景导读:

Qui a dit qu'il fallait dépenser des milliards pour faire de l'IA générative ? Le modèle DeepSeek-R1 atteint des performances comparables à celles du modèle o1 d'OpenAI pour les tâches de mathématiques, de code et de raisonnement. Pour soutenir la communauté, la start-up a mis en libre accès DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1, basés sur Llama et Qwen.

谁说你必须花费数十亿美元来制造生成式 AI?DeepSeek-R1 模型在数学、代码和推理任务方面的性能可与 OpenAI 的 o1 模型相媲美。为了支持社区,这家初创公司免费提供了 DeepSeek-R1-Zero、DeepSeek-R1 和从 DeepSeek-R1 提炼出来的六个基于 Llama 和 Qwen 的密集模型。



外刊原文:


"Nous vivons dans une époque où une entreprise non américaine porte le flambeau de la mission originale d'OpenAI - une recherche véritablement ouverte qui donne du pouvoir à tous", s'exclame Jim Fan, senior research manager and lead of embodied AI au sein de Nvidia sur LinkedIn. Ce dernier fait référence à DeepSeek, une start-up chinoise qui a dévoilé cette semaine ses modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1.
“我们生活在一个由一家非美国公司传递 OpenAI 最初使命的时代——这是真正的开放式研究,赋予每个人权力,”Nvidia 高级研究经理兼 LinkedIn AI 负责人 Jim Fan 惊叹道。他指的是中国初创公司 DeepSeek,该公司本周推出了其第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。

Leur point fort ? Des performances équivalentes à o1-1217 d'OpenAI, mais pour beaucoup moins cher... et en open source(开源) aussi bien pour les chercheurs que les entreprises. "Afin de soutenir la communauté de recherche, nous mettons en open source DeepSeek-R1-Zero, DeepSeek-R1, et six modèles denses (1,5B, 7B, 8B, 14B, 32B, 70B) distillés à partir de DeepSeek-R1 basé sur Qwen et Llama", précise la start-up. Publié sous licence MIT, DeepSeek-R1 est donc libre de modification, d'ajustement et de commercialisation, contrairement à OpenAI et à son écosystème fermé(封闭式生态系统).
DeepSeek的强项是什么?DeepSeek的性能与 OpenAI 的 o1-1217 相当,但成本要低得多......以及面向研究人员和公司的开源。这家初创公司说, “为了支持研究社区,我们正在制作 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 开源的 DeepSeek-R1 衍生出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。”DeepSeek-R1 在 MIT 许可下发布,因此可以自由修改、调整和商业化,这与 OpenAI 及其封闭生态系统不同。

Le coup de grâce ? DeepSeek n'est qu'une filiale de High-Flyer Capital Management, une société de gestion quantitative de fonds lancée initialement en 2015. Développer des modèles d'IA générative n'est donc pas à proprement parler son activité principale, mais un projet à côté porté par des salariés pour mettre à profit ses GPU lorsqu'ils ne sont pas utilisés.
这是上帝的恩典?DeepSeek 其实只是 High-Flyer Capital Management 的子公司,High-Flyer Capital Management 是一家最初于 2015 年成立的量化基金管理公司。因此,严格来说,开发生成式 AI 模型并不是它的主要活动,而是员工为在不使用 GPU 时利用其 GPU 而进行的副项目。

Cette petite structure a donc développé ses modèles aux performances équivalentes à ceux d'OpenAI en ne disposant que de ressources très limitées(有限资源), sans avoir eu à investir des centaines de milliards de dollars... ni même des centaines de millions. Le coût d'entraînement pour la famille R1 a été de moins de 6 millions de dollars, d'après ses responsables.
因此,这家小公司开发了性能与 OpenAI 相当的模型,同时资源非常有限,无需投资数千亿美元......甚至数亿。据其官员称,R1 家族的培训费用不到 600 万美元。



Un modèle qui intègre un entraînement en plusieurs étapes
包含多步骤训练的模型
L'entreprise indique qu'elle s'est basée sur DeepSeek-R1-Zero, un modèle entraîné avec de l'apprentissage par renforcement (RL) à grande échelle sans ajustement fin supervisé (SFT) en tant qu'étape préliminaire. Grâce au RL, il "démontre des capacités de raisonnement remarquables". Cependant, il rencontre des défis tels qu'une mauvaise lisibilité et des mélanges linguistiques. "Pour résoudre ces problèmes et améliorer encore les performances de raisonnement, nous introduisons DeepSeek-R1, qui intègre un entraînement en plusieurs étapes et des données de démarrage à froid avant le RL", indique la start-up.
该公司表示,它依赖于 DeepSeek-R1-Zero,这是一个经过训练的模型,具有大规模强化学习 (RL) 作为初步步骤,没有监督微调 (SFT)。多亏了 RL,deepseek“展示了非凡的推理能力”。但是,它遇到了可读性差和语言混合等挑战。“为了解决这些问题并进一步提高推理性能,我们推出了 DeepSeek-R1,它在 RL 之前集成了多步骤训练和冷启动数据,”这家初创公司说。

Purement piloté par le RL, sans SFT, "cela rappelle AlphaZero - master Go, Shogi et les échecs à partir de zéro, sans imiter d'abord les coups des grands maîtres humains", commente Jim Fan. Il est intéressant de noter que le temps de réflexion du modèle augmente régulièrement au fur et à mesure de l'entraînement, ce qui n'est pas préprogrammé(预编程序的) et est une propriété émergente.
纯粹的 RL 驱动,没有 SFT,Jim Fan 评论道,“它让人想起 AlphaZero - 从头开始掌握围棋、将棋和国际象棋,而无需首先模仿人类特级大师的动作。”有趣的是,随着训练的进行,模型的反射时间会稳步增加,这不是预先编程的,而是一个新兴属性。

"Notre objectif est d'explorer le potentiel des LLM pour développer des capacités de raisonnement sans aucune donnée supervisée, en nous concentrant sur leur auto-évolution à travers un processus purement RL", a déclaré l'équipe de DeepSeek. Notons que si le modèle DeepSeek R1 dispose d'une architecture de 671 milliards de paramètres et a été entraîné sur la base du modèle MoE DeepSeek V3, seuls 37 milliards de paramètres sont activés pendant la plupart des opérations, à l'instar du modèle V3.
“我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯粹的 RL 过程进行自我进化,”DeepSeek 团队说。请注意,虽然 DeepSeek R1 模型的架构具有 6710 亿个参数,并且是在 DeepSeek V3 MoE 模型的基础上进行训练的,但在大多数操作中只有 370 亿个参数被激活,就像 V3 模型一样。

Des performances qui égalent celles du modèle o1 d'OpenAI Pour 96% moins cher
与 OpenAI 的 o1 模型相匹配的性能减少 96%
Côté performances, DeepSeek-R1 obtient des résultats comparables voire supérieurs à la version o1-1217 et à o1-mini dans la plupart des benchmarks. Les versions distillées semblent également capables de se mesurer aux modèles d'OpenAI : par exemple, DeepSeek-R1-Distill-Qwen-32B surpasse o1-mini sur différents benchmarks, ce qui en fait une nouvelle référence en matière de modèles dits "denses". Le tout à un prix largement inférieur pour les développeurs qui souhaiteraient l'utiliser.
在性能方面,DeepSeek-R1 在大多数基准测试中取得了与 o1-1217 版本和 o1-mini 相当甚至更好的结果。提炼版本似乎也能够与 OpenAI 的模型竞争:例如,DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中都优于 o1-mini,使其成为所谓“密集”模型的新基准测试。对于想要使用它的开发人员来说,所有这些功能都能以更低的价格购入。

Quand un million de jetons coûte 0,55 dollars en entrée et 2,19 dollars en sortie pour l'API du modèle de DeepSeek, le prix est de 15 dollars en entrée et de 60 dollars en sortie pour l'API d'o-1. Plus concrètement, cela signifie que les prix d'entrée et de sortie de l'API o-1 sont respectivement 27,27 fois et 27,40 fois plus élevés que ceux de DeepSeek, ou pour le formuler autrement, le tarif de o-1 est environ 2627% et 2639% plus élevé que celui de DeepSeek. Si l'on fait une comparaison globale de l'ensemble des coûts pour 1 million de jetons, le chiffre est encore plus impressionnant : l'API de DeepSeek est 96,4% moins chère que l'API d'OpenAI.

现在 DeepSeek 模型 API 的输入成本为 0.55 美元,输出成本为 2.19 美元,而OpenAI 的 o1 模型输入价格为 15 美元,输出价格为 60 美元。更具体地说,这意味着 API o-1 的输入/输出价格分别比 DeepSeek 高出 27.27 倍和 27.40 倍,或者换句话说,o-1 的价格比 DeepSeek 高出约 2627% 和 2639%。如果我们用总成本进行整体比较,这个数字更加令人印象深刻:DeepSeek 的 API 比 OpenAI 的 API 便宜 96.4%。



Source:https://www.usine-digitale.fr/article/deepseek-cette-start-up-chinoise-qui-fait-mieux-qu-openai-pour-96-moins-cher.N2226172

🥕最后,我们的知识分享群又开放啦!我们会在群里发布一些法语资料,大家遇到问题时也可以在群里提出自己的疑惑,我们和群里的小伙伴们都会共同来解答~感兴趣的小伙伴可以私戳管理员Bonbon(微信号见下方👇)哦,期待与你共同进步。



法语悦读工作组
图片来源:网络,出处已注明,侵权删
文字:皮皮
审阅:Elodie


我们是谁?


法语丛旗下——“法语悦读”

(公众号: Bonne_Lecture)

戳管理员Bonbon微信号了解更多法语悦读产品细节👇


精选外刊文章 I 题材丰富 I 讲解细致

外教原声朗读 I 活动打卡 I 学习社群


✨不会选外刊?——我们已经为你精心挑选接地气的新闻主题,筛选有用信息,摇身一变成为篇幅合适的原文材料。

听力无对照?——原文配备法国外教标准口音朗读,耳朵先行,阅读听力两不误!

✨计划难坚持?——周一到周六每日学习推送,周日1小时答疑,充实每一天!

✨学习没伙伴——学员群共同讨论结交学习伙伴;针对口语,音频个性化调速,多种平台同步更新,随时跟读练习语音语调;与外研社合办法语朗读大赛为你提供展示平台。


—— 现在想报名 30天外刊精读计划

        怎么操作?

扫一扫学习平台,

付款完成会自动跳出管理员微信,

添加微信即可加入学员群!


当天报名,当天/次日即开课。

学习总时长:开课日(含)起+30天。

- Bonne Lecture-

所有学完的课程长期有效!

可以反复回听!

更多精彩文章

悦读干货

新闻热点

法语悦读课程

不知道最近有没有小伙伴发现,因为微信公众号更改推送机制,推文不再按照时间线显示,点个“在看”或者设为“星标”吧,不然可能会走丢哦:)




我知道我知道我知道你在看↓↓↓



点击原文阅读查看法语悦读平台

法语丛
法语丛是法语学习者的学习、交流、分享的平台,集结国内外各种新鲜有趣的学习资讯、汇聚众多法语高手的学习经验,深入了解法国的文艺与浪漫,带你走进这个位于欧洲大陆的唯美国度。法语美如花,与法语丛一起,感受花(法)语的魅力。
 最新文章