读者朋友们新年好!过年期间想稍微偷个懒,给大家找了一篇关于DeepSeek,外媒比较中立的文章。
本篇文章是转载自西班牙媒体《西班牙日报》的最新评论,其中敏感部分做了删减。
DeepSeek并不是人工智能行业的新手。自 2023 年 11 月以来,它一直在发布可与硅谷相媲美的高级语言模型。最新的 R-1 于 1 月 20 日发布,但直到其应用程序的下载量超过了 ChatGPT 才引发了海啸。正是这一事件夺去了 Nvidia 6000 亿美元的市值,同时也让 OpenAI 的商业模式以及唐纳德·特朗普宣布的大规模投资的必要性受到质疑。
然而,直到本周一,她在专业环境之外还基本上不为人知。其中存在影响和宣传的因素,因为在美国和欧洲,埃隆·马斯克和特朗普的技术法庭控制着人工智能的话语。但这也是中国自身情况的结果:DeepSeek 并不是中国人工智能领域的冠军。这是另一家公司,现在已经通过超高效的训练和部署算法方法取得了前沿进展。
“在中国,竞争非常激烈,许多公司都试图成为‘中国的 OpenAI’。这是中国的一个非常典型的特征:你向这个体系投入资金,你给公司提供一系列优势,然后让他们相互竞争,直到他们自相残杀。”让·莫内外交学教授克劳迪奥·费约解释说。马德里理工大学的技术和数字主权。
“奇怪的是,在中国国内,已经有很多声音说这项政策是致命的,因为资源正在分散,而不是集中在某种 OpenAI 式的冠军身上。他们认为,这种极端的竞争阻碍了他们在人工智能方面的发展,而人工智能的关键在于聚集力量,”他继续说道。
这位在这家亚洲巨头花了七年时间研究其技术创新过程的专家透露,多家公司争夺将人工智能强加于中国的竞争被称为“百模型之战”。百家时期的文字游戏,即中国哲学的黄金时代(公元前475-221年),当时儒家、道家和法家等不同思潮竞相影响统治者和社会,类似于今天的科技公司正在争夺人工智能市场的主导地位。
最后,这种竞争和美国芯片禁运使 DeepSeek 的必要性成为一种优势,它找到了一种消耗大量资源的方法,因为它知道如何更好地节省可用资源。他们称之为“专家模型”。
让最了解的人说话
与 ChatGPT 或 Gemini(谷歌的人工智能)等“万事通”系统不同,DeepSeek 使用专门的专家方法来搜索所有知识来回答用户的查询。它不是一个无所不知的人工智能,而是许多不同领域的“专家”聚集在一处。您的系统不会调动所有这些任务来解决任务,而只会调动它检测到的那些任务。
该技术允许您通过在各种专用模块之间分段语言处理来优化计算资源。这些专家各自专注于语法、语义或上下文分析等特定方面,以协调的方式工作,以更有效地处理信息。同样的系统使得它可以需要更小的数据集来进行训练,从而使过程更便宜。
该系统受到人类认知过程的启发,复制了专家团队的工作动态。这种模块化架构不仅提高了效率,而且具有出色的适应性:可以根据每个任务的具体要求激活或停用专家,从而便于针对不同应用领域定制模型。它还使其“推理”过程更加透明和人性化,这就是为什么许多用户表示与它的沟通比与竞争对手的沟通更自然。
多种方法
DeepSeek 为其人工智能提出的专家委员会在“百个模型之战”中获得了关注。本周二,阿里巴巴(与亚马逊一样,在中国及其影响力领域也拥有非常重要的云计算业务)推出了新版本的人工智能 Qwen,它也采用了同样的方法。它声称在某些任务中优于 DeepSeek。
然而,专家委员会并不是唯一有争议的模式。还有 ModelBest,它正在开发能够直接在用户设备上运行的系统。 “这种方法确实具有颠覆性,因为你可以将模型及其答案放在手机上。您的信息不会传输到云端,但系统能够将其推理与来自您环境的数据混合起来,成为真正的副驾驶,”Feijóo 解释道。
为了使这些模型之一在通用设备上工作,与 ChatGPT 等人工智能相比,需要大幅减少参数数量。这些参数是 AI 模型的内部组件,决定其学习和操作的能力,减少它们的数量可以让模型在资源较少的设备上更高效地运行。如果成功,ModelBest 可能会产生类似于 DeepSeek 所引起的变革。
这是因为硅谷还专注于个性化人工智能“代理”的开发,即较小的模型,但超级专注于部署它们的用户或组织的特征。例如,它们是谷歌和微软在当前研究中的伟大愿望,尽管就他们而言,系统必须连接到互联网并在其巨大的数据中心处理信息。
大家请放心关注,不用有额外担心,在那里的发言尺度和在这里差不多,只不过敢说的话题稍微多一些,不再怕被删了(比如关于经济的一些真实问题分析)。