突然火爆全网!中国AI王炸DeepSeek震动美国科技圈!

文化   动漫   2025-01-27 14:08   福建  

wuhu快报

文 | 阿呜


近日,国产 AI 新星 DeepSeek 在中美科技圈掀起热议,被广泛认为是 2024 年大模型行业的最大“黑马”。其强大的技术实力和亮眼的市场表现,甚至让不少海外网友惊呼:这是来自东方的神秘力量!


1 月 27 日,DeepSeek 迎来高光时刻:其应用强势登顶苹果美国地区应用商店免费 APP 下载排行榜,成功超越 ChatGPT,问鼎榜首! 


苹果美国区应用商店


苹果APP Store中国区免费榜


与此同时,DeepSeek 在中国区应用商店也表现不俗,同样摘得免费榜桂冠。双榜第一的成绩,不仅彰显了 DeepSeek 强大的产品实力,更标志着中国 AI 技术在全球舞台的崛起。



1月27日
相关微博热搜刷屏


游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥评价DeepSeek:可能是个国运级别的科技成果



DeepSeek 的横空出世,打破了人们对国产 AI 的固有认知。 其背后究竟蕴藏着怎样的技术实力?又为何能在竞争激烈的 AI 赛道中脱颖而出?



DeepSeek到底是啥?


DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。

去年12月DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang就发帖称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”

不到一个月之后,今年1月20日,DeepSeek正式开源R1推理模型。



据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版


这一模型发布后,引发了海外AI圈众多科技大佬的讨论。例如,英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”



DeepSeek幕后操盘手是谁?

团队不到140人,都来自国内顶尖高校

1月20日,梁文锋参加总理座谈会
图源:央视新闻

梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科和硕士学位。2008年起,他开始带领团队使用机器学习等技术探索全自动量化交易。

2023年7月,DeepSeek正式成立,进军通用人工智能领域,至今从未对外融资。

此前,OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇用了“一批高深莫测的奇才”,对此,梁文峰在接受自媒体采访时曾透露过,并没有什么高深莫测的奇才,都是来自Top高校的毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人

从目前已有的媒体公开报道中可以看出,DeepSeek团队最大的特点是名校、年轻,即使是团队Leader级别,年纪也多在35岁以下。不到140人的团队,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,工作时间都不长。

对于DeepSeek模型在美引发的广泛讨论,背后的操盘手梁文锋却很淡然。


他在接受媒体采访时表示,“在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。”


1985年,出生于广东湛江的梁文锋为人低调,但在技术创新上却是信心十足。


在浙江大学先后拿到电子信息工程学士学位和信息与通信工程硕士学位后,2015年,梁文锋和两位浙大校友共同创立了幻方量化。



梁文锋在浙大就读期间的科研成果
图源:浙江大学官网

之后,仅用了六年,幻方便抵达千亿规模,并被业界称为“量化四大天王”之一。


彼时,幻方就自带一股离经叛道的气质。和其他同类公司创始人大多拥有海外对冲基金履历不同,幻方完全本土起家,独自摸索,而且在很多做法上也没有“按照约定俗成的道路”走,大大方方按照自己想要的方式来。


梁文锋坚持对人工智能的研发投入,就是很好的例证。他从在浙大读书时就坚信,人工智能可以改变世界。在专注做量化的数年间,他也没有停下对AI领域的关注和探索。


2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。


幻方量化官网截图


据梁文锋自己说,这是一个“好奇心驱动”而非商业逻辑下的动作,所以在当时很多人都不理解。不过,如今再看,恰恰是这份对技术的好奇、对创新的向往,让他比很多大厂都更早拿到了做Open AI的算力入场券。


这当然不仅仅是运气,更源于他敢于执行不被普遍理解的事业的勇气。


很少公开谈自己的梁文锋,提过一则年少时的往事:



父亲是一名小学老师,经常有家长找到家里来,谈的“基本就是家长觉得读书没用”。九十年代,广东赚钱机会很多,读书反而显得又些“不务实”。


但今天再看,一个时代过去了,那个时代的观念也过去了。



或许是对这件事的反思,也或许是对自身技术能力的自信,梁文锋在采访中透露出一种坚定从容的气质,即使是没有人做过的事、不被理解和支持的事,他也能不被周围裹挟、坚持做自己认为对的事。


这一次,入局人工智能领域,选择做AGI(Artificial general intelligence,通用人工智能)的基础模型,而不是做产品,亦是如此。


在梁文锋看来,以中国今天的经济体量,中国企业完全有资本去创新,真正缺乏的,其实是信心,以及不知道怎么组织高密度的人才,实现有效的创新。



DeepSeek为何突然爆火?



DeepSeek 创始人梁文锋之前接受的采访被翻译成了英文版,正在 AI 社区引发热议


一、卓越的性能表现


比肩顶尖模型:DeepSeek 发布的 R1 模型在数学、代码、自然语言推理等关键任务上,性能能够与 OpenAI o1 模型正式版相媲美 。在国外大模型排名榜 Chatbot Arena 的基准测试中,DeepSeek-R1 排名升至全类别大模型第三,与 OpenAI 的 ChatGPT-4o 最新版并列,在风格控制类模型 (StyleCtrl) 分类中也与 OpenAI 的 o1 模型并列第一。如此出色的成绩,让 DeepSeek 在竞争激烈的 AI 领域崭露头角,吸引了众多专业人士和 AI 爱好者的目光。


推理能力出色:模型在推理能力上的突出表现,使其能够高效地处理各种复杂问题,为用户提供精准且优质的回答。无论是解决科学难题,还是处理日常的语言交流任务,DeepSeek 都展现出了强大的实力,满足了人们对于智能助手高水准表现的期待。


二、极具吸引力的成本优势


低廉的训练成本:DeepSeek-V3 仅用 557.6 万美元的训练费用,在 2048 块英伟达 H800 GPU 集群上运行 55 天就完成了训练,这仅仅是 OpenAI GPT-4o 模型训练成本的不到十分之一 。如此低的训练成本,颠覆了人们对 AI 模型训练需要巨额资金投入的传统认知,让更多企业和开发者看到了低成本实现高性能 AI 的可能性,从而引发了广泛关注。


降低推理成本:DeepSeek 模型相比 GPT4 模型更小的参数量,意味着更低的推理成本。推理成本的降低,是 AI 应用普及的重要前奏。就像 4G 提速降费给移动互联网产业提供了助力一样,低成本的推理使得 AI 应用能够更广泛地应用于各个领域,吸引了大量希望降低成本、提高效率的企业和开发者投身到基于 DeepSeek 的应用开发中。


三、开源与开放的策略


开源许可协议:采用 MIT 许可协议,支持免费商用、任意修改和衍生开发等 。这一开放的策略极大地激发了全球开发者的参与热情,开发者们可以基于 DeepSeek 进行自由创新,开发出各种具有特色的应用,进一步丰富了 DeepSeek 的生态系统,也让更多人愿意去了解和使用 DeepSeek。


技术公开与共享:不仅开放模型,还将 R1 训练技术全部公开,并蒸馏了 6 个小模型向社区开源,允许用户借此训练其他模型。这种开放共享的精神,促进了全球 AI 技术的交流与进步,让 DeepSeek 在开发者社区中赢得了良好的口碑和广泛的支持。


四、行业大佬与媒体的关注


科技大佬的认可:众多科技界大佬对 DeepSeek 予以了超高评价。微软首席执行官萨蒂亚・纳德拉表示 DeepSeek 的新模型令人印象深刻,Meta 首席 AI 科学家、图灵奖得主 Yann LeCun 认为 DeepSeek 的成功是开源模型正在超越专有模型 。游戏科学创始人冯骥、360 集团创始人周鸿祎等也对 DeepSeek 称赞有加。大佬们的认可和评价,极大地提升了 DeepSeek 的知名度和影响力。


前Meta AI工作人员、知名AI论文推特作者Elvis


AI圈大V Yuchen Jin


英伟达GEAR Lab项目负责人Jim Fan


a16z 合伙人、Mistral 董事会成员 Anjney Midha


媒体的广泛报道:《福布斯》杂志指出 DeepSeek 的开源策略可能重塑全球 AI 标准,推动中国成为开源模型的主导者之一;《自然》杂志评价 R1 是 “经济实惠的 OpenAI 替代品” 。全球各大主流媒体和社交网站的广泛报道和讨论,使得 DeepSeek 的热度持续攀升,引发了大众对它的关注和好奇。


五、应用表现与市场反响


登顶应用商店:1 月 27 日,DeepSeek 一举登上苹果中国区和美国区 App Store 免费榜首位,超越 ChatGPT、Meta 旗下的社交媒体平台 Threads、Google Gemini、Microsoft Copilot 等美国科技公司的生成式 AI 产品 。


引发市场投资热潮:DeepSeek 的火爆也在资本市场引发了强烈反响。1 月 27 日早间,Deepseek 概念股高开,每日互动、航锦科技、南威软件、美格智能竞价涨停,飞利信、卓创资讯、思特奇高开超 10% 。资本的涌入进一步提升了 DeepSeek 的热度和关注度,形成了良性循环。



DeepSeek为什么让西方AI从业者人人自危?


就在今天,The Information 发布的最新文章披露了更多关于 Meta 与 DeepSeek 的业内动态。文中指出,包括 Meta 人工智能基础设施总监 Mathew Oldham 在内的多位领导表示,他们担忧 Meta Llama 的下一个版本在性能上难以与 DeepSeek 相抗衡。



据悉,Meta 已暗示 Llama 的下一个版本将于本季度推出。在此关键节点,DeepSeek 的崛起无疑给 Meta 带来了不小的压力。不仅如此,文章还爆料,Meta 的生成式 AI 小组和基础设施团队专门组织了四个作战室,深入研究 DeepSeek 的技术原理。


其中两个作战室聚焦于幻方降低 DeepSeek 模型训练和运行成本的方法。有员工透露,Meta 希望借鉴这些技术,应用到自家的 Llama 模型中。目前,尽管 Meta 的模型免费,但运行成本普遍高于 OpenAI 的模型,原因在于 OpenAI 能够通过批量处理数百万条客户查询来降低成本,而使用 Llama 的小型开发人员由于查询量不足,难以实现成本的有效控制。


据一位知情员工称,第三个作战室正在全力探究幻方训练模型时可能使用的数据。而第四个作战室则在考虑基于 DeepSeek 模型的新技术,对 Meta 模型进行重构。Meta 甚至计划推出一个类似于 DeepSeek 的 Llama 版本,该版本将集成多个 AI 模型,每个模型负责处理不同任务。如此一来,当客户要求 Llama 执行某项任务时,只需部分模型参与,既能加快整体模型的运行速度,又能降低算力消耗。


在这样的压力下,2025 年 Meta 究竟会推出怎样的开源模型,备受业界瞩目。说不定,Meta 也会加入复现 R1 的行列。可以预见的是,随着 DeepSeek 这条 “鲶鱼” 的搅局,新一年的大模型市场格局正在悄然发生转变。


截止目前,随着DeekSeek的爆火引发大量用户涌入,网站已经出现卡顿和回复不及时了。大家只能先耐心等一等了。


对于新一年 AI 技术的发展与应用,你有怎样的期待?欢迎留言讨论。



参考链接:环球网 机器之心
https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley


END

添加wuhu小精灵5号微信(wuhudonghua5)发送“动画新势力”即可在不久后被邀请进群。

你一定还感兴趣:


《你的名字。》制片人因侵害100+未成年人获刑 | 迪士尼《海洋奇缘》因涉嫌抄袭被索赔100亿美元 | 知名漫画家上门骗稿


无脑AI打假成新型网络暴力,逼画师发声、退圈……多年心血被浪费


《黑神话:悟空》新图来袭!最新幕后概念设计大揭秘!

销量破2800万!大卖90亿!《黑神话:悟空》今天又更新了!!!

《黑神话:悟空》天命人计划的幕后策划人为什么是葫芦仙人袁守诚?


特朗普一句话不仅让Tiktok复活,还让皮克斯连夜删减跨性别剧情...


8岁做动画26岁就入围奥斯卡!?30岁又拿下了金球奖震惊动画圈!凭什么他可以拿奖拿到手软?


假如二次元混入春晚导演组,小品会变得很抽象.....


一只小狗蛇在全网火爆出圈!为什么它被网友称为“最佳蛇年吉祥物”?




多给动画人来点小心心吧!


wuhu动画人空间
为全球动画人发声的动画媒体!
 最新文章