“AI界拼多多”刷屏海外,DeepSeek带火95后罗福莉

文摘   2025-01-06 07:13   广东  
关注我的你,是最善良的!
只为苍生说话,用笔杆子道明事态原委、丈量人间温情。





“AI界拼多多”刷屏海外





近日,国产大模型DeepSeek在全球爆火,并带火95后AI“天才少女”罗福莉。据悉,罗福莉曾在DeepSeek参与了DeepSeek-V2的研发,是这款模型的关键开发者之一。


01
DeepSeek带火95后罗福莉
AI的风狂吹,小米创始人雷军闻声而动,在DeepSeek-V3发布前几天,其已开出千万元年薪招揽罗福莉,领导小米AI大模型团队。今年11月,小米还成立了专门的AI平台部。
近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,同时宣布开源。在多项基准测试中,V3的成绩超越了主流开源模型,
并和世界顶尖的闭源模型不分伯仲。
同时,由于其极低的训练成本,
DeepSeek-V3被称为“AI界拼多多”。
据最新发布的技术报告,DeepSeek-V3参数量为671B,激活参数为37B,使用的预训练token量为14.8万亿。其多项评测成绩超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型。此外,其训练成本仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。
DeepSeek在其53页的技术论文中披露:“我们的预训练阶段在不到两个月的时间内完成,成本为2664K GPU小时。结合119K GPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设H800 GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。”
极高的性价比让DeepSeek-V3一经发布便引发国内外惊叹。
公开资料显示,
DeepSeek专注于开发先进的大语言模型和相关技术,由国内知名量化资管巨头幻方量化于2023年7月创立,也因此获得资本市场的广泛关注。DeepSeek爆红后,DeepSeek-V2的关键开发者之一罗福莉也火出圈,被称为95后AI“天才少女”。
公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。2019年,还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文(其中2篇一作),登上了知乎热搜。
硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。
今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。
极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。Meta的AI研究科学家田渊栋称“在非常有限的预算下实现强劲表现”,“这是一项了不起的工作”。知名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表示,DeepSeek-V3“训练所需计算量减少了10倍”,“在美国休息的时候,他们努力工作,以更低的成本、更快的速度和更强的实力迎头赶上。”
事实上,DeepSeek并非第一次“出圈”。早在半年前,其发布的DeepSeek-V2就因性能达GPT-4级别,但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。
正因为在训练效率和成本方面的优势,DeepSeek也是国内最早开启大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。同时,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,这为其早期的技术研发提供了坚实的算力基础。
“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时,DeepSeek创始人梁文锋表示。这位毕业于浙江大学电子工程系的80后,一直潜心研究技术。据媒体报道,梁文锋在工作中始终保持着低调的作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。
  一名人工智能行业资深业内人士向证券时报记者分析称,DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡,投入了很多资源做研究;二是他们是做量化的,不像大厂有其他各种各样的盈利需求,也跟他们不构成竞争关系,能更专注于模型开发。”该业内人士表示。
  在DeepSeek-V3爆火之后,背后的AI“天才少女”罗福莉也进入了人们的视野。据媒体报道,小米创始人雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉,领导小米AI大模型团队。
  公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。2019年,还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文(其中2篇一作),登上了知乎热搜。罗福莉用本人知乎账号回应称,“这次投稿ACL是我近一年的产出,所以我认为自己是付出了足够的努力的,当然也可能也有运气成分加持。”
  硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。
  今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。
  事实上,罗福莉被重金招入小米,是小米全面发力AI大模型的其中一个动作。2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。今年11月,小米成立了专门的AI平台部,小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。
  兵马未动,粮草先行。除了招募人才以外,最近,媒体报道称小米正着手搭建自己的GPU万卡集群,并在过去几个月里持续提升算力储备,为大模型研发提供更充分的算力供给。雷军在公开演讲时曾表示,小米做大模型的思路和很多公司不太一样,选择主力突破的是轻量化和本地部署。对于小米这样无论在手机还是造车上都讲究“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而这,或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。
今年11月,小米成立了专门的AI平台部,小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。此外,小米近段时间正在搭建GPU万卡集群,规模较其大模型团队成立时的约6500张GPU大幅增加。这一计划已施行数月,由雷军亲自领导。
小米集团总裁卢伟冰透露,预计2024年小米研发费用将达到240亿元,2025年更是将攀升至300亿元。他预计,自2022年至2026年的五年内,小米的研发投入将超过1000亿元,主要聚焦于AI、OS、芯片三大底层技术的研发。数据显示,小米自2016年组建AI团队以来,经过多次扩展,相关领域人员规模已达3000多人。
小米有不少吸引人的 AI 产品,涵盖智能手机、智能音箱、智能家电等多个领域,以下是一些较为突出的产品:
智能手机
小米 SU72智能拍照:摄像头系统采用最新的 AI 算法,在低光环境下拍照能力大幅提升,能够捕捉更多细节,为用户拍摄出高质量的照片。通过深度学习算法,手机能够智能识别用户的使用习惯,并自动优化系统设置,如电源管理、应用推荐等,提升手机的使用效率,延长待机时间。
小米 14 Ultra3AI + 计算摄影:推出首个 AI 大模型计算摄影平台小米 AISP,提供 UltraRAW 数字底片模式、Ultra Snap 抓拍和 Ultra Zoom 超远变焦三大功能,让用户在摄影创作上有更多可能性,拍摄出的照片质量更高、后期处理空间更大。AISP 内建 “Portrait LM 人像大模型”,模仿摄影大师的创作思维,对人像主体进行打光增强,使人脸光影过渡立体真实,同时对人像背景建模和仿真物理镜头的光路及散景形态,让照片更具专业质感。
智能音箱
小米智能家庭屏音箱 Pro家居中控:作为全屋智能助手,可让智能家居设备轻松互联,用户通过语音指令就能随时随地掌控家中的智能设备,如灯光、窗帘、空调等,实现智能化的家居控制体验。内置小爱同学,只需一句话就能理解并执行用户指令,轻松调动家庭智能设备,操作简单方便,全家人都能轻松使用。
小米小爱音箱 Pro语音操控:只需轻声唤叫 “小爱同学”,就能立即响应,操控家居设备,如调节音响、播放喜欢的音乐等,完全解放双手,让用户可以更便捷地享受智能生活。如果家里有多台小米小爱音箱 Pro,它们能智能识别说话者的位置,选择最佳音箱进行应答,甚至可以实现多房间同时播放音乐,营造出全屋音乐的氛围。
智能家电
小米 “大小眼” 洗衣机4智能衣物分类洗涤:通过双滚筒设计实现了衣物分类洗涤的功能,解决了用户不同衣物需要分开洗涤的痛点,同时还能根据衣物的材质、重量等因素,智能匹配最佳的洗涤模式和参数,提升洗涤效果。用户可以通过手机 APP 远程控制洗衣机的启动、停止、选择洗涤模式等操作,即使不在家也能轻松安排洗衣任务,让生活更加便捷。
小米空调智能温度调节:具备智能温度感应功能,能够根据室内外环境温度的变化以及用户的设定偏好,自动调节空调的运行模式和温度,保持室内温度的舒适稳定,同时还能达到节能省电的效果。支持小爱同学语音控制,用户无需手动操作遥控器,只需说出指令,就能实现空调的开关、温度调节、模式切换等功能,方便快捷。

数字化转型室
只为苍生说话,用笔杆子道明事态原委、丈量人间温情。
 最新文章