浙江私募大佬,一夜震惊硅谷!
张静波 来源:华商韬略
中国不可能永远跟随!
2024年冬天,杭州。
当西方还沉浸在圣诞节的狂欢中时,一位中国码农,站在巨大的落地窗前,远眺着窗外的京杭大运河。
几分钟后,他做了一件令硅谷震惊的事。
来自东方的神秘力量
“一种新的模式,让整个山谷都嗡嗡作响!”
美国CNBC电视台在报道这件事对硅谷的影响时,这样评价道。
12月26日,杭州一家名为“深度求索”的中国初创公司,发布了全新一代大模型:
DeepSeek-V3。
在多个基准测试中,DeepSeek-V3的性能均超越了其他开源模型,甚至与顶尖的闭源大模型GPT-4o不相上下。
尤其在数学推理上,DeepSeek-V3更是遥遥领先。
令人惊讶的是,DeepSeek-V3在性能比肩GPT-4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。
这让美国人彻底坐不住了。
在此之前,谷歌和Open AI花了几年时间,耗资数亿甚至数十亿美元,调用了几万块最先进的GPU,才干成同样的事情。
强烈的对比,让美国人反思:大模型和算力,是否还值得投资?
很多硅谷大佬在纷纷点赞的同时,也体验到中国科技带来的苦涩:当美国人休息时,他们在奋力追上我们!
有意思的是,这件事与中国空军六代机现身,几乎前后脚发生。
不少美国人认为,这比六代机更像上世纪50年代,苏联抢先发射第一颗人造卫星的斯普特尼克时刻。
然而,真正让美国硅谷感到震撼的,还不是DeepSeek-V3的高性能、低成本,而是中国人展现出的首创精神。
中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。
DeepSeek-V3打破了这种成见,它以MLA、DeepSeekMoE等多项开创性技术,大幅提升了模型的性能和训练效率。
美国人惊讶地发现,原来中国公司也可以作为创新贡献者,在他们的游戏之外,自定游戏规则。这在过去是极其罕见的。
因为表现太过优越,DeepSeek在硅谷被誉为来自东方的神秘力量。
这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。
目前,国内拥有万卡GPU的企业不超过5家,幻方就是其中之一。
它在2023年成立子公司“深度求索”,开始DeepSeek大模型的研发,整个团队只有139名成员,远少于OpenAI的1200人。
执掌这支战队的,是一个叫梁文峰的80后,也是幻方量化的创始人。
当好奇心驱动了疯狂
梁文峰和幻方的故事,始于2008年。
那一年,从浙大毕业、主修软件工程的他,没有像同龄人一样,进入大厂当码农,而是一个人跑到成都,蜗居在出租屋里。
在那里,梁文峰开始研究用计算机赚钱的各种路子。
几番折腾下来,他决定下场做量化投资。但这个决定并不容易,毕竟当时量化在国内还是个新事物。
很多人并不相信,量化可以赚钱。
每当困难时,梁文峰总会想起量化投资之父西蒙斯的一句话:一定有办法对价格建模。
在这个信念支撑下,梁文峰苦苦熬了两年,终于柳暗花明。2010年,沪深300股指期货推出,量化投资迎来了春天。
乘着这股东风,梁文峰和他的团队大赚一笔,自营资金超过5亿元。
也就是同一时期,随着深度学习算法的突破,人工智能大爆发。早年在浙大就研究人工智能的梁文峰,燃起雄雄斗志。
2015年,他和浙大校友,共同创立了幻方量化。
几个意气风发的年轻人,试图用数学和人工智能,在中国打造一个像文艺复兴那样世界顶级的量化对冲基金。
仅仅一年后,他们就上线了第一笔由AI驱动的实盘交易,并在随后,将所有交易策略都AI化。
新技术的加持,让幻方量化旗下基金回报率,远超同期沪深300指数。
这推动幻方量化基金规模持续攀升,2021年一度超千亿元大关,位列国内量化四大天王之一。
然而,基金规模膨胀的同时,梁文峰却面临一个棘手问题。
AI交易策略需要算力支持,尤其是,随着模型参数的激增,对GPU算力的需求也在不断增长。
如何破解这一难题?梁文峰的选择是:堆算力!
从2019年开始,幻方量化大规模布局AI算力。
当年就投资2亿元,建成“萤火一号”AI算力集群,搭载1100块GPU算卡。而彼时的特斯拉,才刚刚提出Dojo超算概念。
几个月后,当英伟达发布最新A100芯片时,梁文峰再次抢跑,成为亚太地区第一批拿到此卡的人。
紧接着2021年,他又投资10亿元,建成“萤火二号”,搭载1万A100算卡,算力相当于76万台个人电脑。
其占地面积,比10个篮球场还要大。
在AI大模型还没有爆发的年代,梁文峰的举动,让很多人感到疯狂。
一家私募基金囤这么多算力,究竟意欲何为?甚至有媒体抱怨:幻方量化把A股散户吓坏了。
外界对幻方量化的想象,还停留在资本市场上。
但梁文峰的目光,早已望向星辰大海。
2017年,谷歌研究团队在一篇开创性的论文中,首次提出Transformer架构。这是一种完全基于注意力机制的神经网络,它颠覆了过去的传统算法。
一家叫OpenAI的美国初创公司,基于新架构不断训练自己的大模型。最终在2022年以ChatGPT引爆AI大模型时代。
此后,全球互联网巨头,沿着OpenAI的路线推进,很少有人质疑。
但一群初生牛犊的年轻人,在梁文峰的带领下,干了一件极其疯狂的事:他们试图改进Transformer架构。
事实上,从2023年创立深度求索,进军大模型的第一天起,梁文峰及其团队对算法框架的反思就开始了。
当别人陷入简单模仿OpenAI的惯性中时,这群年轻人不走寻常路。
他们冒着失败的风险,大胆尝试了MLA(多头潜在注意力机制)、DeepSeekMoE(混合专家模型)等多种开创性技术。
几年前囤下的海量算力芯片,为他们的梦想,插上了翅膀。
最终,这群年轻人创造了历史:DeepSeek-V3横空出世,一夜震惊了硅谷。
“中国不可能永远跟随!”
对比中美科技产业,我们常常感叹:
中国为什么出不了像乔布斯、马斯克、黄仁勋一样伟大的企业家?
乔布斯生前只有一个目标:活着,就是为了改变世界。
黄仁勋早在青年时,就立下雄心壮志:要做不一样的事,要彻底改变计算。
马斯克更是疯狂地喊出:要殖民火星,为人类寻找第二家园。
相比之下,中国企业家似乎把更多的目光,放在了赚钱和生存上,很少抬头仰望星空,对创新的重视也不够。
事实上,过去30年,我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。
这使得我们在一轮又一轮的IT浪潮中,基本没有参与到真正的技术创新里。
但这种局面,在近几年悄然改变,中国新生代企业家正以突破性创新,在西方的游戏之外另起炉灶。
“中国也要逐步成为创新贡献者,而不是一直搭便车。”梁文峰表示。
早在上大学时,梁文峰就笃定:AI一定会改变世界。毕业后,他在量化投资上,赚了足够多的钱。
这使得他,有足够的资本,听从内心的声音,去做自己喜欢的事情,而不是首先权衡利弊得失。
DeepSeek创立之初,就确立了核心使命:探索通用人工智能的本质!
在中国AI界,还很少有企业敢提出如此疯狂的目标。
于是,过去几年,当很多大模型厂商忙着抢用户,做商业化变现时,梁文峰却苦哈哈搞起了看似不赚钱的基础研究。
“创新不完全是商业驱动的,还需要好奇心和创造欲。”他说。
在梁文峰看来,中国企业在过去被商业驱动的惯性束缚了。他希望DeepSeek能摆脱这种束缚。
这样的经营理念,在当下的中国企业界,显得有点离经叛道。
曾经有不止一位业内人士表示:
梁文峰是中国AI界非常罕见的人,他拥有恐怖的学习能力,兼具强大的infra工程和模型研究能力,又能调动资源。
在内部员工看来,梁文峰则完全不像老板,更像一个极客。
时至今日,他依旧延续着低调的作风,和公司其他研究员一样,每天看论文,写代码,参与小组讨论。
这个低调的大佬,就连选人、用人的方式也跟主流格格不入。
当很多大模型公司热衷于去海外挖人时,梁文峰却反其道而行之,坚持从本土招人,并放出豪言:
“世界前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”
不仅没有海外人才,也没有行业大佬。梁文峰更喜欢没有经验的年轻人,因为他们不受条条框框的束缚。
在DeepSeek,选人的标准一直都是热爱和好奇心。
事实上,这家初创公司并非外界传言的,有一批高深莫测的奇才,而都是一些毕业才几年的年轻人。
甚至,很多是北大、清华等Top高校还没毕业的博四、博五实习生。
因为工作太前沿,这些年轻人在开展工作时,几乎没有参考资料。但也正是这种空白,让他们敢于突破传统。
比如,DeepSeek-V3最重要的创新之一MLA架构,就来自一个年轻人的突发奇想。
DeepSeek内部,也没有上下级分工。
研究过程中,如果有想法,每个人都可以拉人讨论,并随时调用公司训练集群的卡,无需审批,不设上限。
这种看似松散的管理方式,极大地调动了所有人的好奇心和创造欲,让DeepSeek-V3得以横空出世。
在梁文峰身上,我们依稀看到了乔布斯、马斯克、黄仁勋的影子。
“中国AI不可能永远处在跟随的位置!”
“真正的差距不是一年或两年,而是原创与模仿之差。”
这两句从梁文峰口中喊出的话,不仅事关AI产业,也是中国企业在跟随、模仿了西方几十年后,不得不面对的突破方向。
低垂的果子都被摘完了,只有敢于突破,才能找到新的出路。
梁文峰并不孤单。
今天,从大疆无人机汪滔,到宇树机器人王兴兴……一大批新生代企业家,正将中国科技产业带向无人区。
[1]《揭秘DeepSeek:一个更极致的中国技术理想主义故事》暗涌Waves
[2]《疯狂的幻方:一家隐形AI巨头的大模型之路》暗涌Waves
同期阅读:
钟睒睒喊话张一鸣!“谣言”之殇,平台该负什么责任?
来源:侃见财经
算法正在裹挟每一个人。
近日,农夫山泉创始人钟睒睒在江西赣州参观考察当地脐橙产业园时,谈及今年上半年遭遇的网络暴力、做绿瓶水背后的故事以及对网络直播的看法,信息量很大。
期间,钟晱晱抛出的话语足以称得上“语出惊人”了,尤其是对“网络暴力”和“网络算法”两个话题的表达,在全网持续发酵,引发热议。
今年3月,农夫山泉和他本人受到了自公司成立以来最为严重的一次网络攻击。他认为,这场网络暴力的背后是算法遭到利用,就是有人利用了算法,屏蔽了多角度来的消息。
“当你打开这些平台,看到的总是同样的内容。有人在利用技术手段,这些人造成的伤害远远超过普通人所造成的伤害。需要社会去遏制,需要政府站出来主持公平。”钟睒睒认为。
他还质疑,在谣言中,是否都需要一个反派角色来制造对立,正如好莱坞电影中常见的那样?如果缺乏这样的对立,一些平台似乎难以持续吸引流量,如果是这样,他认为,这样的平台是极其恶劣的。
“算法的恶是有知识的人生产的,不是底层老百姓,老百姓仍然是受害者,那些骂钟睒睒的人不是既得利益者,他们也是受害者,他们因为不了解真相而怀有仇恨,实际上,我们需要的是良好的营商环境和对企业家的尊重。”钟睒睒说。
他在访谈中甚至直接喊话字节跳动创始人张一鸣:“希望张一鸣先生,抖音、今日头条及一切对我个人有过谣言伤害的,我在等待你们诚恳地道歉!我在等待。”
钟睒睒在演讲中直言:“请停止对一个中国公民的侵害!”
一、算法之“恶”
算法想要“读懂”用户一点都不难,以抖音为首的短视频平台的推荐算法会根据用户的行为数据(如观看历史、点赞、评论、分享等)来分析用户的喜好,并据此推荐相关的内容。
这种算法推荐逻辑不仅提高了用户的满意度和留存时长,还直接增加了平台的流量和商业价值。
这是人性使然,算法正在“操控”人性。
算法就如同一头长着火眼金睛的怪兽,它环伺在侧,一味揣摩和取悦用户,通过精准的计算和推送,使得用户的信息获取越来越归从于个人的喜好,而把与自己兴趣和观念相左的信息排除在外,用户被引入偏见狭隘的信息领域。
以抖音等短视频平台,依赖算法推荐进行短视频内容分发,无数用户正不自知地陷入“信息茧房”。
张一鸣曾有一句名言:“算法没有价值观”。
诚然,算法没有情绪、立场和价值观,但控制算法或者设计算法的人会有。
算法设计者会受到个人立场的影响,将携带的主观价值判断和行为决策嵌入相关程序中。
在“流量为王”的传播环境中,算法设计者会倾向于将更容易斩获用户关注的低俗劣质信息赋予更多的权重。
随着算法与外界环境交互,谣言、负面信息都会被利用,推荐给用户,形成反馈循环,进一步强化原有社会偏见。这使得不同立场之间的隔阂、对立、误解与撕裂进一步加剧。
以农夫山泉和钟睒睒为例,在算法推荐下,将红色瓶盖关联日本国旗、“农夫山泉的山是富士山”,成为流量盛宴。
只要短视频标签带上“农夫山泉”“钟睒睒”,便能被算法推荐给更多用户,获得流量。
大量谣言、阴谋论的视频被算法疯狂推荐,直接裹挟了用户的情绪和价值观。
在算法的推波助澜下,这场网络暴力也对农夫山泉的业绩造成直接影响。
农夫山泉的半年报显示,2024年的1月份和2月份,集团包装饮用水产品销售情况良好,该两个月的销售收益较去年同期增长19.0%。
但自今年2月底开始,网络上出现了大量对农夫山泉及钟睒睒的舆论攻击和恶意诋毁,对其品牌及销售造成了巨大的负面影响。2024年上半年,集团录得包装饮用水产品收益为人民币85.31亿元,较去年同期下降18.3%。
二、有谁负责?
那么,在算法推波助澜下的谣言传播、网络暴力,互联网平台究竟是否该承担责任?
钟睒睒认为,“任何一项在盈利平台上发布的谣言,平台都应该承担法律责任,这就像我一个制造企业,生产假货和销售假货同罪。”
“谁受益,谁负责”的逻辑线非常清晰,算法加持下,流量生意的最大受益者无疑是平台。那么,平台就该对谣言、网络暴力负责。
钟睒睒强调称:不要以任何所谓“避风港原则”进行搪塞。
“避风港原则”简单来说就是,网络平台在接到通知后及时删除侵权内容就无需承担责任,否则就要承担责任。
其实,法律除了“避风港原则”外,还有一项原则,被专家学者们称之为“红旗原则”。
“红旗原则”是指,当侵权事实显而易见,像“红旗一样飘扬”时,网络服务提供者不能假装看不见,或者以不知道侵权为由推脱责任。在这种情形下,即使权利人没有发出删除通知,网络服务提供者也应当承担侵权责任。
有法律人士解释称,“避风港原则中的‘通知规则’和红旗原则中的‘知道规则’在司法适用上是并列关系。”
复盘对农夫山泉、钟睒睒的网络暴力,是完全符合红旗原则的。作为平台,通过算法将谣言短视频推荐给大量用户,甚至形成刷屏之势,谣言完全已经像“红旗一样飘扬”。
更恶劣的是,对于制造谣言的短视频,平台甚至还给予相关话题的高流量内容的现金奖金,进一步刺激了录制谣言视频的动力。
三、“信息茧房”愈演愈烈
芝加哥大学教授凯斯•R•桑斯坦在其著作《信息乌托邦》中提出“信息茧房”的概念,即“因公众自身的信息需求并非全方位的,公众只注意自己选择的东西和使自己愉悦的通信领域,久而久之,会将自身桎梏于像蚕茧一般的‘茧房’中。”
很显然,这种算法推荐机制加速了互联网“信息茧房”的构建。
在算法持续迭代,即便是同一短视频内容,不同用户看到的评论区都是“可控”的,进一步裹挟了用户观点。
评论区本应是不同观点自由表达的场所,但算法操控下,每个用户优先看到的是与自己意见一致的同质化评论,这不仅限制了用户的认知,还强化了偏见。使得不同立场之间的隔阂、对立、误解与撕裂进一步加剧。
放任算法,我们每一个人都将被推入“信息茧房”的深渊。
四、结语
“技术中性”不能等同于“价值中性”,不能让价值观成为算法技术的附庸。
算法推荐,毋庸置疑是一个价值观问题,技术可以没有价值观,但是作为技术发明者、操纵者的人,不可能没有价值观。
近年来,在算法的推波助澜下,网络暴力层出不穷,甚至造成了自寻短见、坠楼等人间惨剧。
针对算法推荐引发的诸多乱象,相关监管部门频频依法重拳出击——约谈、处罚整改、永久下架、暂停算法推荐功能等手段多措并举。
算法推荐不仅是价值观问题,还是法律问题,需要纠正“流量为王”的价值观,用积极健康、符合公序良俗的价值观指引算法推荐的设计和应用。
算法的应用不仅需要技术自身的中立性,还需要法律和社会规范来约束其背后的人和平台公司。
PS:亲爱的读者朋友们:因微信更改了推送规则,推文不再按照时间线显示,不是所有观粉,都能在第一时间收到文章,有观粉误以为我们没更新。所以,需要各位老铁在每次看文章后,在文章尾端右下角,点一下“在看”,每天只需点一下即可。如果不点“在看”或者没有“星标”,就可能看不到我们的推送了!如果您不想错过“中小企业”的精彩内容,就赶紧星标⭐我们吧!