题外音 | 一个理想主义者给中国科技创新的答卷

学术   2025-01-27 07:59   云南  
放假后,有较为充足的时间对DeepSeek进行研究。在这个过程中,好奇心驱使,有一个大大的问号,究竟是一个怎么样的团队在算力减半下能做出与国际相媲美的大模型?  其创始人——梁文锋进入我视野。梁对外披露的信息甚少,媒体报道也不多,极度低调,但通过2023年5月和2024年7月两篇深度访谈文稿窥其一二。两篇访谈不长不短,从梁的回答中,我看到了一个技术理想主义者的理想和格局,对未来中国科技创新的深度思考。

两篇访谈链接:

  • https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
  • https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

我选择其中一些有意思的回答如下:

「暗涌」:为什么你的定义是“做研究、做探索”?

梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。

从近处说,GPT4还有很多待解之谜。我们去复刻的同时,也会做研究揭秘

这个回答很简单,理想主义者,因为好奇所以去做研究揭秘,只为证明一些猜想。纯粹至极,一个研究者最初的出发点。

「暗涌」:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。

梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来

从商业角度来讲,基础研究就是投入回报比很低的。OpenAI早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事

我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一

前面【暗涌】还从多个角度进行求证,幻方做大模型出发点是什么,问题的核心基本是围绕是否为了金融而做,为了公司盈利而做。而在这个问题的回答中,梁直白回应,并非为了商业而做。“想的一定不是我要拿回多少回报,而是真的想做这个事”  想做与实际去做,站在2025年1月回看,他们是有在认真去做,不是说大话。

「暗涌」:你会如何去辨别哪些是AI信仰者,哪些是投机者?

梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。

简明扼要,时间见分晓,如果你是想做,想知道答案,你会一直在。对我个人来说,这话很有共鸣,选择了做探索者,那就低谷高峰都在。如果问真有人会一直做一件事,是的会有的。

「暗涌」:为什么经验没那么重要?

梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。

「暗涌」:在创新业务上,你觉得经验是阻碍吗?

梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。

有经验的人思维固化,会用以前的经验看今后遇到的同一类问题,对于人类来说,这点是天性使然,而以前的经验并非是当下问题的最优解。经验对于当下的问题的是较优解,并非都是最优解。

「暗涌」:选来合适的人后,用何种方式让他进入状态?

梁文锋:交给他重要的事,并且不干预他让他自己想办法,自己发挥

其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。


「暗涌」:你觉得什么是打造一个创新型组织的必要条件?

梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。


对于国内的研究机构也好,商业公司也罢。从实际上看,自由宽松,重大创新才有可能发生。

「暗涌」:做这样一件事,最让你们兴奋的是什么?

梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。

「暗涌」:会觉得你们在做一件很疯狂的事吗

梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。

很有共鸣,就像我工作很忙还是会去Sentienl社区,Github上去做贡献,到公众号写推文,分享自己的见解,有钱吗?没有的,那为啥还做?嗯,就单纯觉得很有意思。


「暗涌」:你觉得好奇心驱动的疯狂可以一直持续下去吗?

梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事

而我正处于这个年纪,在解决温饱的前提下,在寻找一个问题的答案,升职加薪,对于我求索问题的答案来说,并没有那么值得期待和关注。也希望自己能坚持久一些。
「暗涌」:OpenAI虽然不再是全于是独一份,但还是大模型领域的扛把子。只要他敢公布Sora,给点提示,国内大模型公司都会很快跟进,做出来的东西也吊打Sora。同样, O1, O3只要见光,很快就有模仿。2024年, 大模型投资已降温

梁文锋:可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。

这个判断很有意思。"有生之年"这个时间跨度确实模糊,没有明确的路线图才有意思,未来未知,求索答案。

「暗涌」:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家copy吧?

梁文锋:在颠覆性的技术面前闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。

开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

这个观点与我多次提到国产遥感卫星质量问题一个道理,行与不行,先让大众用起来。在缺乏透明度,没人反馈与应用,价值将大大缩水,闭源不仅护城河作用有限,反而可能会限制模型的迭代速度。开源带来的社区用户反馈,创新性的应用和多样化场景测试,往往能帮助发现和解决更多潜在问题。


「暗涌」:为什么DeepSeek V2会让硅谷的很多人惊讶?

梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新

这是中国现状,当然并非所有领域,但这是一个普遍现象。落后的原因是没有路线图,只能等他人发,我们跟随。这与我们不重视基础研究很大关系。


一个理想主义者在赚到钱后,去实现自己的理想。非纯商业行为,而是一个自发实现理想的过程。

参考

1.https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

2.https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg




走天涯徐小洋地理数据科学
一个爱生活的地理土博,分享GIS、遥感、空间分析、R语言、景观生态等地理数据科学实操教程、经典文献、数据资源
 最新文章