李沐:如果有什么事这一辈子总要试下的,就趁早

科技   2024-09-23 18:57   北京  

“We're building something big ... stay tuned. Talk to me if you want to work on scalable foundation models.”


“我们正在建造一个大项目……请继续关注。如果你想在可扩展基础模型上工作,请告诉我。”

©作者|Zhongmei

来源|神州问学


去年二月,“参数服务器之父“Alex Smol教授和当时的亚马逊首席科学家李沐从亚马逊云科技(AWS)离职,创办了一家名为Boson.ai的人工智能公司。当时公司官网都在建设中,外界知道的就是目标已经明确:在搞通用的大模型,而且是面向所有人(for everyone)的那种。AI大神李沐创业十个月仍保持神秘,去年十一月底被量子位爆料,其方向是利用大模型能力,做游戏引擎,且是面向4A游戏。(那种比3A游戏更强大一点的游戏)。直到今年6月终于有了消息,AI大神李沐带着他的大模型创业最新成果回来了,一个专门为复杂场景角色扮演设计的大模型,名为Higgs-Llama-3-70B。8月,他回到知乎和B站写下了《创业一年,人间三年》,表示在创业第一年实现了收支平衡。正值大语言模型热潮降温,很多人觉得“拿着锤子找钉子”不是一个好迹象——应用没有爆发,再造大模型又有何意义?李沐在这个时候现身,似乎带着一剂强心针。


Boson AI


"Intelligent agents as human companions and helpers.


We are transforming how stories are told, knowledge is learned, and insights are gathered."


”智能代理作为人类的伴侣和助手


我们正在改变故事的讲述方式、知识的学习方法以及洞察的获取方式。“

—— Boson AI


Boson是一个物理学概念,指“玻色子”。在量子物理学中,基本粒子被分类为玻色子(Boson)和费米子(Fermion)。也就是说,玻色子和费米子组成了世界。也有人将其解读为,在未来世界里,人和AI,也可能是玻色子和费米子的关系。当然,咱普通人还是更多会看成Boston。【手动狗头】官方说法是,自2023年成立以来,Boson AI一直致力于利用AI技术为企业赋能,协助客户开发Agent,使其能够扮演多种角色,如游戏角色、语言教师、保险代理和金融顾问。


主要成员


BosonAI的首页展示了六位创始成员:



Alex Smola


Alex Smola 是全球机器学习领域著名科学家,卡耐基梅隆大学教授,畅销机器学习著作《动手学深度学习》的主要作者,迄今共发表了几百篇论文和多本学术专著,在Google Scholar上的被引用次数,超过17万次。其中,被引次数前三的所著论文,被引数统统破万,在全球范围享有盛誉。并且在分布式深度学习框架领域曾提出并行LDA(Latent Dirichlet Allocation)的框架——这是参数服务器概念的最早来源,因此,Smola也被业界称为参数服务器之父


1996年,Smola在慕尼黑工业大学完成硕士学业,而后又在柏林工业大学拿下计算机科学博士学位。博士毕业后,他先后去往柏林GMD软件工程和计算机体系结构研究所、NICTA(澳大利亚信息与通信技术研究中心)工作。2004年起,Smola在NICTA的统计机器学习项目中,担任高级首席研究员和项目负责人;到了2008年,Smola选择入职雅虎研究院。2012年春天到2014年年底,2年多的时间里,Smola的工作地点是谷歌研究院。期间,他开始担任CMU的教授。也是这个时候,他成为了李沐的博士导师,二人结缘。2016年7月,Smola成为了亚马逊的一员,致力于构建AI和机器学习工具。首要任务之一,是让AWS和开发者社区建立和保持联系,让更多的开发者共同建设亚马逊深度学习库MXNet。


Mu Li (李沐)


李沐,2008 年毕业于上海交通大学计算机系(计算机系 ACM 班),大学期间曾在微软亚洲研究院担任实习生。2011 年 4 月 - 2012 年 8 月,李沐在百度担任高级研究员,工作一年后进入卡耐基梅隆大学(CMU)读博,师从 Alex Smola 和 Dave Andersen,期间开发了著名的深度学习框架 MXNet。2017 年 CMU 博士毕业后,李沐加入亚马逊成为资深首席科学家。


李沐和 Alex Smola、Aston Zhang 等人共同撰写了《动手学深度学习》。最近几年,他热衷于通过各种视频平台向大家科普 AI 知识(B站账户“跟李沐学AI”,83万粉丝),制作了几十篇论文的精读课程。很多同学已经养成了跟着李沐精读论文的习惯。


Shuai Zheng


Shuai Zheng,2019年从香港科技大学毕业,获得计算机科学博士学位。之后直到2023年,就职亚马逊,领导亚马逊的分布式系统和LLM训练工作,包括开发可扩展的分布式训练和推理架构、具有数千亿参数的更智能模型,以及更快的分布式优化算法。


作者主页放在这里:

https://szhengac.github.io/


Xingjian Shi(施行健)


施行健,2014年毕业于上海交通大学获得学士学位,2018年获香港科技大学博士学位。他曾担任亚马逊担任高级应用科学家,领导过两个项目:AutoGluon Multimodal和DeepEarth。其中AutoGluon Multimodal通过应用基础模型,突破了传统自动机器学习工具的限制。DeepEarth致力于为地球科学领域构建基础模型。同时他也喜欢开源项目,参与了Apache/MXNet等开源项目。


作者主页:

https://sxjscience.github.io/


Yi Zhu


Yi Zhu,加州大学默塞德分校博士学位,师从教授Shawn Newsam。主要研究方向关注于大语言模型、多模态学习、自监督学习和视频理解。和其他几位一样曾就职于亚马逊AI团队,担任高级应用科学。他也曾参与AutoGluon、GluonCV等开源项目。


作者主页:About me - Yi Zhu


Yizhi Liu


Yizhi Liu,2012年毕业于浙江大学计算机系。整个职业生涯都围绕着机器学习和深度学习,曾先后在百度实习,担任聚胜万合首席软件工程师、奇虎360技术部经理,之后成为亚马逊高级软件开发工程师。参与了Apache/MXNet和Apache/TVM等开源项目。(优秀的人总有过人之处,他首页上写道自己还拥有美国联邦航空管理局(FAA)颁发的私人飞行员执照)


作者主页:


https://bryanyzhu.github.io/


Boson AI为什么杀出重围?


BosonAI作为一个专注于大型语言模型(LLMs)的初创公司,在2023这个看似基础模型热潮衰退的时间,仍然可以收支平衡,其盈利能力可以从以下几个方面分析:


1.  强大领导力和技术团队


Smola和李沐对于将AI深度融入专业领域的愿景以及他们在引导公司研发重点方面的领导力至关重要。二人的背景和专业知识在导航AI技术的竞争格局和定位Boson AI不仅作为技术提供商而且作为AI领域的创新者方面至关重要。很多人看见李沐在知乎上的自述帖子之后,马上意识到,一个能给黄仁勋写邮件插队买H100(甚至在一小时里得到回复)、“偶遇”张一鸣点拨创业思路、在办公室得到蔡浩宇拜访、在斯坦福与宿华散步的人,这种人脉和圈子肯定不是大家可以借鉴的创业经验。同时几位联合创始人也都有强大的专业能力和行业经验,他们不仅在亚马逊等大型科技公司的工作背景,还在BosonAI推动了多个创新项目的发展。一个有远见的领导团队能够有效地导航公司在快速变化的技术领域中前行,抓住市场机遇。


2.  定制化和专业化


Boson AI利用创建高度专业化的模型来满足特定行业的需求,这是其盈利能力的一个重要因素。 Boson AI不仅开发通用的人工智能模型,还特别强调在专业领域如游戏、教育、销售和金融分析等领域的应用。这种方法使他们能够交付不仅仅是通用的人工智能模型,而是经过精细调整以在特定领域(如游戏、教育和金融分析)提供卓越性能的模型。通过将AI技术与行业特定技能结合,创建出能达到甚至超越人类专家水平的产品。这种深度整合使得BosonAI能够为特定行业提供高度定制的解决方案,满足企业客户的特定需求,从而获得较高的市场接受度和利润空间。这种定制化意味着客户从BosonAI的模型中获得的价值超过了像GPT-4这样的通用产品,从而可以命令更高的价格或更专注的合同。


3.  成本控制和技术优化


李沐在帖子中还表示,他刚创业的时候,GPT-4 现世,让他大受震撼,虽然技术没有公开,但是据小道消息估计,一次模型训练花费一个亿,标数据成本耗费几千万,所以他们意识到自己做不动 GPT-4,于是Boson AI专注于降低使用AI模型的推理成本。通过开发定制模型,他们设法在维持高质量输出的同时,显著降低运营成本。在2023年年底他们惊喜的发现,Photon系列模型,成本降低到使用通用API调用的大约十分之一。这种效率不仅因为较低的运营成本使Boson AI具有吸引力,还允许他们更可持续地扩展其解决方案,以更有竞争力的价格向客户提供服务,这是初创公司在激烈竞争的市场中生存和盈利的关键。


4.  技术创新和市场细分


BosonAI专注于一个细分市场——角色扮演和专业模拟——挖掘了需要高度定制和专业化的市场。这种战略焦点并不像通用AI市场那样拥挤,使BosonAI能够在其选择的领域内建立强大的存在感和客户忠诚度。这种有针对性的方法可能会导致更好的客户保留率和可能更高的利润率,因为他们的产品具有专业化的性质。小众赛道上开发的模型,比如基于Meta的LLama-3模型的Higgs-LLama-3,提供与众不同的用户体验。创新的产品往往能够在市场上创造独特的利基,吸引投资者和客户的兴趣,不断扩展其市场份额和影响力。


结语


在搜集资料的过程中,我本人还看到李沐在8 月 23 日回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享。其中他分享自己对LLM的很多判断,我发现,除了人脉和技术背景外,独到的判断也是关键。比如,在硬件方面,他强调带宽的重要性,认为数据传输速度是算力的第一瓶颈。但在他们看来,一个房间之隔的距离就能带来光纤传输上几个纳秒的延迟,这非常不能忍。所以我们要把光纤缩短,能用一米长绝不用两米。再比如,他认为大模型的训练可用数据在10T~50T token之间,也许你能获得更多数据,但通过清洗后会回归到这个数值范围;模型的规模受限于数据,所以他同时推断,100B-500B会是大模型的主流参数量。最重要的是,他还指出,很多人都提出要建立垂直模型来解决特定领域的问题,但经过他们长时间的研究,发现这是一个伪命题。他们发现,如果一个模型要在知识面评测上赢过通用模型,首先要在通用智能的评测上和通用模型几乎打平。我想这就是为什么Higgs-Llama-3-70B可以“左击Claude3,右打Gemini”。在微调数据中排除了基准测试数据及其训练示例的情况下,仍然在MMLU-Pro和Arena-hard两个高难度基准测试上展现出优于Gemini-1.5-Flash、Claude3家族“中杯”Claude-3-Sonnet以及Llama3-70B-instruct的实力。


除了这些远见之外,我想我们普通人可以借鉴的是他的“打卡式人生”,用他自己的话描述:“我在上海交通大学待了近七年,又在香港科技大学待了两年,后来去了 CMU 待了 5 年,在伯克利和斯坦福大学各待了 6 个月。我也进过大公司,在百度待了两年,在 Amazon 干了 7 年,这是我的第二个创业公司。”他讲述的是自己关于克服深层次恐惧、用延迟满足说服自己接受苦难、在时间沉淀中去满足深层次欲望的逻辑。他表示一个强烈的动机要么来自很深沉、很底层的欲望,要么来自很深的恐惧。要直面自己的欲望,也要直面自己的恐惧,这种恐惧是可以让你抑郁的恐惧,也是让你感受到生死的恐惧。你需要把欲望和恐惧转变成积极向上的动机,这一点很重要,你的动机一定是正确的,符合价值观的,因为逃避、放纵满足不了欲望,也缓解不了恐惧,唯一克服它的办法是,把它变成一个积极向上、符合社会价值的一个动机。如果有什么事这一辈子总要试下的,就趁早。





智见AGI
围绕生成式AI技术的交流社区,与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,助力企业的数字化转型
 最新文章