李沐：创业一年，人间三年！

文摘 2024-08-22 14:36 北京

本文作者：李沐 CMU，BosonAI 联合创始人‍

▼

给小伙伴汇报一下LLM创业第一年的进展、纠结和反思

在Amazon呆到第五年的时候就想着创业了，但被疫情耽搁了。到第7年半的时候，觉得太痒了，就提了离职。现在想来，如果有什么事这一辈子总要试下的，就蹭早。因为真开始后会发现有太多新东西要学，总感叹为啥没能早点开始。

名字：BosonAI的来源

创业前做了一系列用Gluon命名的项目。在量子物理里，Gluon是把夸克绑在一起的一种玻色子，象征这个项目一开始是Amazon和Microsoft的联合项目。当时项目经理拍拍脑袋名字就出来了，但取名对程序员来说很困难，我们每天都在纠结各种文件名和变量名。最后新公司干脆就用玻色子（Boson）来命名了。希望大家能get到“Boson和费米子组成了世界”这个梗时会会心一笑。但没料到很多人会看成Boston。

“我来波士顿了，找个时间碰碰？” “哈？可我在湾区呀😅”

融资：签字前一天领投方跑路

22年年底的时候想到两个用大语言模型（LLM）做生产力工具的想法。碰巧遇到张一鸣，就向他请教。讨论之后他反问：为什么不做LLM本身呢？我的下意识退缩：我们之前在Amazon的团队做了好几年这个，得上万张卡，和blabla这么一大堆困难。一鸣呵呵表示：这些都是短期困难，眼光得看长远点。

我的优点是听劝，真就去做LLM了。凑齐了数据、预训练、后训练、和架构各方向负责人的创始团队，就去融资了。运气不错，很快拿到了种子投资。但钱还不够买卡，得去拿第二轮。这一轮领头是一家非常大的机构，做了几个月文档、商讨条款。但在签字前一天，领头说不投了，直接导致了跟投的几家退出。很感激剩下的投资方，还是做完了这一轮，拿到了做LLM的入场券。

今天反思的话，当时蹭着资本市场热情还在，其实可以继续融资，说不定也跟其他友商一样，现在十亿现金在手。当时担心融资太多，会不好退出，或者被架到天上去了。现在想来，创业就是想逆天改命，想什么退路呢？

机器：第一批吃螃蟹的人

有了钱后就去买GPU。问各个供应商，统一回复是H100交货得一年以后了。灵机一动，直接给老黄写邮件。老黄秒回说他来看下。一个小时后超微的CEO就打电话过来了。多付了些钱，插了个队，20天后拿到了机器。很荣幸早早的吃到了螃蟹。

螃蟹吃到怀疑人生，遇到了各种匪夷所思的bug。例如GPU供电不足导致不稳定，后来靠超微工程师修改bios代码打上补丁；例如光纤的切开角度不对，导致通讯不稳定；例如Nvidia的推荐网络布局不是最优，我们重新做一个方案，后来Nvidia自己也采用了这个方案。至今我都不理解，我们就买了不到一千张卡，算小买家吧。但我们遇到的这些问题，难道大买家没遇到吗，为啥需要我们的debug？

同时我们还租了同样多的H100，一样是各种bug，GPU每天都出问题，甚至怀疑是不是这个云上就我们一个吃螃蟹的。后来看到Llama 3的技术报告说他们改用H100后，训练一次模型被打断几百次，对字里行间的痛苦，很是共情。

如果对比自建和租卡的话，租三年成本和自建成本差不多。租卡的好处是省心。自建的好处有两个。一是三年后如果Nvidia技术还遥遥领先，那么它能控制价格使得GPU仍然保值😭。另一个是自建的数据存储成本低。存储需要跟GPU比较近，不管是大云还是小GPU云，存储价格都高。但一次模型训练可以用几TB空间存checkpoint，训练数据存储是10PB起跳。如果用AWS S3的话，10PB一年两百万。这钱用来自建的话，可以上100PB。

商业：感恩客户，第一年收支平衡

非常幸运的，我们第一年收入和支出是打平的。我们支出主要在人力和算力上，感谢Openai的财力和Nvidia的瑶瑶领先，这两项支出都挺大的😭。我们的收入来源是给大客户做定制的模型。很早就上LLM的公司大都是因为CEO非常有决策力，他们没被高昂的算力和人力成本吓到，果断的去推动内部团队配合尝试新技术。非常感恩客户给了我们喘气的时间，不然这个几个月我又是奔波在各个投资人那里。

接下来应该会有更多公司才尝试使用LLM，不论是自己产品的升级，还是降本增效。原因是一方面技术成本在降低，另一方面行业领先者（例如我们客户）会陆续放出基于LLM的产品出来，把行业卷了起来。

我们也在关注LLM在toC上的落地。上一波顶流例如c.ai和perplexity还在找商业模式，但也有小十来家LLM原生应用收入还不错。我们给一家做角色扮演的创业公司提供了模型，他们主打深度的玩家，打平了收入和支出，也是厉害的。模型能力还在进化，更多模态（语音、音乐、图片、视频）在融合，相信接下来还会有更有想象力的应用出现。

整体来说行业和资本还是急躁的。今年好几家成立一年多但融资上十亿的公司选择退出。从技术到产品就是一个很长的过程，花2、3年实属正常。算上用户的需求的涌现，可能得花更长时间。我们专注当下在迷雾中探路，对未来保持乐观。

技术：LLM认知的四个阶段

对LLM的认知经历了四个阶段。

第一阶段是Bert到GPT3，感受是新架构，大数据，这个可以搞。我们在Amazon的时候也是第一时间进去做了大规模的训练和在产品上的落地。

第二阶段是刚创业的时候GPT4放了出来，大受震撼。大半原因来自技术不公开了。根据小道消息估算一次模型训练一个亿，标数据成本几千万。很多投资人问我复现GPT4成本得多少，我说3-4亿要把。后来他们中一家真一把投了大几亿出去。

第三阶段是创业的第一个半年。我们做不动GPT4，那就想着从具体的问题出发吧。于是开始找客户，有游戏的、教育的、销售的、金融的、保险的。针对具体的需求去训练模型。一开始市面上没有好的开源模型，我们就从头训练，后来很多很好的模型出来了，降低了我们成本。然后针对业务场景设计评估方法，标数据，去看模型哪些地方不行，针对性提升。

23年年底时，惊喜发现我们的Photon（Boson的一种）系列模型在客户应用上的效果都打赢GPT4了。定制模型的好处是推理成本是调用API的1/10。虽然今天API已经便宜很多，但我们自己技术也同样在进步，仍然是1/10成本。另外，QPS，延时等都更好控制。这个阶段的认知是对于具体应用，我们是可以打赢市面最好模型的。

第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型，但还不是他们理想中的东西，因为GPT4还远不够。年初时发现针对单一应用训练，模型很难再次飞跃。回过头想，如果AGI是达到普通人类水平，客户要的是专业人士的水平。游戏要专业策划和专业演员、教育要金牌老师、销售要金牌销售、金融保险要高级分析师。这都是AGI加上行业专业能力。虽然当时我们内心对AGI充满敬畏，但感觉是避不开的。

年初我们设计了Higgs（上帝粒子，Boson的一种）系列模型。主打通用能力紧跟最好的模型，但在某个能力上突出。我们挑选的能力是角色扮演：扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。24年年中的时候迭代到第二代，在测试通用能力的Arena-Hard和AlpacaEval 2.0上，V2跟最好的模型打得有来有回，在测试知识的MMLU-Pro上也没差很远。

Higgs-V2是基于Llama3 base，然后做了完整的post-training。我们无法像Meta那样花大钱标注数据，所以V2比Llama3 Instruct好，原因应该还是主要来自算法的创新。

然后我们做了个评估角色扮演的评测集，包含按照人设扮演，和按照场景扮演。怪不好意思是自己的模型在自己的榜单上拿了第一。但模型训练中是没有碰评测用的数据。因为这个评测集一开始就是想自用，希望能真实反映模型能力，所以要避免模型overfit数据集。但做评测的同学想写技术报告，所以放出来了。有意思的是，按角色扮演的测试样本来自c.ai，但他们家的模型能力是垫底的。

第四阶段的认知是，好的垂直模型通用能力也不能弱，例如reasoning，instruction following这些能力垂直上也是需要的。长远来看，通用和垂直模型都得朝着AGI去。只是垂直模型可以稍微偏科一点，专业课高分，通用课还行，所以研发成本稍微低一点，研发方式也会不一样点。

那第五阶段认识呢？现在仍在进行中，希望能很快分享。

愿景：人类陪伴

说来惭愧，我们蒙头做技术，给客户做定制，然后再慢慢想我们自己追求什么愿景。我们去看客户想要什么、我们自己想要什么、未来可能需要什么。我自己的话，多年前我憧憬有个机器人保姆能帮我带娃、陪他们，因为干这个我觉得很难，而且也不太理解娃当前的认知和想法。我希望工作上有个非常厉害的虚拟助手能跟我一起发明新的东西。等我老了也想有很有意思的机器人陪着。我对于未来的预测是，生产工具越来越发达，一个人完成之前一个团队才能完成的事情，导致人类更加个体独立，大家都忙着追求自己的事情，从而更加孤独。

这些综合在一起，我们把愿景定成了“人类陪伴的智能体”。一个情商很高的，智商在线的智能体。算换成现实中的人的话，应该会是一个专业团队。例如你想让它陪你玩，那它是专业策划+演员。陪你运动，那么鼓励师+专业运动教练。陪你学习，那么能把你不懂的讲懂。模型的好处是，它能做长期的陪伴，真的了解你。而且可以“真心为你”。

不过目前技术离愿景还挺遥远。当下技术就能陪着聊聊。很多场景下聊得也不是那么好，内容匮乏，智商情商有时都不在线。都是当下要解决的问题。如果有小伙伴做这一块的海外应用，欢迎联系我们。

团队：有挑战的事情得靠团队

创业之后才真正觉得团队的重要性。在大厂的时候，觉得自己是个螺丝钉，团队成员是螺丝，甚至团队也是个螺丝钉。但创业团队就是一辆车。车小点，但能跑，能载重，转弯灵活，各个角落都能去。公司成立不久的时候，米哈游老蔡来看了眼，看见所有人在一间房子里，他感慨说小团队真好。

不方便的地方当然也是有的，时刻要看有没有油，不好走的路得小心别把车震散架了。每个成员都很重要，没有冗余，一个人不给力，就可能是一个轮胎没气。人也宝贵，走一个人就可能少一个轮胎。

以前我选项目会选自己能主导开发的。但这也意味着问题不是很有挑战性。创业选了个很大的问题去做，只能全靠团队了。别看本文里用了大量的“我”，其实工作都是团队做的。没了团队，我可能得转行去卖课了。

个人追求：名还是利？

到目前为止我都靠跟着内心的声音做决定，工作后再去读博、去做视频、去创业。创业需要强烈动机的支撑，才能克服层出不穷的困难。这需要对自己的动机做更深入的分析。

动机要么来自欲望，要么来自恐惧。十年前我可能更热衷名利，但到了现在的年纪，觉得金钱的边际效用已经不高，名声带来的情绪价值也已经很小。我深层的动机来自对生命可能没有意义的恐惧。先不说宇宙的浩瀚，就是在人类的历史长河，一个人也只是一粒沙。意外的到来，迅速的消失。地球上生活过一千亿人，绝大部分人不会在历史上留下痕迹。我家家谱上那些人名，我几乎都不认识。

那么一个人的存在的意义是什么呢？小时候曾因为想不清这个问题而抑郁。所以潜意识里，我想去创造价值，获得存在的意义。我选择“上进”，去提升自己的创造价值的能力；选择录长视频和写教材，创造教育价值；选择去写读博、工作、创业的总结，描述里面的纠结和困难，创造事例的价值；选择去创业，团结很多人的力量去创造更大价值。

后记

「去年跟宿华在斯坦福散步，他拍着我肩膀说：“跟我说句实话，你为什么想创业呀？”当时候不以为然：“就是想换个事情做做”。然后宿华笑了笑。」

「现在我懂了，因为他经历了创业酸甜苦辣。如果今天再来回答这个问题，我会说：“我就是脑子抽了”。但也庆幸当时没想到会那么不容易，所以一头扎进来了。否则，大家看到的可能是「工作十年反思」。我觉得今天我写的故事更有意思些。」

「致敬所有创业人。」

END

AiDD峰会下一站即将于2024年11月8-9日于深圳举办，主题为主题为“AI驱动研发变革，促进企业降本增效”。围绕十五大论坛和一个大厂专场进行内容分享。现议题公开征集中，欢迎大家扫码报名！

点这里↓↓↓记得关注标星哦~

http://mp.weixin.qq.com/s?__biz=MzA5NzE4NDkxMg==&mid=2652106833&idx=1&sn=e7112b30cf3d67858cf8df1425d1577e

中智凯灵

中智凯灵（KeyLink）是国内领先的专业数字人才发展平台，面向科技研发型企业和组织提供数字化人才培养的专属成长地图，数字化转型的方法 + 智库。

最新文章

2024AI+研发数字（AiDD）峰会深圳站圆满收官！

参会指南来啦！AiDD峰会深圳站倒计时3天，期待您的到来！

深入浅出 OpenAI Swarm 源码二：多 Agent 框架调度流程

深入浅出 OpenAI Swarm 源码一：多 Agent 调度框架概念抽象

“AI+工程”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+领域”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

高通骁龙峰会AI又是主角，或将开启终端侧生成式AI新时代

“AI+测试”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+开发”线揭晓| AI+研发数字峰会（AiDD）深圳站携60+前沿实践案例重磅来袭！

从木匠到AI教父：Geoffrey Hinton的传奇之路

恭喜KeyLink嘉宾智库成员陶建辉、朱思语获得2024年“CCF杰出工程师奖”

突发！OpenAI CTO离职，同日奥特曼被曝将获得股权

为什么AI不会夺去软件工程师的工作？

华为云联合中国信通院发布国内首部《智能化软件开发落地实践指南》，引领AI驱动开发新时代

用AI五分钟就能生成一档播客？感觉降维打击了

OpenAI o1 强化学习背后的自博弈（Self-play）方法介绍

OpenAI o1模型凌晨震撼发布，AI界迎来革命性变革

上6休3上3休2……这烧脑的调休安排，国内外AI都算不明白，集体大“翻车”！

大模型如何改变软件开发的游戏规则？

AI重塑软件行业，个人和组织如何实现弯道超车？| AiDD

开发者噩梦！69% 的程序员每周浪费 8+ 小时，技术债是最大“时间黑洞”

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

何小鹏的Model 2，爆单了

“蓝色巨人”在中国的下线，是否标志着科技鸿沟转折点的到来？

李沐：创业一年，人间三年！

AiDD峰会北京站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

2024AI+研发数字（AiDD）峰会北京站圆满收官！

参会指南来啦！AiDD峰会北京站倒计时3天，期待您的到来！

首位获得IEEE TCSE新星奖的中国学者黎立，将受邀出席AiDD峰会发表主旨演讲

上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

GPT-4o的语音模式终于来了！电影《Her》变成现实...

2024“人工智能+”行动第2弹——AiDD峰会北京站即将发射！

AiDD对话马永亮：大模型应用规模化落地的核心是降低定制和优化的门槛

谈一谈LLM在推荐域的一些理解

对话数据科学家巴川：创新勿忘初心，未来属于有温度的AI

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

大语言模型在金融领域的应用:进展、前景与挑战

麦肯锡报告：2030年，哪些行业会衰落？AI首先会取代哪些工作？

AI驱动研发变革，促进企业降本增效！AI+研发数字峰会北京站议题火热征集中

K+峰会上海站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

来自大厂优秀课代表的学习笔记-AiDD峰会上海站

2024K+全球软件研发行业创新峰会上海站圆满收官！

来啦来啦~K+峰会上海站即将发车，请再次确认您手中的“车票”

‘AI+人’访谈录 | 四秩编程路，爱折腾的匠人梦

大模型编码目前最有效的模式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉