首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

这段时间搞大模型的血和泪

科技 2024-09-01 12:05 上海

李沐大神最近分享了很多，我来舔着脸跟一笔，写下近段时间研发上面的血泪史。

1.按照目前的发展，大部分实验室在LLM上很难搞到百亿以上的参数量了，对更大模型（dense或者MoE）也只能说望而却步了；我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE，并且代价是到明年就是穷光蛋一个。

2.实际落地里面，不可能指望单独一个LLM放在那儿完成任务，不论是多强的模型也不行，尊重工程、产业和商业逻辑。

3.模型本身的迭代重度依赖数据，数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer（+少量mamba、rmkv等，虽然我们没试过），这个点我们反正没资源去纠结了，然后就是玄学N件套比如调参和babysitting。

4.由于单次实验成本过高，半自动化、自动化评测都不能全信，叠加主观评测的话导致sop严重滞后，所以再留下来了一系列的玄学，中间未解之谜根本没有资源探索。比如说我们经常出现：15天前训练到xxxx个step的那个模型效果是最好的，而且数据和模型版本管理基本混乱，只能靠时间戳+锁死评测关口，结果至上。

5.和硬件的绑定是下一步关键：一方面，供给侧上如果有更强的ASIC来支撑，那训练和推理的成本会进一步降低，探索空间也会扩大；另外一方面，输出侧和硬件绑定是未来（目前具身智能暂时没法用大模型），以及各种可穿戴设备（例如rayban+meta的尝试）。

6.LLM输入侧会进一步扩展到其他模态；例如VLM/VLA输入包含图像和视频信息，我们TableGPT是搞那些结构化数据（包括db、传感器数据etc），还有语音等等。

7.LLM输出侧的扩展是未来啊，除了输出语言、代码、思维步骤，还需要对接各类硬件设备的接口、SDK等等，这里的稳定性和工程加工兜底一定是短期内关键中的关键。

8.安全性对齐，或者大模型输出"不出框"的对齐工作，我还是看好那些新的东西，比如说世界模型、Verifier啥的。

后台回复关键词【进群】

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型】

获取118篇『2024最新大模型』

代码+论文最全整理！

往期推荐

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

大模型微调到底有没有技术含量

大模型二次开发技术选型思路

我为什么不看好LLM——记过去一年实习经历有感

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力！

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

分享

收藏

点赞

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

李沐：大模型发展趋势与个人职业选择

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉