这段时间搞大模型的血和泪

科技   2024-09-01 12:05   上海  

李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史。

1.按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。
2.实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和商业逻辑。
3.模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babysitting。
4.由于单次实验成本过高,半自动化、自动化评测都不能全信,叠加主观评测的话导致sop严重滞后,所以再留下来了一系列的玄学,中间未解之谜根本没有资源探索。比如说我们经常出现:15天前训练到xxxx个step的那个模型效果是最好的,而且数据和模型版本管理基本混乱,只能靠时间戳+锁死评测关口,结果至上。
5.和硬件的绑定是下一步关键:一方面,供给侧上如果有更强的ASIC来支撑,那训练和推理的成本会进一步降低,探索空间也会扩大;另外一方面,输出侧和硬件绑定是未来(目前具身智能暂时没法用大模型),以及各种可穿戴设备(例如rayban+meta的尝试)。
6.LLM输入侧会进一步扩展到其他模态;例如VLM/VLA输入包含图像和视频信息,我们TableGPT是搞那些结构化数据(包括db、传感器数据etc),还有语音等等。
7.LLM输出侧的扩展是未来啊,除了输出语言、代码、思维步骤,还需要对接各类硬件设备的接口、SDK等等,这里的稳定性和工程加工兜底一定是短期内关键中的关键。
8.安全性对齐,或者大模型输出"不出框"的对齐工作,我还是看好那些新的东西,比如说世界模型、Verifier啥的。

后台回复关键词【进群

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模

获取118篇2024最新大模型

代码+论文最全整理

往期推荐

天呐! AI 之王 GPT-6 猎户座 来了!

大模型的基本功

大模型微调到底有没有技术含量

大模型二次开发技术选型思路

我为什么不看好LLM——记过去一年实习经历有感

你好,我是对白,硕士毕业于清华,大厂算法工程师,拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育,保研清华后开始系统接触AI。

我每周至少更新一篇原创,分享AI算法、技术干货和职场感悟。方关注可加我私信交流点击蓝字查看我的算法学习之路

期待你关注我的公众号,我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力!

坚持不易,卖萌打滚求鼓励 (ฅ>ω<*ฅ)

分享

收藏

点赞

在看


对白的算法屋
清华大学硕士,大厂算法工程师。写过书,创过业,做过产品,分享技术、快乐、财富与职场。
 最新文章