今天给大家分享一篇好友知乎@赵俊博 Jake在这段时间搞大模型的心路历程。
作者:@赵俊博 Jake
知乎:https://zhuanlan.zhihu.com/p/716420396
李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史。
1.按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。
2.实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和商业逻辑。
3.模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babysitting。
4.由于单次实验成本过高,半自动化、自动化评测都不能全信,叠加主观评测的话导致sop严重滞后,所以再留下来了一系列的玄学,中间未解之谜根本没有资源探索。比如说我们经常出现:15天前训练到xxxx个step的那个模型效果是最好的,而且数据和模型版本管理基本混乱,只能靠时间戳+锁死评测关口,结果至上。
5.和硬件的绑定是下一步关键:一方面,供给侧上如果有更强的ASIC来支撑,那训练和推理的成本会进一步降低,探索空间也会扩大;另外一方面,输出侧和硬件绑定是未来(目前具身智能暂时没法用大模型),以及各种可穿戴设备(例如rayban+meta的尝试)。
6.LLM输入侧会进一步扩展到其他模态;例如VLM/VLA输入包含图像和视频信息,我们TableGPT是搞那些结构化数据(包括db、传感器数据etc),还有语音等等。
7.LLM输出侧的扩展是未来啊,除了输出语言、代码、思维步骤,还需要对接各类硬件设备的接口、SDK等等,这里的稳定性和工程加工兜底一定是短期内关键中的关键。
8.安全性对齐,或者大模型输出"不出框"的对齐工作,我还是看好那些新的东西,比如说世界模型、Verifier啥的。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注是我坚持的最大动力!
我们的口号是“生命不止,学习不停”!
往期推荐:
一大堆Chinese Llama3正在袭来 LLM2LLM:迭代数据增强策略提升大模型微调效果 如何快速提高大模型的向量表征效果? RAG系统中答案无关片段对LLMs生成答案有何影响? InternLM2技术报告 Qwen1.5-MoE模型:2.7B的激活参数量达到7B模型的性能 RAG与Long-Context之争—没必要争 角色扮演大模型的碎碎念 自我蒸馏方法-减轻大模型微调过程中的灾难性遗忘 Yi技术报告细节分享 大模型增量预训练新技巧-解决灾难性遗忘 如何提高LLMs的文本表征(Text Embedding)能力? DEITA-大模型指令微调的数据高效筛选方法 大模型微调技巧 | 高质量指令数据筛选方法-MoDS 辟谣!微软撤回声称ChatGPT为20B参数的论文,并给出解释。 如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型? 大模型微调技巧-在Embeeding上加入噪音提高指令微调效果 如何从数据集中自动识别高质量的指令数据 BaiChuan2技术报告细节分享&个人想法 大模型LLM微调经验总结&项目更新 打造LLM界的Web UI 是我们在训练大模型,还是大模型在训练我们? Llama2技术细节&开源影响 大模型时代-行业落地再思考 垂直领域大模型的一些思考及开源模型汇总 如何评估大模型-LLMs的好坏?