近日,华东师范大学大模型俱乐部第三次线下研讨会在理科大楼B112成功举办,本次活动吸引了众多对大模型预训练技术充满热情的师生参与。
此次研讨会,我们有幸邀请到了来自小红书的田俊峰老师,为大家带来一场精彩纷呈的知识盛宴,活动现场气氛热烈,座无虚席。田俊峰老师先后在阿里达摩院、小红书等单位工作,有丰富的大模型研发经验,曾从零训练一个类LLaMA 7B性能的大模型。本次报告,田俊峰老师以“大模型预训练技术”为主题,深入浅出地为大家从数据和算法两个角度讲解了大模型预训练技术的核心要点。
田老师首先强调了数据在大模型预训练中的关键作用。他指出,数据量并非越多越好,而是要恰到好处,既能充分发挥模型的能力,又避免不必要的计算资源浪费。同时,数据的分布至关重要,高质量的子集和广泛的中等质量数据集相结合,通过巧妙的混合方式,为模型提供全面且多样的信息。此外,确保数据的合规性,清除个人信息和不合规内容,也是构建优质数据集不可或缺的环节。
在训练方面,田老师着重阐述了可复现性、稳定性和训练加速的重要意义。通过精心设置随机种子、严格管理库版本和模型版本,以及合理配置各项参数,确保每次训练结果的一致性和可靠性。为了保障训练过程的稳定,设计了一系列精准的监控器,实时观察模型的状态,及时发现并解决可能出现的问题。而在训练加速方面,创新地运用了先进的技术和策略,充分挖掘算力的潜力,大幅提高训练效率。
评估环节同样不容忽视,田老师介绍了多种科学有效的评估方法,包括关注预训练过程中的各项关键指标,通过设计丰富多样的 benchmark 任务,如续写、填空等,以及在下游进行严格的验证,全面、客观地评估基座模型的性能。
在互动交流环节,由周杰老师主持,参会者们积极提问,问题涵盖了开源框架的选择、训练所需的资源估算、不同领域数据的处理方式、如何保障数据质量、应对训练中的灾难性遗忘、优化数据迭代策略、大模型在医疗领域的应用以及新兴的合成数据等热门且关键的议题。田老师耐心解答,与大家共同探讨,现场思维的火花不断碰撞。
此次研讨会不仅为大家提供了一个学习和交流的平台,更促进了大模型预训练技术在学术和实践领域的深入探索。它让我们更加清晰地认识到,大模型预训练技术虽然充满挑战,但也蕴含着无限的可能。未来,华东师范大学大模型俱乐部将继续举办更多高质量的研讨活动,为推动大模型技术的发展贡献力量。让我们携手共进,在大模型的世界里不断探索前行!