本文涉及到的详细测试代码和测试步骤放置于:
https://github.com/davidsajare/david-share.git
下的:Deep-Learning/Nanotron,本文中不再赘述代码实现。
欢迎给repo点亮Star,您的点赞是作者持续创作的动力。
最近HF发布了一个预训练框架,试了一下,符合HF一贯使用便捷、功能强大的特点。
目前Nanotron已经支持多种并行技术:
而且它的roadmap也都是很实用的功能。个人感觉FSDP很快就会集成。
安装比较简单,参照repo安装步骤。
我的实验环境是单卡H100,所有稍微修改了一下example脚本,然后预训练tiny_llama.
#CUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=1 run_train.py --config-file examples/config_tiny_llama-david.yaml
具体脚本和代码见github repo.