OpenCoder是一个开放且可复现的代码大型语言模型(LLM)系列,包含1.5亿和8亿参数的基础及聊天模型,支持英语和中文。该模型从零开始预训练,使用了2.5万亿个标记,其中90%为原始代码,10%为代码相关的网络数据,并在450万条高质量示例上进行了监督微调,最终达到了顶级代码LLM的性能。OpenCoder不仅提供模型权重和推理代码,还包括可复现的训练数据、完整的数据处理流程和详细的训练协议,为研究人员提供了一个创新的平台。
参考:
https://github.com/OpenCoder-llm/OpenCoder-llm https://arxiv.org/abs/2411.04905
点个分享、点赞与在看,你最好看~