日本国立情报学研究所大语言模型研发中心(LLMC)于2024年12月24日宣布,该机构利用2.1万亿词条训练数据,全新训练了一个参数规模与GPT-3的1720亿参数相当的新型大规模语言模型 “llm-jp-3-172b-instruct3” (https://llm-jp.nii.ac.jp/release),并已正式对外公开。
大规模语言模型“llm-jp-3-172b-instruct3”网页截图
该模型包括训练数据在内的所有内容均全部开放,是目前全球规模最大的完全开源语言模型。在衡量语言模型日语理解能力的基准测试 “llm-jp-eval” 和用于NEDO项目GENIAC的 “llm-leaderboard” 评估中,该模型的性能均超过了GPT-3.5。
LLMC基于在数据利用了 “社会创建平台” mdx上完成的130亿规模的语言模型训练,以及通过产综研第二次大规模语言模型构建支援计划,使用AI桥接云(AI Bridging Cloud Infrastructure,简称ABCI)进行的参数规模达1750亿的模型训练试验成果,从而开发出了该模型。
在开发过程中,首先利用由GENIAC项目支持的云计算资源(Google Cloud Japan)对约0.4万亿个标记数据进行了初步训练。之后,又利用通过文部科学省补助金采购的云计算资源(Sakura Internet),进一步完成了约2.1万亿个标记的数据训练与优化。
用于训练的语料库包括约5920亿个日语词条。内容来源包括从整个Web存档CC(Common Crawl)数据中提取和过滤的日语文本、根据日本国立国会图书馆互联网资料收集保存事业(WARP)中抓取的网页数据、以及日语维基百科和科研经费数据库的各研究项目概要文本。
此外,还使用了约9500亿个英语词条(如Dolma等)、约10亿个中文和韩语词条,以及1140亿个编程代码词条。总计训练数据量约1.7万亿标记,额外对日语语料库中的约0.4万亿标记进行了两轮训练。
所开发的模型约有1720亿个参数,模型结构基于Llama2。为优化性能,使用了日语指令数据和13种英文指令数据的日文翻译数据进行调整。
在 “llm-jp-eval v1.4.1” 基准测试中,该模型取得了0.613的分数,超过了GPT-3.5的0.590。此外,在 “llm-leaderboard” 评估中,也取得了0.669的分数,同样超过了GPT-3.5的0.653。
虽然在现有技术条件下,该模型已尽可能地进行了安全性优化,但从技术上完全保证模型的安全性仍存在困难,因此模型有可能在特定输入下输出不合适的内容。
对此,LLMC计划利用本次公开的模型及未来构建的模型,推进大规模语言模型透明性和可靠性相关的研究开发。
原文:《科学新闻》
翻译:JST客观日本编辑部