日本的生成式AI大语言模型,有特点有领先

百科   2025-02-12 12:04   日本  

今年春节前后,生成式AI大语言模型在全球科技界再次掀起波澜。中国初创企业、杭州深度求索人工智能基础技术研究有限公司开发的智能助手DeepSeek-V3 在多项评测指标上与美国著名的OpenAI公司开发的GPT-3持平,甚至在某些方面超越了GPT-3。这一成就不仅展示了中国在AI领域的快速进步,也引发了全球对生成式AI大语言模型的广泛关注。

作为一名AI从业者,笔者起初对这一消息持怀疑态度。毕竟,开发大语言模型(LLM)是一项极其烧钱、耗时的工程,每一项投资都以亿美元为单位。怎么可能用数百万美元在短时间内就开发出如此高水平的产品呢?

果然,很快对DeepSeek的各种猜忌便见诸报导。归纳起来主要有两点。其一,是怀疑DeepSeek绕过美国政府的禁令,事先囤积了英伟达的AI芯片;其二,是怀疑DeepSeek “非法” 蒸馏了GPT-3等美国先进AI大语言模型。

对于上述两点猜忌,前者笔者无法求证,后者从技术角度看,使用了蒸馏技术应该属实。蒸馏(Distillation)是机器学习,尤其是深度学习领域中使用的一种技术,旨在将大规模复杂模型(教师模型)的知识转移到一个更小、更高效的模型(学生模型)中。该技术的目的是提高模型的推理速度并减少资源消耗。

蒸馏技术使学生模型能够在保持与教师模型相当或接近的性能的同时,以更少的参数数量和计算资源运行。这对于在移动设备或嵌入式系统等资源有限的环境中实现AI应用尤其有效。

蒸馏技术允许学生模型在训练过程中从教师模型(如GPT)中学习知识,并在训练完成后独立运行。这意味着,一旦学生模型(比如DeepSeek)通过蒸馏技术从教师模型中学到了知识,它就不再需要直接访问教师模型来进行推理或预测。因此,即使未来GPT限制DeepSeek的访问,只要蒸馏过程已经完成,DeepSeink的精度不会受到直接影响。

然而,蒸馏技术只能捕获某一时点的教师模型的知识,而教师模型本身还在不断进化和改进。如果教师模型的新知识无法传递给学生模型,确实可能限制学生模型的进一步发展。换句话说,如果,DeepSeek仅仅是对GPT-3的蒸馏,那么,今后如果GPT-3限制了对它的访问或者禁止蒸馏,那么DeepSeek的先进性将不会保持太久。

DeepSeek是否 “非法” 蒸馏了GPT,目前尚未有确切的报导。蒸馏的合法或合规是一件复杂的事,在得到授权或许可的情况下的蒸馏是没有问题的。而授权的范围以及应用条款,则因应复杂的商务合约,当事者之外不容置喙。这件事的真相到底怎样,将来会有结论。

然而,DeepSeek出色的成绩证明了,通过技术创新和资源优化,完全有可能在较短的时间内开发出高性能、低成本的AI模型。

DeepSeek的成功不仅激励了中国的AI开发者,也为全球的AI行业提供了新的思路。尤其是在日本,多家知名企业和研究机构也在积极开发适合本地需求的大语言模型,以应对日语处理的独特性,并推动AI技术在商业和社会中的应用。

本文将重点介绍日本企业在开发大语言模型方面的最新进展,并通过具体实例展示这些企业在技术创新和应用场景上的独特优势。

1. 富士通:Takane(高嶺)—— 企业级大语言模型的代表

富士通作为日本领先的IT企业,近年来在生成式AI领域取得了显著进展。2024年9月30日,富士通宣布与加拿大AI公司Cohere Inc.合作,推出了企业级大语言模型 “Takane”(高嶺)。该模型基于Cohere的LLM “Command R+” 开发,并结合了富士通在日语处理方面的丰富经验。Takane的核心特点如下:

强大的日语处理能力:Takane在日语理解能力上表现出色,尤其是在日本语言理解基准测试(JGLUE)中,其在自然语言推理(JNLI)和机器阅读理解(JSQuAD)任务中表现优异,超越了其他竞争对手。此外,Takane还继承了Command R+的多语言支持能力,能够处理10种语言,适用于全球化企业的需求。

安全性与隐私保护:Takane设计为在私有环境中运行,确保企业数据的安全性。这对于金融、制造业和国家安全等需要处理敏感信息的行业尤为重要。通过这种方式,富士通解决了企业在使用LLM时面临的数据泄露风险。

定制化与业务适配:富士通提供了针对企业特定需求的定制化服务,企业可以使用自己的数据进行微调,使Takane更好地适应其业务流程。此外,富士通还结合了Cohere的RAG(检索增强生成)技术和自身的“知识图谱扩展RAG技术”,进一步提升了模型的专业性和合规性。

Takane通过富士通的 “DI PaaS” 平台提供服务,与 Fujitsu Uvance 平台整合,帮助企业整合内外部数据,推动数据驱动的业务创新。这一平台不仅提升了企业的生产效率,还为跨部门协作提供了新的可能性。

2. NEC:cotomi系列——高速与高性能并重

NEC是日本另一家在AI领域具有深厚技术积累的企业。2024年4月,NEC宣布推出新一代大语言模型 “cotomi Pro” 和 “cotomi Light”,旨在满足企业对高速响应和高性能的需求。cotomi 系列的核心特点如下:

高速响应与高性能的平衡:cotomi Pro 在性能上可与GPT-4和Claude 2等全球顶级模型媲美,但其响应速度是GPT-4的八分之一。而 cotomi Light 则在保持与 GPT-3.5-Turbo 相当性能的同时,进一步提升了处理速度,适用于需要快速响应的业务场景。

基于实际业务场景的优化:NEC通过分析其内部员工使用生成式AI服务的对话记录,优化了cotomi系列在实际业务场景中的表现。例如,在未进行微调的情况下,cotomi在RAG(检索增强生成)任务中的表现已超过GPT-3.5,而在微调后,其性能甚至超越了GPT-4。

低资源消耗与高扩展性:cotomi系列的设计注重资源效率,仅需1-2个GPU即可运行,降低了企业的硬件成本。这种高效的设计使得cotomi系列能够广泛应用于各类业务场景,从客户服务到文档处理,均表现出色。

3. 国立情報学研究所(NII):llm-jp-3-172b-instruct3——开源大语言模型

日本的国立情報学研究所(NII)是日本在AI研究领域的领军机构之一。2024年,NII宣布公开其开发的大语言模型 “llm-jp-3-172b-instruct3”,这是完全开源的LLM。llm-jp-3-172b-instruct3 的核心特点如下:

完全开源与透明性:该模型的所有训练数据和代码均公开,确保了其透明性和可复现性。这种开源模式不仅促进了学术研究,还为企业和开发者提供了宝贵的资源。

卓越的日语理解能力:在日语理解基准测试(llm-jp-eval)中,llm-jp-3-172b-instruct3 的表现超越了GPT-3.5,展示了其在处理复杂日语任务上的优势。

大规模训练与高效计算:该模型基于2.1万亿个token进行训练,参数量达到1720亿,与GPT-3相当。NII利用日本的高性能计算资源(如AI摆渡云(ABCI))完成了这一大规模训练任务,展现了日本在AI基础设施方面的强大实力。

4. 理化学研究所(RIKEN):Fugaku-LLM——富岳超级计算机驱动

理化学研究所(RIKEN)与多家日本高校和企业合作,利用其超级计算机 “富岳” 开发了日语能力卓越的大语言模型 “Fugaku-LLM”。该模型于2024年5月10日公开,标志着日本在高性能计算与AI结合领域的重要突破。Fugaku-LLM的核心特点如下:

基于超级计算机的高效训练:Fugaku-LLM利用 “富岳” 超级计算机的强大计算能力,完成了大规模的训练任务。这种高效的计算资源使得模型能够在短时间内处理海量数据,提升了训练效率。

专注于日语优化的模型设计:该模型在日语处理任务中表现出色,尤其是在自然语言生成和理解方面,展现了其在日本文化和语言环境中的独特优势。

跨机构合作的典范:Fugaku-LLM 的开发是日本学术界与产业界合作的典范。东京工业大学、东北大学、富士通等机构的共同参与,不仅加速了模型的开发进程,还为未来的AI研究奠定了坚实的基础。

日本企业开发LLM的特点

从上述案例可以看出,日本企业在开发大语言模型时,具有以下几大特点。

日语处理的深度优化:日本企业开发的LLM在日语处理能力上表现出色,能够更好地适应日本的语言和文化环境。

安全性与隐私保护:日本企业特别注重数据安全和隐私保护,尤其是在金融、医疗和政府等敏感领域,提供了高度安全的AI解决方案。

高效计算与资源优化:通过利用超级计算机和高效的模型设计,日本企业在降低计算成本的同时,提升了模型的性能和响应速度。

跨领域合作与开源精神:日本的研究机构和企业之间的紧密合作,以及开源模型的推广,为AI技术的普及和创新提供了强大的支持。

说一千道一万,LLM不是用来看的,是拿来用的。只要能应用于各种场景,解决实际问题。就是好模型。日本企业在开发大语言模型方面展现了强大的技术实力和创新能力。无论是富士通的 Takane、NEC 的 cotomi 系列,还是国立情報学研究所的开源模型,乃至理化学研究所超算驱动的LLM,这些LLM不仅在技术测评的部分指标上达到了国际领先水平,还在实际应用中展现了独特的优势,能够满足特定领域的应用需求。积累了这些实战经验,随着AI技术的不断发展,日本企业有望在全球AI应用领域占据更加重要的地位,推动AI技术在更多领域的应用与普及。

供稿 / 戴维
编辑 JST客观日本编辑部

客觀日本
本公众号由日本国立研究开发法人科学技术振兴机构(JST)亚洲-太平洋综合研究中心(APRC)运营,介绍日本的科学技术与创新信息。社交媒体政策参见:https://www.jst.go.jp/aprc/sns_policy_cn.html
 最新文章