“格物”大模型新突破 | 中译语通大规模多语言互译机器翻译模型发布，更小参数规模，更高翻译质量，覆盖81个语种

企业其他 2024-02-21 14:07 北京

日前，中译语通“格物”大模型又实现新突破，GeWuMT-18B模型以机器翻译任务为导向，支持在81个语种之间互译，经专业评测，相较于Meta发布的NLLB-54B模型，格物仅使用了其三分之一的参数量规模，实现了在以中文为目标语言的80个语种的自动评测中平均BLEU值提升超过27%，无论是翻译的流畅性还是准确度，大模型的翻译结果质量又得到了进一步提升。

GeWuMT-18B模型翻译效果与其他在线翻译引擎比较，测评结果如下：

GeWuMT-18B模型翻译效果与准确度

优于其他在线翻译引擎

GeWuMT-18B机器翻译大模型除了在翻译准确度上有明显提升外，对系统运维复杂度和运行的资源需求均有明显的提升。既往的机器翻译引擎每一个语言方向是一个单独的模型，支持80个语种到中文的翻译需要部署80套引擎，大模型实现了一个单一模型支持80个语种到中文的翻译，大大减少了用户使用期间运维支持的工作难度。GeWuMT-18B大模型可以运行在一块80G显存的GPU卡上，实现单机支持80个语种同时运行，对比支持80个语种的双语模型在存储空间和计算资源消耗上至少节省了80%，大大降低了运行成本。

GeWuMT-18B机器翻译大模型实现了技术的完全自主可控，摆脱对国外商用机器翻译模型的依赖，提升了数据安全性，尤其是对国防军事、金融、科技等敏感领域意义重大。同时对于构建自主可控的语言生态体系，提升国家文化软实力也有着重要意义。大模型针对特定任务和语种进行定制化训练，翻译质量显著提升，满足垂直领域的高精度翻译需求。

中译语通团队深入分析了包括GPT4、Google Gemini、NLLB-54B等在内的多个大模型的成功之处，并在自主可控的机器翻译大模型上进行了一系列不懈的技术创新尝试。对所用数据以及训练方法进行优化，显著提升了模型的翻译能力。

与其他在线翻译引擎不同，本次中译语通发布的GeWuMT-18B模型在训练方法上，采用了基于MoE（混合专家模型）的Transformers encoder-decoder框架，为容纳80个外文语种共设置了40个专家，在鲁棒性、分布式训练、多语言增量训练等技术上都取得了一定的突破。基于交叉熵对训练数据进行重采样，确保在每一个数据分片上的训练均有一定的正向收益。再者，训练数据也是决定大模型质量好坏的关键因素之一，借助中译语通拥有的国内最大高质量平行语料库的优势，在百亿平行语料和千亿单语数据库中进行精选，最终精调使用了约40亿高质量平行语料与单语数据用于此次新模型的训练。

为了保证质量与效能我们使用了多种训练和调优方式：

星环状混合专家系统

混合专家系统在训练过程中，会有大量时间开销花费在all-to-all通信中，为了进一步缩短训练时间，提升训练效率，中译语通提出了星环状混合专家系统结构，在保障模型训练精度的同时，大大降低all-to-all通信。混合专家系统的引入，提升了模型的容量，同时也利用多语言模型的知识迁移能力，既能保证资源丰富语种翻译性能，又能提升资源稀缺语种的翻译质量。

无监督学习

GeWuMT-18B模型覆盖了包括中文在内的81个常用语种，在这些语种中，不乏如古吉拉特语、马耳他语等低资源的语种，数据资源的缺失直接会使得模型在相关的语言方向上学习不足，导致以该语种为目标语言的译文困惑度较高，甚至出现翻译脱靶（Off-Target）的错误。为了解决这些问题，GeWuMT-18B模型在进行机翻任务训练的同时，利用无监督学习在选定单语数据上进行针对性的单语任务训练，强化模型对低资源语种的语言理解能力，有效降低了低资源语种译文的困惑度，大幅度提升了中到外方向上低资源语种的翻译质量。

数据采样

针对海量数据GeWuMT-18B模型还采用了数据分片训练的策略，为了平衡每个数据分片，凭借基于温度和训练交叉熵的混合采样策略，确保每个数据分片均能对模型训练起到积极作用。这种数据采样的方法，降低了对硬件显存和内存的需求，同时也便于针对训练的效果及时调整训练数据。

中译语通自2014年启动机器翻译的研发工作，持续致力于自主可控的人工智能机器翻译引擎研发，历经了统计机器翻译、神经机器翻译到今天基于大模型的机器翻译。在2020年承担了科技部2030重大专项“以中文为核心的多语种自动翻译研究”，在2021年承担了工信部揭榜挂帅任务“超大规模多语言通用机器翻译系统”，同时也承担了云南省科技厅的“以中文为核心的超大规模神经机器翻译模型研究及产业应用”项目。基于这三个项目形成的相关经验为中译语通在超大规模多语言机器翻译技术方面积累了坚实的技术基础。在WMT2022和2023年度的评测中，以大规模多语言模型为基础，累计获得了7个语言方向的自动评测冠军，在行业中名列前茅。

格物人工智能平台

中译语通于2021年启动研发跨语言、多模态大模型技术，并在2022年11月发布“格物”大模型。该大模型涵盖了四种模型，包括多语言预训练模型、多语言机器翻译超大模型、多模态预训练模型和多语言生成式对话大模型。中译语通“基于多模态思维链推理的可控内容生成大模型技术研究及示范应用”课题主要针对中文文本、图像、音频和视频四模态对齐语料匮乏、四模态单一模型架构能力受限、应用时效性差等问题，突破多模态思维链的内容理解与可控生成技术，研发支持基于多模态思维链的四模态任意模态输入输出大模型，并在国防、政务、科技和金融等领域开展示范应用。同时，中译语通参与了《大规模预训练模型技术和应用评估方法第一部分：模型开发》、《大规模预训练模型技术和应用评估方法第二部分：模型能力》和《大规模预训练模型技术和应用评估方法第四部分：模型应用》的标准起草编制工作。

2024年1月，中译语通连续第三次被美国国防部列入“中国涉军企业”制裁清单。这更坚定了公司在人工智能领域创新发展的决心。中译语通将进一步加大在大模型数据和基础研发的投入，并致力于大模型的行业落地以及国产化适配，为国防军事、国家安全和政府等关键领域用户构建可适应复杂场景的自主、安全、可信的私有大模型技术与应用，持续铸造国家战略科技力量。

责编｜宣羽
审核｜肖英 / 李洁 / 郑松山 / 宗浩

复审 | 李月

终审｜王丹颖

http://mp.weixin.qq.com/s?__biz=MjM5MjM2NzU3NA==&mid=2650559676&idx=1&sn=8631210da0bce368ea5b57015dc40e15

中译语通GTCOM

大数据和人工智能高科技公司

最新文章

要闻丨中译语通语言科技全面保障第七届进博会

要闻 | 中译语通“格物多模态生成式大模型算法”通过国家网信办算法备案

要闻 | 中译语通国家重大项目建设在京启动

要闻 | 中译语通大模型出海阿联酋第44届海湾信息技术展

要闻 | 中译语通语言科技助力“一带一路”国际智库合作论坛

要闻 | 中译语通科技股份有限公司与中国人民公安大学签署战略合作协议

要闻 | 中译语通语言科技保障2024WTT中国大满贯赛事

中国对外翻译有限公司召开经营工作分析会议

要闻 | 中译语通“格物”大模型亮相第十四届中国国际数字出版博览会

要闻 | 中译语通出席CCKS 2024第十八届全国知识图谱与语义计算大会，展示“格物”大模型最新成果

要闻丨中译语通陕西公司与中国联通西安分公司签署战略合作协议

要闻 | 中译语通语言科技助力2024浦江创新论坛开放合作

要闻｜中译语通语言科技助力青岛建设现代化国际大都市

要闻 | 中译语通高质量完成2024数博会语言科技保障工作

要闻 | 贵州省委书记徐麟会见中国出版集团董事长、党组书记黄志坚一行

要闻 | 中国出版集团与贵州省政府签署战略合作协议

要闻｜中译语通与贵阳大数据科创城产业发展投资基金增资协议签约仪式举行

要闻 | 中译语通与贵阳市政府、贵安新区管委会签署战略合作协议

要闻 | 于洋出席2024数博会“数字经济高质量发展供需对接会”

要闻 | 于洋出席“数智传媒融通世界”论坛，谈大模型驱动下的全球认知传播

要闻 | 中译语通语言科技助力2024上海书展，携手赓续城市文脉

要闻 | 中译语通再获工业和信息化部人工智能“揭榜挂帅优胜单位”

要闻 | 贵州省委书记徐麟会见中国出版集团总经理常勃一行

要闻 | 常勃与贵州省常委、贵阳市委书记胡忠雄举行工作会谈

国家标准《人工智能知识图谱知识交换协议》及《人工智能知识图谱应用系统第2部分：性能要求与测试方法》编制会成功召开

要闻 | 冈比亚最高伊斯兰理事会主席艾萨·达博一行访问中译语通

要闻 | 中译语通出席“中国—金砖国家人工智能发展与合作中心”启动仪式

要闻 | 中译语通科技股份有限公司2023年度股东大会在京召开

要闻 | 中译语通代表团访问老挝人民民主共和国，全面推进人工智能战略合作

要闻 | 石景山区政协主席田利跃带队调研中译语通

要闻 | 中译语通科技股份有限公司乔迁入驻首钢园

中国出版集团总经理、党组副书记常勃同志出席中国对外翻译有限公司乔迁新址活动

要闻 | 于洋出席2024蒙特雷论坛，共话人工智能与翻译行业的未来

要闻 | 中译语通语言科技护航2024中关村论坛，助力面向全球交流合作

要闻 | 中译语通与阿中合作与发展协会达成战略合作，聚力推进中东战略

重磅！《创新引领·国安砺剑》：“十大反间谍案例”专题展播

要闻丨中译语通科技股份有限公司启动Pre-IPO轮融资

要闻 | 中译语通出席2024中国翻译协会年会，分享科技赋能翻译新时代发展成果

要闻 | 中译语通主办2024中国翻译协会年会“语言科技赋能国家战略”主题论坛

要闻 | 中译语通战略签约三家合作伙伴，面向南亚东南亚“走出去”持续发力

要闻 | 中译语通荣膺首批5A级口译服务认证企业，引领语言科技服务行业提质升级

要闻 | 中译语通参与制定《机器翻译伦理要求》等两部团体标准，助力行业规范发展

要闻 | 王剑辉出席2024中国翻译协会年会高峰论坛

相约长沙 | 中译语通成为2024年中国翻译协会年会战略合作伙伴

资讯｜ 2024中国翻译协会年会议程

要闻 | 中译语通与石景山区政府签署战略合作协议

要闻 | 中译语通荣获2023年中国产学研合作创新奖

要闻 | 中译语通亮相中东最大科技展LEAP 2024

“格物”大模型新突破 | 中译语通大规模多语言互译机器翻译模型发布，更小参数规模，更高翻译质量，覆盖81个语种

中译公司首次颁发长期服务奖

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉