技术科普 | LLM改变MT，编码器-解码器模型揭示翻译秘诀！

文摘 2024-11-12 07:01 陕西

人工智能翻译中的

解码器模型与编码器-解码器模型初探

Large language models (LLMs) have changed the game for machine translation (MT). LLMs vary in architecture, ranging from decoder-only designs to encoder-decoder frameworks.

大语言模型（LLM）改变了机器翻译（MT）的面貌。大语言模型的结构各不相同，既有解码器结构（decoder-only），也有编码器-解码器结构（encoder-decoder）。

Encoder-decoder models, such as Google’s T5 and Meta’s BART, consist of two distinct components: an encoder and a decoder. The encoder processes the input (e.g., a sentence or document) and transforms it into numeral values that represent the meaning and the relationships between words.

编码器-解码器模型，如谷歌的T5模型和Meta的BART模型，由编码器和解码器两个部分组成。编码器处理输入的内容（如一个句子或文档），并将其转换为表示词义和词与词之间关系的数值。

This transformation is important because it allows the model to “understand” the input. Then, the decoder uses the information of the encoder and generates an output, such as a translation of the input sentence in another language or a summary of a document.

这一转换非常重要，因为它能让模型“理解”输入的内容。接着，解码器利用编码器的信息生成输出，比如输入句在另一种语言中的翻译或一份文件的总结。

As Sebastian Raschka, ML and AI researcher, explained, encoder-decoder models “are particularly good at tasks where there is a complex mapping between the input and output sequences and where it is crucial to capture the relationships between the elements in both sequences” — such as translating from one language to another or summarizing long texts.

正如机器学习与人工智能研究者塞巴斯蒂安·拉施卡（Sebastian Raschka）所说，编码器-解码器模型“尤其擅长完成输入和输出序列之间存在复杂映射的任务，以及非常需要捕捉住两个序列中元素之间的关系的任务”——比如，从一种语言翻译成另一种语言或总结长文本。

In contrast, decoder-only models, like OpenAI’s GPT family models, Google’s PaLM, or Meta’s Llama, consist solely of a decoder component. These models generate an output based on the input by predicting the next word or character in a sequence based on the previous words or characters, without the need for a separate encoding step.

相比之下，解码器模型如OpenAI的GPT系列模型、谷歌的PaLM 模型和Meta的Llama模型仅由一个解码器组成。这些模型根据前面的单词或字符预测序列中的下一个单词或字符，从而基于输入生成输出，无需单独编码。

While they may struggle with understanding complex input structures or relationships, as encoder-decoder models do, they are highly capable of generating fluent text. This makes them particularly good at text generation tasks — like completing a sentence or generating a story based on a prompt.

虽然解码器模型可能会像编码器-解码器模型一样，在理解所输入的复杂结构或关系方面遇到困难，但在生成流畅文本方面表现出色。这使其格外擅长生成文本的任务，如根据指令完成一个句子或生成一个故事。

Strengths and Weaknesses

优势和劣势

Researchers have explored the strengths and weaknesses of these architectures. A study published on September 12, 2024, evaluated encoder-decoder and decoder-only models in multilingual MT tasks, focusing on Indian regional languages such as Telugu, Tamil, and Malayalam. In this study, mT5, known for its “robust multilingual capability”, was used as the encoder-decoder example, while Llama 2 served as the decoder-only counterpart.

研究人员对解码器架构和编码器-解码器架构的优缺点进行了探究。2024年9月12日发表的一项研究评估了多语种机器翻译任务中的编码器-解码器模型和解码器模型，重点关注泰卢固语、泰米尔语和马拉雅拉姆语等印度地方语言。在这项研究中，以“强大的多语言能力”著称的mT5模型被用作编码器-解码器模型的示例，而Llama 2模型则作为解码器模型的示例。

The results showed that encoder-decoder models generally outperformed their decoder-only counterparts in translation quality and contextual understanding. However, decoder-only models demonstrated significant advantages in computational efficiency and fluency.

研究结果表明，编码器-解码器模型在翻译质量和语境理解方面总体优于解码器模型。但是，解码器模型在计算效率和流畅性方面则具有显著优势。

This led the researchers to conclude that both architectures have distinct strengths, contributing insights into the effectiveness of different model types in the evolving landscape of MT.

研究人员由此得出结论，这两种架构各有所长，有助于深入了解不断发展的机器翻译领域中不同模型的有效性。

The study’s primary goal was “to advance the field of machine translation, contributing valuable insights into the effectiveness of different model architectures,” according to the researchers.

研究人员表示，这项研究的首要目标是“推动机器翻译领域的发展，为了解不同模型架构的有效性提供有价值的见解”。

Yet, other studies suggest that decoder-only models, when properly fine-tuned, can match or even surpass state-of-the-art encoder-decoder systems.

然而，其他研究表明，解码器模型在经过适当微调后，可以与最先进的编码器-解码器模型相媲美，甚至超越它。

Research from 2023 and 2024 highlighted the advantages of the decoder-only structure over the encoder-decoder one. Researchers pointed out that without a separate encoder, decoder-only models are easier to train since they can efficiently process large datasets by directly concatenating documents. Additionally, their unsupervised pre-training approach allows them to leverage readily available training data, unlike encoder-decoder models, which require paired text inputs.

2023年和2024年的研究强调了解码器结构相对于编码器-解码器结构的优势。研究人员指出，解码器模型没有单独的编码器，更容易训练，因为它可以通过直接串联文档来高效处理大型数据集。此外，与需要输入成对文本的编码器-解码器模型不同，无监督预训练方法使解码器模型能够充分利用现成的训练数据。

The researchers of the latter study, published on September 23, 2024, concluded that “the flexibility and the simpler training setup of decoders should make them both more suitable and efficient for most real world applications,” with the decoder-only architecture being “more appropriate to answer the ever-growing demand for iterative, interactive and machine assisted translation workflow.”

在发表于2024年9月23日的另一项研究中，研究人员总结道，“解码器的灵活性和更简单的解码器训练设置将会使其更适合、更高效地用于大多数实际应用”，解码器结构“更能满足对迭代的、交互的、有机器辅助的翻译工作流程日益增长的需求”。

原文网址：https://slator.com/primer-on-decoder-only-vs-encoder-decoder-models-ai-translation/

图源网址：https://www.dataplugs.com/wp-content/uploads/2019/09/ai_blog1.jpg.webp

特别说明：本文仅用于学术交流，如有侵权请后台联系小编删除。

转载来源：国际翻译动态

转载编辑：何金琳

审核：沈澍、李莹

资讯推荐

大模型技术：翻译领域的颠覆者还是赋能者？

文章推荐

收藏｜翻译专业学生翻译技术学习推荐书目

【01】听说Perplexity改变外语教育？你会用吗？

【02】Microsoft Office和WPS中大语言模型插件初探

【03】国内大语言模型对比——基于翻译问题或翻译案

【04】教你如何使用 Copilot

【05】ChatGPT 和 Gemini 达到专八水平了吗？

【06】国外主流翻译APP

【07】国内主流翻译APP工具

【12】如何创建应用于Trados的术语库？

【13】如何使用Trados建立翻译记忆库？

【14】国内外常见语料工具一览

【15】翻译人员不容错过的5个权威术语库

【16】国内外常见CAT工具一览

【17】AntConc简介及索引工具介绍（一）

【18】Quicker使用技巧

【19】Everything：一款“秒”搜文件的神器

【20】Sketch Engine探索第一弹来袭！

【21】LancsBox：语料库研究者的必备工具

【22】TermWiki：术语检索利器

【23】ABBYY FineReader PDF：文档识别小帮手

【24】ChatGPT + Word = 高效办公

【25】如何利用聊天机器人制作双语术语表

【26】 ChatGPT在译前准备中的应用——术语准备

【27】投喂语料，提升译文质量

【28】（一）结合ChatGPT的译前编辑初探

【29】ChatGPT最新接入word方法（完美debug）

【30】AI外语写作助手，助力高效写作

【31】探索ChatGPT在翻译过程中的应用

【32】中科院学术优化本地部署

如您喜欢我们的内容，欢迎您点赞、在看、转发，更多问题可后台留言小编哦

翻译技术教育与研究

科普翻译技术知识

推动翻译技术应用

促进翻译技术融合研究

后台留言，小编会尽快回复

http://mp.weixin.qq.com/s?__biz=MzIyOTcyODA2Ng==&mid=2247647397&idx=1&sn=7e0c02bff4ac18acadff9244523f3b1b

翻译技术教育与研究

科普翻译技术知识，推动翻译技术应用，促进翻译技术融合研究。

最新文章

AI前沿速览 | 【第32期】大型语言模型：规模扩大不完美？

搜索煮译 | 那些好用的翻译搜索网站

大语言模型 | 大语言模型流行语翻译能力探索

机器翻译译后编辑 | 《人机耦合时代机器翻译译后编辑原则与策略例析》文献推介

外文编译 | 小型语言模型：企业人工智能的颠覆者

翻译竞赛 | 博硕星睿第一届翻译智能体设计大赛：趣玩智译星球，等你来战！

实习招募 | 适合文科生的公益实习平台

译学文献| ChatGPT译文风格生成：评析与思考--张政王赟

活动预告| 2024世界翻译教育联盟（WITTA）人工智能时代的翻译研究与翻译教育创新论坛（二号通知）

技术应用| 谷歌又放大招！炸裂AI神器免费开放！全科私教请回家！

活动回顾| 2024语言服务创新发展国际（厦门）论坛暨中国翻译协会翻译服务委员会2024年会圆满闭幕

实习招募 | 适合文科生的公益实习平台

外文编译 | 小型语言模型：企业人工智能的颠覆者

译学文献 | 曾艳钰：跨学科发展背景下高校外语教育与教师发展

技术科普 | Lingvanex：企业级翻译解决方案

活动预告 | 第23届世界翻译大会论文征集延期通知

期刊动态 | 《中国翻译》2024年第6期目录及摘要

实习招募 | 适合文科生的公益实习平台

机器翻译译后编辑 | 《人机耦合时代机器翻译译后编辑原则与策略例析》文献推介

技术应用 | 9 个 "最佳 "人工智能翻译软件及工具

国际翻译动态 | memoQ领先翻译技术再升级！全面融合AI神器Globalese

活动回顾 | 中外语言文化比较学会知识翻译学专业委员会年会暨第二届知识翻译学学术研讨会召开

实习招募 | 适合文科生的公益实习平台

大语言模型 | 大语言模型流行语翻译能力探索

技术应用 | Coze入门干货教程，手把手教你使用Coze来搭建机器人

活动预告 | 【二号通知】2024·海南国际语言服务产业与人才发展论坛

会议征稿 | 2024世界翻译教育联盟（WITTA）人工智能时代的翻译研究与翻译教育创新论坛（一号通知）

实习招募 | 适合文科生的公益实习平台

技术科普 | LLM改变MT，编码器-解码器模型揭示翻译秘诀！

行业动态 | OpenAI创始人Sam Altman最新访谈解析：AI创业者如何应对OpenAI的崛起与竞争

技术应用 | GraphRouter：用于大语言模型选择的路由器

活动预告 | 数智时代翻译技术融合创新研讨会暨2024中国翻译协会翻译技术委员会年会一号通知

实习招募 | 适合文科生的公益实习平台

搜索煮译 | 那些好用的翻译搜索网站

翻译竞赛 | 博硕星睿第一届翻译智能体设计大赛：趣玩智译星球，等你来战！

技术科普 | AI Agent智能体火爆全网，真的能帮助我们“解脱双手”吗？

翻译技术 | 阿里巴巴自主研发大语言模型 Marco MT 震撼登场！

活动预告 | 数智时代翻译技术融合创新研讨会暨2024中国翻译协会翻译技术委员会年会一号通知

搜索煮译 | 问道大模型：巧用ChatGPT验证术语翻译

活动预告 | 数智时代翻译技术融合创新研讨会暨2024中国翻译协会翻译技术委员会年会一号通知

技术科普 | 高等教育领域内怎样更好地使用AI工具

期刊动态 | 《外国语文》2024年6期目录及摘要

实习招募 | 适合文科生的公益实习平台

技术科普 | 技术翻译服务在当今全球市场中的重要性

活动预告 | 2024语言服务创新发展国际（厦门）论坛暨翻译服务委员会2024年会（二号通知）

期刊动态丨《上海翻译》2024年第6期目录

行业动态 | “首届黑龙江省翻译技术论坛暨国际传播与翻译技术素养提升百校行”黑龙江大学站活动圆满举办

实习招募 | 适合文科生的公益实习平台

机器翻译译后编辑 | 游戏本地化中的机器翻译

技术科普 | 打破障碍：翻译技术对全球商业的影响

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉