作者|刘瑶
AI翻译的前身是机器翻译(Machine Translation),甚至比计算机(Computer)的出现还早一点。
1933年,苏联人特洛伊斯基 (Peter Petrovich Troyanskii) 第一次提出了机器翻译模型,并在1937年展示了一个机器翻译系统,使用的是一种纸带存储设备。他也并不是要研究自动化技术,而是要撰写苏联大百科,但是翻译真的很痛苦。
但让机器翻译真正崛起的是人工智能技术,尤其是深度学习解决了大量传统技术难以解决的问题,让AI翻译技术得以大面积使用。
当大模型浪潮来临,AI翻译也第一时间成为了大模型应用的热点。毕竟,实现全球无障碍沟通是一个太有想象力方向,这背后意味着机会,也意味着生意。
AI翻译市场,也成为了卷王必争之地。本文,「甲子智库」将盘点市场上的卷王及其特点,并结合细分场景分析市场中的中国企业,应如何提升自身产品和服务的能力。
1.大模型加持的AI翻译:卷王必争之地
AI翻译其实并不是什么新需求和新产品,甚至可以说从2015年的那一轮AI大规模应用开始,就是卷王必争之地。
根据中国翻译协会发布的《2024中国翻译行业发展报告》,全球翻译行业产值增速稳定,2023年市场规模约551亿美元;并且国内经营范围中含有“机器翻译与人工智能翻译”业务的企业数量保持快速增长,其中广东企业占比最高;8成以上翻译企业积极拥抱大模型技术,7成以上相关院校开设有机器翻译相关课程。
在互联网淘汰赛中获胜的互联网大厂几乎都有自己的一款翻译产品,在上一轮AI浪潮中脱颖而出的人工智能企业也都有自己的翻译产品。
这类企业不仅有实力(人、钱、卡)推出通用大模型,更是直接推出通用型的AI翻译产品。不一定要成为行业TOP1,但是必须要留在这个牌桌上。即便是不推出专门的翻译产品,推出的AI智能助手等产品依然可以通过提示词交互的方式进行翻译,满足日常的翻译功能。
中国AI翻译市场企业类型示例
同时,这一轮大模型的热潮更是让更多的中国企业看到了创业的机会:刚需、量大、效果好,并且在细分领域有可能弯道超车大企业。
内容相关的领域企业都看到了自己破圈的希望:网文、短剧、营销、法律、财务、新闻…只要是内容涉外服务相关,翻译就得跟上。
这为内容制作相关平台提供增值工具及服务提供了思路。
内容制作平台具备着语料及行业know-how的优势,他们同时往往具备内容制作、渠道分发等产业链上下游资源,单纯地比拼模型能力已经不是唯一答案,提供基于AI翻译效果的产业工具链或者解决方案则可利于不败之地。
此外,相较于海外企业单一标准化的产品(翻译模型+网页/API交互模式),部分工具型产品在更多细分场景去寻找机会,力求让翻译产品更好用,交互性更强,任何的细分的场景都可以更“丝滑”地享受翻译产品,尽量减少文档格式、使用场景所带来的不便。例如沉浸式翻译,并没有自身的AI翻译模型,反而是利用网页翻译场景+浏览器插件入口,提供AI翻译聚合工具服务。
2.细分场景:高性价比的“信达雅”更得人心
在AI火热的当下,“行外人”往往对AI有误会:
- 一是过高估计了“智能”水平,往往觉得AI生成的内容比不上人的专业水准;
- 二是过低估计了“自动化”水平,对AI降低成本的能力认知不足。
AI翻译也不例外,造成这种感觉实际是对于细分场景的混淆。AI翻译的应用场景分为两个大类:- 第一类,专业度高,上下文甚至具备严谨的数理逻辑关系,容错率极低,对于某个术语的错翻、漏翻会造成非常严重的理解偏差,并且会造成相应的损失。例如,学术论文、法律文件、专业书籍、商务沟通、政策文件等翻译,AI翻译仅能作为辅助工具,最终文件需要专业人员做编辑和精校。
- 第二类,娱乐性强,故事性、情绪性的文字占比高,可以有一定的语言文字替换,甚至某些语境是“只可意会,不可言传”的感觉,例如中国内容出海的三驾马车“影视、游戏、网文”。
AI翻译的优势是在第二类场景,因为量大、便宜、迅速。笼统地估测,AI翻译的成本仅为传统翻译公司提供服务价格的十分之一,甚至可以更低。这样的翻译成本让大量的内容制作方跃跃欲试。但无论是多么适合AI翻译的场景,最终用户也并不关心是内容制作方是如何完成的翻译,而是要看翻译的效果——语言文字的精髓有没有被清晰传递,也是大量内容制作方对于AI翻译的顾虑。因为这要求AI翻译实现之前所有机器翻译都没有完成的工作——达到人工翻译服务的中位数水平,甚至更高。这对中文内容的翻译要求更难,毕竟对于老外来讲:每一个成语都可以是一个500字的故事压缩包。对于中国科技公司来说,反而是头一次具备了语言上的优势。总体来说,中国的科技企业从两个大的方向去提升自身产品或者服务的能力:通过专业的领域的高质量数据去不断训练垂类模型,让垂直模型能力不断去逼近AI模型的能力天花板,实现批量内容的AI处理,不再依赖最终人工的精校和编辑。根据公开资料,阿里国际针对跨境电商的多语 Marco翻译大模型建立在高质量且大规模的多语言数据,并且在 40 多个场景中测试了AI技术,并支持50万中小商家优化1亿款商品。例如中国卖家熟悉的“光腿神器”单品,终于可以让AI翻译成“The bare leg artifact”,而不是简单粗暴的直译:“A magical tool for bare legs”。而拥有大量网文资料的阅文集团黄琰曾公开表示“阅文妙笔”的AI翻译功能已经让中国网文“一键出海”成为现实。约9成的网文均可通过大模型进行翻译,阅文约30%的海外收入来自于AIGC和大模型的翻译,同时借助于大模型的翻译,阅文在海外更加容易进入到小语种市场。这就需要“阅文妙笔”翻译大模型深入地了解网文的世界观,结合阅文内容专家及多语种翻译专家的领域知识和经验不断训练,实现模型对网文的整体翻译风格、专业词库及场景用词的统一处理。第二,规划大模型翻译的工作流,更符合具体内容细节的翻译要求。面对AI翻译模型的能力上限,中外产品往往采取了不同的产品路线。以DeepL为例,虽然是全球最早一批提供翻译类垂直模型的公司,但是更愿意提供通用性,标准性的产品,垂类场景的使用交给用户自身。中国的科技企业除了提升自身的模型能力之外,往往会在内容制作流程上更花心思,来弥补大模型的天然不足之处。例如中国的短剧内容出海,需要让外国观众快速理解中国短剧文化特色的台词,否则就无法在短视频平台吸引流量。因此AI内容创意平台小影科技除了自研模型,专业术语库方面,在大模型短剧翻译的工作流方面也做了一些调整。以下为例:在翻译处理之前,教会“大模型”看剧:让大模型先理解短剧的套路,然后大模型对于角色的台词风格、场景术语、故事情节都设置一个大的前置条件,不让观众看到翻译后出戏。可以理解为,如果大模型认为这是武侠剧,就按照武侠剧的风格翻译,如果是都市剧,则按照都市剧的风格翻译。
在翻译中,进行内容的重组和还原:中文台词中往往有大量的短小断句,而英文或者其他小语种的台词往往不去这样表示,那么小影科技将断句合成长句之后,再去进行翻译,这就保证了中文台词翻译后不会造成本地化的语言差异。
大模型的翻译差异
LanguageX团队负责人李光华(David)在2023年便提出过AI翻译领域,让AI的工作归AI,人类的工作归人。AI翻译工具提供更多辅助专业译者的功能,而不是简单的自动翻译。例如LanguageX支持交互式翻译,译者在翻译一句话时,LanguageX可以把译文作为一个提示显示在下方,译者修改翻译,LanguageX会重新生成一遍,避免来回剪切粘贴造成专业译者的思路打断。并且可以基于专业翻译者积累的数据去训练个性化的翻译引擎。这样的翻译工具理念可以很好地处理B端客户对于专业翻译的工具要求,快速协作企业完成大量专精内容的多语言稳定、准确的翻译工作执行。3.内容大航海时代:启动!
看上去,没有内容出海的需求,似乎就没有AI翻译的市场需求。但有没有另一种可能,是AI翻译让内容有机会可以大规模地出海?对于出海内容制作来讲,翻译只是其中一个环节,同时AI翻译也只是翻译流程中一个环节。完整的翻译工作往往还包括对于客户翻译场景需求的理解、不同文档格式的处理(包括常规的word、pdf、ppt格式),另外包括专业文件的写作规范,字幕、脚本等多种格式的处理,对用词的统一管理。翻译环节是不少内容出海项目的木桶最短板,但其也可能是项目成本的放大器。木桶最短板很好理解:翻译质量直接影响出海的效果,翻译时间直接决定项目的时间。成本的放大器是往往被人忽略的一点:内容出海,并不止要翻译一种语言。每多一种语言就需要加上一倍的成本,并且人工参与的小语种翻译服务更为昂贵。如果没有AI参与翻译,内容出海实在是太贵了。AI翻译在内容制作环节中的作用
另外一个反直觉的残酷现状:仅占3%爆款内容并没有公式,需要通过大量试错跑出来,只有爆款才值得投入重金营销,只有爆款才能撑起来短剧市场的营收。而工业化生产的爆款内容又很容易被市场厌倦,这个流程需要反复投入。一部国内短剧的制作成本仅为20-50万元,这样低内容成本出海筛选爆款,必须也只能采用AI翻译的方式。其他内容出海的方式也同理,在一个工业化生成影视、营销、文字内容的今天,内容出海必须依靠AI翻译支撑。从另外一个角度看,AI翻译不仅在实现工业化的内容制造,也让每个普通人都能去自由的阅读和翻译。AI翻译的成本不断降低,UGC(用户生产内容)的内容翻译能力头一次可以和PGC(专业生产内容)不相上下。一个人即便不精通外语,甚至不懂外语,也可以对全球的内容,无论是视频内容、文字内容也好,进行大量的二次创作、剪辑,并且向全球的内容市场进行分发。