还没写进OKR,微信翻译就做起来了

文摘   科技   2022-08-05 18:06   广东  

|||本文字数约2711字,阅读大概需要9分钟

在互联网行业,OKR是最常用的目标管理工具。如果有一个明确的目标,哪怕不在团队的OKR里,WXGer 也会努力把事情做到极致。

微信翻译 ,就是其中一个。

从无到有再到世界一流,微信翻译的起点并没有自上而下的OKR目标,靠着对神经网络算法的热爱,两支团队从不同起点走到了一起接棒微信翻译,让用户在不知不觉中,享受准确高效的翻译体验。

微信翻译的故事,从一盘围棋开始。


找点好玩的,试试围棋


2016年的朋友圈后台已经非常稳定,在后台架构搭建完毕稳定运行后,朋友圈后台团队的工作量有些「不饱和」,团队中的qinz和伙伴austin关注到了新出现的神经网络算法,趁着这个「空档」开始「摸鱼」,研究起了神经网络算法。

10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,书写了历史,并于2016年1月发表在知名期刊《自然》。

AlphaGo展现出了神经网络算法的强大潜力,在qinz心里留下了深刻印象,Google论文推出来的第一时间,qinz和伙伴们开始照着论文研究如何下围棋。「其实最开始的时候,我们只是好奇。既然都是做机器学习,又有公开的论文,如果我们来做,是否能做得更极致?」


5个月后,一个顶着「金毛狗狗」头像的围棋AI在人工智能围棋比赛上获得冠军,试一试,变成了第一名。这个业余时间完成的项目,让这支年轻的团队证明了自己在神经网络算法上的能力。



研究围棋的同时,团队也在思考这个「游戏」可以如何应用到微信的实际业务中,「有了神经网络算法和机器学习这种新技术,我们或许也能弯道超车,在机器学习擅长的翻译领域追上专业的翻译程序!」四个人组成的年轻团队基于Google刚刚发布的Transformer论文,从0到1打磨出了微信翻译的第一个版本,让微信的中英翻译水平追赶上了谷歌。

2017年10月,知乎上出现了一篇这样的帖子:



翻译团队的开发同学qinz和lynn忍不住在帖子下分享自己的喜悦,伴随着微信新版本的发布,一支不到10人的小团队打磨出来的翻译工具「偷偷」上线了,「在没有任何新闻稿,任何通知的情况下,大家突然发现微信翻译变得丝般顺滑」。


热爱,让微信翻译更好用


微信翻译上线两年后,一支来自中国大陆的研究团队在ACL(自然语言处理领域国际顶级会议)上发表了一篇关于桥接神经网络机器翻译训练和预测的论文,拿下了中国大陆学者在ACL顶会中的第一篇最佳长论文奖。

*ACL:ACL是自然语言处理与计算语言学领域影响力最大、最具活力的国际学术会议之一,由计算语言学协会主办,每年都会有众多顶级学术机构和科技企业如斯坦福大学、谷歌等,在会议上提交在自然语言处理、人工智能、机器学习方面的最新研究成果。

fandong是这篇ACL2019最佳长论文的作者之一,也是这支研究型团队的负责人。在见证微信翻译效果不断提升的三年时间里,他所在的团队仍在不断产出顶会论文,并在两年内夺得了WMT翻译比赛中的5项冠军,让微信翻译在机器翻译业内崭露头角。

读博五年,fandong一直在从事机器翻译领域研究,但加入鹅厂的前两年开始尝试将翻译技术沉淀到业务场景中,但手头的产品用户群体较少,用户对产品感知不是很强烈。两年后,fandong通过鹅厂内部活水加入了微信G模式识别中心,对翻译的热爱依然没有放下。

趁着刚刚加入新团队的空档期,fandong带着四个研究型的实习生做起了自己最喜欢的机器翻译研究,没想到论文发出后,在ACL顶会中获得了头奖。这一年,qinz所在的团队也开始从0到1探索微信推荐系统,以此为契机,fandong正式加入到微信翻译团队,毕业3年,他终于有了一个在机器翻译领域大显身手的机会,过往的技术积累终于能落地到业务里了!

fandong刚刚加入微信翻译团队时,微信翻译已经将中英、英中翻译效果提升到了业内一流水平。在之后的两年时间里,fandong和团队一起使用独立研发的多对多翻译引擎将语言服务能力拓展到了100多个语言方向,其中18个核心语种的翻译准确率已达到世界一流水平。

手里的业务稳健提升,也做出了世界级的科研成果,这是大部分技术同学都期待的理想状态,fandong坦诚自己一路走来并没有什么特别的办法,一定要归纳原因的话就是:「我对翻译的确是有热爱的」。

热爱之外,翻译团队做对了什么?

fandong一直保留着自己做科研的习惯,团队每周都会抽出一块完整的时间互相分享自己所在领域中的前沿学术资讯。最初这个分享会的范围还只是在研究型实习生之间,现在已经拓展到了业务同学,团队成员每周会分享自己近期的idea,团队将不少学术研究或深挖成为论文,或落地到业务问题的提升中。

微信翻译团队研究与业务一直走得很近,论文选题来自于业务中实际碰到的难题,研究成果又会落地在业务场景里。2019年获得ACL最佳长文的论文中所关注的问题——模型训练与推导的「不一致性」导致的「过修复」问题,在实际落地应用时大大提升了翻译引擎的稳健性。

「机器翻译」训练建立于大量的语料库,前些年经常会被网友发现一些奇奇怪怪的翻译词汇,一不小心就可能要上热搜。

为了减少这类翻译bad case的出现频率,翻译团队花了不少时间总结规律,在后台打造了一个反应及时的响应系统。现在,这类奇怪翻译的出现频率已经大大降低,微信翻译即将告别搞笑热搜。

「2017年Google提出Transformer之后,业内都是在此基础上进行提升,大家互相竞争的除了继续在此基础上继续优化,就是看谁能够在业务场景中做得更细致。如果Google操刀针对微信场景来做优化,也可以做得非常好。」fandong谈到技术水准时很谦虚,各家翻译引擎真正的优劣对比还是需要落地到实际的业务场景中。


让好技术在业务里落地


2020年开始,微信翻译团队开始主动寻找公司内适合翻译引擎落地的新场景,陆续在微信生态里优化和上线了图片翻译、输入框边写边译和WebView网页翻译。

偶然的一次机会,翻译团队在微信G外,发现了一个有趣又极具挑战的场景——歌词翻译。

「我们一直有留意到QQ音乐里的外文歌词翻译,私下打听后才知道这些翻译都是由专门的翻译人员完成,我们开始想能不能挑战一下艺术化的翻译。」

无论是机器翻译还是人工翻译,都遵循着翻译家严复提出的翻译理论——「三难原则」,即翻译的三重境界「信、达、雅」。「信」代表着词面的准确,「达」代表着不拘泥字面形式也能翻译通顺明白,「雅」代表着译文本身的简明优雅。

「事实上,就算是人工翻译,大家都不敢说自己达到了雅。我们想着既然有这么一个特别好的「雅」的业务场景,我们能不能做到一个新高度呢?」

翻译团队主动找上了TME(腾讯音乐娱乐集团),QQ音乐负责歌词的团队给予了非常多支持,经过对歌词不同垂直领域翻译的优化,微信翻译在2021年正式「出道」,开始「写词」。


下次在QQ音乐歌词界面看到「以下歌词翻译由微信翻译提供」时,可以好好感受一下用程序写下的诗,这可是目前业内首个歌词翻译引擎,也是唯一一个具备艺术化演绎能力的商用引擎,为QQ音乐节省下来的数千万成本,被写在了TME的2021 Q2财报里。

「我们现在很希望能够让更多人认识到微信翻译是一个好产品,所以这两年在主动寻找很多落地场景,在不同的场景里面锤炼我们的技术。」fandong和伙伴们正在寻找用户在不通场景下的翻译需求,让微信翻译能够服务更多用户。


正如两年前想不到AI翻译还能翻译歌词一样,或许两年后微信翻译就可以让我们畅读外国文学作品。

不管是自研围棋AI的诞生,还是像fandong一样因偶然契机加入微信翻译团队的同学,微信翻译的发展历程中似乎充满了意外。但是这些意外中却有一个共同的必然性:热爱。在微信翻译以外,还有更多微信G的新产品因热爱而生。

抽空试试你一直喜欢却又觉得没机会做的事情,说不定下一个「好产品」就要被创造出来了!


这里是微信G
WXG微信文化官方账号,了解我们的另一面。