依赖英文_我们会变得依赖英文_依赖 英文

Facebook AI正在推出M2M-100——第一个多语言机器翻译(MMT)模型,可以在100种语言之间进行翻译,而不用依赖于英语数据。例如,在将中文翻译成法文时,以前的多语种翻译模型都是以中文翻译成英文和英文翻译成法文来进行训练,因为英文训练数据最为广泛。我们的模型将直接对中法数据进行训练,以更好地保留语义。在广泛使用的BLEU机器翻译评估指标上,它比以英语为中心的系统高出10%。

M2M-100可对2200种语言翻译方向进行训练——比以前最好的、以英语为中心的多语言翻译模式多出10倍。部署M2M-100将提高数十亿人的翻译质量,特别是那些说小语种语言的人。

这一里程碑是Facebook人工智能多年来在机器翻译领域基础性工作的一个巅峰。我们就如何为100种语言构建一个更加多样化的MMT训练数据集和模型进行详细的分享。另外,我们还发布了模型、训练和评估设置,以帮助其他研究人员复制和进一步发展多语言模型。

通过机器翻译(MT)打破语言障碍,可以将全世界人们集合起来,为他们提供有关COVID的权威信息,从而成为保护他们免受有害内容侵害的最重要途径之一。如今,我们在Facebook新闻源上平均每天提供200亿次翻译,这要归功于我们最近在小样本机器翻译模型方面的进展,以及在翻译质量评估方面取得的进步。

传统机器翻译系统需要为每种语言和每项任务构建独立的人工智能模型,但这种方法在Facebook上无法有效扩展,因为在Facebook上人们用160多种语言发布数十亿条帖子。高级多语言系统可以一次性处理多种语言,但依赖于英语作为来链接源语言和目标语言之间的桥梁,不可避免的导致准确性的降低。我们需要一套能适应多语种的“英语”。

作为Facebook多年研究机器翻译的一项巅峰之作,我们兴奋地宣布这个重要成果:第一个单一大规模MMT模型,可以直接在100*100个语言方向之间任意切换,而且不用再依赖以英语为中心的数据。这个单一多语种模型与传统双语模型表现一样优秀,甚至比以英语为中心的多语种模式提高了10个BLEU。

为了使用新颖的挖掘策略创建翻译数据,我们构建了第一个真正的“多对多”数据集,包含75亿个覆盖100种语言的语句。我们使用了多种顶级技术来构建一个具有150亿个参数的通用模型,该模型从相关语言中获取信息,支持更为多样化的语言和语法。我们将这个模型在这里开源发布。

构建多语言互译的亿级语料库

构建多对多MMT模型的最大障碍之一是组织大规模高质量的不以英语为中间语言的语句对(也称为平行句)。比如,要想找中文到英文,或英文到法文的翻译数据要容易得多,但如果我们每个方向需要1000万个句子对,那么我们需要为10种语言找到10亿个句子对,为100种语言找到1000亿个句子对。

我们承担了这个有挑战性的任务,建立了迄今为止最具多样性的多对多MMT数据集:跨越100种语言的75亿个句子对。这些是通过对ccAligned依赖英文,ccMatrix,和LASER等积累多年的各种互补数据资源综合挖掘得到。为更好的完成这项工作,我们创建了一个新的LASER 2.0系统和改进的fastText语言识别模型,通过改进开源训练模型和评估脚本提升了挖掘质量。我们所有的数据挖掘资源利用的都是公开可用的开源数据。

尽管如此,即使有如LASER 2.0这样的先进底层技术支持,为100种不同语言的任意对(或4450种可能的语言对)挖掘大规模训练数据也是高度计算密集型的。为了使这种规模的挖掘更易于管理,我们首先关注具有最多翻译请求的语言。因此,我们优先考虑冰岛语-尼泊尔语或僧伽罗语-爪哇语。

接下来,我们介绍了一种新的桥梁挖掘策略,根据语言分类、地理和文化相似性将语言分为14个语言组。我们这样做是因为生活在同一个语言组的国家的人们往往更经常地交流,并从高质量的翻译中受益。例如,一个印度语言组,包括孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。我们系统地挖掘了每个组中所有可能的语言对。

为了连接不同群体的语言,我们确定了少量的桥梁语言,通常是每个群体的一到三种主要语言。在上面的例子中,印地语、孟加拉语和泰米尔语是印度-雅利安语的桥梁语言。然后我们为这些桥梁语言的所有可能组合挖掘并行训练数据。使用这种技术,我们的训练数据集最终得到75亿个平行句子数据,对应2200个方向。由于挖掘出的数据可以用来训练给定语言对的两个方向(例如en->fr和fr->en),我们的挖掘策略可以帮助我们有效地稀疏挖掘,以便在一个模型中最好地覆盖所有100*100(总共9900)个方向。

为了补充翻译质量低的小样本语言数据,我们采用了流行的反译方法。这个方法曾经帮助我们在2018年和2019年WMT国际机器翻译比赛中获得第一名。例如,如果我们的目标是训练一个中法翻译模型,我们首先要训练一个中法翻译模型,并翻译所有单语法语数据,以创建合成的反译汉语。我们发现,这种方法在大规模的情况下尤其有效,可以将数以亿计的单语句子翻译成平行的数据集。在我们的研究环境中,我们使用反译来补充已经挖掘的方向语句训练,将合成的反译数据添加到挖掘的平行数据中。我们使用反译来为以前的无监督方向创建数据。

总的来说,与仅在挖掘的数据上进行训练对比,将桥梁策略和反译数据相结合方法在反译方向上将性能平均提升了1.7 BLEU。伴随着更鲁棒、更高效、更高质量的训练数据互联网项目,我们拥有了建立和规模化多对多模型的坚实基础。

我们还发现在零样本场景下,即没有平行数据可用时,该模型依然有提升的效果。例如,如果一个模型使用了法语-英语和德语-瑞典语的训练,我们就可以在法语和瑞典语之间进行零样本翻译。在一些我们的多对多翻译模型必须在非英语翻译方向上进行零样本翻译的场景中,我们的模型比以英语为中心的多语言模型要好得多。

将我们的MMT模型快速、高质量地扩展到150亿个参数

多语种翻译的一个挑战是单一模型必须捕获多种不同语言和不同脚本的信息。为了解决这个问题,我们看到了扩展模型容量和添加特定语言参数的好处。扩大模型规模对于大样本语言对尤其有用,因为它们拥有更多的数据来对模型额外容量进行训练。最终,我们看到,当将模型大小密集扩张到120亿个参数时,在所有语言方向上平均提高了1.2 BLEU,但之后进一步密集扩张的回报会逐渐减少。密集扩张和特定语言的稀疏参数(32亿)相结合使我们能够创建一个更好的拥有150亿个参数的模型。

我们会变得依赖英文_依赖英文_依赖 英文

为了扩大模型规模,我们增加了转换网络的层数及每层的宽度,发现大型模型收敛速度快、训练数据效率高。值得注意的是,这个多对多系统是第一个利用Fairscale的系统,Fairscale是专门为支持流水线和张量并行而设计的新PyTorch库。我们构建了这个通用的基础设施通过并行方式来容纳无法在单个GPU上运行的大规模模型。我们在ZeRO优化器之上,采用层内并行、流水线并行等方式来训练大规模模型。

但仅仅将模型扩展到数十亿个参数是不够的。未来为了使这个模型更具有可生产性,我们需要通过高速训练尽可能高效地对模型进行扩展。例如,许多现有的工作都使用多模型融合,即训练多个模型并将其应用于同一源语句来生成一个翻译。为了减少训练多模型所需的复杂度和计算量,我们探索了多源自组装模型,即用多种语言翻译源语句以提高翻译质量。此外,我们在LayerDrop和Depth-Adaptive的工作基础上,联合训练一个具有公共主干和不同语言特定参数集的模型。这种方法非常适合多对多模型,因为它提供了一种按语言对或语言族划分模型部分的自然方法。通过增加模型参数来密集提升模型容量(30亿),可以体验到大型模型带来的好处,以及具有针对不同语言设置专门学习层的能力。

多年来,人工智能研究人员一直致力于建立一个可以跨不同任务理解所有语言的单一通用模型。一个支持所有语言、方言和语态的单一模型将有助于我们更好地为更多人服务,使翻译跟得上,并为数十亿人创造平等的新体验。这项工作使我们更接近这一目标。

作为这项工作的一部分,我们已经看到了在预先训练的语言模型、微调和自监督技术方面的惊人的快速发展。这项集体研究可以通过无标签数据,进一步提高我们系统的理解低资源语言文本的能力。例如依赖英文,XLM-R是我们最强大的多语言翻译模型,它可以从一种语言中进行学习,并以最先进的精度执行100种语言的任务。mBART是第一批为跨语言BART任务预训练一个完整模型的方法之一。最近,我们的新自监督方法(CRIS)使用来自于多种不同语言的无标签数据来挖掘跨语言的并行语料,并以迭代的方式训练新的、更好的多语言模型。

我们将继续借助前沿科技的力量改进我们的模型,探索有效部署机器翻译系统的方法,并创建更专业的计算架构,使之投入生产。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注