懂「印度方言」的多语言机翻模型挑战0资源翻译
作者:林泽辉 编辑:好困
据统计,目前世界上存在的语言超过6900种。
《圣经·旧约·创世记》中记载着「巴别塔」的传说:人类联合起来兴建能通往天堂的高塔。
机器翻译的终极使命就是构建人工智能时代的「巴别塔」。
近期,在ACL2021上,字节跳动AI实验室发表了一篇关于多语言机器翻译的论文:Learning Language Specific Sub-network for Multilingual Machine Translation,简称LaSS[1]。
论文:https://arxiv.org/abs/2105.09259
代码:https://github.com/NLP-Playground/LaSS
为了解决多语言机器翻译中最大的挑战之一,即不同语言之间的冲突,论文提出为每个语言对分配专属的子网络从而尽可能减少不同语言对之间的冲突,最终提升模型的表现。
有意思的是,LaSS同时还表现出极强的通用性,能够在保证不影响原来语言对的效果的前提下,在几分钟之内扩展到新的语对并取得相当好的表现。
同时,在最为极端的零样本(zero-shot)的场景下,简单应用LaSS能够大幅提升模型的表现,在30个测试的语言对中获得了平均8.3 BLEU、最高26.5 BLEU的提升。
随着全球化进程不断加快,不同地区之间的交流越发频繁,人们对于利用机器翻译来增进交流的需求越来越强烈。
然而,传统双语机器翻译存在以下几个挑战:
- 传统双语机器翻译只能够将一个语言翻译到另一个语言,对于n个语言之间的互译则需要n×(n-1)个模型,这带来了更大的资源消耗;
- 一个好的机器翻译模型往往需要大量的平行语料作为支撑,而在现实世界中只有常用语向(如英中、英法等)存在大量平行数据,对于小语种(如英-哈萨克),往往只有少量的甚至没有平行语料。
因此多语言机器翻译应运而生,致力于打造一个能够从任意语言翻译到任意语言的大一统模型。
相比双语机器翻译,多语言机器翻译有如下优势:
- 由于使用一个统一模型,相比传统的双语机器翻译,大大减少了部署的成本消耗;
- 研究者发现,多语言机器翻译能够显著提升小语种的翻译表现。
然而,多语言机器翻译也面临着重大挑战,其中最大的挑战是语言之间的冲突(language interference)。
由于不同的语言对共享同一个模型,模型的容量不得不被切分,而这往往会导致不同语言对互相争抢更多的模型容量,造成语言对之间的冲突。
直观上看,每个语言都有语言通用(language-universal)和语言专属(language-specific)的特征。
本文提出的LaSS,以神经网络的最小单位即权重(weight)为单位,对于每个语言对LaSS都为它分配一个子网络,该子网络的参数是模型参数的子集。
不同语言对之间共享部分参数的同时,也保留属于自己的参数。通过这种方法,多语言机器翻译就能够实现在一个模型内同时建模语言通用和语言专属的特征。
相比过去的工作而言,LaSS不引入额外的参数。
总体架构
左边的图(a)表示传统多语言机器翻译模型,灰色代表共享权重,这意味着,图上三个语言对(En-Zh,En-Fr和En-De)都完全共享同一套参数。
上一篇:哈佛大学研究:“看电视”和“不看电视”的孩
下一篇:没有了