从想法到实干，2018年13项NLP绝美新研究

发布时间：2018-12-27 05:46:11 所属栏目：评测来源：佚名

导读：副标题#e# 在即将过去的 2018 年中，自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练，它们为 NLP 注入了新鲜的活力。前一段时间，Sebastian Ruder 介绍了他心中 10 个最有影响力的想法，并且每一个都提供了具体论文与核心思想。正如 Ruder

副标题[/!--empirenews.page--]

在即将过去的 2018 年中，自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练，它们为 NLP 注入了新鲜的活力。

前一段时间，Sebastian Ruder 介绍了他心中 10 个最有影响力的想法，并且每一个都提供了具体论文与核心思想。正如 Ruder 所说，他的清单必然是主观的，主要涵盖了迁移学习和泛化相关的想法。其中有的想法在过去一年非常受关注，大家围绕这些完美的观点展开了很多研究工作与实践。而有的想法并不是当前趋势，不过它们有可能在未来变得流行。因此，机器之心在 Ruder 介绍的基础上，重点关注今年的前沿趋势，并推荐一些真正好用的 NLP 新工具。

在本文中，我们会重点关注 2018 年里的神经机器翻译与预训练模型，这两个概念真的非常 Excited！而后对于实战装备，数百种中文预训练词嵌入向量、BERT预训练模型和建模框架 PyText 等工具真的令人忍不住想做一个新颖的 NLP 应用。

1. 神经机器翻译

在 2018 年，神经机器翻译似乎有了很大的改变，以前用 RNN 加上注意力机制打造的 Seq2Seq 模型好像都替换为了 Tramsformer。大家都在使用更大型的 Transformer，更高效的 Transformer 组件。例如阿里会根据最近的一些新研究对标准 Transformer 模型进行一些修正。这些修正首先体现在将 Transformer 中的 Multi-Head Attention 替换为多个自注意力分支，其次他们采用了一种编码相对位置的表征以扩展自注意力机制，并令模型能更好地理解序列元素间的相对距离。

有道翻译也采用了 Transformer，他们同样会采取一些修正，包括对单语数据的利用，模型结构的调整，训练方法的改进等。例如在单语数据的利用上，他们尝试了回译和对偶学习等策略，在模型结构上采用了相对位置表征等。所以总的而言，尽管 Transformer 在解码速度和位置编码等方面有一些缺点，但它仍然是当前效果最好的神经机器翻译基本架构。

在 Ruder 的介绍中，它非常关注两种无监督机器翻译模型，它们都被接受为 ICLR 2018 论文。如果无监督机器翻译模型是能行得通的，那么这个想法本身就很惊人，尽管无监督翻译的效果很可能远比有监督差。在 EMNLP 2018 中，有一篇论文在无监督翻译上更进一步提出了很多改进，并获得极大的提升。Ruder 笔记中提到了以下这篇论文：

论文：Phrase-Based & Neural Unsupervised Machine Translation
论文链接： https://arxiv.org/abs/1804.07755

这篇论文很好地提炼出了无监督 MT 的三个关键点：优良的参数初始化、语言建模和通过回译建模反向任务。这三种方法在其它无监督场景中也有使用，例如建模反向任务会迫使模型达到循环一致性，这种一致性已经应用到了很多任务，可能读者最熟悉的就是CycleGAN。该论文还对两种语料较少的语言做了大量的实验与评估，即英语-乌尔都语和英语-罗马尼亚语。

从想法到实干，2018年13项NLP绝美新研究

无监督 MT 的三个主要原则：A）两种单语数据集、B）参数初始化、C）语言建模、D）回译。

这篇论文获得了 EMNLP 2018 的最佳长论文奖，它在遵循上面三个主要原则的情况下简化了结构和损失函数。得到的模型优于以前的方法，并且更易于训练和调整。

2. 预训练模型

2018 年，使用预训练的语言模型可能是 NLP 领域最显著的趋势，它可以利用从无监督文本中学习到的「语言知识」，并迁移到各种 NLP 任务中。这些预训练模型有很多，包括 ELMo、ULMFiT、OpenAITransformer 和BERT，其中又以BERT最具代表性，它在 11 项 NLP 任务中都获得当时最佳的性能。不过目前有 9 项任务都被微软的新模型超过。

机器之心曾解读过BERT的的核心过程，它会先从数据集抽取两个句子，其中第二句是第一句的下一句的概率是 50%，这样就能学习句子之间的关系。其次随机去除两个句子中的一些词，并要求模型预测这些词是什么，这样就能学习句子内部的关系。最后再将经过处理的句子传入大型 Transformer 模型，并通过两个损失函数同时学习上面两个目标就能完成训练。

从想法到实干，2018年13项NLP绝美新研究

如上所示为不同预训练模型的架构，BERT可以视为结合了OpenAIGPT 和 ELMo 优势的新模型。其中 ELMo 使用两条独立训练的 LSTM 获取双向信息，而OpenAIGPT 使用新型的 Transformer 和经典语言模型只能获取单向信息。BERT的主要目标是在OpenAIGPT 的基础上对预训练任务做一些改进，以同时利用 Transformer 深度模型与双向信息的优势。

这种「双向」的来源在于BERT与传统语言模型不同，它不是在给定所有前面词的条件下预测最可能的当前词，而是随机遮掩一些词，并利用所有没被遮掩的词进行预测。

此外，值得注意的是，最近微软发布了一种新的综合性模型，它在 GLUE 的 11 项基准NLP 任务中的 9 项超过了BERT，且评分也超过了BERT。除了准确率外，微软的新模型只有 1.1 亿的参数量，远比BERT-Large 模型的 3.35 亿参数量少，和BERT-Base 的参数量一样多。

从想法到实干，2018年13项NLP绝美新研究

在「Microsoft D365 AI & MSR AI」模型的描述页中，新模型采用的是一种多任务联合学习。因此所有任务都共享相同的结构，并通过多任务训练方法联合学习。目前新模型的信息还非常少，如果经过多任务预训练，它也能像BERT那样用于更广泛的 NLP 任务，那么这样的高效模型无疑会有很大的优势。

Sebastian Ruder 非常欣赏 ELMo 的创新性想法，它同样也是今年的论文（NAACL 2018）：

论文：Deep contextualized word representations (NAACL-HLT 2018)
论文链接： https://arxiv.org/abs/1802.05365

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/8

尾页

从想法到实干，2018年13项NLP绝美新研究

1. 神经机器翻译

论文：Phrase-Based & Neural Unsupervised Machine Translation

2. 预训练模型

论文：Deep contextualized word representations (NAACL-HLT 2018)