从想法到实干,2018年13项NLP绝美新研究
副标题[/!--empirenews.page--]
在即将过去的 2018 年中,自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。 前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他的清单必然是主观的,主要涵盖了迁移学习和泛化相关的想法。其中有的想法在过去一年非常受关注,大家围绕这些完美的观点展开了很多研究工作与实践。而有的想法并不是当前趋势,不过它们有可能在未来变得流行。因此,机器之心在 Ruder 介绍的基础上,重点关注今年的前沿趋势,并推荐一些真正好用的 NLP 新工具。 在本文中,我们会重点关注 2018 年里的 神经机器翻译 与预训练模型,这两个概念真的非常 Excited!而后对于实战装备,数百种中文预训练词嵌入向量、BERT预训练模型和建模框架 PyText 等工具真的令人忍不住想做一个新颖的 NLP 应用。 1. 神经机器翻译在 2018 年, 神经机器翻译 似乎有了很大的改变,以前用 RNN 加上注意力机制打造的 Seq2Seq 模型好像都替换为了 Tramsformer。大家都在使用更大型的 Transformer,更高效的 Transformer 组件。例如阿里会根据最近的一些新研究对标准 Transformer 模型进行一些修正。这些修正首先体现在将 Transformer 中的 Multi-Head Attention 替换为多个自注意力分支,其次他们采用了一种编码相对位置的表征以扩展自注意力机制,并令模型能更好地理解序列元素间的相对距离。 有道翻译也采用了 Transformer,他们同样会采取一些修正,包括对单语数据的利用,模型结构的调整,训练方法的改进等。例如在单语数据的利用上,他们尝试了回译和对偶学习等策略,在模型结构上采用了相对位置表征等。所以总的而言,尽管 Transformer 在解码速度和位置编码等方面有一些缺点,但它仍然是当前效果最好的 神经机器翻译 基本架构。 在 Ruder 的介绍中,它非常关注两种无监督机器翻译模型,它们都被接受为 ICLR 2018 论文。如果无监督机器翻译模型是能行得通的,那么这个想法本身就很惊人,尽管无监督翻译的效果很可能远比有监督差。在 EMNLP 2018 中,有一篇论文在无监督翻译上更进一步提出了很多改进,并获得极大的提升。Ruder 笔记中提到了以下这篇论文:
这篇论文很好地提炼出了无监督 MT 的三个关键点:优良的参数初始化、语言建模和通过回译建模反向任务。这三种方法在其它无监督场景中也有使用,例如建模反向任务会迫使模型达到循环一致性,这种一致性已经应用到了很多任务,可能读者最熟悉的就是CycleGAN。该论文还对两种语料较少的语言做了大量的实验与评估,即英语-乌尔都语和英语-罗马尼亚语。 无监督 MT 的三个主要原则:A)两种单语数据集、B)参数初始化、C)语言建模、D)回译。 这篇论文获得了 EMNLP 2018 的最佳长论文奖,它在遵循上面三个主要原则的情况下简化了结构和损失函数。得到的模型优于以前的方法,并且更易于训练和调整。 2. 预训练模型2018 年,使用预训练的语言模型可能是 NLP 领域最显著的趋势,它可以利用从无监督文本中学习到的「语言知识」,并迁移到各种 NLP 任务中。这些预训练模型有很多,包括 ELMo、ULMFiT、OpenAITransformer 和BERT,其中又以BERT最具代表性,它在 11 项 NLP 任务中都获得当时最佳的性能。不过目前有 9 项任务都被微软的新模型超过。 机器之心曾解读过BERT的的核心过程,它会先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是 50%,这样就能学习句子之间的关系。其次随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。最后再将经过处理的句子传入大型 Transformer 模型,并通过两个损失函数同时学习上面两个目标就能完成训练。 如上所示为不同预训练模型的架构,BERT可以视为结合了OpenAIGPT 和 ELMo 优势的新模型。其中 ELMo 使用两条独立训练的 LSTM 获取双向信息,而OpenAIGPT 使用新型的 Transformer 和经典语言模型只能获取单向信息。BERT的主要目标是在OpenAIGPT 的基础上对预训练任务做一些改进,以同时利用 Transformer 深度模型与双向信息的优势。 这种「双向」的来源在于BERT与传统语言模型不同,它不是在给定所有前面词的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测。 此外,值得注意的是,最近微软发布了一种新的综合性模型,它在 GLUE 的 11 项基准NLP 任务中的 9 项超过了BERT,且评分也超过了BERT。除了准确率外,微软的新模型只有 1.1 亿的参数量,远比BERT-Large 模型的 3.35 亿参数量少,和BERT-Base 的参数量一样多。 在「Microsoft D365 AI & MSR AI」模型的描述页中,新模型采用的是一种多任务联合学习。因此所有任务都共享相同的结构,并通过多任务训练方法联合学习。目前新模型的信息还非常少,如果经过多任务预训练,它也能像BERT那样用于更广泛的 NLP 任务,那么这样的高效模型无疑会有很大的优势。 Sebastian Ruder 非常欣赏 ELMo 的创新性想法,它同样也是今年的论文(NAACL 2018):
(编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |