如何看待自然语言处理未来的走向?

发布网友发布时间：2022-04-23 07:43

我来回答

共1个回答

热心网友时间：2022-06-17 20:59

和CV等领域的融合越来越密切，多模态研究成为热点。融合知识的预训练模型系统。多模态研究是未来重要的研究方向。

多模态研究之前主要是CV的研究者在研究，投的期刊会议大都是CV领域。从Image Caption到后来的Visual Commensense Reasoning，CV领域的很多任务其实都是多模态的，需要考虑自然语言文本等特征。

这些任务传统的解决办法主要是使用图像编码器（ResNet等），文本编码器（RNN等），再加上一些其他的技巧如注意力机制，模型的架构和思路没有很多突破。

从大规模预训练语言模型出现之后（BERT等），多模态研究迎来了新的发展热潮。基于Transformer架构的编码器具有强大的编码能力，近两年来很多关于多模态预训练的工作也开始展开。

多模态预训练模型也是基于多层Transformer架构，文本和图像一起输入模型，通过多头注意力机制让模型充分地学习文本和图像的关联依赖。模型（VL-BERT等）在多模态下游任务上也取得了SOTA的效果。

多模态预训练的工作几乎都是用来解决多模态任务的（或者说一些和自然语言有关的CV任务），很少有工作探索通过多模态预训练帮助自然语言处理任务。

EMNLP 2020复旦大学的一篇工作作出了一些探索《Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning》，通过解耦的结构，通过多模态数据的预训练，帮助解决自然语言理解任务。通过多模态数据帮助自然语言处理会是迈向大一统模型的必经阶段。

聊到多模态，就不得不提到OpenAI的几个工作（Image-GPT，CLIP，DALLE）。DALLE的效果惊艳，但仍然是基于Transformer结构的，采用自回归损失函数的预训练模型。DALLE通过使用单独的生成模型（VQVAE）帮助生成图像。

本质上和上面的多模态预训练模型没有架构上的突破，但是DALLE往前迈了一步，即可以直接通过自然语言生成图像。OpenAI进一步丰富了大家的想象力，结合多模态数据的自然语言处理必将成为未来发展的重要方向。

全部栏目

如何看待自然语言处理未来的走向?