发布网友 发布时间:2022-04-23 07:43
共1个回答
热心网友 时间:2022-06-17 20:59
和CV等领域的融合越来越密切,多模态研究成为热点。融合知识的预训练模型系统。多模态研究是未来重要的研究方向。
多模态研究之前主要是CV的研究者在研究,投的期刊会议大都是CV领域。从Image Caption到后来的Visual Commensense Reasoning,CV领域的很多任务其实都是多模态的,需要考虑自然语言文本等特征。
这些任务传统的解决办法主要是使用图像编码器(ResNet等),文本编码器(RNN等),再加上一些其他的技巧如注意力机制,模型的架构和思路没有很多突破。
从大规模预训练语言模型出现之后(BERT等),多模态研究迎来了新的发展热潮。基于Transformer架构的编码器具有强大的编码能力,近两年来很多关于多模态预训练的工作也开始展开。
多模态预训练模型也是基于多层Transformer架构,文本和图像一起输入模型,通过多头注意力机制让模型充分地学习文本和图像的关联依赖。模型(VL-BERT等)在多模态下游任务上也取得了SOTA的效果。
多模态预训练的工作几乎都是用来解决多模态任务的(或者说一些和自然语言有关的CV任务),很少有工作探索通过多模态预训练帮助自然语言处理任务。
EMNLP 2020复旦大学的一篇工作作出了一些探索《Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning》,通过解耦的结构,通过多模态数据的预训练,帮助解决自然语言理解任务。通过多模态数据帮助自然语言处理会是迈向大一统模型的必经阶段。
聊到多模态,就不得不提到OpenAI的几个工作(Image-GPT,CLIP,DALLE)。DALLE的效果惊艳,但仍然是基于Transformer结构的,采用自回归损失函数的预训练模型。DALLE通过使用单独的生成模型(VQVAE)帮助生成图像。
本质上和上面的多模态预训练模型没有架构上的突破,但是DALLE往前迈了一步,即可以直接通过自然语言生成图像。OpenAI进一步丰富了大家的想象力,结合多模态数据的自然语言处理必将成为未来发展的重要方向。