纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如「道生一,一生二,二生三,三生万物」一般,赋予模型在各种视觉与语言任务上的生命力。
注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在 GitHub 上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注!
1
缘起
视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域。然而在 2014 年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的 encoder-decoder 模型一下贯通了从视觉内容到语言表达的转换,为 CV 和 NLP 领域的后继者同时打开了一个不同模态交叉融合的新世界。
与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)和语言解码器(Language Decoder)。前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。
1
自洽
各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling)。
在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例,该阶段的研究重心往往是如何从图像视觉内容中解析出更多的高层语义信息,并将这些语义信息融入到视觉编码的过程中,以增强编码器输出的视觉特征表达。这一研究思路也正是我们在前三年一系列工作的脉络,即属性(Attributes)-> 关系(Relation)-> 结构(Hierarchy)。
1
交互
视觉与语言发展的第一阶段自洽可以看做是每个文化独立的发展史,所衍生的算法模型也大多是视觉编码器和语言解码器的简单串联。然而没有一种文化可以在发展中独善其身,互相调和与交互将是必然。因此现今的视觉与语言渐渐步入交互的阶段,目的是促进视觉编码器和语言解码器间的信息交互。
注意力机制(Attention Mechanism)是不同模态间最典型的信息交互手段。它可以通过每一时刻解码器的隐状态来推断当前编码器中需要关注的图像区域,以此帮助编码器更好地理解图像内容。如下图,早期的注意力机制 soft-attention [7] 会依据条件特征 Q(解码器当前的隐状态)与每一个图像局部区域特征 K 的线性融合来获取该区域对应的注意力权重,再将每一个注意力权重作用于局部区域特征 V 实现图像特征的聚合编码。在这两年也涌现了多种升级版本的注意力机制,比如自顶向下的 top-down attention(Bottom-Up [6])、同时捕捉多种注意力的 multi-head attention(Transformer [8])和利用门控进一步过滤注意力的 attention on attention(AoANet [9])。
当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的 CVPR 2020 工作 X-LAN [4] 中打造了一个能实现高阶特征交互的注意力机制 X-Linear attention。它可以利用双线性融合技术去挖掘不同模态间二阶乃至更高阶的特征交互信息,以增强跨模态的内容理解。
同时,该 X-Linear attention 可以作为一个灵活的插件接入到目前流行的各种图像描述生成模型中,极大地提升编码器和解码器在模态内和跨模态间的特征交互能力。我们也在最为权威的 COCO 在线评测系统上对所设计的图像描述生成系统进行测试,在多个指标上均达到世界第一的水平(如下图)。
1
共生
1
结语
好奇心是个人或者组织创造力的源泉,在权威图像描述生成评测集 COCO 上的成绩彰显了京东 AI 研究院在视觉与语言领域的世界领先水平。京东智联云将一面以智能供应链、「新基建」等为抓手,帮助政府、企业、个人进行数字化、网络化、智能化转型,成为了与零售、物流、数字科技组成了京东四大核心业务版图,是京东对外技术与服务输出的核心通道。一面以「ABCDE」技术战略为基础,保持前沿的技术技术研究和好奇心,即「以人工智能(AI)为大脑、大数据(Big Data)为氧气、云(Cloud)为躯干、物联网(Device)为感知神经,以不断探索(Exploration)为好奇心」。
参考文献
[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.
[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.
[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.
[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.
[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.
[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.
[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.
[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.
[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.