祝贺实验室博士研究生颜鲲论文被人工智能领域国际顶会AAAI-22接收

近日,人工智能领域国际顶级会议AAAI-2022(CCF-A)传来喜讯,北京大学智能计算与感知实验实验室博士研究生颜鲲同学以第一作者投稿一篇“Inferring Prototypes for Multi-Label Few-Shot Image Classification with Word Vector Guided Attention”的论文被录用,论文指导老师为智能计算与感知实验室主任王平教授。据官方公布,AAAI-2022共收到9022篇投稿,其中接受1349篇,录取率仅为15%,录取难度史上最高。

该论文提出了在多标签小样本图像分类中第一个基于度量学习的方法,可在以下链接查看:https://arxiv.org/pdf/2112.01037.pdf

多标签场景下,一个关键特征就是一张图像对应多个标签,这些标签通常指向了图像的不同区域。因此在基于度量的设置下预测类别的原型时,确定哪些区域与哪些标签相关是至关重要的。但是有限的训练数据使得该任务非常有挑战性。

在论文中,提出了一种使用词向量作为有关标签的先验知识的方法。具体来说,首先使用词向量作为一种有噪音的类别原型,通过多标签分类损失函数约束多模态空间的训练,保证在该共同空间中,具有相同类别信息的不同模态特征距离较近,该过程可见图表1:

image.png

图表 1学习一个共同嵌入空间,在该空间中同时表示图像和标签

其次进一步提出了一种多模态多头注意力机制,将词向量作为query,图像本身的局部特征作为value和key,以此根据不同的词向量提取出有关该类别的局部代表性特征,从而构造出该类别的视觉类别原型。此过程可见图表2:

image.png

图表 2一种用于从支持集相关图像的局部特征中计算类别原型的注意力机制

在该机制中,所考虑的标签词向量起到了查询(query)的作用。将构造出的视觉类别原型作为该类别的分类向量。给出一张查询图像,可以通过简单的余弦相似度函数计算查询图像特征和视觉类别原型的相似分数,该分数作为查询图像对于视觉类别原型对应的类别的分类权重。这种方法在COCO数据集和我们自己新提出的基于PASCAL VOC数据集构造的多标签小样本图像分类数据集上都取得了目前最优的结果。

【AAAI是具有重要影响力的国际学术组织,由计算机科学和人工智能领域奠基人Allen Newell、Marvin Minsky、John McCarthy等学者于1979年共同创立,旨在推动智能思维与行为机制的科学理解及机器实现,并促进人工智能的科学研究和规范应用。AAAI是国际顶级学术会议—AAAI人工智能大会(AAAI Conference on Artificial Intelligence)的组织者。2022年的AAAI人工智能大会将于2022年2月22日-3月1日在加拿大温哥华举办。】


CLOSE