融合答案掩码的视觉问答模型

Wang Feng,Shi Fangyu,Zhao Jia, Zhang Xuesong, Wang Xuefeng

Journal of Image and Graphics（2023）

引用 0|浏览0

暂无评分

摘要

目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高.虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象.为此,提出了一种使用答案掩码对预测结果中的无关答案进行遮盖的方法,迫使模型关注问题和答案类型之间的对应关系,提高模型的预测准确率.方法首先对数据集中的答案进行聚类并为每一类答案生成不同的答案掩码,然后使用预训练的答案类型识别模型预测问题对应的答案类型,并根据该模型的预测结果选择相应的答案掩码对基线模型的预测结果进行遮盖,最终得到正确答案.结果提出的方法使用UpDn(bottom-up and top-down)、RUBi(reducing unimodal biases)、LMH(learned-mixin+h)和 CSS(counterfactual samples synthesizing)4种模型作为基线模型,在3个大型公开数据集上进行实验.在VQA(visual question answer)-CP v2.0数据集上的实验结果表明,本文方法使UpDn模型的准确率提高了2.15％,LMH模型的准确率提高了2.29％,融合本方法的CSS模型的准确率达到了60.14％,较原模型提升了2.02％,达到了目前较高的水平.在VQA v2.0和VQA-CPv1.0数据集上的结果也显示本文方法提高了大多数模型的准确率,具有良好的泛化性.此外,在VQA-CPv2.0上的消融实验证明了本文方法的有效性.结论提出的方法通过答案掩码对视觉问答模型的预测结果进行遮盖,减少无关答案对最终结果的影响,使模型学习到问题和答案类型之间的对应关系,有效改善了视觉问答模型答非所问的现象,提高了模型的预测准确率.

关键词

visual question answering(VQA),language priors,answer clustering,answer mask,answer type recognition

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要