基于预训练模型和编码器的图文跨模态检索算法

CHEN Xi, PENG Jiao, ZHANG Pengfei, LUO Zhongli,OU Zhonghong

Journal of Beijing University of Posts and Telecommunications(2023)

引用 0|浏览1
暂无评分
摘要
目前主流的图文跨模态检索模型架构主要包括基于双编码器和基于融合编码器的模型架构.基于双编码器的架构检索效率较高,但精度不足;基于融合编码器的架构检索精度较高,但效率低下.针对上述模型架构存在的问题,提出一种新的图文跨模态检索算法.首先,提出了一种召回排序策略,使用双编码器实现粗略召回,再使用融合编码器实现精准排序;其次,提出了一种基于多路Transformer预训练模型构建双编码器和融合编码器的算法,实现图文之间高质量的语义对齐,提升检索性能.在2个公开数据集MSCOCO和Flickr30k上的实验结果证明了所提算法的有效性.
更多
关键词
cross-modal retrieval algorithm,pre-trained model,dual encoders,fusion encoders
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要