基于跨模态相似度学习的端到端不规则文本检索方法

LI Yan, ZHANG Minyi,SU Hanchen, LI Fangfang,LI Binyang

wf(2023)

引用 0|浏览19
暂无评分
摘要
场景文本检索是指从场景中搜索并定位与给定文本相同或相似的文本实例.通过计算机视觉方法实现文本检索可以辅助用户在指定场景中自动找到感兴趣文本,因此被广泛应用于图像安全性审核、图书检索等领域.然而,在某些场景中文本时常呈现弯曲、压缩和拉伸等不规则形态,文本区域提取与匹配面临极大挑战.为了解决这一问题,建立了一个端到端网络模型,将不规则文本提取和跨模态相似度学习统一到一个框架内,利用学习到的相似度对检测的文本实例排序,从而实现对不规则文本的检索.在SVT,STR和CTR三个数据集的实验结果表明,与现有文本检索方法相比,提出的框架在推理速度保持3.7帧/秒的情况下平均准确率比现有最好方法提升1%~3%.为了进一步验证所提方法对于不规则文本检索的有效性,建立了一个新的不规则文本数据集AIDATA,并与STR-TDSL方法进行对比实验,结果表明,在推理速度降低不到20%的情况下可以将平均准确率提升25%以上.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要