基于CNN-Transformer的街景图像分类

Journal of Qingdao Technological University(2023)

引用 0|浏览3
暂无评分
摘要
街景图像具有语义抽象度高、视觉特征难以聚合的特殊性,需要借助全局注意力的参与来完成高质量的分类.作为目前主流的自然语言模型,Transformer可以有效建模全局注意力,但直接用于图像会存在计算参数过大问题.利用图像数据特有的空间信息冗余这一归纳偏置,提出基于CNN-Transformer的模型,用于街景分类任务.首先,使用CNN模块通过压缩空间冗余获得街景图像的紧凑特征表示;其次,利用Trans-former模块的全局注意力机制挖掘不同局部紧凑特征之间的相关性,提取有上下文的聚焦特征;最后,经过视觉词元合并后得到分类结果.实验结果表明:该模型在 3 个街景图像代表性数据集的分类准确率较主流CNN框架有了显著提升,且计算参数仅为主流Vision Transformer模型的 25.62%.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要