基于音视频信息融合的目标检测与跟踪算法

HUANG Zhanhua,CHEN Zhilin,ZHANG Hanxiao,CAO Yusheng,SHEN Muhong

Journal of Applied Optics（2021）

引用 0|浏览0

暂无评分

摘要

针对单一视觉跟踪算法易受遮挡影响的缺陷,提出一种基于音视频信息融合的目标检测与跟踪算法.整个算法框架包括视频检测与跟踪、声源定位、音视频信息融合跟踪3个模块.视频检测与跟踪模块采用YOLOv5m算法作为视觉检测的框架,使用无迹卡尔曼滤波和匈牙利算法实现多目标的跟踪与匹配;声源定位模块采用十字型麦克风阵列获取音频信息,结合各麦克风接收信号的时延计算声源方位;音视频信息融合跟踪模块构建音视频似然函数和音视频重要性采样函数,采用重要性粒子滤波作为音视频融合跟踪的算法,实现对目标的跟踪.在室内复杂环境下对算法性能进行测试,结果表明该算法跟踪准确率达到90.68％,相较于单一模态算法具有更好的性能.

关键词

tracking,fusion,detection,audio-visual

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要