机械设备多模态声源分离方法研究

JIAN Bin,XIAO Xiao-ping,LI Zi-sheng,ZHANG Kai, YUAN Hao

Computer Technology and Development（2023）

引用 0|浏览0

暂无评分

摘要

针对单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题,提出一种多模态特征融合的机械设备声源分离方法.首先,通过利用多组不同尺度的特征提取层,构建一种多尺度特征提取结构的Res2Net18 网络,以提取机械设备细粒度视觉特征;再用坐标注意力机制模块替换UNet网络中直接跳跃连接,以增强编码器中不同音频特征的空间位置信息表达.其次,将机械设备视觉特征融入混合音频特征中生成对应声源掩码,再利用掩码与混合音频频谱结合得到独立声源频谱,从而实现根据视觉特征分离对应机械设备声源,该方法有效解决了单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题.最后,在机械设备数据集上SDR、SIR和SAR分别达到6.14 dB、8.59dB和18.33 dB,与现有三种多模态声源分离模型进行对比,所提多模态声源分离方法在SDR和SAR均取得最优结果,验证了多模态声源分离方法的有效性.

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要