视觉标签的语义三元组检测模型

WANG Si-han,CHEN Jun-hong,LIN Da-run,LIU Wen-yin,YANG Zhen-guo

Journal of Chinese Computer Systems（2023）

引用 0|浏览21

暂无评分

摘要

本文提出了一种基于视频标签的语音三元组检测模型,目的是从人类语音中识别语义内容三元组,并传递给机器人进行操作.具体来说,本文设计了一个包含语音模块和视频模块的网络框架.在视频模块中,首先利用I3D和Mask R-CNN分别提取动作和物体.随后,两个XGBoost分类器被用于根据动作的类型识别主体物体和受体物体.在提取获得三元组之后,该三元组将被作为软标签用于训练语音模块.在语音模块中,本文引入了多头自注意力模型用于建模语音上下文的相互联系.为了验证方法的有效性,本文将所提出的方法在MPII Cooking 2数据集进行实验,实验结果表明模型能够使用视觉标签作为语音模块的训练标签,并且与其它语音方法相比取得了更优异的性能.最后,该模型被部署到了 UR10e机器人上进行进一步执行验证.

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要