基于编解码器的电力施工场景可控图像字幕生成

YANG Runxia,SHAO Jie,LUO Yan, BAI Wanrong

Power System Technology(2022)

引用 0|浏览3
暂无评分
摘要
电力施工场景图像字幕生成采用基于深度学习的编解码技术理解图像信息,并转换为文字描述输出,从而预警安全隐患,丰富了传统图像分析技术的输出形式.传统图像字幕生成方法缺乏可控性且细节描述不充分,针对电力施工场景图像描述的研究匮乏.为此,该文提出一种基于编解码器的可控图像字幕生成优化方法.引入新的特征提取模型,以FVC R-CNN(faster and visual commonsense region-convolutional neural network)模型作为编码器,提取图像的显著特征和视觉常识特征,并改进激活函数以得到改进的基于M-tanh的长短时记忆(M-tanh long short-term memory,MT-LSTM)神经网络用于特征解码,最后通过多分枝决策策略优化输出.在Ubuntu16.04和PyTorch深度学习框架下对电力场景描述数据集进行了训练和测试,实验结果表明图像字幕生成准确率不仅得到显著提高,而且增强了场景描述的可控性,可有力提升电力施工现场的安全管理智能化水平.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要