YOLOv3-tiny的硬件加速设计及FPGA实现

Computer Engineering and Science(2021)

引用 0|浏览10
暂无评分
摘要
YOLOv3-tiny具有优秀的目标检测能力,但模型所需的计算力依然较大,难以实现面向嵌入式领域的应用.提出一种YOLOv3-tiny的硬件加速方法,并在FPGA平台上实现.首先,针对网络定点化设计,以数据精度与资源消耗为设计指标,通过对模型中数据分布的统计以及数据类型的划分,提出了不同的定点化策略.其次,针对网络并行化设计,通过对卷积神经网络计算特性的分析,使用循环调整、循环分块、循环展开和数组分割等方法,设计了可扩展的常用硬件计算单元架构.然后,针对网络流水化设计,从层间与层内2个方面进行研究,以层间数据流方向和层内任务划分为基础,设计了一种灵活的流水化计算架构.最后,在XILINX XC7Z020CLG400-1平台上进行实验,结果表明,相较于667 M Hz的单核ARM-A9处理器,加速比高达290.56.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要