排序方式: 共有1条查询结果,搜索用时 15 毫秒
1
1.
为了解决卷积层计算复杂度要求高和硬件网络推理的硬件资源有限造成的硬件部署问题,在基于查找表(LUT)的现场可编程门阵列(FPGA)上搭建了使用整数乘法器和加法树的卷积架构.借助Winograd算法实现卷积乘法优化,降低了计算复杂度.进一步优化基于LUT的算子,以构建处理单元(PE).优化存储流以提高内存访问效率并解决带宽限制,降低数据翻转率以减少功耗.试验结果表明,使用Winograd算法构建基本处理单元可以显著减少乘法器数量并实现硬件部署加速,而处理单元的时分复用提高了资源利用率.与传统卷积方法相比,架构对计算资源实现了2.25倍优化,并将峰值吞吐量提升了19.3倍.由此说明,基于LUT的可配置Winograd网络加速器可以有效解决硬件资源有限造成的部署问题. 相似文献
1