近日,第16届ACM/IEEE国际嵌入式系统会议(Embedded Systems Week,简称ESWEEK)通过线上形式顺利召开。微纳电子系魏少军、尹首一教授团队的论文《面向神经网络处理器的非规则网络结构高效调度技术》(Efficient Scheduling of Irregular Network Structures on CNN Accelerators)获得最佳论文奖。该研究成果大幅提升了神经网络处理器的计算性能,论文第一作者为微纳电子系博士研究生郑时轩,通讯作者为尹首一教授,合作者包括魏少军教授和刘雷波教授等。本论文是中国完成单位首次在人工智能编译优化领域获得国际学术会议最佳论文奖。
随着人工智能算法在边缘设备上的不断普及,以AIoT为代表的嵌入式系统应用对人工智能芯片的性能、功耗、成本、可靠性和可编程性提出了严格而迫切的需求。为此,基于可重构架构、专用指令集架构、存内计算架构等技术的神经网络处理器应运而生。神经网络处理器相比于CPU/GPU等传统架构,将人工智能算法的计算能效提高了1~2个数量级,在移动设备、可穿戴设备、智能传感器等应用场景中获得了广泛的应用。神经网络处理器的应用离不开编译器的支撑,编译器一方面实现了人工智能应用到芯片的自动化部署,另一方面通过优化算法到芯片架构的适配,能够为人工智能应用的执行效率带来数量级的提升。
近年来,深度神经网络的构造正由专家手工设计转向基于神经架构搜索(NAS)的自动调优,NAS带来了人工智能算法识别精度的进一步提升。然而,NAS生成的算法模型具备不可预测的非规则网络拓扑结构,在编译层面表现为错综复杂的数据流图和呈指数增长的解空间,从而对编译器中的表达式优化、算子调度、资源分配、循环优化、自动代码生成等关键技术环节带来了严峻的挑战。这一新问题的解决无法单纯依赖架构和电路设计,而必须针对性地提出一整套编译优化新方法,否则人工智能芯片将面临性能的严重下降,其潜在算力的释放将受到极大的制约。现有的深度学习编译框架(如TVM、TensorRT等)仅针对某些特定模式(如CONV+BN+RELU)进行优化,不具备处理任意网络结构的能力,未能有效地解决这一技术难题。
面向这一问题,魏少军、尹首一教授团队从网络结构特征出发,提出了一套新型深度学习编译优化方法,能够将具备任意拓扑形状的大规模神经网络高效地编译映射到神经网络处理器上,其主要技术贡献如下:(1)针对结构复杂的数据流图,提出了基于计算节点深度聚类的编译方法,对图结构进行复杂度降维和搜索路径生成,进而求解得到具备全局最优特性的图调度方案,其在硬件处理器上表现为多级存储系统间的数据传输开销与额外计算开销之间的最佳平衡,亦即推理计算性能达到最优;(2)针对非规则网络结构导致的解空间指数增长,提出了一种基于回溯搜索和参数匹配的启发式资源分配方法,对神经网络基本算子在时空域上的分布进行联合优化,从而实现硬件层面上处理器缓存资源利用率的最大化;(3)针对新型网络结构的循环优化问题,推导得出了最小循环变换粒度,并在编译框架中建立了最优阵列映射机制,使得嵌套循环的运算与计算资源达到最优匹配。整个编译优化过程是多层次迭代式进行的,从而避免了解空间的遗漏。这项工作通过系统性的研究填补了大规模、非规则神经网络编译映射这一技术空白,相比于同类的最佳编译优化方法实现了1.61-2.41倍的推理计算加速,并提供了从软件算法模型到硬件机器码的端到端自动编译优化工具,支持多种主流深度学习开发框架,适用于包括嵌入式系统在内的多种人工智应用部署场景。该研究成果已在北京清微智能公司的AI编译工具链中实现了产品化。
国际嵌入式系统会议(ACM/IEEE Embedded Systems Week)是关于嵌入式系统软硬件设计的世界顶级会议之一,由CASES、CODES+ISSS和EMSOFT三个分会组成,其主题涵盖了高能效嵌入式硬件架构、系统级设计与建模、智能计算系统、嵌入式软件开发、信息物理系统等领域的技术前沿,为嵌入式系统软硬件的发展指明了方向。