Flex Logix Technologies,Inc. 今天宣布,它已利用其嵌入式FPGA(eFPGA)业务领域中受核心专利保护的互连技术,结合推理优化的nnMAX集群,开发了InferXÔX1边缘推理协处理器。 Flex Logix InferX X1芯片今天在圣塔克拉拉(Santa Clara)的Linley处理器会议上发布,在单个DRAM的边缘应用中实现了高吞吐量,从而比现有解决方案具有更高的吞吐量/瓦特。它的性能优势在小批量生产时尤其强大,这在边缘应用中通常只需要一个摄像头/传感器,而这是必需的。
InferX X1’小批量时的性能接近数据中心推理板,并且针对需要每个图像进行数千亿次运算的大型模型进行了优化。例如,对于YOLOv3实时对象识别,InferX X1以批处理大小= 1处理12.7帧/秒的2兆像素图像。性能与图像大小大致成线性关系:因此,对于1兆像素图像,帧速率大约是原来的两倍。这是一个DRAM。
InferX X1将作为边缘设备的芯片提供,并在边缘服务器和网关的半高,半长PCIe卡上提供。可使用采用Tensorflow Lite或ONNX模型的nnMAX编译器进行编程。推理引擎的内部体系结构对用户隐藏。
InferX支持整数8、16和bfloat 16数值,并能够跨层混合使用它们,从而可以轻松移植模型,并以最高的精度优化吞吐量。 InferX支持整数8模式的Winograd转换,以进行常见的卷积运算,通过将权重进行片上,动态转换为Winograd模式,可将这些功能的吞吐量提高2.25倍,同时将带宽降至最低。为确保不损失精度,Winograd计算以12位精度进行。
新的nnMAX神经推理引擎利用了eFPGA中使用的相同的核心互连技术,并结合了针对推理进行了优化的乘数累加器,并聚合为64个群集,每层都有本地权重存储。
在神经推理中,计算主要由数万亿次运算(乘法和累加)组成,这些运算通常使用8位整数输入和权重,有时还使用16位整数或16位bfloat浮点数。可以根据需要将这些数字逐层混合以达到目标精度。 Flex Logix为eFPGA开发的技术也非常适合推理,因为eFPGA允许在每个网络阶段重新配置数据路径和快速控制逻辑。 eFPGA中的SRAM可根据神经网络的需要进行重新配置,其中每层可能需要不同的数据大小; Flex Logix互连和Flex Logix互连允许在SRAM输入库,MAC群集之间进行可重新配置的连接,并在每个阶段激活到SRAM输出库。
结果是带有本地SRAM的1024个MAC的nnMAX瓦片,在16nm处具有〜2.1 TOPS峰值性能。 nnMAX磁贴可以排列成任何大小的NxN阵列,而无需更改GDS,并且可以根据需要对目标神经网络模型进行优化来使用不同数量的SRAM,直至>100 TOPS峰值性能。
发表评论