• 跳至主要导航
  • 跳到主要内容
  • 跳到主要侧边栏
  • 跳到页脚

单片机技巧

微控制器工程资源,微控制器新产品和电子工程新闻

  • 产品展示
    • 8-bit
    • 16-bit
    • 32-bit
    • 64-bit
  • 应用领域
    • 汽车行业
    • 连接性
    • 消费类电子产品
    • 产业
    • 医疗类
    • 安全
  • EE论坛
    • EDABoard.com
    • Electro-Tech-Online.com
  • 影片
    • TI单片机视频
  • EE资源
    • 快速设计
    • 电子书/技术提示
    • 常见问题
    • LEAP奖
    • 播客
    • 网络研讨会
    • 白皮书
  • EE学习中心

flexlogix技术公司

PCIe板载有加速器IC来加速边缘系统的AI体彩十一运夺金网站

2020年10月29日 通过 雷丁·特雷格 发表评论

Flex Logix Technologies,Inc. 宣布了由Flex Logix InferX X1加速器支持的PCIe板的可用性和发展路线图–行业’用于边缘系统的最快,最高效的AI体彩十一运夺金网站芯片。

InferX X1P1在半高,半长的PCIe板上使用单个InferX X1芯片和单个LPDDR4x DRAM。现在可以向主要客户提供样品;一般采样将在第一季度进行,产品上市时间将在2021年第二季度进行。InferXX1P4将在相同尺寸的电路板上使用四块InferX X1芯片:一半高度,一半长度,并将在2021年中期进行采样,并于2021年底进行生产。 InferX M.2开发板将在与X1P4相同的时间范围内提供。

InferX X1P4将在YOLOv3上具有吞吐量,用于物体检测和识别,类似于Nvidia Tesla T4,批量价格在649美元至999美元之间。在X1P4上,其他实际客户模型在T1上的运行速度更快。 InferX X1P1的性能约为YOLOv3的Tesla T4的1/3,但售价在399美元至499美元之间。对于某些客户型号,X1P1优于T4。 InferX M.2的价格将与X1P1相似,并且具有相同的性能。

新的InferX PCIe板为较低价位的服务器提供更高的吞吐量/美元。宣布的板包括:InferX X1P1 PCIe板–具有19W TDP的x4 PCIe GEN3 / 4板; InferX X1P4 PCIe板–此<75W TDP板是x8 PCIe GEN3 / 4; InferX X1M M.2板– M.2 22x80mm的19W TDP板是x4 PCIe GEN3 / 4

Flex Logix还将推出一套软件工具,以配合这些板子。这包括来自TensorFlowLite / ONNX模型和nnMAX运行时应用程序的编译器流程。软件工具中还包括一个具有外部API的InferX X1驱动程序,该API专为易于配置的应用程序而设计。&部署模型,以及用于处理设计用于控制的低级功能的内部API&监视X1板。

933MHz将于2021年下半年推出。

提起下: 应用领域, 人工智能, 硬件 , 产品展示 , 软件 , 工具类 标签: flexlogix技术公司

针对低功耗/超低功耗处理技术进行了优化的FPGA内核

2020年1月30日 通过 艾米·卡尔诺斯卡斯(Aimee Kalnoskas) 发表评论

 

Flex Logix Technologies,Inc。今天宣布推出新的EFLX eFPGA内核,该内核针对台积电40nm超低功耗(ULP)和40nm低功耗(LP)工艺技术的客户进行了优化。 EFLX 1K旨在通过电池供电的IoT设备,微控制器和混合信号设备为各种应用带来可重编程的硬件加速,以进行数据转换和信号处理。

EFLX 1K逻辑和DSP内核

使用简化版本和经过验证的EFLX 4K的相同软件,EFLX 1K逻辑内核具有368个输入和368个输出,具有900 LUT4等效逻辑容量。 EFLX 1K DSP内核具有相同的输入/输出数量,但用DSP代替了一些LUT:10个DSP MAC,以5为块的流水线,具有650个LUT4等效逻辑容量。台积电40纳米ULP工艺上的EFLX1K将在第三季度通过硅验证。

EFLX 1K逻辑和DSP内核可以以至少4个阵列的形式交替混合使用×4 in size.

提起下: 现场可编程门阵列 标签: flexlogix技术公司

边缘体彩十一运夺金网站协处理器可为边缘应用程序提供高吞吐量

2019年4月11日 通过 艾米·卡尔诺斯卡斯(Aimee Kalnoskas) 发表评论

边缘体彩十一运夺金网站协处理器Flex Logix Technologies,Inc. 今天宣布,它已利用其嵌入式FPGA(eFPGA)业务领域中受核心专利保护的互连技术,结合体彩十一运夺金网站优化的nnMAX集群,开发了InferXÔX1边缘体彩十一运夺金网站协处理器。 Flex Logix InferX X1芯片今天在圣塔克拉拉(Santa Clara)的Linley处理器会议上发布,在单个DRAM的边缘应用中可提供高吞吐量,从而使吞吐量/瓦数比现有解决方案高得多。它的性能优势在小批量生产时尤其强大,这在边缘应用中通常只需要一个摄像头/传感器,而这是必需的。

InferX X1’小批量时的性能接近数据中心体彩十一运夺金网站板,并且针对需要每个图像进行数千亿次运算的大型模型进行了优化。例如,对于YOLOv3实时对象识别,InferX X1以批处理大小= 1处理12.7帧/秒的2兆像素图像。性能与图像大小大致成线性关系:因此,对于1兆像素图像,帧速率大约是原来的两倍。这是一个DRAM。

InferX X1将作为边缘设备的芯片提供,并在边缘服务器和网关的半高,半长PCIe卡上提供。可使用采用Tensorflow Lite或ONNX模型的nnMAX编译器进行编程。体彩十一运夺金网站引擎的内部体系结构对用户隐藏。

InferX支持整数8、16和bfloat 16数值,并能够跨层混合使用它们,从而可以轻松移植模型,并以最高的精度优化吞吐量。 InferX支持整数8模式的Winograd转换,以进行常见的卷积运算,通过将权重进行片上,动态转换为Winograd模式,可将这些功能的吞吐量提高2.25倍,同时将带宽降至最低。为确保不损失精度,Winograd计算以12位精度进行。

新的nnMAX神经体彩十一运夺金网站引擎利用了eFPGA中使用的相同的核心互连技术,并结合了针对体彩十一运夺金网站进行了优化的乘数累加器,并聚合为64个群集,每层都有本地权重存储。

在神经体彩十一运夺金网站中,计算主要由数万亿次运算(乘法和累加)组成,这些运算通常使用8位整数输入和权重,有时还使用16位整数或16位bfloat浮点数。可以根据需要将这些数字逐层混合以达到目标精度。 Flex Logix为eFPGA开发的技术也非常适合体彩十一运夺金网站,因为eFPGA允许在每个网络阶段重新配置数据路径和快速控制逻辑。 eFPGA中的SRAM可根据神经网络的需要进行重新配置,其中每层可能需要不同的数据大小; Flex Logix互连和Flex Logix互连允许在SRAM输入库,MAC群集之间进行可重新配置的连接,并在每个阶段激活到SRAM输出库。

结果是带有本地SRAM的1024个MAC的nnMAX瓦片,在16nm处具有〜2.1 TOPS峰值性能。 nnMAX磁贴可以排列成任意大小的NxN阵列,而无需更改GDS,并根据需要调整不同数量的SRAM,以优化目标神经网络模型,直至>100 TOPS峰值性能。

提起下: 应用领域, 连接性, 数据中心, 现场可编程门阵列 , 微控制器, 神经网络 标签: flexlogix技术公司

神经体彩十一运夺金网站引擎在使用低DRAM带宽的情况下排名前100位

2018年11月1日 通过 艾米·卡尔诺斯卡斯(Aimee Kalnoskas) 发表评论

Flex Logix Technologies,Inc. 宣布已利用其嵌入式FPGA(eFPGA)业务的核心专利保护的互连技术,推出了专注于神经体彩十一运夺金网站的全新产品线。 Flex Logix NMAX神经体彩十一运夺金网站引擎今天在圣克拉拉(Santa Clara)的Linley Processor Conference上的演示中揭幕,向>在模块化,可扩展的体系结构中,神经体彩十一运夺金网站能力达到100 TOPS,这需要现有神经体彩十一运夺金网站解决方案的DRAM带宽的一部分。

神经体彩十一运夺金网站引擎在神经体彩十一运夺金网站中,计算主要是数万亿次运算(通常使用8位整数输入和权重,有时使用16位整数进行乘法和累加)。 Flex Logix为eFPGA开发的技术也非常适合体彩十一运夺金网站,因为eFPGA允许在每个网络阶段进行可重新配置的快速控制逻辑。 eFPGA中的SRAM可根据神经网络的需要进行重新配置,其中每层可能需要不同的数据大小; Flex Logix互连和Flex Logix互连允许在SRAM输入库,MAC群集之间进行可重新配置的连接,并在每个阶段激活到SRAM输出库。

结果是带有本地SRAM的512个MAC的NMAX瓦片,在16nm处具有〜1 TOPS峰值性能。可以在不需要任何TOPS的配置中排列NMAX磁贴,而无需任何GDS更改,并根据需要调整不同数量的SRAM,以优化目标神经网络模型,直至>100 TOPS峰值性能。

例如,对于YOLOv3实时对象识别,可以以增加的大小生成NMAX阵列,以处理30帧/秒,批处理大小= 1的2个MegaPixel输入,1,2或4个摄像机。这只需约10GB /秒即可完成与现有解决方案的每秒数百GB的DRAM带宽相比。在此示例中,MAC利用率在60-80%的范围内,这比现有解决方案要好得多。

另一个示例是用于图像分类的ResNet-50。上面提到的三个NMAX阵列分别将4600、9500和19,000图像/秒分类,所有图像的批次大小均为1。所有这些吞吐量都是通过1个DRAM和大约90%的MAC利用率实现的。相比之下,Nvidia Tesla T4的批处理大小为28,以实现3920张图像/秒,<使用8个DRAM时MAC利用率为25%。较低的批次大小对于所有边缘应用程序和许多数据中心应用程序非常重要,以便最大程度地减少延迟–长延迟意味着响应时间变慢。

高MAC使用率意味着更少的硅面积/成本。低DRAM带宽意味着更少的DRAM,更低的系统成本和更低的功耗。

NMAX是通用神经体彩十一运夺金网站引擎,它可以运行从简单的完全连接的DNN到RNN到CNN的任何类型的NN,并且一次可以运行多个NN。 NMAX使用Tensorflow进行编程,将来还将支持其他模型描述语言。

NMAX现在正在开发中,并将于2019年下半年上市。

提起下: 应用领域, 现场可编程门阵列 , 微控制器, 神经网络 标签: flexlogix技术公司

主侧边栏

快速设计

组件选择变得简单。

今天尝试
设计快速的globle

EE培训中心教室

“ee

“ee

“ee

“ee

订阅我们的新闻

订阅每周行业新闻,新产品创新等等。

立即订阅

 的RSS 当前的EDABoard.com讨论

  • 反激设计,PSR,BCM模式,恒流输出设计,计算
  • 555 ir2110 mosfet开关
  • 即使有最大的可用磁芯,500W全桥也提供了过高的增量B
  • 提供重置的方式
  • Verilog中的位反转

 的RSS 当前Electro-Tech-Online.com讨论

  • 号码细目
  • 汽车6伏发电机晶体管稳压器
  • 需要更换此变压器,Klipsch RPW-10
  • 未使用的MCU引脚
  • 圣诞快乐

在推特上关注我们

MicroContrlTips的推文

页脚

单片机技巧

EE World在线网络

  • 快速设计
  • EE World在线
  • EDA董事会论坛
  • 电子技术在线论坛
  • 连接器提示
  • 模拟IC技巧
  • 电力电子提示
  • 传感器提示
  • 测试和测量技巧
  • 电线电缆技巧
  • 5G技术世界

单片机技巧

  • 订阅我们的新闻
  • 与我们一起做广告
  • 联系我们
  • 关于我们
在推特上关注我们加入我们在YouTube上关注我们 在Instagram上关注我们

版权© 2020 ·WTWH Media LLC及其许可方。版权所有。
未经WTWH Media事先书面许可,不得复制,分发,传播,缓存或以其他方式使用本网站上的资料。

隐私政策

  • <td id="Ayl4aHQ"></td>