首页>>科技 >>内容

NVIDIA,Jetson_Xavier_NX世上最小嵌入式AI超级计算机

发布时间:2023-07-14 20:08:19编辑:温柔的背包来源:

很多朋友对NVIDIA,Jetson_Xavier_NX世上最小嵌入式AI超级计算机不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

NVIDIA,Jetson_Xavier_NX世上最小嵌入式AI超级计算机

NVIDIA发布了Jetson Xavier NX,这是世界上最小和最先进的嵌入式AI超级计算机,用于自主机器人和边缘计算设备。Jetson Xavier NX可以在紧凑的70x45mm毫米外形中部署服务器级性能,并可以以15W的功率提供多达21台计算机。MLPerf推论0.5是Jetson Nano基于NVIDIA的Xavier pin的最新计算结果,部署工作量可能有限,比如成本和性能。

图Jetson Xavier NX处理器引擎框图,包括高速I/O和内存结构。

如图2所示,Jetson Xavier NX包括一个集成的384核NVIDIA Volta GPU、48个张量核和6核NVIDIA Carmel ARMv8。2个64位CPU、8GB 128位LPDDR4x、双NVIDIA深度学习加速器(NVDLA)引擎、4K视频编码器和解码器、专用摄像头入口、多达6个同步高分辨率传感器流、PCIe Gen 3扩展、双显示端口/HDMI 4K显示器、USB 3。1和GPIO,包括SPI、I2C、I2S、CAN总线和UART。

有关特性列表,请参见下表1,有关完整规格,请参考Jetson Xavier NX模块数据手册。共享内存结构允许处理器自由共享内存,而不会产生额外的内存副本(称为零副本),有效提高了系统的带宽利用率和吞吐量。

表Jetson Xavier NX计算模块的特点和功能* CPU 4/6核模式下最大工作频率为1400MHz,双核模式下最大并发流数为1900MHz,达到总吞吐量。支持的视频编解码器:h. 265、H .264.VP9有关具体的编解码器和配置文件规格,请参考Jetson Xavier NX模块数据手册。每通道/MIP 2磅,共2磅。

PCIe 1 1只支持根端口,1 1/2/4支持根端口或端点模式。工作温度范围,Xavier SoC结温(Tj)。

英伟达完整的CUDA -X软件堆栈和JetPack SDK开发套件支持Jetson Xavier NX。除了实时计算机视觉,Jetson Xavier NX还可以同时在多个高分辨率传感器流上运行流行的机器学习框架和复杂的DNN,在全桌面Linux环境中加速图形和丰富的多媒体应用程序。Jetson和NVIDIA的AI加速计算平台的兼容性让开发变得更加容易,云和edge之间的MIG实现了无缝匹配。

设计宣传资料Jetson Xavier NX设计指南NX模块将于2020年3月上市,售价399美元。嵌入式设计师可以参考Jetson提供的下载,包括Xavier,为Jetson Xavier NX模块创建生产设备和系统。与Jetson Nano的引脚兼容性允许共享设计和直接技术插入升级到Jetson Xavier NX。除了提供现成的载体、传感器和配件,捷成生态系统的硬件设计合作伙伴还可以提供定制设计服务和系统集成。

软件开发人员现在可以开始为Jetson Xavier NX构建人工智能应用程序,方法是使用Jetson AGX Xavier开发工具包,并将设备配置补丁应用到JetPack,使设备像Jetson Xavier NX一样运行。通过软件,它会改变可用的CPU和GPU核心的数量,还会设置整个系统的核心时钟频率和电压。这个补丁是完全可逆的,可以用来在硬件可用之前近似Jetson Xavier NX的性能。

Jetson Xavier NX定义了10瓦和15瓦的默认功率模式,根据活动模式,可以实现14到21个峰值性能。用于管理电源配置文件的nvpmodel工具可以调整CPU、GPU、内存控制器和其他SoC时钟的最大时钟频率,以及在线CPU集群的数量——这些设置如表2所示,适用于Jetson Xavier NX预定义的10W和15W模式。

CPU分为三组,每组2个核心。4/6核模式最高工作频率1400MHz,双核模式最高工作频率1900MHz。对于可能需要更高单线程性能和多线程性能的应用,最高工作频率为1900MHz。

NVIDIA Jetson Xavier NX电源模式表Jetson Xavier NX 10W和15W电源模式的最大工作频率和内核配置。*使用NVDLA时,GPU的最高工作频率为600MHz (10W模式)和1000MHz (15W模式)。

根据工作负载,动态电压和频率调节(DVFS)调控器在运行时将频率调整到活动nvpmodel定义的最大限制,从而根据空闲时间的处理器利用率降低功耗。Nvpmodel工具还可以根据应用需求和TDP轻松创建和定制新的电源模式。您可以编辑电源配置文件,并将其添加到/etc/NVP模式。配置文件和一个GUI部件被添加到Ubuntu状态栏中,以便于在运行时管理和切换电源模式。

深度学习推理基准今天NVIDIA也宣布在MLPerf中推理为0。5基准测试占据了五个类别中四个类别的第一名,其中Jetson AGX Xavier是边缘计算SoC的领导者,包括所有基于视觉的任务:使用Mobinet和ResNet-50的图像分类,使用SSD Mobilenet和SSD ResNet的目标检测。NVIDIA GPUs是十个竞争芯片架构中唯一一个在MLPerf定义的所有五项推理测试中提交结果的。

为了参考Jetson家族成员之间的可扩展性,我们还测量了Jetson Nano、Jetson TX2、Jetson Xavier NX和Jetson AGX Xavier在图像分类、目标检测、姿态估计和分割等常见DNN模型上的推理性能。这些结果,如下图3所示,由JetPack和NVIDIA的TensorRT推理加速器库运行,该库优化了网络的实时性能,并在流行的ML框架(如TensorFlow、PyTorch、Caffe、MXNet等)中进行了训练。).

图3。TensorRT用于推断Jetson家族中各种基于视觉的DNN模型的性能。

Jetson Xavier NX 的性能比Jetson TX2 高10 倍,功耗相同,占地面积小25% 。在这些基准测试期间,每个平台都以最高性能运行( MAX-N 模式用于Jetson AGX Xavier , Xavier NX 和TX2 为15W , Nano 为10W )。最大吞吐量是在批处理大小不超过16ms 的延迟阈值的情况下获得的,否则,对于平台超过该延迟阈值的网络,批处理大小为1 。

这种方法在实时应用程序的确定性低延迟需求和多流用例场景的最大性能之间提供了平衡。

在Xavier Jetson NX 和Jetson AGX Xavier 上, NVDLA 引擎和GPU 同时以INT8 精度运行,而在Jetson Nano 和Jetson TX2 上GPU 以FP16 精度运行, Jetson Xavier NX 中具有张量核心的Volta 架构GPU 可以达到12 。 3 个计算顶层,而该模块的DLA 引擎每台最多可产生4 。 5 台。

除了用TensorRT 运行神经网络外, ML 框架还可以通过cuDNN 和CUDA 加速在Jetson 上安装,包括TensorFlow 、 PyTorch 、 Caffe/Caffe2 、 MXNet 、 Keras 等。除了AWS Greengrass 等物联网框架和Docker 和Kubernetes 等容器引擎外, Jetson 动物园还包括这些预构建的安装程序和构建说明。

开发突破性的人工智能产品

Jetson Xavier NX 为部署下一代自主系统和智能边缘设备开辟了新的机遇,这些设备需要在较小、低功耗的空间内实现高性能人工智能和复杂的DNN ,比如移动机器人、无人机、智能相机、便携式医疗设备、嵌入式物联网系统等等。 NVIDIA 支持CUDA -X 的JetPack SDK 提供了开发尖端AI 解决方案的完整工具,并以世界领先的性能在云端和边缘之间扩展应。

关于作者

Dustin Franklin 是NVIDIA 的Jetson 团队的开发人员布道者。 Dustin 拥有机器人和嵌入式系统方面的背景,他乐于在社区中提供帮助,并与Jetson 一起参与项目。你可以在NVIDIA Developer Forums 或Github 上找到他。

审核郭婷

以上知识分享希望能够帮助到大家!