JetsonXavierNX评测(含AIBenchmark)

大家好,我近期已经上手JetsonXavierNX,本专栏也将持续更新关于XavierNX的使用体验。
感谢@NVIDIA英伟达提供的开发套件。这板子真的太赞了,和JetsonNano一样的体积,性能却提升了几十倍。就连XavierNX包装看起来都像Nano包装的大号版。
JetsonXavierNX评测(含AIBenchmark)-有驾
虽说今年初Nano开发套件更新B01后,载板已经兼容XavierNX模块,但这次开发者套件还是配套了新的载板。目前注意到有几个区别:
1、自带wifi模块,且安装位置移到载板反面。也就是说拆装wifi模块不需要先取下核心模块了。
2、载板自带塑料底座,且集成了wifi天线。但只要卸掉wifi天线和4个固定螺丝,就可以取下载板。经测试可直接使用之前给Nano设计的外壳,但要防止影响散热。
3、增加了一个m.2接口,也在反面,可以装nvme固态硬盘。毕竟XavierNX的PCIe配置是1×1+1×4(Gen3)。
4、增加了CAN接口,但没焊排针,要用的话自己加吧。
5、供电口改为19V,与AGXXavier一致。给Nano准备的5V电源是不能用的,反正也插不进去。不过XavierNX开发套件已经自带电源了,不用太担心。
JetsonXavierNX评测(含AIBenchmark)-有驾
JetsonXavierNX评测(含AIBenchmark)-有驾
接下来我们就来详细研究一下XavierNX的实际性能。从规格来看,XavierNX大概是老黄拿AGXXavier砍了一刀,就如同Nano是从TX1切来的。这一刀下去,功耗减半,体积缩了一圈,但性能仍保留了AGXXavier的六七成功力。
JetsonXavierNX评测(含AIBenchmark)-有驾
对于Xavier系列,算力已不只是由GPU的CUDA核心提供,因此评估稍微复杂一些。如果仅看GPU的FP32算力,有845GFlops,处于比TX2强一些的水平。然后我看了一下二者的当前价格。。。就算只考虑GPU算力,也是XavierNX香啊。得益于Volta架构,XavierNX是有48个TensorCores的,提供了6.8TFlops的FP16算力。尽管Volta架构的TensorCores不支持INT8,但XavierNX还有两个DLA(DeepLearningAccelerator),提供FP16和INT8支持。这样总计就有21TOPs的INT8算力,只要15W功耗哦。如果切换到10W模式,也能提供14TOPs的算力。
这样有了多种的算力组合,要想把性能完全发挥出来,还是推荐大家用TensorRT。TensorRT可以同时使用多种硬件资源,并能以混合精度来做推理。对于IVA类的任务,更可以用DeepStream进一步优化。下面的Demo展示了在XavierNX上同时运行4个任务。左上角是4路视频的行人检测,左下角是多人姿态估计,右上角是使用了BERT的语音对话机器人,右下角是Gaze目光追踪。而这一切都同时跑在一块树莓派大小的板子上。
JetsonXavierNX评测(含AIBenchmark)-有驾
这4个Demo展示出了XavierNX在智慧视频分析和机器人应用上的潜力。Demo中虽总共只有6路视频流,但XavierNX实际能进行16路H.264编码的1080P视频流解码。如果使用H.265编码,甚至可以支持到32路。那么左上角的Demo就可以用来做人数统计,甚至在加入重识别后可以分析活动轨迹。而姿态估计的应用就更为广泛,可以用于手势识别,动作分析,开发体感应用。右侧两个技术则提供了构建对话机器人的良好范例。通过Gaze目光追踪,机器人可以知道用户是在跟自己说话,还是跟旁边的第三者。
Nvidia也在近期开源了jetson_benchmarks工具,用于比较多种Jetson硬件上的AI性能。下面是我在XavierNX的实测结果,供大家参考。这个结果比官方公布的略低,应该是散热上的问题。与TX2的测试结果相比,性能确实达到数倍甚至10倍以上。
ModelNameFPS
0inception_v4288.619269
1vgg19_N265.040121
2super_resolution_bsd500134.677261
3unet-segmentation133.345916
4pose_estimation229.900456
5yolov3-tiny-416484.432074
6ResNet50_224x224764.525092
7ssd-mobilenet-v1833.597394
从测试结果来看,XavierNX非常适合多路视频推理或多任务同时运行,而之前的Nano对此有压力。对于边缘计算应用,可以考虑用XavierNX替代服务器。同时因为有了CAN口,对于机器人和工控应用也更为友好。考虑到其极低的功耗需求和极小的体积,应该很快就能看到其在机器人领域上的应用。
之后我会尝试将一些在Nano上运行比较吃力的算法放到XavierNX上测试,请大家关注本专栏的后续更新。
0

全部评论 (0)

暂无评论