近期,我们对RTX4090与RTX3090Ti在深度学习训练上的性能进行了详尽的对比测试。测试聚焦于训练Transformer模型时,各种GPU配置所能达到的实际Teraflops。此基准测试有助于评估大型Transformer模型的训练所需时间。
请注意,实际性能受多种因素影响,包括硬件配置、散热效果、CUDA版本、模型结构、超参数设定等。我们在自有的服务器平台上进行了测试并整理了数据。
测试平台配置如下:
- 服务器型号:超微SYS-420GP-TNR(基于第三代Xeon处理器)
- 显卡:单涡轮RTX 4090
- 处理器:Intel Xeon Gold 6348
我们采用了李沐老师的micro-benchmarking方法进行测试。
以下是测试的关键发现:
- 矩阵计算速度:作为Transformer操作的核心,矩阵乘法的测试结果显示了硬件的计算潜力。
RTX 4090在单精度方面表现出显著提升,且由于Tensor Cores的增强,其半精度性能达到RTX 3090 Ti的两倍,具体为161 TFLPOPS。
- 向量乘法速度与带宽:深度学习训练中,带宽是限制训练速度的关键因素之一。向量乘法类操作在网络训练过程中可能成为性能瓶颈。
测试显示,RTX 4090在进行向量乘法操作时,其性能大约是RTX 3090 Ti的四倍,尽管两者的位宽相同,但吞吐量有显著提升。
- Bert Layer Forward与Forward+Backward速度:
测试数据显示,对于较简单的代码,性能提升接近理论值的两倍。而对于复杂代码,由于附加操作的差异,性能提升幅度会有所不同。
与BERT相比,GPT的性能提升相对较小,这主要是由于GPT包含掩码计算,导致了一定的性能损失。
综上所述,RTX 4090在深度学习训练上展现出显著优势,特别是在矩阵计算和带宽敏感型操作上。与RTX 3090 Ti相比,其在多个关键指标上均实现了显著的性能提升。
全部评论 (0)