英伟达A100GPU登陆亚马逊云服务,推理性能比CPU快23
IT之家11月4日消息根据英伟达官方的消息,在AWS运行NVIDIAGPU十周年之际,AWS发布了采用全新A100的AmazonEC2P4d实例。
IT之家了解到,现在已全面上市的全新AWSP4d实例采用最新NVIDIAA100TensorCoreGPU。A100计算卡采用了7nm工艺的GA100GPU,这款GPU拥有6912CUDA核心和432张量核心。GPU封装尺寸为826mm2,集成了540亿个晶体管。
英伟达表示,全新的P4d实例,为机器学习训练和高性能计算应用提供AWS上性能与成本效益最高的GPU平台。与默认的FP32精度相比,全新实例将FP16机器学习模型的训练时间减少多达3倍,将TF32机器学习模型的训练的时间减少多达6倍。
这些实例还提供出色的推理性能。NVIDIAA100GPU在最近的MLPerfInference基准测试中一骑绝尘,实现了比CPU快237倍的性能。
每个P4d实例均内置八个NVIDIAA100GPU,通过AWSUltraClusters,客户可以利用AWS的ElasticFabricAdapter(EFA)和AmazonFSx提供的可扩展高性能存储,按需、可扩展地同时访问多达4,000多个GPU。P4d提供400Gbps网络,通过使用NVLink、NVSwitch、NCCL和GPUDirectRDMA等NVIDIA技术,进一步加速深度学习训练的工作负载。EFA上的NVIDIAGPUDirectRDMA在服务器之间可通过GPU传输数据,无需通过CPU和系统内存,从而确保网络的低延迟。