多媒体处理、深度学习、科学计算已经成为当前IT行业的前沿领域,大量的公司开始研发、部署自己的人工智能业务。但由于GPU服务器CAPEX成本偏高,令很多开发者望而却步。
为推动人工智能走向普惠化,近日京东云重磅推出面向AI训练的新一代计算加速产品—GPU III型云物理服务器。其搭载的NVIDIA Tesla V100 GPU加速器,可以为各种超级计算系统提供一个强大的运算平台,无论在以科学仿真为主要手段的计算科学领域,还是在以洞悉数据奥秘为目标的数据科学领域,Tesla V100 都能为相关应用提供强大的算力支持。
加上之前推出的采用NVIDIA Tesla P40 GPU卡的GPU I型、GPU II型实例,京东云目前可提供两类卡共三种规格的GPU裸金属服务器,高并行、高吞吐、低时延,最多搭配4块NVIDIA P40/V100 GPU,无虚拟化性能损失,提供裸金属级的超高计算性能,能够支持所有深度学习工作负载,并提供绝佳的推理解决方案。↓↓↓
性能
GPU I/GPU II型实例,单台可提供15360个CUDA核,并提供48TFlops单精度浮点、188Tops整数型性能;
GPU III型实例,单台可提供20480个CUDA核以及2560个Tensor核,并提供56TFlops单精度,28TFlops双精度浮点及448TFlops混合精度性能。
选择一款GPU,首先应该了解其性能或者特点。目前Tesla P40基于Pascal架构,而Tesla V100基于Volta架构,它也是目前市场上最新的 GPU 架构。从Tesla P40到Tesla V100,在性能方面有巨大的提升,可以满足不同场景下的计算需求。
整体上看,基于NVIDIA Tesla P40 GPU加速器的GPU I/GPU II型云物理服务器,能够为AI推理工作负载提供理想的输送量与反应灵敏体验,相对于CPU速度增加60倍以上。
而在模型训练方面,采用NVIDIA Tesla V100 GPU加速器的GPU III型实例,相对于P40能够获得较大的性能成本收益。经实测,基于Resnet50、inception_v3、bvlc_googlenet 、bvlc_alexnet 、vgg16五种模型,P40和V100在 Caffe、TensorFlow1.5单卡训练方面,性能能够提升20%-200%。
具体到各个场景,如下图所示:
图形图像处理
推荐使用GPU I型实例,其搭载的P40 GPU,配备高IO的SSD硬盘,能够为图像处理及视频编解码提供理想的计算性能。
深度学习推理
在性能方面,GPU I/GPU II型实例搭载的P40 GPU,具备INT 8计算能力,能够满足深度学习推理需求;在性价比方面,推荐使用GPU II型实例,性价比较高,适合大规模部署。
深度学习训练
推荐使用GPU III型实例,其搭载的V100高端GPU,具有强大的单精度浮点运算能力,并具备较大的GPU板载内存,是深度学习训练的首选。
科学计算
推荐使用GPU III型实例,GPU III型实例采用V100 GPU,具有强大的双精度浮点运算能力,可以为科学与工程计算相关的软件提供最好的加速能力。