GPU是我们常用的设备,GPU的使用使图形显示成为可能。
在上一篇文章中,编辑者解释了GPU加速的原理和其他知识。
为了提高大家对GPU的理解,本文将基于两点介绍GPU:1.选择GPU服务器时需要考虑哪些条件; 2.如何提高GPU的存储性能。
如果您对GPU感兴趣,则不妨继续阅读。
1.如何选择GPU服务器选择GPU型号后,请考虑使用哪种GPU服务器。
这时,需要考虑以下几种情况:首先,在边缘服务器上,需要根据容量选择相应的服务器,例如T4或P4,还要考虑服务器的使用场景,例如火车站。
卡口,机场卡口或公共安全卡口等;在中央端进行推理时可能需要V100服务器,并且需要考虑吞吐量,使用场景,数量等。
其次,您需要考虑客户自己的用户群以及IT运维能力。
对于像BAT这样的大公司,他们自己的运营能力是相对较强的,因此他们将选择通用PCI-e服务器。
对于某些IT运营和维护功能,不太强大的客户更关心数字和数据注释。
我们称这类人为数据科学家,选择GPU服务器的标准会有所不同。
第三,需要考虑支持软件和服务的价值。
第四,考虑整个GPU集群系统的成熟度和工程效率。
例如,像DGX这样的集成GPU的超级计算机具有非常成熟的操作系统,可以从最低端驱动Docker,并且其他部分也已固定和优化。
,则效率相对较高。
2.如何提高GPU存储性能为了获得最佳的GPU存储性能,有必要根据业务目标对基础架构进行微调。
有三种方法可供考虑。
1.大规模的性能调整AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担。
STFC(科学技术设施委员会)就是其中的典型代表。
尽管STFC已添加高端GPU服务器以提供更高的计算支持,但STFC缺乏在数百名研究人员中扩展资源所需的企业级存储功能。
通过在具有RDMA功能的高速网络(例如Infiniband或融合以太网(RoCE)v2上的RDMA)上实现NVMe-over-Fabrics协议,大型AI / ML用户组(例如STFC)可以虚拟化各种不同的NVMe SSD。
服务器上未使用的存储资源池,因此它们的性能就像是本地的一样。
这样一来,机器学习培训任务就可以在一小时内完成,而之前的工作时间是三到四天。
即使执行复杂的模型训练任务,GPU存储也不再是瓶颈。
2.在并行文件系统下使用NVMe池化存储当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,必须将并行分布式文件系统部署为存储基础结构。
并行文件系统还使存储更容易实现大多数AI / ML使用所需的高吞吐量和低延迟。
借助并行文件系统下的快速灵活的池化NVMe存储,它可以改善元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高GPU服务器的利用率。
例如,一家非常大型的技术提供商最近推出了一种AI解决方案,用于预测保险公司使用的车辆碰撞情况。
为了开发应用程序背后的AI逻辑,应用程序工作流程涉及训练模型,方法是通过吸收多达2000万个小文件数据集来进行训练,每个小文件数据集的大小在150-700 KB之间。
数据提取通常以每8小时100万个文件的速率或每个客户端每秒最多35,000个文件的速度执行。
通过在并行分布式文件系统下使用池化NVMe存储方法,该技术提供商消除了遇到的存储瓶颈,并将存储性能提高了3-4倍。
3.检查GPU专用的“高速公路”是否已被固定。
新的数据中心体系结构正在以统一的方式提高服务器,网络和存储的性能。
一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成,以在GPU内存和存储之间打开直接数据通道,从而完全绕开了打开CPU的通道。
这使得数据能够在“开放高速公路”上传输。
由GPU,存储和网络设备提供,从而可以无障碍地访问NVMe的企业级性能。
以上是&