Storage

配有美光6500 ION SSD的WEKA存储支持256个AI加速器

文/韦斯·瓦斯克 - 2023-11-28
美光最近公布了我们的研究结果 MLPerf Storage v0.5在美光®9400 NVMe™SSD上. 这些结果突出了高性能NVMe SSD作为AI服务器中的本地缓存, 而美光9400 NVMe固态硬盘在这种情况下表现非常好. 然而,大多数人工智能训练数据并不存在于本地缓存中,而是存在于共享存储中. For SC23,我们决定测试相同的MLPerf Storage AI工作负载 WEKA 存储集群由30TB供电 美光6500 ION NVMe固态硬盘
 
WEKA是一个分布式的, 为AI工作负载设计的并行文件系统, 我们想知道MLPerf Storage AI工作负载如何在高性能SDS解决方案上扩展. 研究结果很有启发性, 帮助我们为当前一代人工智能系统提供大小建议,并暗示未来人工智能存储系统将需要大量吞吐量.  

首先,快速回顾一下MLPerf Storage 
MLCommons 维护和开发六个不同的基准套件,并正在开发开放数据集,以支持未来最先进的模型开发. MLPerf存储基准套件是MLCommons基准集合的最新成员. 

MLPerf Storage着手解决两个挑战, 等, 当描述人工智能训练系统的存储工作量时——人工智能加速器的成本和可用数据集的小尺寸.  

有关MLPerf Storage生成的工作负载的深入研究和基准测试的讨论, 请参阅我们之前的博客文章:
接下来,让我们检查一下正在测试的WEKA集群 
我的队友苏吉特写了一篇 今年早些时候发布的 描述集群在合成工作负载下的性能. 查看完整结果的帖子. 

集群由6个存储节点组成,每个节点配置如下: 在总, 该集群提供838TB的容量和, 对于高队列深度的工作负载, 达到200gb /s. 

最后,让我们回顾一下这个集群在MLPerf Storage中的表现 
快速注意:这里显示的结果是未经验证的,因为它们没有提交给MLPerf Storage进行审查. 此外,MLPerf Storage基准也从v0开始进行了更改.第一个2024版本从5到下一个版本. 这里给出的数字使用与v0相同的方法.5 .每个客户端发布独立的数据集, 独立客户端, 客户端的加速器共享一个屏障). 

MLPerf Storage基准模拟 英伟达®V100 0中的加速器.5版本. The NVIDIA DGX-2服务器 有16个V100加速器. 对于这个测试, 我们展示了WEKA集群上支持的客户机数量,其中每个客户机模拟16个V100加速器, 比如NVIDIA DGX-2. 

此外,半.MLPerf存储基准的第5部分实现了两种不同的模型,Unet3D和BERT. 通过测试, 我们发现BERT不会产生显著的存储流量, 我们将集中在Unet3D上进行测试. (Unet3D是一个3D医学成像模型.)

该图显示了给定数量的客户端节点对存储系统的总吞吐量. 记住,每个节点有16个模拟加速器. 此外, 被认为是“成功的,给定数量的节点和加速器需要保持大于90%的加速器利用率. 如果加速器低于90%, 这表示加速器在等待数据时的空闲时间.

在这里,我们看到六个节点的WEKA存储集群支持16个客户机, 每个模拟16个加速器-总共256个模拟加速器-并达到 91 GB/s 的吞吐量.

这个性能相当于16个NVIDIA DGX-2系统(每个系统有16个V100 gpu), 这是一个六节点WEKA集群支持的非常多的AI系统. 

V100支持PCIe Gen3 GPU, NVIDIA几代GPU的性能提升速度远远超过了平台和PCIe一代. 在单节点系统中, 我们发现模拟的NVIDIA A100 GPU在此工作负载下的速度要快四倍.

最大吞吐量为91 GB/s, 我们可以估计这个WEKA部署将支持8个DGX A100系统(每个系统有8个A100 gpu). 

展望H100 / H200 (PCIe Gen5)和X100 (PCIe Gen6)的未来, 尖端的人工智能训练服务器将推动大量的吞吐量.

今天的, WEKA存储和美光6500 NVMe固态硬盘是容量的完美结合, 性能和可扩展性为您的AI工作负载. 

请继续关注我们对AI存储的探索! 
温迪Lee-Kadlec

韦斯Vaske

韦斯Vaske是德克萨斯州奥斯汀市美光数据中心工作负载工程团队的高级技术人员. 他分析企业工作负载,以了解Flash和DRAM设备对应用程序的性能影响,并为内部设计提供“真实的”工作负载表征 & 开发团队. Wes的重点是人工智能应用和开发跟踪和系统观察的工具.

+