Storage

人工智能将会给存储带来怎样的变化?

Currie Munce著 - 2023-11-14

在仓库工作是一个激动人心的时刻. 我们正处于IT行业颠覆性变革的风口浪尖. 它围绕着人工智能(AI)将如何改变我们架构和构建服务器的方式展开, 以及我们期望电脑为我们做什么. 业界和公众都对生成式人工智能议论纷纷. ChatGPT的出现TM 今年早些时候,人们对计算机如何理解我们的自然语言问题充满了想象, 和我们就任何话题进行对话, 像人一样写诗和押韵. 或者各种图像生成AI模型,可以根据用户给出的简单文本提示创建令人惊叹的视觉杰作.

人工智能的迅速崛起对更高带宽的内存HBM产生了相当大的需求. HBM解决方案现在比黄金更受欢迎. 大型语言模型(LLM)正在推动对CPU上更大容量内存占用的需求,以支持更大的内存, 更复杂的模型. 虽然更多内存带宽和容量的重要性是众所周知的, 经常被遗忘的是存储在支持人工智能发展中的作用.

存储在人工智能工作负载中的作用或重要性是什么?

存储将在两个方面发挥至关重要的作用. 一个是本地的, 高速存储器,作为将训练数据输入GPU上的HBM的缓存. 由于性能方面的需要,需要使用高性能的SSD. 存储的另一个关键作用是在大数据湖中保存所有的训练数据集.

本地缓存驱动器

法学硕士的培训内容是在网络、书籍和相关词典中找到的人工生成的信息. 本地缓存驱动器上训练数据的I/O模式是结构化的,主要是读取大数据块,将下一批数据预取到内存中. 因此,对于传统的llm, SSD的性能通常不会成为GPU处理的瓶颈. 其他AI/ML模型, 如计算机视觉或混合模式LLM+CV, 要求更高的带宽,挑战本地缓存驱动器.

图神经网络(GNN)通常用于沙巴体育结算平台推荐/深度学习推荐模型(DLRM)。, 欺诈检测和网络入侵. DLRM有时被称为互联网上最大的创收算法. 用于训练gnn的模型倾向于以更小的块大小更随机地访问数据. 它们确实会挑战本地缓存SSD的性能,并可能导致昂贵的gpu空转. 需要新的SSD功能来缓解这种性能瓶颈. 美光正在积极与行业领导者合作开发解决方案,并在丹佛的SC23上展示了其中的一些成果, 我们将演示如何让GPU和SSD相互作用,从而将一些I/O密集型处理时间提高100倍. 

人工智能数据湖

对于大数据湖,大容量ssd将成为首选的存储介质. 随着容量的增大,hdd变得越来越便宜($/TB),但速度也越来越慢(MB/s /TB)。. 大于20TB的HDD容量将真正挑战大型数据湖的能力,以高效能地获取大型AI/ML GPU集群所需的带宽类型(TB/s). SSDs, 另一方面, 有足够的表现, and, 与HDD相比,专用形式的硬盘可以以更低的功率(低8倍瓦特/TB)和更低的电能(低10倍千瓦时/TB)提供所需的容量. 这些节省将使数据中心有更多的能量来添加更多的gpu. Today, 美光正在将其32TB大容量数据中心SSD部署到众多人工智能数据湖和对象存储中. 15瓦ssd的容量可以提供几GB/s的带宽,未来将扩展到250TB.

人工智能将如何影响NAND闪存存储需求?

首先,所有新的AI/ML模型的训练都需要“学习”的数据.IDC估计,这将从2005年开始, 每年产生的数据量超过了每年购买的存储量. 这意味着一些数据必须是短暂的. 用户必须决定它的值, 以及保存数据的价值是否超过购买更多存储空间来保存数据的成本.

机器-照相机, sensors, IoT, 喷气发动机诊断, 分组路由信息, 滑动和点击——现在每天产生的数据比人类多几个数量级. 人类以前没有时间或能力分析的机器生成的数据现在对AI/ML例程提取有用和有价值的信息特别有用. AI/ML的出现应该会使这些数据更有价值,从而增加对存储的需求.

这些训练数据存储在人工智能数据湖中. 这些数据湖表现出高于正常访问密度的特征,以满足每个集群中越来越多的gpu,同时支持摄取和预处理的高度混合. 还需要对数据进行大量的再训练,因此通常很少有“冷”数据. 这种工作负载特性更适合大容量, 比传统的基于hdd的对象存储更节能的ssd. 对于计算机视觉来说,这些数据湖可能相当大——数百pb, 比如自动驾驶或DLRM. 随着这些数据湖容量和数量的增长, 这将为NAND闪存ssd带来巨大的增长机会.

随着人工智能模型的发展和扩展, NAND闪存将变得越来越重要,以保持其指数级增长的性能.

Currie Munce

Currie Munce是美光存储业务部的存储解决方案架构副总裁,负责为公司定义存储架构方向, 包括原型设计和与客户和合作伙伴的联合合作.
+