075582814553
海量AI存储需求催生新的“内存墙”

香港天翔電子有限公司 / 06-11 19:06

“内存墙”至今仍然存在,但在AI时代,这一隐喻被赋予了新的含义——随着大语言模型(LLM)对内存需求的急剧增长,DRAM及基于DRAM的高带宽内存(HBM)正艰难追赶这种爆炸式提升的需求。

“内存墙(Memory Wall)”这一术语诞生于20世纪90年代初,用以描述计算机性能中的一个瓶颈:处理器与内存(尤其是DRAM)之间的速度差距。该概念很快成为工程领域的常用术语,其中DRAM往往被视为拖累计算效率的“落后技术”。这一“墙”至今仍然存在,但在AI时代,这一隐喻被赋予了新的含义——随着大语言模型(LLM)对内存需求的急剧增长,DRAM及基于DRAM的高带宽内存(HBM)正艰难追赶这种爆炸式提升的需求。

在过去30年中,DRAM通过一系列创新技术满足了性能扩展需求,例如缓存层级结构(cache hierarchies)、预取(prefetching)和内存交织(memory interleaving)。设计者们开发出更大、更快的片上缓存,并引入了在数据实际需要之前就进行预测和预加载的技术。然而,这些技术并未解决容量扩展的根本问题。

如今,快速扩张的AI模型正对传统内存架构提出前所未有的挑战,其容量扩展能力已经难以跑赢数据存储需求的增长。各种迹象表明这一压力正在加剧——DRAM与HBM的设计和制造成本不断上升,能耗与散热问题日益突出,同时可扩展性空间也在持续收窄。

AI推理建模正在重新定义数据检索模式与优先级

随着大语言模型(LLM)的参数规模从数十亿扩展至数万亿,基于DRAM的内存(如HBM和GDDR)所面临的限制日益凸显。与此同时,由复杂提示(prompt)、检索增强生成(RAG)、思维链推理,以及用户个性化数据驱动的AI推理上下文规模持续扩大,其对键值缓存(KV cache)的需求往往甚至超过模型本身。

当前,传统DRAM架构以延迟为核心的设计范式,在AI推理负载中的主导地位正在受到挑战。这类负载以读操作为主,且由于内存访问模式具有可预测性,可以实现预取和缓冲,因此对延迟的容忍度较高。这使得HBM单纯围绕原始带宽进行优化的设计,难以满足既需要大容量又需要高带宽的工作负载需求。

上述挑战凸显出,亟需面向AI推理重新设计内存架构,使容量与带宽得到协同优化。不同于依赖稳定、缓存友好型访问模式的传统计算,AI推理模型需处理高度多变且多维的数据类型。其内存访问具有确定性、利于预取且粒度较大的特点,在这种情况下,缓存层级的重要性降低,而顺序带宽反而更加关键。

由此产生的AI计算范式,并非依靠暴力提升内存带宽来取得成功,而是通过优化数据何时及如何被调取。在这一背景下,它使得采用针对高容量和顺序带宽优化的替代性内存技术成为可能,从而提供一种更智能的解决方案。新的内存挑战,变成了优化马赛克式数据流拼接,而非单纯对速度的线性提升。

从历史来看,数据中心设计者通常通过对AI推理负载进行划分,并分布到多个昂贵的加速器上,以弥补计算与内存容量之间的不平衡。这种方式往往会造成算力浪费,但在大型数据中心中,由于可以通过大规模批处理分摊成本与功耗,因此仍具备经济合理性。然而,当分布式处理被应用于用户规模较小的企业,或服务不同客户的多租户大型数据中心时,批处理的效率优势便会显著下降。

AI内存演进的新路径

随着AI推理工作负载在规模与复杂度上的持续提升,高带宽闪存(high-bandwidth flash,HBF)正作为一种替代方案逐渐兴起。不同于成本高昂、功耗较大且容量受限的DRAM与HBM,高带宽闪存利用了NAND闪存的高密度优势。通过堆叠技术和晶圆键合(如CMOS直接键合阵列,CBA技术),这类新型架构在内存容量上已展现出超越HBM的潜力。

尽管高带宽闪存的访问延迟高于DRAM,但AI推理工作负载正日益受限于带宽而非延迟。这类新型内存设计基于高密度NAND技术,通过在多个存储单元阵列之间实现并发访问,为大粒度读取操作提供高带宽支持。这使得它们适用于大语言模型存储和读取密集型推理场景。

在这些高带宽内存使用环境中,高能耗导致的高温散热问题,使得热稳定性成为一项至关重要的要求。基于NAND技术的高带宽闪存,相比DRAM具有潜在的更高稳定性,更适合这类环境。此外,相较于标准NAND闪存,其非易失性和增强的耐久性,也使高带宽闪存能够持久化存储KV cache数据,让这些数据可被复用以模拟长期记忆功能。

随着AI计算需求的持续增长,仅依赖DRAM和HBM可能会制约架构创新。高带宽闪存为数据中心和边缘AI设计者提供了一种可扩展、高效的内存替代方案,精准契合AI不断演进的需求——在这一范式下,性能不再由延迟决定,而是由推理驱动的数据编排效率所定义。


Processed in 0.623655 Second , 36 querys.