2020年MURATA DE11XKX220JN4AC05F现货供应，厂商MURATA_封装

海量AI存储需求催生新的“内存墙”

香港天翔電子有限公司 / 06-11 19:06

“内存墙”至今仍然存在，但在AI时代，这一隐喻被赋予了新的含义——随着大语言模型（LLM）对内存需求的急剧增长，DRAM及基于DRAM的高带宽内存（HBM）正艰难追赶这种爆炸式提升的需求。

“内存墙（Memory Wall）”这一术语诞生于20世纪90年代初，用以描述计算机性能中的一个瓶颈：处理器与内存（尤其是DRAM）之间的速度差距。该概念很快成为工程领域的常用术语，其中DRAM往往被视为拖累计算效率的“落后技术”。这一“墙”至今仍然存在，但在AI时代，这一隐喻被赋予了新的含义——随着大语言模型（LLM）对内存需求的急剧增长，DRAM及基于DRAM的高带宽内存（HBM）正艰难追赶这种爆炸式提升的需求。

在过去30年中，DRAM通过一系列创新技术满足了性能扩展需求，例如缓存层级结构（cache hierarchies）、预取（prefetching）和内存交织（memory interleaving）。设计者们开发出更大、更快的片上缓存，并引入了在数据实际需要之前就进行预测和预加载的技术。然而，这些技术并未解决容量扩展的根本问题。

如今，快速扩张的AI模型正对传统内存架构提出前所未有的挑战，其容量扩展能力已经难以跑赢数据存储需求的增长。各种迹象表明这一压力正在加剧——DRAM与HBM的设计和制造成本不断上升，能耗与散热问题日益突出，同时可扩展性空间也在持续收窄。

AI推理建模正在重新定义数据检索模式与优先级

随着大语言模型（LLM）的参数规模从数十亿扩展至数万亿，基于DRAM的内存（如HBM和GDDR）所面临的限制日益凸显。与此同时，由复杂提示（prompt）、检索增强生成（RAG）、思维链推理，以及用户个性化数据驱动的AI推理上下文规模持续扩大，其对键值缓存（KV cache）的需求往往甚至超过模型本身。

当前，传统DRAM架构以延迟为核心的设计范式，在AI推理负载中的主导地位正在受到挑战。这类负载以读操作为主，且由于内存访问模式具有可预测性，可以实现预取和缓冲，因此对延迟的容忍度较高。这使得HBM单纯围绕原始带宽进行优化的设计，难以满足既需要大容量又需要高带宽的工作负载需求。

上述挑战凸显出，亟需面向AI推理重新设计内存架构，使容量与带宽得到协同优化。不同于依赖稳定、缓存友好型访问模式的传统计算，AI推理模型需处理高度多变且多维的数据类型。其内存访问具有确定性、利于预取且粒度较大的特点，在这种情况下，缓存层级的重要性降低，而顺序带宽反而更加关键。

由此产生的AI计算范式，并非依靠暴力提升内存带宽来取得成功，而是通过优化数据何时及如何被调取。在这一背景下，它使得采用针对高容量和顺序带宽优化的替代性内存技术成为可能，从而提供一种更智能的解决方案。新的内存挑战，变成了优化马赛克式数据流拼接，而非单纯对速度的线性提升。

从历史来看，数据中心设计者通常通过对AI推理负载进行划分，并分布到多个昂贵的加速器上，以弥补计算与内存容量之间的不平衡。这种方式往往会造成算力浪费，但在大型数据中心中，由于可以通过大规模批处理分摊成本与功耗，因此仍具备经济合理性。然而，当分布式处理被应用于用户规模较小的企业，或服务不同客户的多租户大型数据中心时，批处理的效率优势便会显著下降。

AI内存演进的新路径

随着AI推理工作负载在规模与复杂度上的持续提升，高带宽闪存（high-bandwidth flash，HBF）正作为一种替代方案逐渐兴起。不同于成本高昂、功耗较大且容量受限的DRAM与HBM，高带宽闪存利用了NAND闪存的高密度优势。通过堆叠技术和晶圆键合（如CMOS直接键合阵列，CBA技术），这类新型架构在内存容量上已展现出超越HBM的潜力。

尽管高带宽闪存的访问延迟高于DRAM，但AI推理工作负载正日益受限于带宽而非延迟。这类新型内存设计基于高密度NAND技术，通过在多个存储单元阵列之间实现并发访问，为大粒度读取操作提供高带宽支持。这使得它们适用于大语言模型存储和读取密集型推理场景。

在这些高带宽内存使用环境中，高能耗导致的高温散热问题，使得热稳定性成为一项至关重要的要求。基于NAND技术的高带宽闪存，相比DRAM具有潜在的更高稳定性，更适合这类环境。此外，相较于标准NAND闪存，其非易失性和增强的耐久性，也使高带宽闪存能够持久化存储KV cache数据，让这些数据可被复用以模拟长期记忆功能。

随着AI计算需求的持续增长，仅依赖DRAM和HBM可能会制约架构创新。高带宽闪存为数据中心和边缘AI设计者提供了一种可扩展、高效的内存替代方案，精准契合AI不断演进的需求——在这一范式下，性能不再由延迟决定，而是由推理驱动的数据编排效率所定义。

AI推理建模正在重新定义数据检索模式与优先级

AI内存演进的新路径

E-mail

Microsoft Teams

QQ咨询

Hotline

E-mail

Microsoft Teams

QQ咨询

Hotline