DRAM成本飙升与供应紧缩正倒逼AI工作负载重构,边缘架构凭借更强韧性和更低内存需求成为优势替代方案。
一种应对方式是降低对内存的依赖。而更具长期可持续性的方案是在可能的情况下彻底消除对内存的依赖。对于传统AI和视觉导向的AI工作负载而言,借助专门打造的边缘AI加速器已经可以实现这一目标。这些系统能够在芯片内部运行完整的推理流程,从而无需外部DRAM的支持。
其影响立竿见影:物料清单成本(BOM)显著下降,通常每台设备可节省高达100美元的成本,同时在时延、能效和系统可靠性方面也有所提升。同样重要的是,在当前供应链可预测性越来越难维持的情况下,这种做法降低了系统面临的供应链波动风险。
尽管生成式AI还无法完全摆脱对DRAM的依赖,但其设计思路已摒弃“内存无限供给”的预设。
并非所有生成式AI都需依赖云端运行。语音转写、摘要生成、翻译和音频增强等日常任务更多地转向本地化执行——这些操作能在严格内存限制下运行,且性能表现往往更优。此类任务具有可重复、功能明确的特点,无需依赖巨型通用模型。
集中式大模型在复杂或开放式任务中仍有价值,但随着内存成本攀升,不加区分地使用此类模型,不仅效率低下,也越来越难以在成本上自圆其说。规模更小、面向特定领域的专用模型更适配高频任务场景——它们在应用端就近运行,能够在可预测的系统约束条件下稳定运行。
小语言模型(SLM)与紧凑型视觉语言模型(VLM)的技术突破,使得这一转型成为可能。这些模型以更少的参数量实现了出色的性能。对硬件团队而言,这显著降低了AI系统设计中长期存在的“内存税”负担。当完整的推理流程仅需1GB至2GB DRAM即可运行时,多重优势随之显现:
成本优化:系统规避高容量DRAM溢价压力;
供应链风险降低:低容量内存芯片采购难度显著降低;
能效跃升:配合硬件加速(NPU或AI加速器)的小模型,运行时的散热更佳、效能更高;
系统可靠性增强:本地化推理确保即使在网络中断时,关键功能仍可持续运行。
最终形成的是一种混合式架构:本地系统负责那些需要持续、可靠运行的任务;云端则用于处理密集型或低频任务。
DRAM短缺未必会拖慢AI的发展步伐,反而将倒逼其迈向更务实的发展轨道。
那些曾经偏抽象的设计决策,例如模型规模、内存占用、推理运行位置,如今已与成本、可获得性及系统能否真正部署直接挂钩。这正在缩小“技术上可行”和“现实中可落地”之间的差距。
在实践中,这也改变了人们对性能的定义。更多人开始意识到,模型越大并不总是越好,尤其是在需要持续运行、并且受限于固定时延、功耗和内存条件的场景下。面向特定领域、在本地部署的模型,往往才是最优选择。
边缘AI凭借架构设计天生契合该理念。它的内存配置与现实中可获得的资源相匹配,部署方式也降低了对紧缺组件和集中式基础设施的依赖。
这正推动模型规模、内存需求及日常任务效能标准的系统性重构。实践表明,在时延、隐私与功耗成为关键考量因素的场景中,领域专用模型往往比通用大系统更实用。
从这个角度来看,面向约束的设计本身就是一种风险掌控策略。构建在更严格内存边界内的系统,受到成本波动和供应不确定性的影响更小,使团队能够在资源保障不再理所当然的环境下,以更高的可预测性进行部署和扩展。
系统设计的核心关切问题,已从“能运行多少AI任务”转向“如何高效执行关键任务”。