075582814553
大模型越用越便宜?词元单价狂降背后,总推理成本或将不降反升

香港天翔電子有限公司 / 03-27 15:22

预计到2030年,大模型推理成本将暴降90%,但前沿AI依旧昂贵。

全球知名研究与咨询公司Gartner发布最新预测,揭示了生成式人工智能(GenAI)成本演进的巨大潜力与现实挑战。

Gartner预测,得益于半导体与基础设施效率提升、模型设计创新、芯片利用率提高、推理专用芯片的更多应用以及边缘计算的发展,到2030年,在一个拥有万亿参数的大型语言模型(LLM)上进行推理的成本,将比2025年降低90%以上。届时,大语言模型的总体成本效益(即每单位成本的性能表现)将比2022年开发的同等规模的早期模型高出多达100倍。

这一预测结果基于两种半导体发展场景的分析:

  • 前沿场景:模型处理基于对未来的尖端芯片的性能预估,成本下降幅度最为显著。

  • 传统混合场景:模型处理基于对现有半导体(如CPU、GPU、TPU等)的混合使用,并以Gartner的行业预测为基准。此场景下的模型成本远高于前沿场景。

图 1:Gartner关于GenAI 推理成本情景预测

资料来源:Gartner(2026年3月)

然而,报告同时发出了重要警示:GenAI词元(AI token,即AI模型处理的数据单元)成本的急剧下降,并不意味着最前沿、最强大的AI能力(或称“前沿智能”)将随之普及化。AI词元(AI token)是GenAI模型处理的数据单元。在本分析中,一个词元包含3.5字节的数据,约合4个字符。

其原因在于,AI词元需求的增长速度预计将远超其单位成本的下降速度。随着AI能力的提升,智能体模型执行复杂任务时所需的词元数量将激增,可能是当前标准AI聊天机器人的5到30倍。这意味着,虽然基础AI能力(“商品化智能”)的成本会趋近于零,但支持高级推理所需的高昂计算能力和系统资源依然稀缺。因此,企业的整体AI推理成本非但未必降低,反而有可能增加。

Gartner高级总监分析师Will Sommer对此分析道:“首席产品官(CPO)不应将商品词元的贬值与前沿推理的普及混为一谈。如今试图用廉价词元掩盖架构效率低下的企业,明天将会发现实现智能体规模化(即让高级AI自主、高效地工作)遥不可及。”

为了应对这一挑战,Gartner为企业首席产品官们提出了一些建议:构建一个能够智能协调不同模型工作负载的平台。其核心原则是将常规、高频的任务分配给更高效、更专注的小型领域专用模型,这些模型能以极低的成本出色完成特定工作。同时,必须将那些前沿、高成本的大型模型严格限制在高价值、高利润的复杂推理任务上,从而在控制成本的同时,最大化前沿AI的商业价值。


Processed in 0.086646 Second , 36 querys.