2020年YAGEO RC0603FR-0722K1L现货供应，厂商YAGEO_封装22.1K OHM 1% 1/10W 0603

大模型越用越便宜？词元单价狂降背后，总推理成本或将不降反升

香港天翔電子有限公司 / 03-27 15:22

预计到2030年，大模型推理成本将暴降90%，但前沿AI依旧昂贵。

全球知名研究与咨询公司Gartner发布最新预测，揭示了生成式人工智能（GenAI）成本演进的巨大潜力与现实挑战。

Gartner预测，得益于半导体与基础设施效率提升、模型设计创新、芯片利用率提高、推理专用芯片的更多应用以及边缘计算的发展，到2030年，在一个拥有万亿参数的大型语言模型（LLM）上进行推理的成本，将比2025年降低90%以上。届时，大语言模型的总体成本效益（即每单位成本的性能表现）将比2022年开发的同等规模的早期模型高出多达100倍。

这一预测结果基于两种半导体发展场景的分析：

前沿场景：模型处理基于对未来的尖端芯片的性能预估，成本下降幅度最为显著。
传统混合场景：模型处理基于对现有半导体（如CPU、GPU、TPU等）的混合使用，并以Gartner的行业预测为基准。此场景下的模型成本远高于前沿场景。

图 1：Gartner关于GenAI 推理成本情景预测

资料来源：Gartner（2026年3月）

然而，报告同时发出了重要警示：GenAI词元（AI token，即AI模型处理的数据单元）成本的急剧下降，并不意味着最前沿、最强大的AI能力（或称“前沿智能”）将随之普及化。AI词元（AI token）是GenAI模型处理的数据单元。在本分析中，一个词元包含3.5字节的数据，约合4个字符。

其原因在于，AI词元需求的增长速度预计将远超其单位成本的下降速度。随着AI能力的提升，智能体模型执行复杂任务时所需的词元数量将激增，可能是当前标准AI聊天机器人的5到30倍。这意味着，虽然基础AI能力（“商品化智能”）的成本会趋近于零，但支持高级推理所需的高昂计算能力和系统资源依然稀缺。因此，企业的整体AI推理成本非但未必降低，反而有可能增加。

Gartner高级总监分析师Will Sommer对此分析道：“首席产品官（CPO）不应将商品词元的贬值与前沿推理的普及混为一谈。如今试图用廉价词元掩盖架构效率低下的企业，明天将会发现实现智能体规模化（即让高级AI自主、高效地工作）遥不可及。”

为了应对这一挑战，Gartner为企业首席产品官们提出了一些建议：构建一个能够智能协调不同模型工作负载的平台。其核心原则是将常规、高频的任务分配给更高效、更专注的小型领域专用模型，这些模型能以极低的成本出色完成特定工作。同时，必须将那些前沿、高成本的大型模型严格限制在高价值、高利润的复杂推理任务上，从而在控制成本的同时，最大化前沿AI的商业价值。

E-mail

Microsoft Teams

QQ咨询

Hotline

E-mail

Microsoft Teams

QQ咨询

Hotline