AI 开始「想更久」了:推理时计算扩展,PM 必须懂的新范式
从 OpenAI o1 到 DeepSeek-R1,「推理时计算扩展」正在成为 AI 产品选型的新变量。本期简报用 5 分钟讲清楚:这项技术是什么、解决了什么问题,以及 PM 立刻可以做的三件事。

今日技术趋势:AI 开始「想更久」了——推理时计算扩展是什么,对你的产品意味着什么
过去两年,AI 性能提升的主线故事是「更大的模型」:参数更多、训练数据更多、算力更多。但 2024 年下半年开始,一条新路线正在和它并行——不是训练更大的模型,而是让模型在回答时「想得更久一点」。
这条路线有个学术名字:推理时计算扩展(Inference-Time Compute Scaling,下文统一称「推理扩展」)。它的产品影响比听起来大得多。
技术是什么
传统语言模型的运作方式可以理解为「一口气吐答案」:给定输入,模型做一次前向传播,输出结果。整个过程对模型来说没有「思考」——它只是在用训练时压缩的知识做快速模式匹配。
推理扩展的逻辑不同。它让模型在给出最终答案之前,先在内部产生一段「思考轨迹」(Chain of Thought 或 Tree of Thought)——可以是逐步推理,也可以是先生成多个候选方案再自我评估。这个过程消耗更多算力,但换来更准确的答案,尤其在数学、代码、逻辑推理等任务上效果显著。
最能说明问题的数据来自 OpenAI:o1 模型在美国数学奥林匹克竞赛(AIME)预选题上的正确率约为 74%,而同期 GPT-4o 不超过 13%。1 两者的训练参数规模差距并不大,但 o1 引入了推理时的扩展机制。
콘텐츠 카드를 불러오는 중…
2025 年 1 月,DeepSeek 开源了 R1 模型,用公开可验证的方式证明:类似的推理时机制在开源场景下同样可以复现,并在多项基准测试上接近 OpenAI o1 的表现。2 这让推理扩展不再是闭源大厂的专属技术,而成为了一类可供产品选型的通用能力。
콘텐츠 카드를 불러오는 중…
解决什么问题
一句话概括:推理扩展解决的是「模型在测试时犯低级错误」的问题,尤其是那些「多想两步就能避免」的错误。
以往的大模型在逻辑推理任务上容易「跑偏」——不是因为它不知道每一步的规则,而是因为它没有机会回头检查自己是否走错了路。推理扩展本质上给了模型一个「草稿本」,让它在确认答案前先把推理过程「演算」一遍。
从错误类型看,这类机制对以下场景帮助最显著:
- 多步骤数学与逻辑题(需要连贯推理链,中间任何一步错误都会导致答案整体出错)
- 代码生成与调试(需要考虑边界情况、识别逻辑漏洞)
- 需要遵循复杂规则集的决策任务(如法律合规检查、合同审查、医疗诊断辅助)
相比之下,对于语义理解类任务(摘要、翻译、情感分析),这类机制带来的提升有限,因为这类任务的瓶颈不在于「推理够不够深」,而在于「理解是否准确」。
产品落地路径
推理扩展对产品决策的影响体现在三个层面。
第一,任务分流逻辑要重写。
现在可以把 AI 任务粗分为两类:需要「深度推理」的(复杂代码审查、多条件分析)和只需要「快速响应」的(用户问答、内容摘要)。这两类任务用同一个模型是浪费——前者适合推理模型,后者用普通模型就够。
国内主流大模型 API(如 DeepSeek、阿里通义、百度文心)目前已提供推理模型与标准模型的并行选项,价格差异在 3-10 倍之间(具体以各平台当期定价为准)。PM 需要主动在产品中设计任务路由:哪些 API 调用走推理模型,哪些走标准模型,而不是一刀切用最贵的。
第二,延迟容忍模型要重新设计。
推理模型的首字延迟和总输出时间比标准模型长,复杂任务可能需要 20-60 秒甚至更长。这在用户侧对应了完全不同的交互预期管理需求。
实践中,有两种解法:一是提前拆解任务,把「需要深度推理的部分」和「用户在等待时能看到的中间结果」拆开,用流式输出逐步展示思考过程;二是对延迟容忍度高的任务(如异步审核、后台分析、定时报告生成)直接用推理模型跑批处理,避免用户实时等待。
第三,评估指标不能只看 MMLU 了。
MMLU(Massive Multitask Language Understanding)是目前产品选型时最常被引用的 benchmark,但它以单步问答为主,不能反映推理模型的优势。如果你的产品场景是代码生成或逻辑推理,更应该参考的 benchmark 是 HumanEval(代码能力)和 MATH(数学推理),这两个在推理模型与标准模型之间的差距最为显著。3
콘텐츠 카드를 불러오는 중…
PM 的三件事
具体到当下可以操作的动作:
- 盘存现有产品中的 AI 调用,按「需要多步推理」vs「快速响应即可」分类,找出可以切换到推理模型的任务节点,估算收益和成本差异。
- 用 HumanEval 或 MATH 做一轮 A/B 测试(如果你的场景是代码或数理分析类),把推理模型和现有方案的表现并排对比,数据说话。
- 设计「思考过程可见」的 UI 模式,让用户看到模型在分步推理——这既能减少等待焦虑,也能增加用户对结果的信任度(用户看到 AI 有「思考过程」,往往比直接给结果更愿意相信答案)。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.