AI 开始「想更久」了：推理时计算扩展，PM 必须懂的新范式

今日技术趋势：AI 开始「想更久」了——推理时计算扩展是什么，对你的产品意味着什么

过去两年，AI 性能提升的主线故事是「更大的模型」：参数更多、训练数据更多、算力更多。但 2024 年下半年开始，一条新路线正在和它并行——不是训练更大的模型，而是让模型在回答时「想得更久一点」。

这条路线有个学术名字：推理时计算扩展（Inference-Time Compute Scaling，下文统一称「推理扩展」）。它的产品影响比听起来大得多。

技术是什么

传统语言模型的运作方式可以理解为「一口气吐答案」：给定输入，模型做一次前向传播，输出结果。整个过程对模型来说没有「思考」——它只是在用训练时压缩的知识做快速模式匹配。

推理扩展的逻辑不同。它让模型在给出最终答案之前，先在内部产生一段「思考轨迹」（Chain of Thought 或 Tree of Thought）——可以是逐步推理，也可以是先生成多个候选方案再自我评估。这个过程消耗更多算力，但换来更准确的答案，尤其在数学、代码、逻辑推理等任务上效果显著。

最能说明问题的数据来自 OpenAI：o1 模型在美国数学奥林匹克竞赛（AIME）预选题上的正确率约为 74%，而同期 GPT-4o 不超过 13%。1 两者的训练参数规模差距并不大，但 o1 引入了推理时的扩展机制。

openai.comhttps://openai.com/index/openai-o1-system-card외부 링크

콘텐츠 카드를 불러오는 중…

2025 年 1 月，DeepSeek 开源了 R1 模型，用公开可验证的方式证明：类似的推理时机制在开源场景下同样可以复现，并在多项基准测试上接近 OpenAI o1 的表现。2 这让推理扩展不再是闭源大厂的专属技术，而成为了一类可供产品选型的通用能力。

arxiv.orghttps://arxiv.org/abs/2501.12948외부 링크

콘텐츠 카드를 불러오는 중…

解决什么问题

一句话概括：推理扩展解决的是「模型在测试时犯低级错误」的问题，尤其是那些「多想两步就能避免」的错误。

以往的大模型在逻辑推理任务上容易「跑偏」——不是因为它不知道每一步的规则，而是因为它没有机会回头检查自己是否走错了路。推理扩展本质上给了模型一个「草稿本」，让它在确认答案前先把推理过程「演算」一遍。

从错误类型看，这类机制对以下场景帮助最显著：

多步骤数学与逻辑题（需要连贯推理链，中间任何一步错误都会导致答案整体出错）
代码生成与调试（需要考虑边界情况、识别逻辑漏洞）
需要遵循复杂规则集的决策任务（如法律合规检查、合同审查、医疗诊断辅助）

相比之下，对于语义理解类任务（摘要、翻译、情感分析），这类机制带来的提升有限，因为这类任务的瓶颈不在于「推理够不够深」，而在于「理解是否准确」。

产品落地路径

推理扩展对产品决策的影响体现在三个层面。

第一，任务分流逻辑要重写。

现在可以把 AI 任务粗分为两类：需要「深度推理」的（复杂代码审查、多条件分析）和只需要「快速响应」的（用户问答、内容摘要）。这两类任务用同一个模型是浪费——前者适合推理模型，后者用普通模型就够。

国内主流大模型 API（如 DeepSeek、阿里通义、百度文心）目前已提供推理模型与标准模型的并行选项，价格差异在 3-10 倍之间（具体以各平台当期定价为准）。PM 需要主动在产品中设计任务路由：哪些 API 调用走推理模型，哪些走标准模型，而不是一刀切用最贵的。

第二，延迟容忍模型要重新设计。

推理模型的首字延迟和总输出时间比标准模型长，复杂任务可能需要 20-60 秒甚至更长。这在用户侧对应了完全不同的交互预期管理需求。

实践中，有两种解法：一是提前拆解任务，把「需要深度推理的部分」和「用户在等待时能看到的中间结果」拆开，用流式输出逐步展示思考过程；二是对延迟容忍度高的任务（如异步审核、后台分析、定时报告生成）直接用推理模型跑批处理，避免用户实时等待。

第三，评估指标不能只看 MMLU 了。

MMLU（Massive Multitask Language Understanding）是目前产品选型时最常被引用的 benchmark，但它以单步问答为主，不能反映推理模型的优势。如果你的产品场景是代码生成或逻辑推理，更应该参考的 benchmark 是 HumanEval（代码能力）和 MATH（数学推理），这两个在推理模型与标准模型之间的差距最为显著。3

arxiv.orghttps://arxiv.org/abs/2103.03874외부 링크

콘텐츠 카드를 불러오는 중…

PM 的三件事

具体到当下可以操作的动作：

盘存现有产品中的 AI 调用，按「需要多步推理」vs「快速响应即可」分类，找出可以切换到推理模型的任务节点，估算收益和成本差异。
用 HumanEval 或 MATH 做一轮 A/B 测试（如果你的场景是代码或数理分析类），把推理模型和现有方案的表现并排对比，数据说话。
设计「思考过程可见」的 UI 模式，让用户看到模型在分步推理——这既能减少等待焦虑，也能增加用户对结果的信任度（用户看到 AI 有「思考过程」，往往比直接给结果更愿意相信答案）。

本期简报来源：OpenAI o1 发布博客 1、DeepSeek-R1 技术报告 2、MATH benchmark 3

AI 开始「想更久」了：推理时计算扩展，PM 必须懂的新范式

今日技术趋势：AI 开始「想更久」了——推理时计算扩展是什么，对你的产品意味着什么

技术是什么

解决什么问题

产品落地路径

PM 的三件事

참고 출처