大模型推理

解码思维链的奥秘

推理 = 输入与输出之间
生成的所有中间步骤

什么是推理?

问题 → 思考步骤1 → 思考步骤2 → ... → 答案

??? 推理模型 = 非推理模型 ???

模型的本质:
推测下一个字是什么

那么,推理模型和非推理模型到底有什么区别呢?

答案可能会让你惊讶:

它们在底层完全相同

关键洞察

推理模型和非推理模型的唯一区别是:是否在输出中包含思考过程。它们使用相同的神经网络架构,只是在页面显示时选择性地隐藏或显示 <think> 标签中的内容。

动手试试:造一个推理模型

既然原理如此简单,我们完全可以用提示词让任何模型变成"推理模型"。试试这个提示词:

你爱我吗?一步步思考推理,并且将你的思考过程放在 <think> </think> 标签中,最后再输出问题的结果。

建议使用 DeepSeek 非深度思考模式来测试这个提示词的效果

末尾字母拼接:一个巧妙的测试

为了验证推理能力,研究者设计了"末尾字母拼接"任务。看似简单,实则深刻。

1
直接回答:可能凭语言惯性猜测
2
分步思考:展现真正的逻辑操作

"我需要找到每个单词的最后一个字母。'artificial'的最后一个字母是'l','intelligence'的最后一个字母是'e',所以答案是'le'。"

例子

"artificial intelligence" 的末尾字母拼接

→ "l" + "e" = "le"

意外发现

首字母拼接任务太容易了!互联网上大量的缩写词让模型早就学会了这个技能。但末尾字母拼接却让所有模型都败下阵来,这恰恰说明模型并没有真正理解拼接动作,而只是记住了常见模式

理论支撑:
O(T) 长度的中间步骤
= 解决任何可算问题的钥匙

理论基础:布尔电路与计算复杂度

关键洞察

让模型思考、生成中间步骤不是可有可无的选项,而是在计算原理上解锁模型解决复杂问题能力的金钥匙

颠覆性发现:推理能力的自然涌现

传统观点

普通预训练模型不会推理

需要特殊技巧或微调

新观点:大错特错!

预训练模型早就准备好推理了,我们只需要改变解码过程。推理能力不是被注入的,而是在学习海量文本中的逻辑关系后自然涌现的。

思维链解码:发现隐藏的推理路径

正确的推理路径一直存在于模型的输出空间里,
它们就像隐藏在主干道旁边的小路

置信度:判断最佳输出的指标

思维链解码的核心发现:对于包含正确思维链的回答,模型在生成最终答案时的置信度(概率)会异常高

在苹果例子中,模型预测"8"这个词的概率可能高达98%——这是一个非常强的信号,因为对于拥有巨大词汇表的模型来说,通常每个词的概率都接近零。

核心方法

1. 超越贪婪解码,检查更多候选输出

2. 选择对最终答案置信度最高的候选

复杂推理的分解艺术

范式转变:
从追求答案
到追求过程
这彻底改变了我们训练和使用大语言模型的方式
——让思考成为可见的过程