解码思维链的奥秘
答案可能会让你惊讶:
它们在底层完全相同
推理模型和非推理模型的唯一区别是:是否在输出中包含思考过程。它们使用相同的神经网络架构,只是在页面显示时选择性地隐藏或显示 <think> 标签中的内容。
既然原理如此简单,我们完全可以用提示词让任何模型变成"推理模型"。试试这个提示词:
建议使用 DeepSeek 非深度思考模式来测试这个提示词的效果
为了验证推理能力,研究者设计了"末尾字母拼接"任务。看似简单,实则深刻。
"我需要找到每个单词的最后一个字母。'artificial'的最后一个字母是'l','intelligence'的最后一个字母是'e',所以答案是'le'。"
"artificial intelligence" 的末尾字母拼接
→ "l" + "e" = "le"
首字母拼接任务太容易了!互联网上大量的缩写词让模型早就学会了这个技能。但末尾字母拼接却让所有模型都败下阵来,这恰恰说明模型并没有真正理解拼接动作,而只是记住了常见模式。
让模型思考、生成中间步骤不是可有可无的选项,而是在计算原理上解锁模型解决复杂问题能力的金钥匙
普通预训练模型不会推理
需要特殊技巧或微调
预训练模型早就准备好推理了,我们只需要改变解码过程。推理能力不是被注入的,而是在学习海量文本中的逻辑关系后自然涌现的。
思维链解码的核心发现:对于包含正确思维链的回答,模型在生成最终答案时的置信度(概率)会异常高。
在苹果例子中,模型预测"8"这个词的概率可能高达98%——这是一个非常强的信号,因为对于拥有巨大词汇表的模型来说,通常每个词的概率都接近零。
1. 超越贪婪解码,检查更多候选输出
2. 选择对最终答案置信度最高的候选