复现Karpathy的猜数游戏，结果有点“哭笑不得”

Sep 3, 2025

复现Karpathy的猜数游戏，结果有点“哭笑不得”

中文 (Chinese) English

Karpathy发了个帖子，让模型从1-50里猜一个数，结果让他也有点费解，虽然不是百分百复现，但是基本上都回答了27。他合并了截图如下：

这个结果可理解，也很费解，可理解的部分是毕竟大语言模型就是知识的直接输出，有可能预训练或者精调的过程就强化了“27”这个结果，但是，为什么各模型都是27？

很难有明确的答案，所以我决定试一下，复现过程非常喜剧化，对我而言，还呈现了几次反转。

先是很顺利的复现，来自GPT系列模型：

GPT-4o就是回答了，27，试了几次都是如此，很稳定。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477688-8771.png

然后就很会好奇，如果“o3-pro”会如何？经过一段思考后，回答了，27。但是，你看“思考过程”明明答案应该是“22”？发生了什么？当然，一种解释是我们看到的“思考过程”只是一部分，并不完整。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477687-8467.png

当然，我试了几次都是，27，虽然思考过程看起来每次都不同。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477690-5012.png

当然，Meta AI中的Llama-4回答也是，27，如Karpathy一样的结果。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477688-1917.jpg

戏剧性的结果出现在Gemini-2.5-Pro（Gemini应用）中，当我输入同样的问题时，它一直在那里反复思考。也是因为如此我犯了个致命错误，没有截图。因为，它失败了，然后整个对话消失了。无图无真相，但是我可以描述的是，思考过程不断在反复确认一个答案，42，仿佛陷入了死循环（在我和一些朋友使用Gemini的Deep Research时，这类现象也发生过）。

因为上面的“遗憾”，我把Gemini先放在一边，走向了Claude。

Claude-4，加入思考模式时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477691-9993.png

3.7加入思考时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477690-5453.png

4，不加思考时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477692-366.png

3.7不加思考时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477692-8167.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477694-5104.png

然后，可以稳定的看到，无论3.7还是4，加入思考后，基本上都指向了27，偶然有37和23这样的数字。

然后是DeepSeek，当使用V3（不思考）时，基本上都是回27。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477693-6402.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477693-4529.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477694-6606.png

开启思考，即R1时，第一次的答案是，42（从时间上，这发生在Gemini-2.5-Pro“卡死”在42的时候，太过巧合，但是无图无真相，所以我也不好说什么）。R1的思考过程很有意思，当然，跟我看到但是没有截图的Gemini的到42的思考过程有很大的不同。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477695-286.png

我又让R1输出了两次（居然很顺利，没有被“限流”），一次17（虽然思考的结果看起来应该是29），一次19。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477696-4690.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477698-307.png

回到Gemini，因为前面说过的那次失误，我花了更多的时间在Gemini的回答上，首先，Gemini-2.5-Flash（Gemini应用版本）都是拒绝回答的。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477700-9295.png

但是，但是，在AI Studio里的Gemini-2.5-Flash是能够回答的。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477700-5561.png

最新的Gemini-2.5-Flash-Lite也是可以回答的，而且几乎都是27。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477702-5904.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477702-3592.png

然后，聚焦回到Gemini-2.5-Pro，下面是在Gemini应用中的回答：我们可以看到各种花式的“思考过程”，有真的在“猜”的，有“直接生成一个随机数”的，也有思考结果看起来是一个数，回答却是另一个数字的。

我不知道如何评价，只能说，这个结果很，随机，或者是所有模型里最具备“创造力”的。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477676-5899.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477677-1963.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477678-7709.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477679-6090.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477680-1535.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477681-841.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477682-9954.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477683-1268.png

当然，如果回到AI Studio的Gemini-2.5-Pro，看起来就严谨多了。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477684-8009.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477685-4084.png

这就是我为什么最喜欢AI Studio中的Gemini模型的原因：它是可靠的助手。

结果基本上就是这么多。

我的心情从可理解，到似乎“有点答案”，再回到“没有答案”，或者说，只有怀疑，没有足够的证据。

所以，我也没法给结论，文章到这里就该结束了，我想，答案或许应该在每一个看完这些截图或者自己有兴趣再去“复现”一下的人心里，而且肯定各不相同。

← Back to Blog