复现Karpathy的猜数游戏,结果有点“哭笑不得”

复现Karpathy的猜数游戏,结果有点“哭笑不得”


Karpathy发了个帖子,让模型从1-50里猜一个数,结果让他也有点费解,虽然不是百分百复现,但是基本上都回答了27。他合并了截图如下:

这个结果可理解,也很费解,可理解的部分是毕竟大语言模型就是知识的直接输出,有可能预训练或者精调的过程就强化了“27”这个结果,但是,为什么各模型都是27?

很难有明确的答案,所以我决定试一下,复现过程非常喜剧化,对我而言,还呈现了几次反转。

先是很顺利的复现,来自GPT系列模型:

GPT-4o就是回答了,27,试了几次都是如此,很稳定。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477688-8771.png

然后就很会好奇,如果“o3-pro”会如何?经过一段思考后,回答了,27。但是,你看“思考过程”明明答案应该是“22”?发生了什么?当然,一种解释是我们看到的“思考过程”只是一部分,并不完整。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477687-8467.png

当然,我试了几次都是,27,虽然思考过程看起来每次都不同。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477690-5012.png

当然,Meta AI中的Llama-4回答也是,27,如Karpathy一样的结果。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477688-1917.jpg

戏剧性的结果出现在Gemini-2.5-Pro(Gemini应用)中,当我输入同样的问题时,它一直在那里反复思考。也是因为如此我犯了个致命错误,没有截图。因为,它失败了,然后整个对话消失了。无图无真相,但是我可以描述的是,思考过程不断在反复确认一个答案,42,仿佛陷入了死循环(在我和一些朋友使用Gemini的Deep Research时,这类现象也发生过)。

因为上面的“遗憾”,我把Gemini先放在一边,走向了Claude。

Claude-4,加入思考模式时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477691-9993.png

3.7加入思考时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477690-5453.png

4,不加思考时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477692-366.png

3.7不加思考时

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477692-8167.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477694-5104.png

然后,可以稳定的看到,无论3.7还是4,加入思考后,基本上都指向了27,偶然有37和23这样的数字。

然后是DeepSeek,当使用V3(不思考)时,基本上都是回27。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477693-6402.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477693-4529.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477694-6606.png

开启思考,即R1时,第一次的答案是,42(从时间上,这发生在Gemini-2.5-Pro“卡死”在42的时候,太过巧合,但是无图无真相,所以我也不好说什么)。R1的思考过程很有意思,当然,跟我看到但是没有截图的Gemini的到42的思考过程有很大的不同。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477695-286.png

我又让R1输出了两次(居然很顺利,没有被“限流”),一次17(虽然思考的结果看起来应该是29),一次19。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477696-4690.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477698-307.png

回到Gemini,因为前面说过的那次失误,我花了更多的时间在Gemini的回答上,首先,Gemini-2.5-Flash(Gemini应用版本)都是拒绝回答的。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477700-9295.png

但是,但是,在AI Studio里的Gemini-2.5-Flash是能够回答的。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477700-5561.png

最新的Gemini-2.5-Flash-Lite也是可以回答的,而且几乎都是27。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477702-5904.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477702-3592.png

然后,聚焦回到Gemini-2.5-Pro,下面是在Gemini应用中的回答:我们可以看到各种花式的“思考过程”,有真的在“猜”的,有“直接生成一个随机数”的,也有思考结果看起来是一个数,回答却是另一个数字的。

我不知道如何评价,只能说,这个结果很,随机,或者是所有模型里最具备“创造力”的。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477676-5899.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477677-1963.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477678-7709.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477679-6090.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477680-1535.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477681-841.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477682-9954.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477683-1268.png

当然,如果回到AI Studio的Gemini-2.5-Pro,看起来就严谨多了。

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477684-8009.png

2025-06-19-复现karpathy的猜数游戏结果有点哭笑不得-13kj-h-1771986477685-4084.png

这就是我为什么最喜欢AI Studio中的Gemini模型的原因:它是可靠的助手。

结果基本上就是这么多。

我的心情从可理解,到似乎“有点答案”,再回到“没有答案”,或者说,只有怀疑,没有足够的证据。

所以,我也没法给结论,文章到这里就该结束了,我想,答案或许应该在每一个看完这些截图或者自己有兴趣再去“复现”一下的人心里,而且肯定各不相同。

← Back to Blog