Feb 10, 2026

只有Gemini是值得信赖的“工作伙伴”

昨天朋友发我“洗车场”的小梗图：洗车场距离家50米，你要去洗车，应该开车去还是走路过去。

这个简单的小问题，只有Gemini回答正确了。

我觉得有点不可思议，试了一下，结果：Claude-4.6-Opus和GPT-5.2都“挂”了，Gemini-3-Flash对了，而且对得很讲道理。

我依然很同意：Claude-4.6-Opus是目前最好的编程模型（或者在Claude Code的加持下），即使在4.5时代，我也是这个结论。但事实上是，到Claude-4之后，它就很少是我Vibe Coding的首选了。一个原因是因为贵，另一个原因是因为AI Studio的Build实在太好用了。

但是，更重要的原因，如这个例子类似的原因：相比Gemini，它并不可靠。

没有一项任务是“纯编程”而不需要带着对世界的判断力的，自从Claude-3.7加入Thinking模式后，Vibe Coding的感觉确实“起飞”了，但是同样“起飞”的是细节部分大量的用力过猛甚至是“幻觉”，这种情况，即使4.6出来后也并没有显著的改善。

过度思考就是容易出幻觉，即使Gemini-3也不能幸免。

但是，相比之下，Gemini-3更注重模型能力的平衡。

也许，如果您需要一个攻坚的冲锋将军，Claude是个好选择；如果您需要一个长期稳定建设的伙伴，Gemini可能更值得信赖，尽管它是有点脾气的。

也许，我需要的正是AI伙伴。