只有Gemini是值得信赖的“工作伙伴”

只有Gemini是值得信赖的“工作伙伴”


昨天朋友发我“洗车场”的小梗图:洗车场距离家50米,你要去洗车,应该开车去还是走路过去。

这个简单的小问题,只有Gemini回答正确了。

我觉得有点不可思议,试了一下,结果:Claude-4.6-Opus和GPT-5.2都“挂”了,Gemini-3-Flash对了,而且对得很讲道理。

image

image

我依然很同意:Claude-4.6-Opus是目前最好的编程模型(或者在Claude Code的加持下),即使在4.5时代,我也是这个结论。但事实上是,到Claude-4之后,它就很少是我Vibe Coding的首选了。一个原因是因为贵,另一个原因是因为AI Studio的Build实在太好用了。

但是,更重要的原因,如这个例子类似的原因:相比Gemini,它并不可靠。

没有一项任务是“纯编程”而不需要带着对世界的判断力的,自从Claude-3.7加入Thinking模式后,Vibe Coding的感觉确实“起飞”了,但是同样“起飞”的是细节部分大量的用力过猛甚至是“幻觉”,这种情况,即使4.6出来后也并没有显著的改善。

过度思考就是容易出幻觉,即使Gemini-3也不能幸免。

但是,相比之下,Gemini-3更注重模型能力的平衡。

也许,如果您需要一个攻坚的冲锋将军,Claude是个好选择;如果您需要一个长期稳定建设的伙伴,Gemini可能更值得信赖,尽管它是有点脾气的。

也许,我需要的正是AI伙伴。

← Back to Blog