三大模型如何选?“国产”平替又如何?

三大模型如何选?“国产”平替又如何?


这不会是一篇详细的评测,只是这一段时间自己各种高难度“边界”尝试后,一个大体的主观评价,纯主观。可以分为几部分:

  1. GPT-5,Claude-4,Gemini-2.5,三个模型适用的场景;
  2. 三大模型网页版、手机APP与终端工具(Codex,Claude Code,Gemini Cli);
  3. 如果让我选择国产“平替”的话。

一、三大模型:GPT-5最全面,Claude-4最专最稳定,Gemini-2.5最深

距离GPT-5的发布已经一周,关于它们三者的感受与结论,其实与发布后那个周末的“第二感觉”变化不大。GPT-5的优势在于思考强度、Agent调用,以及舍得下“算力”。综合而言,是两点,模型层面是强化学习能力,使用层面是更“努力”。在绝大多数场景下,例如,问一些问题,做一些实时搜索,提供一些文档语料进行互动,产出一些结构化文档,GPT-5其实都能给出不错的答案。可以明显看到“思考”在其中发挥的巨大作用,如果开启“ChatGPT-Agent”模式,甚至很多时候还有一些惊喜。这背后更多是强化学习的功劳,无论是“思考”,还是Agent(其实就是工具)调用。

当然,这并非没有代价:思考与Agent调用的过程并非可控,大多数场景下,当用户要求GPT-5给出更大的“努力”,无论是调用级别更高的模型,还是提出长且具体的任务清单,这些都可以让GPT-5“消耗”更多的算力,然后得到更好的结果。我有一系列定时任务就是这么实现的。但是,但是,更多的思考和Agent努力,也往往意味着过程的失控。上面的截图显示出一个每日任务大概使用了22分钟,然而,这个数字每天的波动巨大,有不到二十分钟的,也有超过四十分钟的,甚至有过一次持续两小时(超时被服务端停止)。

这并非网络和系统响应速度造成的,看日志过程,就是会有大量的无效重复,或者错误的路径。虽然,目前看起来对结果的影响并不致命,一个持续的流程在最后往往有机会回到正轨,但是小瑕疵,任务遗漏,也是随时可见的。这也会有一个风险,GPT在历史上关于“降智”上的斑斑劣迹,模型总会在发布后经过一段时间的磨合与微调变得很好用,然后在大概三个月以后,开始变差,“降智”。如今看来,大概率就是“降算力”的原因。当然,目前,它可能还是最符合绝大多数用户绝大多数场景的。

Claude-4的优点和缺点都很突出。它毫无疑问依旧是“代码能力最突出”的,这点已经不需要再去描述了。但它确实也是目前三大模型里“幻觉”最严重的,这在大多数代码生成场景里不是个大问题,但是在日常使用中,就会成为一个问题。这个问题可以在下一部分再深入,涉及到一个对于Anthropic(Claude模型开发者)非常重要且致命的问题。

Gemini-2.5在Google生态里自然如鱼得水,是内核最稳定,同时也是延展性最强的模型。实际上,Gemini-2.5可能在每一项任务中都能在三大模型里排前二,在需要深度的任务里都可以稳稳的第一。但是,前提,就是“Google生态”。简单而言,就是会发现,同样一个搜索,可能在Gemini的APP里结果错误很常见,但是开启Deep Research后,事实性的结果又如此准确,在AI Studio中开启Grounding模式后,搜索结果也如此“精准”。

用久了,你也会发现,它会很聪明的偷懒,同样一个描述较为简单的程序任务下去,比如建一个关于某主题内容的网站,Gemini和Claude都可以完成,区别是,Claude可能加上了很多mock的内容,还会把页面调到它认为的“美观”。例如,一个C++学习网站。最近Tailwind的创始人出来澄清,我才可以证实那个一直存在的疑问:这种独特的“紫色品味”一定是学某种CSS风格“学废了”。

2025-08-14-三大模型如何选国产平替又如何-1mb7td-1771996357667-2589.png

相反,Gemini-2.5从不这么干,除非用户给出很具体的要求,否则它都是完成基本任务,比如,上面的页面,目录是有的,卡片模式可能是有的,但是卡片可能是点不开的,因为没生成具体内容,CSS风格一定是因陋就简的,大概率就是最简单的黑白风格。Gemini-2.5能完成用户的任务,但是不会多给一些,你说它“能力不行”吧,同样一个网站,它的基础构架就是比Claude-4来的更合理,更简练,它生成的代码一次性通过的比例就是远远高于Claude-4。然后,当你把类似于上面的截图发给它,说“不能偷懒,要做到这个样子的”后,它又确实可以全部生成出来,甚至无论结构、内容,还是审美上,都要高一点点的样子。

很多时候,我都会有一种奇妙的既视感:面对Gemini-2.5,仿佛就是在面对Demis,一个天赋异禀,又无比狡黠的学霸。你需要跟他斗智斗勇,才可以获得更好的结果,当你认为这是自己“聪明”时,其实,它根本没在意过你。相比之下,GPT却活成了需要付出巨大的后天努力才可以成绩领先的样子,Claude更像是一个自以为聪明的投机分子。这才是我们绝大多数人真实的样子。

二、应用与终端工具

经历了一个周期后,三家都有网页版,APP,终端工具(GPT的Codex,Claude Code,Gemini Cli),还有一堆乱七八糟的其他工具(目前就属Google家最多,OpenAI也不少)。

前几天,我的帖子是,如果从“ChatGPT、Gemini、Claude、Perplexity”四个APP里删掉一个,会选哪一个,我的答案是Claude。如果,今天,换一个问题,只能留一个,我会留哪一个?答案是,ChatGPT。抛去Perplexity不说,在三家的APP应用里,如今的Claude是最没有场景的,因为写代码在手机上并不合适,需要桌面,需要ide环境,或者终端环境。Gemini因为上面提到的一些原因,很多时候,反而是在网页版和AI Studio里更好用。ChatGPT如今就代表了OpenAI几乎90%以上的努力和功能。

同时,我现在几乎不会在手机上用Claude的网页版(在电脑上偶尔会用,两三天打开一两次的频率),ChatGPT的网页版只在电脑上高频使用,但是我会在手机上非常高频的使用Gemini的网页版和AI Studio。虽然,我在不断增加自己“案头”的时间,但是在移动场景下:地铁,公交,外面跟人交流,我会通过手机访问网页版,讨论一些突发的灵感,或者安排一些离线任务。活跃用户数其实就说明了上面的情况,ChatGPT不仅基数大,日访问量还在快速增长,Gemini的日访问量在这个半年里也在快速增长以不断匹配Google的地位,Claude就乏善可陈了(Similarweb侦测的页面访问量包含手机端和网页端)。前两天,Similarweb在X上发了这个统计,可以说明很多问题。

2025-08-14-三大模型如何选国产平替又如何-1mb7td-1771996357664-9585.png

但是,访问量区别的背后的原因也很复杂:比如ChatGPT不仅因为是最早占领用户心智的,也更因为它的免费使用量更慷慨,Claude对“免费用户”并不友好,等等。

三家的战场也在慢慢的扩大化和转移,现在一个完整可比的新战场就是终端工具,分别是Codex,Claude Code,Gemini Cli。就目前这种形态的工具而言,Claude Code发布最早,Codex Cli(OpenAI很早就发了codex,但是终端工具的形态,是今年四月份)和Gemini Cli跟上。在过去一段时间里,我对终端工具使用的时长快速增长,因为它不仅仅是个代码工具,更可以是一个全能的工作交互平台。我在上个月底开始的OpenResearch项目就是一个基于终端工具的使用场景,对我而言最大的变化是:大幅降低了很多自动化任务部署的复杂度,大幅提高了每日的产出。

在Cursor对用户越来越不友好(限制使用额度)的背景下,代码方面我已经基本转向了Claude Code。日常任务都在Gemini Cli或者自己写的一些其他基于Gemini的工具中。GPT-5发布后,我开始尝试Codex。Gemini Cli可能是最不可稀缺的工具,原因很简单,它有Google的Web Search工具加持,或者说,有整个Google的搜索引擎加持。而除了代码生成的工作外,其实最重要的两项工作就是,搜索,本地文件生成和管理。

我隐隐有一个判断,但还需要时间来证明,AI时代,Google的搜索引擎的价值不仅不会被削弱,甚至还可能得到更大的加强,这不仅仅是一个准确性的问题,还有一个Google长时间积累带来的“搜索成本足够低,搜索效率足够高”作为支撑。这方面,Claude Code虽然也可以发起搜索,但是准确性,就(其实Claude的幻觉本身就是相对高的,加上没有搜索的积累,结果就是错误百出)……

Codex在最近几天给我到惊喜,原因跟上面说的GPT-5有点类似。特别是我昨天给三个终端工具下了同样的命令,在一堆文章里,把所有的网页链接内容下载下来。Gemini Cli反复以各种花式理由“拒绝”我,在我“连哄带骗”下终于同意用web fetch来干活的时候,我停掉了会话,原因是这明显会快速消耗掉每日的请求次数额度。Claude Code基本没把任务搞明白。Codex很干脆,读了一遍所有文章,建立了一个下载列表,使用了curl和python代码两种方式去处理,还写了失败日志方便重新尝试,虽然干的很慢很辛苦,但是一个晚上后,我得到了很清晰的结果。Gemini-1.5之后我一直认为它是劳模,如今,劳模称号易主了。

2025-08-14-三大模型如何选国产平替又如何-1mb7td-1771996357670-3875.png

然而,终端工具虽然有可能带来更多的模型调用量,创造更多的收入(用户时长即收入),回到“终端”时代也确实让很多程序员着迷。但是在一个深度经历过Linux开发环境的人越来越少的时代,这样的用户很可能目前已经被挖掘完毕了。Github号称copilot用户在七月份达到两千万,从四月份到七月份增长了五百万,一个很合理的假设就是,因为AI Coding的渗透,大量其他领域的专业用户也变成了Vibe Coder。题外话,我在确认github copilot用户数的时候,问了一下Perplexity,两千万这个数字我是早就知道的,但是对于130万订阅客户这个数字我没有印象,因为我首先看到的是summary部分,所以在summary后的来源里没找到这个数字。然后我在给出的所有来源里看了一遍,终于找到了,24年一月份的信息。

2025-08-14-三大模型如何选国产平替又如何-1mb7td-1771996357675-3558.png

同样的问题,给到GPT-5,我想,很容易就不会被“误导”了。

2025-08-14-三大模型如何选国产平替又如何-1mb7td-1771996357678-3055.png

回到正题,用户体量有限,但是ARP值很高的领域(上面说的终端工具),自然很重要。但是它就无法讲“互联网逻辑”,拼的就只是产品能力,而且在这个领域里,因为用户长时间的使用,所以能力高低清晰可见,用户也是没有黏性的。这个问题,其实对Anthropic非常致命,前面说了,它的APP和网页版应用的用户数就是增长乏力。更多的场景都在各种编程IDE中,例如Cursor,VS Code,Cline,Trae,等等。唯一原因就是Claude模型在代码生成方面的能力,一旦有模型真正在绝大多数场景的编程任务中超越它,就什么都没了。

三、国产“平替”

前段时间我曾经写过一篇:简单测试后的长文:GLM-4.5惊艳,MiniMax Agent不错,Kimi-K2还可以,DeepSeek亟待升级。他们都有自己想成为的样子,如同每年NBA选秀时,都会对新秀设定一个参考模板。很明显,GLM-4.5更像ChatGPT,MiniMax是一个被“Manus”深度影响的Claude,Kimi曾经想做Gemini,如今想成为Claude,QWen-3,它可能只想取代Llama……

我一直都不太习惯于使用“平替”,更不习惯成为“平替”,但是也会被问很多次,确实因为各种原因,国产才是更理性的选择。那我会选GLM-4.5,主要原因自然是更像ChatGPT,它的应用里,也最舍得给“算力”,思考也很努力,搜索也很努力。我只是有时候好奇,全球有千万量级的资深用户,不断在三大模型上提高付费率,可是又有多少愿意给到“国产平替”呢?我们真的只能依靠低价甚至免费来吸引客户吗?在一个token即收入更是成本的时代,这真的是正确的选择吗?

当然,很多人也会选择类似于豆包,还有DeepSeek,虽然已经半年了需要更新了,但还是用户体量巨大。有习惯,有所谓“用户体验”,可是习惯了“免费又好用”的“用户体验”的我们,也许对真正的“好”已经越来越缺乏判断力了。我们可以被信息流推送占据一天的绝大多数时间,却很少愿意让自己主动去搜索,去获取。AI在那里,压缩完的人类知识库就在那里,或许,免费的就是不值得“亲自”花时间去哪怕看一眼。

← Back to Blog