Sep 3, 2025

Claude-4似乎表明Anthropic露怯了

中文 (Chinese) English

Claude-4发布了，先说些题外话。

在我还差一个问答就要完成对Claude-4的初步对比体验后，我被“限流”了。

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590804-8141.jpg

事实上，在每月100美金的Max订阅发布后， I用过一个月的时间，为了看Claude的Deep Research能力，但是结果异常失望，所以就回到了Pro订阅，并且选择了年付（订十个月送两个月？）。

与新模型发布同时推出的是所谓的礼物：分享送四个月Max订阅（注意，这还是满足条件后抽签才能获得，我本来还准备分享自己的链接，但是看到条款后还是算了，丢人）。

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590803-4990.jpg

这些都不是好的体验。自从模型的代码生成能力断档领先和Artifacts功能推出后，我其实一直很喜欢Claude的“独特”，无论是APP的UI设计，还是生成的可视化效果，都有一种“高级感”。

但是，此时此刻，却有一种说不出的感觉：

1、被限制的不仅仅是Claude-4模型，3.7也被限制了，但是在过去的半个多小时里，我只进行了四次对话，而在3.7出来后，即使Pro订阅，也从未发生过“限流”情况；

2、为了推100美金的Max订阅，产品做的好还情有可原，明明是Deep Research差到我一直不好意思说后退订的，现在玩这些手段，不知道该如何评价；

以上题外话的结论是体验很差，如同嚼蜡。恰好朋友发来信息：感觉Anthropic的生存空间被大幅挤压了。我认为是这样的。同时，是否也表明，这家初创企业正在面临巨大的收入压力？

回到模型，我测试了两个案例，其实都是基于深度报告的可视化幻灯片生成的。其中一个新案例我完成了三个模型的测试（Claude-4 Opus，Claude-4 Sonnet，Claude-3.7 Sonnet），还有一个以前Claude-3.7 Sonnet的案例我只能完成Claude-4 Opus的测试，无法完成Claude-4 Sonnet。

后面会有两个案例的详细截图，先说结论：Claude-4可能在基础的代码能力上比Claude-3.7更好，但是在输出细节能力上明显弱了。这是基于两个案例的不完整体验，所以结论都是“可能”。模型真正的能力我需要在Cursor中更长时间的使用才好给出更客观的评价。

案例一，我正在整理关于家乡无锡的经济方面的数据，当然也少不了Deep Research的参与。所以就以OpenAI的Deep Research报告作为输入，让模型生成交互式的PPT（这项流程几乎天天要干，驾轻就熟）。

首先是Claude-4 Opus生成结果的截图：一点点都不惊艳，完全达不到4该有的体验，更何况是Opus。

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590806-421.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590805-9602.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590807-6769.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590806-9892.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590810-7222.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590809-1174.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590813-6373.jpg

（上页有明显的显示bug）

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590811-8346.jpg

Claude-4 Opus的结果有些失望的。Claude-4 Sonnet自然是个更简化的版本。

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590812-5514.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590814-589.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590816-2633.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590817-9844.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590819-1034.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590820-2691.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590822-5848.jpg

上述的结果，其实我不知道该如何去评价。但是就结果而言，一定是低于预期的，我怕自己的案例被批评没有代表性，就又让Claude-3.7 Sonnet完成了一下。

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590824-6349.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590824-9846.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590790-5385.jpg

（上页也有一个明显的显示不正常的错误）

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590791-3711.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590793-4698.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590794-6634.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590795-4898.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590796-5524.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590797-8846.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590799-7074.jpg

其实结果是一眼就能分辨出来的：无论是显示效果，还是细节丰富度，都是Claude-3.7 Sonnet更好。

当然，这个案例下，我反思是不是因为自己提示词给的太简单，无法体现Claude-4实际暗藏的丰富细节（毕竟我一直在批评过度思考，有没有可能Claude-4就是进行了另一种平衡？）。

所以换一个Claude-3.7一直在进行的工作案例：使用我完整版本的提示词（包括布局，配色，图表样式，细节的排布等等），对一篇过往的Deep Research报告进行可视化。

Claude-4 Opus版本结果如下：

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590800-4606.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590801-5104.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590808-1252.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590810-1676.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590811-787.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590813-6582.jpg

作为比较，下面是一个多月前的Claude-3.7的版本：

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590815-9268.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590816-2294.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590818-7153.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590819-9371.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590820-2022.jpg

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590822-142.jpg

如果就这么比较的话，显然，Claude-3.7依然是更好的结果，仅仅更多细节这一条就赢了。

但是，如果我们考虑另一个维度：Claude-3.7这个版本是在模型自我进行了11次修改后得到的（请看截图左上角的“v12”字样，每一次过程中都有代码错误，然后模型会自己改代码，当然需要手动点击一下）。

而Claude-4 Opus的版本是一次生成的。

其实，这是一个巨大的区别，我相信这会对在Cursor中的Vibe Coding体验带来较大的提升。不过，这需要更长时间的体验才能得到结论。

Cursor已经加入了对Claude-4的支持，但是只有Sonnet包含在订阅用户的选择范围中，Opus需要开启“按量付费”的Max模式。

2025-05-23-claude-4似乎表明anthropic露怯了-1ukpzy-1771986590790-9035.jpg

开始结论了：

1、客观而言，相比之前，Anthropic的这次发布总觉得过于简单了一些，仅仅一个页面，一段三分多钟的视频，然后有一些基本的评分信息。这不是Anthropic惯有的风格，毕竟以前模型发布时，Model Card里都会有海量的细节信息，即使这些信息不断在“缩水”，但是这一次，对于“4”这样一个重要的版本号，我没找到Model Card（我找到System Card了）；

2、我理解Anthropic在力推“Code”应用，力推Max订阅，前者是可以大幅提升API调用量的，后者当然是可以从21.8美金/月提升到100美金/月。但是就这样拿出的产品能力而言，远不值这个价。Anthropic可能不仅仅是“露怯”，而是迫于压力“吃香变得难看了”；

3、从模型本身而言，Claude-4可能再次证明了一个事实：模型“撞墙”了，至少是在单一模态下；

是的，确实如前文提到的朋友发来的信息所言“Anthropic的生存空间被大幅挤压了”。

“财大气粗”的Google借助Gemini-2.5和生态能力正在展现出更多的可能性，先发优势巨大的OpenAI的ChatGPT活跃用户数还在快速增长。

更何况，通过AI-Studio，Gemini-2.5每天依然可以提供可观的“免费额度”；OpenAI的Deep Research虽然在数据及时性和搜索能力方面明显不如Gemini-2.5，但是稳定性和全面性更胜一筹；Gemini-2.5在大幅提升代码能力后，也在逐渐侵蚀Claude的API调用需求……

Anthropic掉队的概率也许比我年初的预测大幅提升了。

当然，2025年AI的世界，依然是“模型决定一切”，下面的舞台（考场），交给OpenAI了。