Sep 7, 2025

Gemini-3即将发布了吗？

TL;DR：周末有两个神秘模型，代号为Sonoma Dusk Alpha和Sonoma Sky Alpha登录OpenRouter，支持两百万的输入上下文，因此很多人猜测这是否就是Gemini-3。通过一系列尝试与对比，我倾向于认为这大概率不是Gemini-3，而更可能是另一种猜测：Grok。同时，该模型初看强大，但似乎确实存在Grok系列模型一贯的问题：细节稳定性欠佳，这本质上是数据问题。

详细展开如下：

首先是两个模型的简介：一个是带思考能力（Reasoning）的模型，一个不带思考，均支持2M（两百万）的输入上下文，且支持多模态和并行工具调用。

该模型刚发布时，社区中许多猜测都指向了Gemini-3，一方面是因为2M的超长上下文，另一方面也因为大家普遍认为Gemini-3已经到了发布的窗口期。

但我通过第一个测试就倾向于排除这种可能性：我让它生成一个网站欢迎页面。为了观察模型自发的生成风格，我的提示词很简单：“AI工厂的Landing Page”。

两个模型生成的页面部分截图如下。一眼看去，这非常类似于Claude的风格，采用了典型的Tailwind CSS蓝紫色调风。

生成截图1

生成截图2

当然，Claude最近的风格有所调整。但从Emoji的使用到配色风格来看，它们还是一脉相承的。关于这一点，我一直有一个认为可能性越来越高的猜测。

风格对比1

风格对比2

相比之下，Gemini-2.5的风格与上述结果有明显区别。这是我认为Sonoma不是Gemini系列的第一个理由：在代际升级中，模型的“审美”通常是保持连续的。

Gemini 2.5 风格

进入更深层的测试后，差别更为明显。周末我正好在Google AI Studio的Build中优化一个基于上市公司的“AI Financial Analyst”项目，该项目基于Gemini-2.5-Flash，最大特点是突破了以往的输出长度限制。以博通（AVGO）为例，共16个部分的内容，通过可视化输出，可以实现在64K输出上下文窗口内单文件完整输出。

AI金融分析项目

我将报告原文分别提供给两个Sonoma模型来生成可视化网站。生成速度很快，但两个版本都无法做到一次性正确，始终存在各种字符编码或语法错误。在经过六七次“Try to Fix”之后，页面才基本显示正常。这种表现显然不符合Gemini的水准，Gemini的一次成功率是非常高的。

错误修复过程

这里能看出两个模型的差异：思考模型“Sky”可以输出更多内容，直接体现在生成的文件数量更多。

Sky文件数量

从代码结构来看，Sky的表现确实不错。看到代码时，我甚至差点再次以为它是Gemini系列，因为其架构和importmap的处理方式与Gemini非常神似。但仔细观察风格部分，它并没有使用典型的Google字体，因此我打消了这个念头。

代码结构分析

以下是Sky生成的结果。整体看还可以，但显示上仍有小瑕疵。同时，即使生成了51个文件，其信息量仍不如Gemini-2.5-Flash生成的单个HTML文件（后者还是中英双语的）。

Sky生成结果1

Sky生成结果2

作为对比，Gemini-2.5-Flash的HTML版本类似部分如下：

Gemini Flash 对比

相比思考版“Sky”，“Dusk”版本的表现就比较一般：我多次要求修改，但内容区域始终无法正常显示。

Dusk生成失败

我还模仿提供给Gemini-2.5-Flash的提示词，让这两个模型分别生成单个HTML文件，但结果堪称“灾难”，就不在此展示了。

基于以上测试，我基本认为Sonoma不可能是Gemini-3。理由很简单：第一，审美风格与Gemini不一致；第二，其能力相比Gemini-2.5并没有显著提升。此外，模型在细节上存在不少问题，这本质上是“数据”打磨不够的问题。