Gemini-3即将发布了吗?

Gemini-3即将发布了吗?


TL;DR:周末有两个神秘模型,代号为Sonoma Dusk Alpha和Sonoma Sky Alpha登录OpenRouter,支持两百万的输入上下文,因此很多人猜测这是否就是Gemini-3。通过一系列尝试与对比,我倾向于认为这大概率不是Gemini-3,而更可能是另一种猜测:Grok。同时,该模型初看强大,但似乎确实存在Grok系列模型一贯的问题:细节稳定性欠佳,这本质上是数据问题。

详细展开如下:

首先是两个模型的简介:一个是带思考能力(Reasoning)的模型,一个不带思考,均支持2M(两百万)的输入上下文,且支持多模态和并行工具调用。

该模型刚发布时,社区中许多猜测都指向了Gemini-3,一方面是因为2M的超长上下文,另一方面也因为大家普遍认为Gemini-3已经到了发布的窗口期。

但我通过第一个测试就倾向于排除这种可能性:我让它生成一个网站欢迎页面。为了观察模型自发的生成风格,我的提示词很简单:“AI工厂的Landing Page”。

两个模型生成的页面部分截图如下。一眼看去,这非常类似于Claude的风格,采用了典型的Tailwind CSS蓝紫色调风。

生成截图1

生成截图2

当然,Claude最近的风格有所调整。但从Emoji的使用到配色风格来看,它们还是一脉相承的。关于这一点,我一直有一个认为可能性越来越高的猜测。

风格对比1

风格对比2

相比之下,Gemini-2.5的风格与上述结果有明显区别。这是我认为Sonoma不是Gemini系列的第一个理由:在代际升级中,模型的“审美”通常是保持连续的。

Gemini 2.5 风格

进入更深层的测试后,差别更为明显。周末我正好在Google AI Studio的Build中优化一个基于上市公司的“AI Financial Analyst”项目,该项目基于Gemini-2.5-Flash,最大特点是突破了以往的输出长度限制。以博通(AVGO)为例,共16个部分的内容,通过可视化输出,可以实现在64K输出上下文窗口内单文件完整输出。

AI金融分析项目

我将报告原文分别提供给两个Sonoma模型来生成可视化网站。生成速度很快,但两个版本都无法做到一次性正确,始终存在各种字符编码或语法错误。在经过六七次“Try to Fix”之后,页面才基本显示正常。这种表现显然不符合Gemini的水准,Gemini的一次成功率是非常高的。

错误修复过程

这里能看出两个模型的差异:思考模型“Sky”可以输出更多内容,直接体现在生成的文件数量更多。

Sky文件数量

从代码结构来看,Sky的表现确实不错。看到代码时,我甚至差点再次以为它是Gemini系列,因为其架构和importmap的处理方式与Gemini非常神似。但仔细观察风格部分,它并没有使用典型的Google字体,因此我打消了这个念头。

代码结构分析

以下是Sky生成的结果。整体看还可以,但显示上仍有小瑕疵。同时,即使生成了51个文件,其信息量仍不如Gemini-2.5-Flash生成的单个HTML文件(后者还是中英双语的)。

Sky生成结果1

Sky生成结果2

作为对比,Gemini-2.5-Flash的HTML版本类似部分如下:

Gemini Flash 对比

相比思考版“Sky”,“Dusk”版本的表现就比较一般:我多次要求修改,但内容区域始终无法正常显示。

Dusk生成失败

我还模仿提供给Gemini-2.5-Flash的提示词,让这两个模型分别生成单个HTML文件,但结果堪称“灾难”,就不在此展示了。

基于以上测试,我基本认为Sonoma不可能是Gemini-3。理由很简单:第一,审美风格与Gemini不一致;第二,其能力相比Gemini-2.5并没有显著提升。此外,模型在细节上存在不少问题,这本质上是“数据”打磨不够的问题。

← Back to Blog