Jul 11, 2025

Gemini1.5与sora，那些被忽略的细节

2024年注定是更卷的一年，无论是Google和OpenAI同日发布最新模型，还是国内自媒体铺天盖地对于sora的介绍、点评。

其实，无论模型效果有多炸裂，如今呈现出来的一切，都是在至少半年前就可以线性外推的，包括，多少有些耸人听闻的“现实不存在”和“取代XXX”。

其实，早在GPT-3发布时，研发者对待模型的心态就发生了戏剧性的变化：开始以一种逐渐充满敬畏的心态去“复盘”训练过程，以平视逐步变成仰视的视角去看待模型的结果，以孩童般的原始好奇心去试图发现模型中每一个人令人惊喜或沮丧的细节。

这些都出现在了technical report里，也都出现在了其他研究者一篇接着一篇的论文中。神经网络结构是开发者设定的，数据是经过一定标准以程序加人工的方式筛选过的，预训练的结果也是经过大量人工对齐精调过的，可就是，在无法想象的参数量与数据量的压迫下，其实没有任何一个人能真正理解模型的全部。

很多人眼中，每一次的模型更新，或是威胁，或是商机，一些人眼中，一次一次的更新，从来都是好奇心压过复杂心情的研究过程。一篇篇technical report和论文中的细节，总能否定一些设想，肯定一些设想，然后提出一些新设想。

Gemini 1.5与sora最大的价值是：确定提升规模可以继续增强模型的能力。

OpenAI的团队表示在sora模型里发现了“涌现”能力：有时候，可以仿真出与真实物理世界一致的结果。这种“涌现”，仅仅是因为规模的提升。

大概在GPT-4正式开放使用的时候，甚至包括我在内，都会认为大语言模型短时间内提升规模的可行性和必要性都不大了。但是，多模态模型证伪了这些偏见，事实证明，Transformer架构正在一个又一个模态的数据中证明其有效性。如今，OpenAI给出的结论是在图像与视频数据中，而这只不过是再一次加强了在多模态出来之后已经逐渐形成的一致预期而已。

更大的规模，对应的是更多参数与数据，而规模的提升，计数单位是“数量级”。本就已经高的基数上再增长十倍，百倍，这是过去一段时间以来，扎克伯格，山姆奥特曼，甚至黄仁勋不断“放卫星”的依据。

MoE不仅是模型架构，更关系到硬件架构。

Gemini 1.5是MoE的，GPT-4基本上确定是MoE的，未来的基石模型，大概率都会是MoE的。模型研发上的优势已经讨论很多了，同样参数规模下更高的效率和模型表现，甚至可能可以更好的调度各种模态，等等。其实，MoE架构不仅仅关系到模型本身，即软件部分，更关系到底层的硬件架构。所以Google Deepmind会在Gemini 1.5的technical paper里说到：“Gemini 1.5 Pro is trained on multiple 4096-chip pods of Google’s TPUv4 accelerators, distributed across multiple datacenters, and on a variety of multimodal and multilingual data.”

这里透露出几个重要的信息：因为MoE，所以训练是可以使用多个集群的，所以Google利用了多个不同的TPU pods，还分布在不同的数据中心。我们也有理由相信，不同的分支模型不仅架构可以不同，甚至可能不同pod中的TPU芯片（ASIC）都可以针对不同模型进行不同的优化。

所以，为什么说AI考验的是软硬件整体能力呢？其实，这对我们国内是有很强的启示作用的。只是，在这里，我不能展开了。

模型的客观评测越来越难。

虽然Gemini 1.5的报告中依然给出了大量的三方评分，但是我们已经可以明显的感觉到，对于现在的模型，即使最新的三方评分标准都已经越来越失去代表性了，其实，从GPT-4出来后，就已经如此了。

一方面的原因是，任何评分体系用到的数据量相对模型训练的数据量而言，越来越不值得一提了。

另一个重要原因是，很多模型已经达到可用程度，开始为人所用了，而不同的使用场景，使用者对模型的了解程度，提示词的好坏，都会极大影响结果，这些结果的评价，却往往又是偏主观的。

没有足够用户基数的主观分作为参考的三方评分，可能都没有说服力了。

数据

无论是Google Deepmind，还是OpenAI，在文档中关于训练数据的描述都很简单，篇幅远小于模型架构和表现评估。仅有的信息中，我们大概可以知道，sora模型对于图像视频数据没有剪切，也没有降分辨率，Gemini 1.5只是提了用到了多模态数据（当然）。这与之前的模型详细介绍数据预处理过程有了非常显著的区别。

字小事大，模型发展到今天，虽然对算力的需求看不到顶，但毕竟有资金就可以买到，而数据，已经是有钱也买不到的了，对数据的预处理，更是越来越成为最重要的know-how了。

另一方面，确实从方方面面都能看到，对数据的需求量大幅增加，但是对于数据预处理甚至数据质量的要求相比之前至少是有所降低的，数据到这个量级，依靠人工处理，已经是不可能了。

只是，我们还不太能够完全确定，手握独家核心数据，对于模型研发的优势是否会逐渐显现出来。我们相信，等不久后Meta发布LLaMA-3的时候，应该可以得到比较确定的答案。

其他

如今对AI的期待，基本都聚焦到AGI上了。更大规模的算力，更多的数据，是否可以加快这个进程，谁都无法给出确定的回答。但如今，这是确定性最大的路径了。至少当下，transformer可以用在各种模态下，规模提升带来的性能提升依旧明显，可见的瓶颈尚未出现。

只是，要做的工作越来越多，投入的级别越来越大，2024只会赌的更大，因为，上不去，就会面临巨大的生存危机。

PS：Amazon发了一个十亿参数的语音合成模型，也加入了transformer，也出现了“涌现”的迹象。