Sep 3, 2025

o1模型意味着预训练Scaling-law不存在了？

中文 (Chinese) English

如果时间退回到2017年，AlphaGo震撼全球，紧接着，虽然AlphaZero具备更强的能力，从技术而言更令人“胆寒”，但引起的震撼却不如AlphaGo了。

同样的故事发生在了2023年的ChatGPT，GPT-4和一周多前的o1模型。不仅仅是因为遭到的待遇，更因为技术演进的路线。

如果说AlphaGO是靠“学遍天下棋局”而“具备”了战胜人类最顶尖选手的能力的话，AlphaZero则是靠“懂得”围棋的基础上“自我对弈”，自己进化的：它现在成为了最好的教练，而人类继续享受自己与自己对的美丽世界。

所以：

1、先通过学习海量数据得到基础知识，然后通过不断强化自己具备“真正的博弈能力”；

2、超越人类的智能存在，并没有严重威胁到人类自身；

对于GPT系而言，第二点我们暂且放在一边，第一点，几乎也是如此的。

一直到GPT-4，被大家熟知的概念都是预训练，transformer，scaling-law。可是似乎依然绝大多数人都不理解下面两句：

1、生成意味着理解；

2、大模型就是个知识压缩器；

可以有很多人跳出来批评说，将GPT与AlphaGO相提并论根本不对，预训练呢？transformer呢？scaling-law呢？

且不论“AlphaGO通过人类对弈数据训练就是预训练，AlphaGO也充分证明了scaling-law的存在”这两条，即使AlphaGO最早确实没有使用transformer，但是不代表没有通过类似的架构（只不过更早期，表现可能差一点）来让AlphaGO“理解”围棋，通过“落子”的方式。

生成意味着理解。虽然这句话依然面临很大的争议，但是上面描述的AlphaGO通过“落子”“对弈”来证明自己“理解”围棋，就是例证，回到大模型，通过生成来表示自己“理解”，也是同样的道理。

但是大家依然充满质疑，模型有幻觉，模型不可靠，模型经常错，连“9.9>9.11”这么简单的数学题都会错，怎么证明能理解？

其实，谁不会错呢？

大模型就是个知识压缩器，简单来讲分成两部分，预训练就是压缩的过程，下游任务（比如生成文字，图像，等等）就是解压缩并输出的过程。我们人还经常失忆，错误记忆，层出不穷，何况还是个“孩子”的模型呢？

一年前，我们可以把这种错误基本都归因于预训练，因为规模不够，数据不够或者错误，训练时间不够长，导致压缩的知识“损失率”很大。但是到了今年上半年，当Gemini-1.5，Claude-3.5，LlaMA-3一一问世，GPT-4自身也不断迭代后，这个判断，至少在文本类信息上，基本上过时了，不是说预训练的“压缩”完全正确了，而是我们大概可以认为知识“损失率”足够小了（然后，大家就简单的把它归结于“scaling-law失效”了，这又是个片面的结论，后面再解释）。

所以，简言之，至少在文本领域，“知识压缩”的预训练任务已经基本完成，那么，要强化的就是“输出”部分。如果说前者是大家通常认为的GPT（其实ChatGPT也是两部分都有的，GPT-4更是，任何能输出正常句子的模型都是）的话，那么后者，如今有了个独立的名字，o1，或者说一直传说中的“草莓”。这是所谓的精调也好、强化学习也好，Q*也好，作为一个独立的“模型”被正式推出，但它不是独立于GPT的存在，而是共生：GPT是知识外挂，是记忆体，o1是思考者（作家，数学做题家，研究员，等等）。

所以，根本不是o1出现证明预训练scaling-law失效了，而是在文本领域，预训练基本完成了它的历史使命。但是，预训练依然非常非常重要，还记得迟迟没有下文的sora吗，更大量的数据以图像、视频、声音甚至三维的形式存在着，transformer证明自己在这些数据形式上依然极有效，scaling-law依然存在，差的是数据是算力（不过算算门槛，你大概就知道能够参与其中的玩家两只手肯定数的过来了）。

回到文本数据预训练范畴，既然GPT-4等模型的预训练过程已经差不多证明了自己至少以很低的“损失率”完成了对知识的压缩，那么，如何输出就是重点，o1就是主角。

再回到“9.9大还是9.11”大这个问题，是的，就连早期版本的GPT-4(o)的回答也是错误的，因为它可能拥有了1.按位数表达数字的知识；2.基本的加减乘除的知识；3.比较数字的知识，但是当没有好的“大脑”时，就是没办法串联起来。所以错误 and 幻觉在所难免。

可是，我们如果回想自己当初如何学习比较小数大小知识的场景，大概会感叹一下，哦，原来这不是“天然”就会的，也是有方法的，我们也是一位一位比较的。

对了，把这个方法交给另一个模型，让它在GPT-4压缩过的知识上进行思考，就可以了，对，这就是o1模型的意义，也是在通向广义AGI道路上最后两个巨大阻碍的第一个。

所以，o1的团队会说他们花费了一年半的时间让模型学会数“strawberry”中有多少个字母“r”。这不是人教它规则，而是，再一次让scaling-law工作，当模型被训练足够多“范式化”的数据时，自己“涌现”出来了这种“思考”和“推理”的能力：GPT-4成为o1的“聊天机器人”与素材提供者，o1成为思考者，组织者，输出者。

所以，会有下图，o1自我训练的时间越长，输出结果越好：scaling-law。

作为相互独立的个体，GPT（预训练部分）和o1各自都还有很长的路要走，预训练要去加入更多模态的数据，要去“理解世界模型”，o1要有更多的思考能力，逻辑能力，推理能力，嗯，自己训练自己的能力。o1依赖于GPT越来越多的知识，GPT海量的“知识储备”与潜力需要靠o1不断挖掘。

作为一篇公众号文章，到这里，基本就可以收尾了，但是依然需要回答很多朋友（同业）两个问题，这些问题的回答不是因为我有任何“独家信息”，我的所有判断都是基于公开信息、自己的经验和自己的实验得出的，这次也不例外：

1、GPT的命名问题，就是GPT-5还有没有？什么时候？我的答案，也许有，也许没有，但它真的不是很重要了，OpenAI一定是没想到ChatGPT会这么火爆，所以在通向AGI道路的不同问题解决路线上其实都是相对有序推进的状态。GPT一直就更像是内部工具或者给到其他开发者的基础工具的定位，如前所说，就是“知识压缩器”，只不过，现在需要压缩更多的其他模态的数据，例如图像、视频、三维，等等。随着时间的推进一定能够证明在这些数据上，transformer and scaling-law依然有效，只不过o1的“独立”面世，也意味着GPT-5还是GPT-6，数字就是个延续性的代号意义了。从某种意义上讲，我个人认为，如今让o1独立，而不是出一个叫做“GPT-5”的模型，是个很棒的选择；

2、算力问题。其实，大概最晚到今年上半年，大家基本上产生了一个共识，“大模型门票”已经抢完了，后面很难新增，反而还会有淘汰。因为门槛太高了，基础设施，数据，人，越往后越是天价。至于大家关心的算力需求问题，我只能说或许可以花点时间了解一下Oracle云（号称订购超过13万张B200）、AWS、Azure，Google云等等的大客户，大概可以得到相对清晰的结论的。我一直都是基于各种公开信息，结合自己的经验和实践，小心求证，不断修正。这大概跟“小作文”完全不搭边。