Sep 3, 2025

OpenAI、Anthropic、Google可能都在接近AGI，差的只有算力

我一直认为，AGI的初步大概是三个主要能力：写代码、搜索、执行。

大语言模型具备代码能力，虽然还在不断进化，但是已经具备了条件1；

无论是Gemini Deep Research还是OpenAI的Deep Research，虽然因为计算量的不同在结果的完整度上差异明显，同时在有些细节上难免出现“幻觉”，但是这基本标志着搜索能力的大幅提升，基本具备了条件2；

第三个条件，执行，当然包含的内容可以很多，但是自从Anthropic推出Computer Use，尽管很初级，但也意味着模型开始往执行环节进发，这个过程中，Google也在Gemini模型框架下有序的推出一些尝试性的功能。

OpenAI自然不会落后，前段时间推出了Operator模块（跟sora类似，有独立二级域名operator.chatgpt.com的）。今天，当我终于可以完整尝试时，还是被惊喜到了。

过程是，我让operator读QWen刚推出的2.5多模态模型的论文并摘要。这项任务当然可以通过搜索完成，但如果模型可以模仿人类的操作，意义会远超过搜索。

如上图，Operator经过了好多次的努力，因为浏览器权限和它的虚拟机配置问题，一直无法完成pdf渲染，询问我两次“是否”继续后，终于加载成功，完成了主页浏览，生成了摘要。这个摘要当然有点简略，但这很可能只是因为底层的大语言（多模态）模型参数偏小能力有限的原因（节省运行时算力）。

当然，我又提了新的问题，让他将模型的架构图“截取”下来。上一个问题里，它已经看到了论文最后一页，然后再一页页的回去找，终于在第二页，找到了架构图。因为缺乏工具，始终无法完成图像保存或者截屏操作。但这不是模型做不到，而是找不到工具。包括我“take control”进到虚拟机后，也找不到合适的工具去完成截图。

以我看到的过程而言，我认为模型都完成了“任务”，“执行”，即本文开头的条件3也存在了。

因为各种原因，operator的操作速度非常慢，下面的视频只是回放时对每一步的点击。

如果细看每一步思考的话，可以明显感觉到比Anthropic的computer use和rabbit的lam模型还是强很多。

如果一个模型能够根据任务选择合适的执行路径和工具，并根据环境（虚拟机环境，桌面内容）不断调整，直到完成任务。

那么，我们是否可以说，其实它已经开始接近AGI了？

我认为可以了。虽然还有持久记忆等问题依然横亘在前进的道路上，但可以有充分的理由相信，OpenAI内部很可能可以拿出比这个operator version强很多的版本（更大的算力支持下的更大的多模态模型，虚拟机里预装一堆工具）。

缺的只是算力，便宜的模型推理算力，和“学习”更多场景数据的算力。

也缺脱离“虚拟机”进入“real world”的环境。

当然可以有一个超级应用根据用户指令自动“操作”手机，但是能够将它做到最极致体验的只能是手机操作系统的开发商。