Jul 11, 2025

AI的2024，造梦师的未来

突然想到要以这个标题去习惯性的做一些展望时，我又去看了一遍《盗梦空间》。

一切开始于一个想法，然后便如陀螺般不再停止旋转。这是生成式AI基础原理的全部：不断的依靠某种相关性去预测下一个词，从而生成整篇文章；通过输入随机，并扩散，去生成图片；依靠时间相关性去生成视频；依靠空间相关性去生成三维……

我们用这种“做梦”的方式帮助算法理解人类语言，人类视觉，人类听觉，人类思想，直到整个人类世界。

我不知道，如果从开始就这么理解或者解释GPT、Stable Diffusion，是不是过去一年，“AI”的吸引力可能会大幅下降。但是，我知道，当越来越多人懂得生成式AI的实质是“做梦”后，一个叫做“梦境”的世界正在以不可思议的速度发展着，一个属于“造梦师”的未来正在开始。

在《盗梦空间》中，造梦师的英文原版是“Architect”，很有意思的是，这个称呼跟《黑客帝国》里创造虚拟世界的大Boss一样。

将现实世界完全映射到数字世界之中，是我们生而为人最容易产生的想法，许许多多的人也一直在为之努力，包括我自己。

然而，当我开始尝试去组合一些工具，并利用这些工具进行某种生成时，一个“造梦师”的即视感开始显现。虽然《盗梦空间》中关于设计迷宫的那段也说了在梦中可以构建很多“不可能”，但是为了让“目标对象”相信，场景要尽可能真实，但又不是现实世界的简单重复，所以创造梦境的人自称为“Architect”，一种需要强烈现实基础的感觉。

这是站在人的视角看去的结果。然而，我们现在的生成式AI并不是这么被设计的，或者说，所谓transformer架构，不是让算法来迎合人，而是算法从自身出发创造出一个完全不同的空间：

从人类世界到这个空间的映射过程叫做encoding，从这个空间到人类世界（形式）的映射过程叫做decoding。所以，简单理解（严格意义上不太正确，但对于理解无阻碍），最早的ChatGPT用token表达那个空间的基础元素，用上万维（后来优化到一千多维）的向量来表示token(s)之间的不同；生成图像的diffusion模型用latent表示那个空间，翻译回计算机（人可接受的输入输出，所以，计算机属于碳基与硅基的桥梁）能够展示的图像的过程叫做decoding。

所以，与《盗梦空间》里的梦最大不同是：“梦”依然属于人类可理解的形式，是人类空间，被AI模型encode的那个空间，属于人类不可理解但模型可理解的空间。

也许，我们还是可以说那个空间，人类世界的某种映射，但是如果不是站在我们的主观视角，而是站在模型视角，我们可以说，那个空间，是AI眼中的人类世界。

如我最近喜欢问周围朋友的一个问题一样：Transformer是什么？站在人类视角，是人类世界与模型世界之间的相互映射；站在AI模型视角，是它理解的人类世界。

这个答案其实不完整，encode与decode依然体现着我自己强烈的主观性。如果站在AI模型的视角，它有一个空间，最早是通过理解人类世界产生的，但既然是“它”理解的，“它”也可以不断产生“新”内容，那就是“它”的空间，“它”的世界。

我跟GPT聊了很久这个话题，最后，我们一致认同，将这个世界这个空间叫做，“Reverie”。

所以，所谓“对齐”（Alignment），就是我们以主观视角对“Reverie”中的内容进行某种管理与干预。

以上是本篇文章唯一涉及到一些粗浅技术解释的部分。

可是，我们制造AI的目的不是管理与干预“它”，我们希望“它”不仅能够帮助我们写文章，我们也希望“它”做到我们任何一个具体个体可能无法做到的事情：写代码，生成图片、视频、音乐；我们甚至希望“它”提供源源不断的想象力，不断给我们制造惊喜。

也许每一个希望不断从“Reverie”中挖掘出“惊喜”的人，都可以被称为“Reverist”，“造梦师”；也许，就在2024年，“Reverist”不是少数，而是以我们无法预估的速度急剧增长着。

或许每一个从事某种形式内容生产的人，都可以被叫做“创作者”，而可能99%以上的创作者，都会成为“Reverist”。

所以，我把这一阶段的尝试结果：视频集，取名【Reverist造梦师】。

模型，工具，加上人的创造力与思考能力，是“Reverie”急剧膨胀的无穷变化下，与人一起，极速的改变人类世界。

当 2024 年，我们看到越来越多的模型与工具从 0.1 版本升级到 1.0 版本时，或者从 gen1 到 gen2 时，爆发就开始了，这大概不是烟花，而更可能是，0.1 到 1.0，耗时半年，1.0 到 2.0，耗时三个月，2.0 到 3.0（如果还活着），耗时一个月……

我们已经看到，类似于Figma、Canva这样的设计工具，即使更复杂的界面，设计师都不需要将完成的设计稿交给开发人员，而只需要点一下“Ask AI”或者“Gen”，一套界面就自动生成了；

我们已经看到，同样的，也许一个没有设计背景的程序员，手画几张粗陋的草图，上传给设计工具，点一下“Ask AI”或者“Gen”，界面同样自动生成了；

我们已经看到，不是越来越多的AI生成视频，而是视频都需要某种AI生成；

我们会看到，任何人都可以生成一段符合自己要求的音乐，视频BGM不再需要购买版权；

我们已经看到，文字的力量虽然依旧强大，但是某种从文字直接变成视频短剧的形式也许会快速占领更多短视频的流量；

我们已经看到，每个人都可以拥有很多数字分身，唱歌跳舞，通晓十八国的“英语”；

我们已经看到，越来越多学生的作业与论文都开始在GPT的指导下完成；

我们已经看到，大量的新蛋白质结构、新材料结构被快速发现；

我们已经看到，站在每一个当下看到的信息量，都远超历史上某一段的总和；

……

这都是我们对齐后，想要看到的，那些属于“Reverie”，还没被对齐的呢？

如果我的输入只是一张照片，却可以演化出无穷无尽无限循环的视频呢？

“Reverie”是可以无限生成的，所以，“Reverist”是幸福的，也是痛苦的，因为，这是与一个不知疲倦产能无限的“同事”共同工作。

所以，我们需要工具，它具备完整而强大的功能：写文字，写代码，出图片，出视频，做背景音乐，一键合成，它能阅读互联网或者私域知识库里所有的信息，并且给出自己的建议（Reverie）；它是傻瓜化的，能通过语音绝不敲键盘，能通过文字描述，绝不画流程图，能够拖拉拽画简单流程图，绝不需要写代码；

它是专业相机+专业PS的功能，手机拍照的丝滑操作；

也许，不再需要单一的“程序员”：一类，自己成为“Reverist”，为自己打造工具总是幸福的；一类，为“Reverist”打造工具，等等，一个不是“Reverist”的程序员，能打造出好的工具吗？

所以，只有一类工具：“Reverist”打造的：我们看到的Midjourney，Runway，Pika，无一例外，都具备某种“高级感”，这种高级感一定是从应用视角，而非程序视角得到的，在生成式AI加持下界面友好度（傻瓜化）质的提升则完成了专业相机向普通用户的渗透。

应用视角，在当今时代，也许就是对应着数字化视角或者数据视角。当一年前有人问我，算力、算法、数据哪个最重要时，彼时，我有答案，却不方便回答，此刻，我可以清晰的说出来：数据，“Reverist”眼中的数据。

请原谅我无法在这个点上说的更深入了，我有一条个人兴趣与工作之前的线，“过线”不是我的习惯。

也请原谅我，下面的部分会说的非常简略，不仅转换语言风格，更是点到为止，因为超长的篇幅，同样不是我的习惯。

与其说，“Reverie”在不断影响与改变着人类世界，不如说在很长一段时间里，都是“Reverist”在快速的自我变革。

如果我们要让AI帮助我们进行专业领域的生产，“Reverist”需要输入大量的专业领域信息，正如一段生成视频的质量，其实很大程度上是由输入的原始照片素材质量决定的一样。要去很仔细小心的研究输入信息与“Reverie”之间的相互映射关系，要设计流程，要控制参数，使得结果在很大程度上收敛，因为所谓专业领域，都是在底层逻辑上收敛的。所以，我们看到了2023年一系列工具和方法的产生：LangChain，Function Call，RAG，到AI Agent，对于绝大多数人而言，这些代表什么不重要，因为只要找到了合适的流程与参数，就可以转换为“一键生成”的傻瓜化操作。

但是这个试验的过程充满挑战，也充满不确定性，但是参与其中的“Reverist”一定是幸福的，因为这也是我们现在能够理解的范围内通向AGI的可能🔑之一，不是说上面的技术工具与方法是通向AGI的钥匙，而是试验过程的本身，可能就是答案所在。

我们很容易理解，属于“Reverist”的第一个最大的舞台就是视频内容生产、游戏，因为“Reverie”与其天然匹配，当真实世界无法满足我们时，梦境提供了最适合的空间，那种无限想象力下的无限可能，用《盗梦空间》里的话描述：一旦体会到，真实世界便无法满足自己了。

我们可以很容易的，为自己打造一个又一个独立的空间，也许有个空间属于沉浸式的英语学习，有个空间又属于畅游全球……

我们可以很容易的为自己打造一个数字助理，让它挡住90%以上无意义的外部干扰：简单重复的信息轰炸，无聊的会议与讨论……

我们可以把串行的生命活成并行的世界，是无数的梦境，也是一个又一个可对齐的平行宇宙……

我们可以完全依赖开源生态打造只属于自己的数字世界，我们也可以依托类似于谷歌或者微软的云平台构建闭环，我们还可以选择完全被类似于ChatGPT的工具接管，等待它的不断进步延展我们的无限可能性，我们依然可以，装一堆APP，用notion写小说，让MidJourney画图，让Runway，Pika做视频，试着学习使用门槛不断降低的Unity做做游戏，用coqui模仿自己说话，用wav2lip把表情和嘴形都对上……

我们也可以挑战一下自己，用3D打印做一个专属于自己的机器人，或者自动驾驶玩具汽车……

我们可以用三维生成的方式不断去生成我们所在的物理世界，并在“Reverie”里不断修改它……

我们可以在“Reverie”里不断试验新药物、新材料、新技术……

2022年11月，一个叫做ChatGPT的实验室小工具意外的开启了一扇大门，门外是被我叫做“Reverie梦境”的世界，也为我们开启了另一种可能，一种被我叫做“Reverist造梦师”的可能。

2024，我们会犯的最大错误是，用主观视角去看待我们所谓的“AI”；

2024，我们要学会的经验与教训是，如果我是一个“Reverist”，站在“Reverie”视角，看我们人类，又会是怎样的？

也许，这才是我们眼中的“AI”最可能的演进方向。