我选取了四张照片给sora,结果比我想象的好

我选取了四张照片给sora,结果比我想象的好


OpenAI正式开放Sora的注册和使用已经超过了一天时间,我的第一印象当然是不好。但是,在今天,我的第二印象大为改观了:

第一印象不好是因为可见的相比2月份的初登场,十个月的等待时间获得的回报是略失望的。

第二印象好,当自己更深入的使用后,那些隐藏在表面质感背后的发现,带来了模型能力可见进步的“惊喜”:物理。

我只上传了四张图片,分别是(并非提示词):

1、我希望有太阳的动态效果;

2、我希望看到动物的“自然”的一面;

Sora Animal

3、我希望看到火车的运动;

Sora Train

4、我希望看到星轨的转动;

Sora Star Trails

我得到了四段视频,合并在一起如下:

是的,我们看到了:1. 太阳光与建筑的遮挡和变化关系;2. 猴子自然的表情动作;3. 火车驶过湖面时上下对称的镜像关系;4. 星轨旋转的自然感。

这些,这些,都符合我们认知的物理规律。

是的,时隔十个月,表面看起来,我们用上的 Sora 和年初发布的 Sora 似乎没有进步,这十个月时间里我们也早就被各种视频生成模型搞得审美疲劳了。

可是,在实质上,我们可以发现显著的进步:更真实的细节,更符合物理规律,更像“世界模型”。

Sora 被称为仿真器,旨在模拟出一个“世界”:环境和对象,在学习到的“规则”之下“预测”对象的运动与环境的变化,并将这些数据传递给“AGI”(如果存在,或者目前正在训练中),通过复杂的强化学习观察“AGI”是否真的能产生。当然,在 Sora 训练的过程中,由于规模法则(Scaling Law),可能产生了“涌现”,表现出了对人类世界物理规则的一定理解力,这是该模型最具价值的部分。

道明,公众号:道明实验室

也许出于各种考量,OpenAI 既认为 Sora 可以作为影像行业的高效工具,也迫于现实压力必须让“世界模型”变现,以降低 AGI 研发的成本。

这个版本的 Sora 要想进入好莱坞,依然有非常遥远的路要走。但是,这一版本 Sora 及其背后的训练经验,让我们看到了通向 AGI 的更多希望。

继续投入吧:算力、数据,还有时间。

← Back to Blog