Sep 3, 2025

第一时间拿到字节Dreamina内测后，我们与Sora等国外模型进行了对比

Sora在3月25日公布了新的一批与艺术家合作生成的视频，结合了艺术家的创意生成的视频质量十分惊人，字节Dreamina也于26日放出了第一批排队内测名额，我们在第一时间拿到了内测资格与Sora、Runway和Pika进行了对比。

结论： 作为国内拥有最多数据与一梯队算力的字节的Dreamina生成视频效果已经远超Runway和Pika等之前的视频生成应用，与Sora仍有差距，属于第二梯队大幅领先的状态。想要达到Sora的效果，训练数据质量和算力与内存容量提升的空间仍十分巨大。

从生成质量上看，Dreamina对物体的运动处理较好，有一定的三维连续性，对人体尤其是运动时的腿和手指仍有瑕疵，面部的一致性也较差，但效果仍然比其他应用优秀许多。Runway生成的视频只能有轻微的动作，并且不自然有畸变；Pika生成质量则更差，对移动的人和动物处理非常不自然。总的来说，从生成质量上看：Sora >> Dreamina >> Runway > Pika。

在时长上，Dreamina与Runway和Pika等没有明显差距，仍处于几秒到十几秒，与Sora的一分钟相比差距较大。并且从Dreamina的延长生成视频来看，延长的视频清晰度和一致性上有明显不同，应该是使用之前视频的最后一帧进行再生成，而不是使用完整的之前的视频。如果想要实现Sora的长时长，对内存容量和算力的要求会大幅提高。

在对提示词的理解上，Dreamina和Runway在同一水平，能较好地理解提示词中的内容，生成的人物和背景符合描述。Pika生成的视频则会与提示词内容有所出入。

在安全性上，比较意外的是虽然Dreamina仍处于内测阶段，对于提示词就已经存在风险控制。在我们尝试复现Sora最新的“气球人”视频的时候，系统会提示包含不适内容，不予生成。

以下是运用同一提示词在Sora/Dreamina/Runway/Pika应用生成视频的对比：

首先是Sora的第一个视频，我们采用了统一提示词进行生成。只有Dreamina能生成类似的运动情况下的视频，虽然腿部和面部变化仍有些许奇怪，但在延长3秒视频之后，出现了不一致和清晰度下降的情况。我们推测是延长时没有使用完整的视频进行处理的原因；如果达到Sora的1分钟长时长，对内存容量和算力的要求会大幅提高。

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”

第二个是猛犸象的视频，Sora在质量上仍然是领先的，与Dreamina的差距在缩小，而Runway和Pika均出现了不正常的运动，Pika生成的质量也很差。

“Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, depth of field.”

为了测试视频生成模型的三维一致性，我们也使用了自建的提示词。从结果来看，Sora在镜头移动下的三维一致性最强，Dreamina也呈现出了一定的三维一致性，而Runway和Pika差距较为明显。三维一致性作为模型涌现出的能力，是生成模型是否理解物理世界的基础能力。

“a Coca-Cola zip-top can at the center of the frame. The camera angle should start from its slanted top view and continuously rotate around the bottle, offering a dynamic, circular perspective.”

我们也尝试复现了Sora最新公布的一些生成不自然的生物视频，Dreamina能理解提示词，但是效果仍逊于Sora。

Dreamina

Sora

Dreamina虽然仍处于内测阶段，但是在安全和风控上表现有些意外。在尝试复现Sora最新的“气球人”视频时，Dreamina拒绝了该内容的生成。安全性对于视频生成模型尤为重要，不适的视频对观众的影响远大于文本。