Sora在3月25日公布了新的一批与艺术家合作生成的视频,结合了艺术家的创意生成的视频质量十分惊人,字节Dreamina也于26日放出了第一批排队内测名额,我们在第一时间拿到了内测资格与Sora、Runway和Pika进行了对比。
结论: 作为国内拥有最多数据与一梯队算力的字节的Dreamina生成视频效果已经远超Runway和Pika等之前的视频生成应用,与Sora仍有差距,属于第二梯队大幅领先的状态。想要达到Sora的效果,训练数据质量和算力与内存容量提升的空间仍十分巨大。
从生成质量上看,Dreamina对物体的运动处理较好,有一定的三维连续性,对人体尤其是运动时的腿和手指仍有瑕疵,面部的一致性也较差,但效果仍然比其他应用优秀许多。Runway生成的视频只能有轻微的动作,并且不自然有畸变;Pika生成质量则更差,对移动的人和动物处理非常不自然。总的来说,从生成质量上看:Sora >> Dreamina >> Runway > Pika。
在时长上,Dreamina与Runway和Pika等没有明显差距,仍处于几秒到十几秒,与Sora的一分钟相比差距较大。并且从Dreamina的延长生成视频来看,延长的视频清晰度和一致性上有明显不同,应该是使用之前视频的最后一帧进行再生成,而不是使用完整的之前的视频。如果想要实现Sora的长时长,对内存容量和算力的要求会大幅提高。
在对提示词的理解上,Dreamina和Runway在同一水平,能较好地理解提示词中的内容,生成的人物和背景符合描述。Pika生成的视频则会与提示词内容有所出入。
在安全性上,比较意外的是虽然Dreamina仍处于内测阶段,对于提示词就已经存在风险控制。在我们尝试复现Sora最新的“气球人”视频的时候,系统会提示包含不适内容,不予生成。
以下是运用同一提示词在Sora/Dreamina/Runway/Pika应用生成视频的对比:
首先是Sora的第一个视频,我们采用了统一提示词进行生成。只有Dreamina能生成类似的运动情况下的视频,虽然腿部和面部变化仍有些许奇怪,但在延长3秒视频之后,出现了不一致和清晰度下降的情况。我们推测是延长时没有使用完整的视频进行处理的原因;如果达到Sora的1分钟长时长,对内存容量和算力的要求会大幅提高。
“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”
第二个是猛犸象的视频,Sora在质量上仍然是领先的,与Dreamina的差距在缩小,而Runway和Pika均出现了不正常的运动,Pika生成的质量也很差。
“Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, depth of field.”
为了测试视频生成模型的三维一致性,我们也使用了自建的提示词。从结果来看,Sora在镜头移动下的三维一致性最强,Dreamina也呈现出了一定的三维一致性,而Runway和Pika差距较为明显。三维一致性作为模型涌现出的能力,是生成模型是否理解物理世界的基础能力。
“a Coca-Cola zip-top can at the center of the frame. The camera angle should start from its slanted top view and continuously rotate around the bottle, offering a dynamic, circular perspective.”
我们也尝试复现了Sora最新公布的一些生成不自然的生物视频,Dreamina能理解提示词,但是效果仍逊于Sora。
Dreamina
Sora
Dreamina虽然仍处于内测阶段,但是在安全和风控上表现有些意外。在尝试复现Sora最新的“气球人”视频时,Dreamina拒绝了该内容的生成。安全性对于视频生成模型尤为重要,不适的视频对观众的影响远大于文本。