英伟达专家如何评价Sora?

tiankong @ 2024年02月18日 世界观

1/Sora 是一个数据驱动的物理引擎,它是对许多世界的模拟
2/看似简单的步骤包含了大量的技术和模拟
3/未来它将取代所有手工设计的图形管道。

以下是正文:
如果您认为 OpenAI Sora 是像 DALLE 一样的创意玩具,...再想一想。 Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、"直观"物理、长期推理和语义基础。

如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶。它必须如此!

我们来分解一下下面的视频。提示:"两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。"

- 模拟器实例化了两种精美的3D资产:具有不同装饰的海盗船。 Sora 必须在其潜在空间中隐式地解决文本到 3D 的问题。
- 3D 对象在航行并避开彼此路径时始终保持动画效果。
- 咖啡的流体动力学,甚至是船舶周围形成的泡沫。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程。
- 照片写实主义,几乎就像光线追踪渲染一样。
- 模拟器考虑到杯子与海洋相比尺寸较小,并应用移轴摄影来营造"微小"的氛围。
- 场景的语义在现实世界中并不存在,但引擎仍然实现了我们期望的正确物理规则。

接下来:添加更多模式和条件,然后我们就有了一个完整的数据驱动的 UE,它将取代所有手工设计的图形管道。

如果有更高的存在为我们的现实编写模拟代码,我们就可以估计编译后的二进制文件的大小。 Meta AI的Emu Video是6B参数。假设如果 Sora 使用 bfloat16 增大了 10 倍,那么 Creator 的二进制文件可能不会大于 111 GB。

注意事项:
- 实际代码可能要简单得多,因为 Sora 距离 Kolmogorov 复杂度还很远;
- Sora不只是压缩我们的世界,而是压缩所有可能的世界。我们的现实只是 Sora 能够计算的模拟之一;

- 物理世界的某些部分可能在您亲眼目睹之前并不存在。就像您不需要在 UE5 中渲染每个原子来制作逼真的场景一样。

(视频)