频世界模型领域又迎来了新的突破!
复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter,这是一个通过显式 4D 几何控制(4D Geometric Control)实现的动态逼真视频世界模型。它不仅能像「导演」一样精准控制运镜,还能同时指挥场景中多个物体的 3D 运动轨迹,为视频生成引入了物理世界维度。
自 Sora 问世以来,视频世界模型(Video World Models)成为了 AI 领域最热门的研究方向之一。我们希望 AI 不仅能生成视频,更能理解和模拟真实的物理世界。然而,现有的视频模型往往面临一个核心困境:视频是在 2D 平面上播放的,但真实世界是 4D(3D 空间 + 时间)的。
现有的方法(如 Voyager、Yume 等)虽然引入了 3D 几何结构来辅助生成,但往往难以在一个统一的框架下同时实现精准的相机控制和多物体运动控制。要么是控制了镜头但物体不动(静态场景),要么是控制了物体但镜头受限,或者依赖于刚性的 3D 边界框和人的参数化模型(如 SMPL),难以应对复杂的真实世界物体。
为了打破这一僵局,来自复旦大学、上海创智学院、香港大学和腾讯 PCG ARC Lab 的研究团队提出了 VerseCrafter。
