回答-BFW问答

AV3D（Make-A-V ideo3D），一种生成三维的方法文本描述中的动态场景。我们的方法使用4D动态神经辐射场（NeRF），通过查询文本到视频（T2V）针对场景外观、密度和运动一致性进行了优化基于扩散的模型。从提供的文本生成的动态视频输出可

以从任何相机位置和角度，并且可以合成到任何3D环境中。MAV3D 不需要任何 3D 或 4D 数据，T2V 模型仅在文本图像对和未标记的视频上训练。我们演示我们使用全面的定量和定性实验的方法的有效性，并显示出改进以前建立的内部基线。据我们所知，我们的方法是第一个生成3D动态场景给出文本描述。 800_auto