回答-BFW问答

因为视频生成是逐帧扩散+时空注意力计算，时长增加会导致显存占用和计算量呈平方级增长，同时时序误差会随帧数累积，造成画面崩坏，所以目前只能先做短片段，再通过分段生成或插值技术"拼接"成长视频。