+
110
-

回答

800_auto

STAR 是一个基于文本到视频模型的实际场景视频超分辨率技术,由南京大学、字节跳动、西南大学联合开发,通过整合文本到视频扩散先验模型,提升了视频质量,并提供了开源实现。STAR(Spatial-Temporal Augmentation with Text-to-Video models for Real-world video super-resolution)是一个创新的框架,旨在提升现实世界视频超分辨率(VSR)的空间 - 时间质量。该框架首次将文本到视频(T2V)模型的强大扩散先验融入 VSR 中,以克服基于 GAN 的方法在处理复杂的现实世界降级问题时的过度平滑问题。

800_auto

STAR 的核心在于引入了一个本地信息增强模块(LIEM),该模块位于全局注意力块之前,旨在丰富局部细节并减少降级伪影。此外,STAR 还提出了一个动态频率(DF)损失函数,用于在扩散步骤中不同地调节对高频和低频成分的约束,引导模型关注不同的频率分量,从而增强视频的保真度。通过这些创新,STAR 能够实现更加逼真的空间细节和更强的时间一致性。

https://nju-pcalab.github.io/projects/STAR/

网友回复

我知道答案,我要回答