STAR 是一个基于文本到视频模型的实际场景视频超分辨率技术,由南京大学、字节跳动、西南大学联合开发,通过整合文本到视频扩散先验模型,提升了视频质量,并提供了开源实现。STAR(Spatial-Temporal Augmentation with Text-to-Video models for Real-world video super-resolution)是一个创新的框架,旨在提升现实世界视频超分辨率(VSR)的空间 - 时间质量。该框架首次将文本到视频(T2V)模型的强大扩散先验融入 VSR 中,以克服基于 GAN 的方法在处理复杂的现实世界降级问题时的过度平滑问题。
STAR 的核心在于引入了一个本地信息增强模块(LIEM),该模块位于全局注意力块之前,旨在丰富局部细节并减少降级伪影。此外,STAR 还提出了一个动态频率(DF)损失函数,用于在扩散步骤中不同地调节对高频和低频成分的约束,引导模型关注不同的频率分量,从而增强视频的保真度。通过这些创新,STAR 能够实现更加逼真的空间细节和更强的时间一致性。
https://nju-pcalab.github.io/projects/STAR/
网友回复
如何编写一个chrome插件实现多线程高速下载大文件?
cdn版本的vue在网页中出现typeerror错误无法找到错误代码位置怎么办?
pywebview能否使用webrtc远程控制共享桌面和摄像头?
pywebview6.0如何让窗体接受拖拽文件获取真实的文件路径?
如何在linux系统中同时能安装运行apk的安卓应用?
python有没有离线验证码识别ocr库?
各家的ai图生视频及文生视频的api价格谁最便宜?
openai、gemini、qwen3-vl、Doubao-Seed-1.6在ui截图视觉定位这款哪家更强更准?
如何在linux上创建一个沙箱隔离的目录让python使用?
pywebview如何使用浏览器自带语音识别与webspeech 的api?