现在这 AI 领域那可是发展得“翻天覆地”那扩散模型和视频生成方面更是争议大大的有!到底能不能带来真正的改变,大家都眼巴巴瞅着
腾讯实习经历
哎!他也曾在腾讯 AI Lab 实习。那时候在那实习,跟随着一批厉害的大神做项目。主导或者参与了 EvalCrafter 、VideoCrafter 等重要工作。就靠着在那里学到的一身本事,对扩散模型还有视频生成那可是有了更深的认识,为以后的研究打下了老厚实的基础
扩散模型的瓶颈
扩散模型这东西,为图像合成带来了一场大的革命那叫一个不得了。但是,它往视频领域延伸的时候,就碰到大麻烦。传统的标量时间步根本没办法处理复杂的时序动态,它就死死地困住了这扩散模型往视频领域发展的脚步可把大家愁坏了!
FVDM 模型破题
去年,他们提出了帧感知视频扩散模型(FVDM)。引入了向量化时间步变量(VTV) 。有了这东西,每一帧都有了独立的时间演化路径!感觉就在黑暗里突然亮起了一盏大灯。从根本上就把之前那头疼的难题给解决了,视频生成的时序建模能力那是大大地提升,进步得嗷嗷快!
Pusa 项目的奇迹
Pusa 这项目,那可真是牛到家了。它可不单单是 FVDM 理论的简单验证,更重要的是它找到了微调大规模预训练视频模型的低成本好办法。就比如说对 Wan - T2V 14B 这种预训练模型进行非破坏性微调,花 500 美金的训练成本,效果比 Wan 官方 I2V 还好,官方那至少要花好多好多钱,Pusa 成本降低超 200 倍 ,数据也减少超 2500 倍,这省钱省资源的本事无人能及
Pusa 的多样应用
这 Pusa - Wan 还“解锁”了好多功能。什么图生视频、首尾帧处理、视频过渡、视频拓展等等,啥都会,而且还保留了文生视频的能力。可以说功能那是“十八般武艺样样精通”,就像一个全能小超人,能适应各种各样的视频生成任务,太让人惊喜
未来与展望
FVDM 理论用它的向量化时间步变量为视频生成带来了根本性变革,Pusa 项目又以低成本和高效的微调策略把这个理论实现。我们就盼着社区能多多贡献自己的力量来参与合作,让 Pusa 性能更好,功能更多,去探索更多可能。现在它已经开了个好头,把代码库啥的都开源了。
现在我就想问问大伙,你们觉得 Pusa 在未来还能解锁啥更牛的视频任务功能不?觉得我说得有点意思的点赞分享一下!