这个 Google 最新的 AI 视频生成器确实非常出色。据说今年硅谷还将发布几篇与视频生成相关的论文和项目,四维(三维空间+时间维度)的一致性不断提高。
感觉我有一部分工作就是给老东家疯狂打Call,各种跟进Google的AI进展。确实对老东家还是有很深厚的感情的,希望Google的AI越来越牛逼。
这篇公众号Update一下Google昨天发布的 LUMIERE。
先看疗效
Text-to-Video
Image-to-Video
Stylized Generation
Video Stylization
Cinemagraphs
Video Inpainting
简介
Lumiere——一种文本到视频的扩散模型,旨在合成呈现逼真、多样且连贯动作的视频——这是视频合成中的一个关键挑战。Lumiere引入了一个时空U-Net架构,它能够一次性生成视频的整个时间长度,通过模型的单次传递完成。这与现有的视频模型不同,后者通过合成遥远的关键帧,然后进行时间超分辨率处理——这种方法本质上使得全局时间一致性难以实现。通过部署空间和(重要的是)时间的下采样和上采样,并利用预训练的文本到图像扩散模型,Lumiere的模型学会直接生成全帧率、低分辨率的视频,并在多个时空尺度上进行处理。
论文地址:https://arxiv.org/pdf/2401.12945.pdf
在生成的视频中保持时间上的一致性
使用Lumiere的模型和ImagenVideo(Ho等人,2022a)为周期性运动生成的视频的代表性示例。应用Lumiere的图像到视频生成功能,以ImagenVideo生成的视频的第一帧为条件,并可视化相应的X-T切片。由于其级联设计和时间超分辨率模块,ImagenVideo在生成全球一致的重复运动方面存在困难,这些模块无法在时间窗口中始终一致地解决混叠歧义。
Lumiere流程
之前作品中最常见方法的主要不同之处:
-
常见的方法包括一个基础模型,用于生成遥远的关键帧,然后是一系列的时间超分辨率(TSR)模型来补充帧。在非重叠窗口上应用一个空间超分辨率(SSR)模型,以获得高分辨率的结果。
-
相比之下,Lumiere框架中的基础模型一次性处理所有帧,不需要TSR模型的级联,使Lumiere能够学习整体一致的运动。为了获得高分辨率视频,Lumiere在重叠窗口上应用一个SSR模型,并使用MultiDiffusion(Bar-Tal等人,2023)结合预测,得到一个连贯的结果。
STUNet架构
将预训练的T2I U-Net架构(Ho等人,2022a)“膨胀”为一个时空UNet(STUNet),它能够在空间和时间上对视频进行下采样和上采样:
-
STUNet激活图的示意图;颜色表示由不同时间模块产生的特征
-
基于卷积的模块,包括预训练的T2I层,随后是一个分解的时空卷积
-
在最粗糙的U-Net层中的基于注意力的模块,其中预训练的T2I层后跟着时间注意力。由于视频表示在最粗糙层被压缩,Lumiere叠加了几个时间注意力层,以限制计算开销。
和其他方法对比
<