Claude、ChatGPT、Grok、Midjourney国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet DeepSeek V3 & R1 Midjourney
无需魔法 无需担心封号 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

Google 最新视频生成模型 LUMIERE

A Space-Time Diffusion Model for Realistic Video Generation

这个 Google 最新的 AI 视频生成器确实非常出色。据说今年硅谷还将发布几篇与视频生成相关的论文和项目,四维(三维空间+时间维度)的一致性不断提高。

感觉我有一部分工作就是给老东家疯狂打Call,各种跟进Google的AI进展。确实对老东家还是有很深厚的感情的,希望Google的AI越来越牛逼。

这篇公众号Update一下Google昨天发布的 LUMIERE。

先看疗效

Text-to-Video

Google 最新视频生成模型 LUMIERE第1张

Google 最新视频生成模型 LUMIERE第2张

Image-to-Video

Google 最新视频生成模型 LUMIERE第3张

Google 最新视频生成模型 LUMIERE第4张

Stylized Generation

Google 最新视频生成模型 LUMIERE第5张

Video Stylization

Google 最新视频生成模型 LUMIERE第6张

Cinemagraphs

Google 最新视频生成模型 LUMIERE第7张

Video Inpainting

Google 最新视频生成模型 LUMIERE第8张

简介

Lumiere——一种文本到视频的扩散模型,旨在合成呈现逼真、多样且连贯动作的视频——这是视频合成中的一个关键挑战。Lumiere引入了一个时空U-Net架构,它能够一次性生成视频的整个时间长度,通过模型的单次传递完成。这与现有的视频模型不同,后者通过合成遥远的关键帧,然后进行时间超分辨率处理——这种方法本质上使得全局时间一致性难以实现。通过部署空间和(重要的是)时间的下采样和上采样,并利用预训练的文本到图像扩散模型,Lumiere的模型学会直接生成全帧率、低分辨率的视频,并在多个时空尺度上进行处理。

论文地址:https://arxiv.org/pdf/2401.12945.pdf

在生成的视频中保持时间上的一致性

使用Lumiere的模型和ImagenVideo(Ho等人,2022a)为周期性运动生成的视频的代表性示例。应用Lumiere的图像到视频生成功能,以ImagenVideo生成的视频的第一帧为条件,并可视化相应的X-T切片。由于其级联设计和时间超分辨率模块,ImagenVideo在生成全球一致的重复运动方面存在困难,这些模块无法在时间窗口中始终一致地解决混叠歧义。

Google 最新视频生成模型 LUMIERE第9张

Lumiere流程

之前作品中最常见方法的主要不同之处:

Google 最新视频生成模型 LUMIERE第10张

  1. 常见的方法包括一个基础模型,用于生成遥远的关键帧,然后是一系列的时间超分辨率(TSR)模型来补充帧。在非重叠窗口上应用一个空间超分辨率(SSR)模型,以获得高分辨率的结果。

  2. 相比之下,Lumiere框架中的基础模型一次性处理所有帧,不需要TSR模型的级联,使Lumiere能够学习整体一致的运动。为了获得高分辨率视频,Lumiere在重叠窗口上应用一个SSR模型,并使用MultiDiffusion(Bar-Tal等人,2023)结合预测,得到一个连贯的结果。

STUNet架构

将预训练的T2I U-Net架构(Ho等人,2022a)“膨胀”为一个时空UNet(STUNet),它能够在空间和时间上对视频进行下采样和上采样:

Google 最新视频生成模型 LUMIERE第11张

  1. STUNet激活图的示意图;颜色表示由不同时间模块产生的特征

  2. 基于卷积的模块,包括预训练的T2I层,随后是一个分解的时空卷积

  3. 在最粗糙的U-Net层中的基于注意力的模块,其中预训练的T2I层后跟着时间注意力。由于视频表示在最粗糙层被压缩,Lumiere叠加了几个时间注意力层,以限制计算开销。

和其他方法对比

Google 最新视频生成模型 LUMIERE第12张

Google 最新视频生成模型 LUMIERE第13张

<

AI资源采购

InstantID 保持与其他模型的兼容性的同时保持高面部保真度

2024-1-26 17:14:30

AI资源采购

免配置、免翻墙,Stable Diffusion平替来了(容易上手的AI生图工具)

2024-1-26 17:25:14

Claude、ChatGPT、Grok、Midjourney国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet DeepSeek V3 & R1 Midjourney
无需魔法 无需担心封号 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

立即体验