InstantID 保持与其他模型的兼容性的同时保持高面部保真度

InstantID: Zero-shot Identity-Preserving Generation in Seconds

文章目录

继昨天分享的腾讯PhotoMaker之后，今天我们来看看另一个类似的项目InstantID：https://instantid.github.io/

论文的标题是《InstantID: Zero-shot Identity-Preserving Generation in Seconds》

简介

在个性化图像合成方面，如Textual Inversion、DreamBooth和LoRA等方法已取得重大进展。然而，它们在现实世界的应用受到高存储需求、漫长的微调过程以及对多个参考图像的需求的限制。相反，现有的基于ID嵌入的方法虽然只需要单次前向推理，但也面临挑战：它们要么需要在众多模型参数上进行广泛的微调，缺乏与社区预训练模型的兼容性，或无法保持高面部保真度。而InstantID则可以作为上述问题的解决方案。InstantID的即插即用模块能够仅使用单张面部图像，就巧妙地处理各种风格的图像个性化，同时确保高保真度。为此，研发团队设计了一个新颖的IdentityNet，通过施加强语义和弱空间条件，结合面部和地标图像与文本提示，来引导图像生成。InstantID展示了卓越的性能和效率，在身份保留至关重要的现实世界应用中具有极高的价值。此外，InstantID可以无缝集成到流行的预训练文本到图像扩散模型，如SD1.5和SDXL，作为一个可适应的插件。

方法

InstantID的目标是仅使用一张参考身份标识（ID）图像，生成具有不同姿势或风格的定制化图像，同时确保高保真度。下图提供了InstantID方法的概览。它包含三个关键组件：

一个捕捉稳健语义面部信息的ID嵌入；
一个轻量级的适配模块，配备了解耦的交叉注意力，便于使用图像作为视觉提示；
一个IdentityNet，它编码了参考面部图像的详细特征，并提供额外的空间控制。

InstantID与以往的方法在以下几个方面不同：

不训练UNet，因此可以保留原始文本到图像模型的生成能力，并且与社区中现有的预训练模型和ControlNets兼容；
不需要测试时调整，因此对于特定角色，无需收集多张图像进行微调，只需一次推断单张图像；
实现了更好的面部保真度，并保留了文本的可编辑性。

效果

将您的脸放入任何风格

InstantID支持风格化和逼真风格。

可编辑性和多参考图像

展示了InstantID的稳健性、可编辑性和兼容性。第1列显示了仅图像的结果，其中在推理期间将提示设置为空。第2-4列通过文本提示展示了可编辑性。第5-9列展示了与现有ControlNets（如canny和depth）的兼容性。

参考图像数量的影响。对于多个参考图像，InstantID取ID嵌入的平均均值作为图像提示。即使只有一张单一的参考图像，InstantID也能取得良好的结果。

身份标识和风格插值

在两个不同角色之间进行插值。

InstantID也灵活地支持将身份属性加入到非人类角色中。

对比

与现有无需微调的最先进技术进行比较。具体来说，InstantID与IP-Adapter（IPA）、IP-Adapter-FaceID以及最近的PhotoMaker进行了比较。其中，PhotoMaker需要训练UNet的LoRA参数。可以看到，PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度，但文本控制能力明显下降。相比之下，InstantID在保持更好的保真度的同时，还保留了良好的文本可编辑性（面部和风格融合得更好）。

与预训练角色LoRAs的InstantID比较。InstantID可以在没有任何训练的情况下达到与LoRAs竞争的结果。

与InsightFace Swapper（也称为ROOP或Refactor）的InstantID比较。然而，在非现实风格中，InstantID在融合面部和背景方面更为灵活。

{{userData.name}}已认证

Claude、ChatGPT、Grok、Midjourney国内镜像版

InstantID 保持与其他模型的兼容性的同时保持高面部保真度

简介

方法