继昨天分享的腾讯PhotoMaker之后,今天我们来看看另一个类似的项目InstantID:https://instantid.github.io/
论文的标题是《InstantID: Zero-shot Identity-Preserving Generation in Seconds》
简介
在个性化图像合成方面,如Textual Inversion、DreamBooth和LoRA等方法已取得重大进展。然而,它们在现实世界的应用受到高存储需求、漫长的微调过程以及对多个参考图像的需求的限制。相反,现有的基于ID嵌入的方法虽然只需要单次前向推理,但也面临挑战:它们要么需要在众多模型参数上进行广泛的微调,缺乏与社区预训练模型的兼容性,或无法保持高面部保真度。而InstantID则可以作为上述问题的解决方案。InstantID的即插即用模块能够仅使用单张面部图像,就巧妙地处理各种风格的图像个性化,同时确保高保真度。为此,研发团队设计了一个新颖的IdentityNet,通过施加强语义和弱空间条件,结合面部和地标图像与文本提示,来引导图像生成。InstantID展示了卓越的性能和效率,在身份保留至关重要的现实世界应用中具有极高的价值。此外,InstantID可以无缝集成到流行的预训练文本到图像扩散模型,如SD1.5和SDXL,作为一个可适应的插件。
方法
InstantID的目标是仅使用一张参考身份标识(ID)图像,生成具有不同姿势或风格的定制化图像,同时确保高保真度。下图提供了InstantID方法的概览。它包含三个关键组件:
-
一个捕捉稳健语义面部信息的ID嵌入; -
一个轻量级的适配模块,配备了解耦的交叉注意力,便于使用图像作为视觉提示; -
一个IdentityNet,它编码了参考面部图像的详细特征,并提供额外的空间控制。
InstantID与以往的方法在以下几个方面不同:
-
不训练UNet,因此可以保留原始文本到图像模型的生成能力,并且与社区中现有的预训练模型和ControlNets兼容; -
不需要测试时调整,因此对于特定角色,无需收集多张图像进行微调,只需一次推断单张图像; -
实现了更好的面部保真度,并保留了文本的可编辑性。
效果
将您的脸放入任何风格
InstantID支持风格化和逼真风格。
可编辑性和多参考图像
展示了InstantID的稳健性、可编辑性和兼容性。第1列显示了仅图像的结果,其中在推理期间将提示设置为空。第2-4列通过文本提示展示了可编辑性。第5-9列展示了与现有ControlNets(如canny和depth)的兼容性。
参考图像数量的影响。对于多个参考图像,InstantID取ID嵌入的平均均值作为图像提示。即使只有一张单一的参考图像,InstantID也能取得良好的结果。
身份标识和风格插值
在两个不同角色之间进行插值。
InstantID也灵活地支持将身份属性加入到非人类角色中。
对比
与现有无需微调的最先进技术进行比较。具体来说,InstantID与IP-Adapter(IPA)、IP-Adapter-FaceID以及最近的PhotoMaker进行了比较。其中,PhotoMaker需要训练UNet的LoRA参数。可以看到,PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度,但文本控制能力明显下降。相比之下,InstantID在保持更好的保真度的同时,还保留了良好的文本可编辑性(面部和风格融合得更好)。
与预训练角色LoRAs的InstantID比较。InstantID可以在没有任何训练的情况下达到与LoRAs竞争的结果。
与InsightFace Swapper(也称为ROOP或Refactor)的InstantID比较。然而,在非现实风格中,InstantID在融合面部和背景方面更为灵活。
<