Claude、ChatGPT、Midjourney国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet Midjourney
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

InstantID 保持与其他模型的兼容性的同时保持高面部保真度

InstantID: Zero-shot Identity-Preserving Generation in Seconds

继昨天分享的腾讯PhotoMaker之后,今天我们来看看另一个类似的项目InstantID:https://instantid.github.io/

论文的标题是《InstantID: Zero-shot Identity-Preserving Generation in Seconds》

简介

在个性化图像合成方面,如Textual Inversion、DreamBooth和LoRA等方法已取得重大进展。然而,它们在现实世界的应用受到高存储需求、漫长的微调过程以及对多个参考图像的需求的限制。相反,现有的基于ID嵌入的方法虽然只需要单次前向推理,但也面临挑战:它们要么需要在众多模型参数上进行广泛的微调,缺乏与社区预训练模型的兼容性,或无法保持高面部保真度。而InstantID则可以作为上述问题的解决方案。InstantID的即插即用模块能够仅使用单张面部图像,就巧妙地处理各种风格的图像个性化,同时确保高保真度。为此,研发团队设计了一个新颖的IdentityNet,通过施加强语义和弱空间条件,结合面部和地标图像与文本提示,来引导图像生成。InstantID展示了卓越的性能和效率,在身份保留至关重要的现实世界应用中具有极高的价值。此外,InstantID可以无缝集成到流行的预训练文本到图像扩散模型,如SD1.5和SDXL,作为一个可适应的插件。

方法

InstantID的目标是仅使用一张参考身份标识(ID)图像,生成具有不同姿势或风格的定制化图像,同时确保高保真度。下图提供了InstantID方法的概览。它包含三个关键组件:

  1. 一个捕捉稳健语义面部信息的ID嵌入;
  2. 一个轻量级的适配模块,配备了解耦的交叉注意力,便于使用图像作为视觉提示;
  3. 一个IdentityNet,它编码了参考面部图像的详细特征,并提供额外的空间控制。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第1张

InstantID与以往的方法在以下几个方面不同:

  1. 不训练UNet,因此可以保留原始文本到图像模型的生成能力,并且与社区中现有的预训练模型和ControlNets兼容;
  2. 不需要测试时调整,因此对于特定角色,无需收集多张图像进行微调,只需一次推断单张图像;
  3. 实现了更好的面部保真度,并保留了文本的可编辑性。

效果

将您的脸放入任何风格

InstantID支持风格化和逼真风格。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第2张

可编辑性和多参考图像

展示了InstantID的稳健性、可编辑性和兼容性。第1列显示了仅图像的结果,其中在推理期间将提示设置为空。第2-4列通过文本提示展示了可编辑性。第5-9列展示了与现有ControlNets(如canny和depth)的兼容性。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第3张

参考图像数量的影响。对于多个参考图像,InstantID取ID嵌入的平均均值作为图像提示。即使只有一张单一的参考图像,InstantID也能取得良好的结果。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第4张

身份标识和风格插值

在两个不同角色之间进行插值。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第5张

InstantID也灵活地支持将身份属性加入到非人类角色中。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第6张

对比

与现有无需微调的最先进技术进行比较。具体来说,InstantID与IP-Adapter(IPA)、IP-Adapter-FaceID以及最近的PhotoMaker进行了比较。其中,PhotoMaker需要训练UNet的LoRA参数。可以看到,PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度,但文本控制能力明显下降。相比之下,InstantID在保持更好的保真度的同时,还保留了良好的文本可编辑性(面部和风格融合得更好)。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第7张

与预训练角色LoRAs的InstantID比较。InstantID可以在没有任何训练的情况下达到与LoRAs竞争的结果。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第8张

与InsightFace Swapper(也称为ROOP或Refactor)的InstantID比较。然而,在非现实风格中,InstantID在融合面部和背景方面更为灵活。

InstantID  保持与其他模型的兼容性的同时保持高面部保真度第9张

<

AI资源采购

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar

2024-1-26 17:13:03

AI资源采购

Google 最新视频生成模型 LUMIERE

2024-1-26 17:17:40

Claude、ChatGPT、Midjourney国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet Midjourney
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

立即体验