Claude、ChatGPT、Midjourney国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet Midjourney
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar

Satisfy the requirements of high efficiency, promising identity fidelity, and flexible text controllability.

Shenshen老板前几天向我分享了PhotoMaker和InstantID项目。今天先看PhotoMaker。项目地址:https://github.com/TencentARC/PhotoMaker

该研究团队主要来自:南开大学、腾讯PCG的ARC实验室、东京大学。

论文的标题为《PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding》。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第1张

简介

文本到图像生成技术在合成基于文本提示的逼真人类照片方面取得了显著进展。然而,现有的个性化生成方法无法同时满足高效率、ID保真度以及灵活的文本可控性三个要求。而腾讯的 PhotoMaker则可以做到。它主要通过堆叠ID嵌入方式编码任意数量的输入ID图像,以保留ID信息。这样的嵌入作为统一的ID表示,不仅可以全面封装同一输入ID的特征,还可以容纳不同ID的特征,以便于后续整合。

方法

我们的方法将几张具有相同身份标识的输入图像转换为堆叠的ID嵌入。这种嵌入可以被视为待生成身份标识的统一表示。在推理阶段,构成堆叠ID嵌入的图像可以来自不同的身份标识。随后,我们可以在不同的上下文中合成这些定制化的身份标识。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第2张

  1. 我们分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。
  2. 我们通过合并相应的类别嵌入(例如,男性和女性)和每个图像嵌入来提取融合嵌入。
  3. 我们沿长度维度连接所有融合嵌入,形成堆叠的ID嵌入。
  4. 我们将堆叠的ID嵌入输入到所有交叉注意力层,以便在扩散模型中适应性地融合ID内容。

需要注意的是,虽然我们在训练时使用具有遮蔽背景的同一ID的图像,但在推理过程中,我们可以直接输入具有不同ID的图像而不产生背景扭曲,从而创建一个新的ID。

效果

重构化

我们展示了我们的PhotoMaker在基本提示下的生成能力。我们在每张图像下方展示了激发创造的提示。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第3张

将艺术作品/旧照片中的人物带入现实

通过将艺术画作、雕塑或某人的旧照片作为输入,我们的PhotoMaker可以将上个世纪甚至古代的人物带到当代,“为他们”拍摄照片。我们在每张图像下方展示了激发创造的提示。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第4张

风格化

我们的PhotoMaker不仅具有生成逼真人类照片的能力,而且还能在保留身份标识特征的同时实现风格化。我们在第一行展示了激发创造的提示。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第5张

改变年龄或性别

通过简单替换类别词汇(例如,男性和女性),我们的方法能够在保持原有身份的同时实现性别和年龄的变化。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第6张

身份混合

如果用户提供了不同身份标识的图像作为输入,我们的PhotoMaker可以很好地整合不同身份标识的特征,形成一个新的身份标识。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第7张

对于身份混合,PhotoMaker的方法可以通过控制输入图像池中身份图像的比例或通过提示加权的方法来调整合并比例。

首先,看一下PhotoMaker方法如何通过控制输入图像池中不同身份标识的比例来定制新的身份标识。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第8张

接着,PhotoMaker将与特定身份标识相关的图像的嵌入乘以一个系数,以控制其在新身份标识中的融合比例。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第9张

对比

与其他方法相比,PhotoMaker能够同时满足高质量和多样化的生成能力、有前景的可编辑性、高推理效率以及强大的身份保真度。

腾讯的 PhotoMaker - 更快 更像 更可控的 AI Avatar第10张

AI资源采购

一个网友做的AI自动投递简历的项目。

2024-1-14 1:56:33

AI资源采购

InstantID 保持与其他模型的兼容性的同时保持高面部保真度

2024-1-26 17:14:30

Claude、ChatGPT、Midjourney国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet Midjourney
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

立即体验