OpenAI 更新DALL-E论文,阐述了针对 DALL・E 3 所做的改进:
1、模型能力的提升主要来自于详尽的图像文本描述(image captioning);
2、他们训练了一个图像文本描述模型来生成简短而详尽的文本;
3、他们使用了 T5 文本编码器;
4、他们使用了 GPT-4 来完善用户写出的简短提示;
5、他们训练了一个 U-net 解码器,并将其蒸馏成 2 个去噪步骤;
6、文本渲染仍然不可靠,他们认为该模型很难将单词 token 映射为图像中的字母