StabilityAI发布实时文本生成图片大模型SDXL Turbo——生成一张图片可能只需要0.207秒

StabilityAI是当前最流行的开源文本生成图像大模型Stable Diffusion背后的公司。这家公司在文本生成图片和文本生成视频方面开源了诸多的大模型。其中，Stable Diffusion是目前使用人数最多的开源文本生成图像大模型。就在刚才，StabilityAI又发布了一个全新的实时的文本生成图像大模型Stable Diffusion XL Turbo，这个最新的模型在A100上生成一张图片只需要0.207秒！
上图是SDXL的实例，有加速和压缩

Stable Diffusion Turbo简介

Stable Diffusio XL Turbon是基于Stable Diffusion XL 1.0继续迭代训练得到的。但是使用了一种新的蒸馏技术，即Adversaral Diffusion Distillation（ADD），ADD是一种新颖的训练方法，它能够在仅需1-4步的采样中高效生成大规模基础图像扩散模型，同时保持高质量的图像。这种方法结合了得分蒸馏（作为教师信号）和对抗性损失，以确保即使在仅有一两步采样的低步骤范围内也能保持高图像保真度。

ADD在单步中明显优于现有的少步骤方法（如GANs、潜在一致性模型），并且在仅四步中就能达到最先进扩散模型（如SDXL）的性能。它是首个实现单步、实时图像合成的方法。这也是Stable Diffusion Turbo能大幅提高图像生成速度的原因。

Stable Diffusion Turbo模型的生成速度

根据官方公布的信息，Stable Diffusion XL Turbo模型在A100 GPU上生成一张512×512的图像仅需207毫秒！但是，这个时间实际上包括prompt的编码、单次去噪步骤和解码过程。而正常的Stable Diffusion模型在A100上生成图片的时间大概在3-5秒左右，压缩优化后也需要一秒以上！

在这 207 毫秒的总时间中，单个 UNet 网络的前向评估（即去噪步骤）占用了 67 毫秒。这表明大部分时间被用于模型的其他处理部分，如编码和解码。

相比于传统的多步骤扩散模型，SDXL Turbo 显著降低了所需的步骤数量。例如，传统模型可能需要 50 步或更多来生成同样质量的图像，而 SDXL Turbo 只需一个步骤。

这种显著减少的步骤数不仅意味着更快的图像生成速度，而且还意味着在保持图像质量的同时大幅降低了计算资源的需求。

Stable Diffusion Turbo模型图像生成质量

尽管速度大幅提升，但是Stable Diffusion Turbo生成的图像质量却依然很好。

与其他扩散模型的精简方法相比，SDXL Turbo 有效地避免了像素化、模糊或其他视觉伪影。这意味着生成的图像更加清晰、真实。

在盲测中，SDXL Turbo 生成的图像与其他几种模型（如 StyleGAN-T++、OpenMUSE、IF-XL、SDXL 和 LCM-XL）进行了比较。结果显示，SDXL Turbo 在单步生成模式下就能超越 LCM-XL 的四步配置，以及 SDXL 的五十步配置，这反映了其在图像质量上的优越性。

注意：这里的五十步配置或者四步配置指的是扩散模型在生成高质量图像时所需执行的步骤数量。扩散模型是一种深度学习模型，通常用于生成图像。它们通过逐步添加噪声到数据中，然后再逐步去除这些噪声来生成图像。这个过程包括多个步骤，每个步骤都会使图像逐渐从完全随机的噪声状态转变成最终的清晰图像。一般来说，步骤越多质量越好，但是也更加耗时。

下图展示了SDXL Turbo在图像质量、prompt对齐等方面的评估结果。