字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图

2024年3月9日 2325点热度 0人点赞 0条评论

TikTok 的母公司字节跳动推出了最新的文本到图像生成人工智能模型，名为SDXL-Lightning。顾名思义，这个新模型只需很轻量的推理步骤（1，2，4 或 8 步）即可实现极其快速且高质量的文本到图像生成功能。与原始 SDXL 模型相比，这是一个重大突破，原始 SDXL 模型需要超过 25 个步骤才能达到同等质量。

SDXL-LIGHTNING 简介

虽然 Diffusion 模型在生成任务中取得了出色的结果，但其迭代采样过程既缓慢又计算昂贵。对于实际应用，减少所需的步骤数至关重要。之前的工作尝试了更好的 ODE 求解器、直流和模型蒸馏，但质量在八个或以下的步骤中仍然低于标准。

SDXL 将潜在扩散引入文本到图像的生成，支持高分辨率 1024px 输出。然而，其多步采样进行了 50 多个推论。显然，需要更快的生成速度才能释放扩散模型的全部潜力。这就是 SDXL-Lightning 的用武之地。SDXL-Lightning 通过一步生成 1024 像素来突破界限。

渐进式对抗蒸馏法

SDXL-Lightning 模型同时利用渐进式和对抗性蒸馏。渐进式蒸馏教会学生网络预测密度流上更前方的位置，而对抗性损失则确保学生的预测与教师网络的预测相匹配。

此外，蒸馏过程从 128 步逐步降低到 32 步，再到最后的 1 步，经过多个阶段。在提取具有对抗性损失的模式覆盖率之后，放宽了要求，将质量优先于覆盖率，同时保留整体流程。

这种平衡的方法就是 SDXL-Lightning 能够出色地弥合困扰其他方法的质量保真度权衡的原因。

SDXL-Lightning 中使用的模型是从 StabilityAI 的稳定扩散 XL 基础中提炼出来的。这确保了生成的图像保持高度的稳定性和连贯性。字节跳动提供了 1 步、2 步、4 步和 8 步蒸馏模型的检查点，每个检查点都有自己独特的生成质量。

性能评估

综合评估表明，SDXL-Lightning 为几步文本到图像生成设定了新的最先进技术。定性评估和 CLIP 评分指标均表明，与 LCM、SDXL-Turbo 和原始SDXL模型相比，SDXL-Lightning 可以生成质量更好的图像。

衡量质量和多样性的定量 Fréchet 起始距离 (FID) 分数与其他方法相当。然而，在 299 像素补丁上计算的 FID（评估高分辨率细节）要好得多，与次佳模型相比，得分低 2 倍以上。这验证了 SDXL-Lightning 在 1024 像素图像中生成了极其出色的细节。

SDXL-LIGHTNING 的配置选项

检查点可用于 1、2、4 和 8 个推理步骤，允许用户根据需要平衡速度与质量。1 步模型一次生成图像，但质量可能不一致，因此通常建议使用两步或更多步。

支持两种架构选项——UNet 和 LoRA。

1. UNET 检查点：2 步、4 步、8 步

UNet 模型使用标准的完整神经网络来调节扩散过程。它们提供最高的图像质量生成，但需要更多内存。BteDance 的 2 步、4 步和 8 步 UNet SDXL-Lightning 模型如下：

2. LORA 检查点：2 步、4 步、8 步

这些模型还表现出处理不同纵横比的可靠能力，并展示了与现有 LoRA 模块的兼容性，以便在基本模型之间轻松转移。LoRA模型采用轻量级回归方法。图像质量略低于UNet。

但 SDXL-Lightning 现已将 Loras 更新为 .safetensors 文件。这些更新的 .safetensors 文件提供了改进的稳定性和连贯性，从而产生更加真实和视觉上吸引人的图像。Loras 更新为 .safetensors 很有帮助，因为这些压缩文件可以节省存储空间。

SDXL-LIGHTNING 与 COMFYUI

该模型还可以与 ComfyUI 集成，以获得更人性化的体验。无论您选择 1 步、2 步、4 步、8 步 UNet 还是 2 步、4 步、8 步 UNet loras，ComfyUI 都提供了从文本生成图像的简化工作流程。以下是各个 ComfyUi 工作流程的下载链接：

SDXL-LIGHTNING图像生成实例

以下实例是本地搭建的服务器运行SDXL-LIGHTNING模型生成，使用的是 sdxl_lightning_4step.safetensors。

Prompt: An Asian firefighter with a rugged jawline rushes through the billowing smoke of an autumn blaze.

Prompt: A close-up of an Asian lady with sunglasses.

Prompt: The 90s, a beautiful woman with a radiant smile and long hair, dressed in summer attire.

Prompt: A majestic lion stands proudly on a rock, overlooking the vast African savannah.

Prompt: A monkey making latte art.

Prompt: In a fantastical scene, a creature with a human head and deer body emanates a green light.

Prompt: A delicate porcelain teacup sits on a saucer, its surface adorned with intricate blue patterns.

Prompt: A pickup truck going up a mountain switchback.

Prompt: A tanned woman, dressed in sportswear and sunglasses, climbing a peak with a group during the summer.

Prompt: A dolphin leaps through the waves, set against a backdrop of bright blues and teal hues.

Prompt: A boy jumping off a spaceship.

上手实操视频

本视频是在自己本地搭建的服务器上运行，GPU是NVIDIA RTX-4090。视频未作加速，可以看到，生成图片的速度还是非常快的。

结论

借助 SDXL-Lightning，字节跳动在文本到图像合成方面取得了重大进步。经过 LoRA 训练的模型进一步扩展了即插即用模块的可用性。然而，与其他生成模型一样，传播错误信息或不当内容也存在滥用风险。为了减轻这些担忧，负责任和道德的发展实践是必要的。但总的来说，像 SDXL-Lightning 这样的模型体现了人工智能在计算创造力方面的巨大潜力。其方法也为扩散模型蒸馏研究提供了新的方向。有关更多技术细节，请访问项目 arXiV 论文。

浏览量: 2,336