8月24日·星期四·CompVis·开源模型

stable-diffusion-v1-4

热度★ 7,025

组织CompVis

来源Hugging Face

Stable Diffusion v1-4 是由 CompVis 团队开发的潜在扩散模型，专用于文本到图像的生成。该项目定位为一种基于扩散过程的图像生成工具，能够根据任意文本输入生成逼真的图像。其核心能力在于将文本描述转化为高质量视觉输出，支持多种风格和场景的创作。技术亮点方面，该模型采用潜在扩散架构，使用固定的预训练文本编码器 CLIP ViT-L/14，这是基于 Imagen 论文的设计思路。模型在 512x512 分辨率下进行了 225,000 步的微调，训练数据来自 laion-aesthetics v2 5+ 数据集，并采用了 10% 的文本条件丢弃策略以改进无分类器引导采样。初始权重来自 Stable-Diffusion-v1-2 检查点。该模型专为与 Diffusers 库配合使用而设计，支持直接加载权重进行推理。参数与规模方面，模型基于潜在扩散框架，具体参数数量未在文档中明确列出，但属于大规模文本到图像生成模型。适用场景包括艺术创作、概念设计、视觉内容生成等，用户可通过文本提示生成从科幻场景到卡通风格等多种类型的图像。模型采用 CreativeML OpenRAIL-M 许可证，允许商业使用和再分发，但要求遵守相同的使用限制，并禁止故意生成或分享非法或有害内容。用户对生成的输出拥有所有权，但需自行承担使用责任。

本档案由千智坊基于公开信息整理，访问项目原文：

访问Hugging Face →