8月24日·星期四·CompVis·开源模型

stable-diffusion-v1-4

热度7,025
组织CompVis
来源Hugging Face
Stable Diffusion v1-4 是由 CompVis 团队开发的潜在扩散模型,专用于文本到图像的生成。该项目定位为一种基于扩散过程的图像生成工具,能够根据任意文本输入生成逼真的图像。其核心能力在于将文本描述转化为高质量视觉输出,支持多种风格和场景的创作。 技术亮点方面,该模型采用潜在扩散架构,使用固定的预训练文本编码器 CLIP ViT-L/14,这是基于 Imagen 论文的设计思路。模型在 512x512 分辨率下进行了 225,000 步的微调,训练数据来自 laion-aesthetics v2 5+ 数据集,并采用了 10% 的文本条件丢弃策略以改进无分类器引导采样。初始权重来自 Stable-Diffusion-v1-2 检查点。该模型专为与 Diffusers 库配合使用而设计,支持直接加载权重进行推理。 参数与规模方面,模型基于潜在扩散框架,具体参数数量未在文档中明确列出,但属于大规模文本到图像生成模型。适用场景包括艺术创作、概念设计、视觉内容生成等,用户可通过文本提示生成从科幻场景到卡通风格等多种类型的图像。模型采用 CreativeML OpenRAIL-M 许可证,允许商业使用和再分发,但要求遵守相同的使用限制,并禁止故意生成或分享非法或有害内容。用户对生成的输出拥有所有权,但需自行承担使用责任。
本档案由千智坊基于公开信息整理,访问项目原文: