Stable Diffusion

开源AI图像生成,本地部署首选

4.5 📘 含使用指南 🎯 进阶 🕒 更新于 2026-06-13
开源本地免费

Stable Diffusion(AI 图像生成)L3 工具深度指南

测试日期:2026-06-13(北京时间)验证方式:基于 Stability AI 官网、官方许可/产品页、公开文档与可访问页面验证;未进行付费 API 或本地显卡实测,因此本文不声称”亲测生成”。

一、概述

Stable Diffusion 是由 Stability AI 推动的开放权重 AI 图像生成模型家族,也是过去几年最重要的 AIGC 图像基础设施之一。与 Midjourney、DALL-E / OpenAI Images 这类以云端产品体验为核心的工具不同,Stable Diffusion 的核心价值在于”开放、可部署、可定制”:你既可以使用 Stability AI 的云端产品或第三方托管服务,也可以把模型下载到本地电脑、工作站或私有云中运行,并通过 LoRA、ControlNet、Inpainting、ComfyUI 工作流等方式深度改造。

截至 2026-06-13,Stability AI 官网展示的图像模型重点包括 Stable Diffusion 3.5 系列。官方介绍中提到,SD 3.5 Large 为 8.1B 参数,面向约 1MP 专业图像场景;SD 3.5 Large Turbo 主打更快推理;SD 3.5 Medium 为 2.5B 参数,强调消费级硬件可运行。官网 Stable Image 页面也强调 Stable Diffusion 3.5 具备多风格生成能力,包括 3D、摄影、绘画、线稿等,并突出提示词遵循能力。

对内容创作者、设计师、独立开发者和企业来说,Stable Diffusion 不是一个”只会输入一句话出图”的玩具,而是一套可扩展图像生产系统。你可以用它做电商商品图、社媒海报、游戏概念图、角色设定、室内设计草图、广告分镜、老照片修复、局部重绘,甚至搭建自动化批量生产流程。它的门槛也更高:Midjourney 往往更容易”一句话出大片”,DALL-E / OpenAI Images 更适合 ChatGPT 内的自然语言协作,而 Stable Diffusion 更像一台可拆可改的专业相机——自由度高,但需要学习参数、模型、插件和工作流。

二、注册 / 费用

Stable Diffusion 的费用要分成三层理解:模型许可、本地运行成本、云端服务成本。

  1. 模型与许可:Stability AI 的 License 页面显示,Community 许可面向研究者、开发者、小企业和年收入低于 100 万美元的创作者,包含 Stable Diffusion 3.5 Suite 等模型,并标注为 Free;Enterprise 面向企业、API 提供商和年收入超过 100 万美元的业务,采用 Custom Pricing。实际商用前建议阅读最新许可全文。
  2. 本地部署成本:如果你在本地运行模型,软件和模型通常可以免费获取,但你要承担硬件成本。入门可使用较小模型或优化版,显存越高体验越好;SDXL、SD 3.5、ControlNet 多模型叠加、大分辨率修复都会明显吃显存。没有独显或不想折腾环境的用户,可选 DiffusionBee、云端 Notebook、Replicate、fal.ai、Hugging Face Space 或国内外整合平台。
  3. Stability AI 云端 / 品牌产品费用:Stability AI Brand Studio Plans 页面在测试日可访问,显示 Core / Enterprise 等方案,Core 包含 5000 monthly credits,企业为 custom bundle。价格细节可能因账号、地区或企业销售而变化,引用时应以官方页面当日显示为准。

综合判断:个人学习和小规模商用,Stable Diffusion 的”开源免费 + 本地部署”成本优势很强;如果你追求即开即用,云端平台更省时间但会按订阅、积分或 API 调用收费。

三、基础使用

Stable Diffusion 的基础流程可以概括为:选择入口 → 选择模型 → 写提示词 → 设置参数 → 生成 → 迭代。

1. 选择入口:本地还是云端?

  • Automatic1111 WebUI:最适合新手入门本地部署。界面直观,支持 txt2img、img2img、Inpainting、ControlNet、LoRA、扩展插件,教程多、生态成熟。缺点是参数多,环境安装可能遇到 Python、CUDA、依赖版本问题。
  • ComfyUI:节点式工作流工具,更适合进阶用户、团队流程和自动化。它把模型加载、采样器、VAE、ControlNet、放大、修复等步骤拆成节点,可保存为 JSON 工作流,复现性和批量化更好。缺点是新手学习成本高。
  • DiffusionBee:偏向 Mac 用户的一键式本地图像生成工具,安装简单,适合体验 Stable Diffusion。
  • 云端服务:Stability AI、Replicate、fal.ai、Hugging Face、各类集成平台。优点是不折腾显卡,缺点是隐私、成本、可控性和模型版本受平台限制。

2. 提示词公式

推荐公式:主体 + 场景 / 动作 + 风格 + 光照 + 镜头 / 构图 + 画质 + 负面提示词

可复制模板:

正向提示词:
[主体],[动作或场景],[风格],[光照],[镜头/构图],[材质/细节],high detail, sharp focus, professional quality, 8k

负面提示词:
low quality, blurry, deformed, extra fingers, bad hands, bad anatomy, watermark, text, logo, cropped, jpeg artifacts, oversaturated

参数建议:分辨率 512×512、768×768 或 SDXL 常用 1024×1024;Steps 20–35;CFG Scale 5–8;固定 Seed 可复现构图。

四、进阶技巧

1. LoRA:低成本定制风格与角色

LoRA 可以把某个角色、服装、产品、画风或品牌视觉压缩成一个小权重文件,在生成时通过类似 <lora:name:0.7> 的方式调用。权重太低效果不明显,太高容易污染画面或过拟合。商业项目中,LoRA 的价值在于保持人物、IP、产品和品牌风格的一致性。使用第三方 LoRA 前必须确认授权来源,避免未经许可的人脸、画风或商标风险。

2. ControlNet:控制姿势、构图和线稿

ControlNet 让 Stable Diffusion 不再只是”凭感觉出图”。你可以输入 OpenPose 姿势、Canny 边缘、Depth 深度图、Lineart 线稿、Scribble 草图,让模型在指定结构上创作。它适合漫画分镜、产品摆放、室内设计、服装模特姿势控制、建筑透视控制等场景。

3. Inpainting:局部重绘

Inpainting 是商业设计里最常用的能力之一。你可以遮罩掉不满意的区域,让模型只改局部:换衣服颜色、修手、替换背景、去除杂物、补全海报空白、给商品加道具。技巧是遮罩边缘留一点缓冲,Denoising Strength 不要过高;如果只是微调,0.25–0.45 更稳;如果要大改,0.6–0.8 更自由但更容易偏离原图。

五、案例

案例 1:电商香薰蜡烛主图

正向提示词:
a premium scented candle in a matte cream ceramic jar, placed on a beige linen table, dried flowers and soft shadows, minimalist luxury lifestyle photography, warm morning sunlight, 85mm lens, shallow depth of field, natural texture, high detail, commercial product photo, clean composition

负面提示词:
low quality, blurry, distorted jar, wrong label, unreadable text, watermark, logo, cluttered background, oversaturated, harsh light, extra objects

建议:如果已有真实产品图,使用 img2img 或 ControlNet + Inpainting 保持瓶身形状;不要让模型虚构品牌 Logo,文字可后期用设计软件添加。

案例 2:赛博朋克角色概念图

正向提示词:
a young cyberpunk courier wearing a translucent raincoat, standing in a neon-lit alley of futuristic Shanghai, reflective wet pavement, holographic billboards, cinematic concept art, dramatic rim light, blue and magenta color palette, full body character design, detailed costume, high detail, sharp focus

负面提示词:
bad anatomy, bad hands, extra fingers, deformed face, duplicate body, low quality, blurry, text, watermark, cropped, flat lighting

案例 3:室内设计改造草图

正向提示词:
a cozy Scandinavian living room interior, light oak floor, warm white walls, modular beige sofa, round wooden coffee table, indoor plants, soft natural daylight from large window, clean minimal design, realistic architectural visualization, wide angle, high detail, photorealistic

负面提示词:
low quality, blurry, warped furniture, unrealistic perspective, messy room, overdecorated, dark lighting, watermark, text, fisheye distortion

六、竞品对比

测试日期:2026-06-13(北京时间)。数据来源包括 Stability AI 官方页面、官方许可页面、公开搜索结果与可访问资料;Midjourney 和 OpenAI 官方部分页面在当前环境出现 403,价格采用公开搜索结果交叉参考,实际以官方账号页面为准。

维度Stable DiffusionMidjourneyDALL-E / OpenAI Images
核心优势开放权重、本地部署、可训练 LoRA、ControlNet 生态强艺术审美强,上手快,默认出片率高与 ChatGPT / API 生态结合好,自然语言理解强
成本结构Community 许可满足条件可免费;本地仅硬件/电费;云端按平台收费常见订阅约 10/30/60/120 美元/月档位API 或订阅计费,具体以官方为准
可控性最高,可改模型、节点、插件、参数、私有流程中等,参数简洁但底层不可控中等,擅长对话式修改,但模型不可本地化
本地部署支持不支持主流本地部署不支持本地部署
学习门槛中高

客观评价:Stable Diffusion 最大优点是自由、便宜、可控,尤其适合大批量、私有化和定制化;最大缺点是需要学习,环境和模型管理麻烦,默认美学未必总能超过 Midjourney。

七、FAQ

**Q1:Stable Diffusion 是免费的吗?**A:模型和本地工具在符合许可条件时可以免费使用,但硬件、电费、云 GPU、托管 API、企业授权可能产生费用。

**Q2:新手应该选 Automatic1111 还是 ComfyUI?**A:新手先选 Automatic1111,理解 txt2img、img2img、Inpainting、LoRA、ControlNet 后再学 ComfyUI。

**Q3:没有显卡能不能用?**A:可以使用云端平台,或用 Mac 上的 DiffusionBee 体验本地生成。但如果要高分辨率、ControlNet、多 LoRA 和批量生成,独立 GPU 或云 GPU 更现实。

**Q4:负面提示词必须写吗?**A:不是必须,但非常建议写。它能减少低清晰度、畸形手、文字水印、错误 Logo、过曝等常见问题。

**Q5:LoRA 和 ControlNet 有什么区别?**A:LoRA 控制”像谁、什么风格、什么对象”;ControlNet 控制”怎么摆、什么构图、什么姿势、什么线条结构”。

参考来源 URL

开始使用 Stable Diffusion

点击下方按钮访问官方网站,开启你的 AI 之旅。