Stable Diffusion UI 界面参数介绍 -文生图模块

Stable Diffusion UI 界面参数介绍 -文生图模块

一、基础模型和VAE配置

Stable Diffusion 大模型(checkpoint):

释义:一种深度学习文本到图像生成模型,也就是俗称底模(经常听到SD1.0,SD1.5, SD2.0.这是官方发布的版本),基于底模微调训练出来的就是大模型(checkpoint),微调过程中通常使用了大量高质量的图片,所以通常可以生成更高质量的图片,也就是Stable diffusion使用的主模型。

默认文件位置:Stable-diffusion-web-ui/models/Stable-Diffusion/ ,一般为ckptsafetensors格式 。

优秀大模型推荐(civitai.com):

VAE(Variational Auto-Encoder)

释义:将潜空间的数据转换为正常图像 ,可以简单理解为滤镜, 用于图片亮度和饱和度的修正、画面较正和以及补光等。一般在绘图时如果出现图片亮度过低、发灰等问题时就需要用到。

默认文件位置:Stable-diffusion-web-ui/models/VAE/ ,VAE 模型的后缀为 .pt 或 .safetensors,体积一般为 335M 或 823M。

功能模块介绍

  • **txt2img:**通过文本的描述来生成图片。

  • img2img:通过以已有图片为基础生成相似的图片。

  • **Extras:**额外的一些功能,比如图片放大和去模糊这些功能。

  • **PNG info:**获取图片信息,若图片是由AI生成的图片,当上传一张图片后,这里会提示图片的相关prompt关键字与模型参数设置。

  • **checkpoint merger:**模型合并,可以合并多个模型,配置多个模型的权重来生成图片。

  • **Train:**通过自己的数据集(图片和相关数据)训练模型。

  • Settings: UI界面设置。

  • **Extensions:**插件扩展。

  • 提示词模块

    正向提示词(prompt)

    释义:对图片信息的正向描述,也就是我们想要图片展现的样子,通常可以从人物或主体特征、场景、环境、画风等角度描述图片

    通用正向提示词:

    中文释义英文释义中文释义英文释义中文释义英文释义高质量best quality高细节highly detailed杰作masterpiece超细节ultra-detailed插图illustration

    示例:

    best quality,masterpiece,highres,cg,
    1girl,weapon,sword,long hair,dress,water,solo,jewelry,white dress,earrings,hair ornament,splashing,upper body,hair bun,black hair,lighting,candid,Photograph,high resolution,4k,8k,Bokeh,

    负面提示词(negative_prompt)

    释义:不希望生图图片中可能包含的不协调内容,比如低分辨率,畸形等等。

    常用提示词:

    中文释义英文释义中文释义英文释义中文释义英文释义低分辨率low resolution解剖结构不良poor anatomy文本text不好的手poor hands错误error缺少手指missing fingers额外的手指extra finger少量手指fewer fingers裁剪的cropped最差质量worst quality低质量low quality普通质量normal quality伪影,伪像artifacts署名,签名signature水印watermark用户名username模糊的blurry缺少手臂missing arms长脖子long neck驼背的humpbacked不好的脚poor feet不适宜工作场所NSFW

    示例:(((simple background))),monochrome,lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,lowres,bad anatomy,bad hands,text,error,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,ugly,pregnant,vore,duplicate,morbid,mut ilated,tran nsexual,hermaphrodite,long neck,mutated hands,poorly drawn hands,poorly drawn face,mutation,deformed,blurry,bad anatomy,bad proportions,malformed limbs,extra limbs,cloned face,disfigured,gross proportions,(((missing arms))),(((missing legs))),(((extra arms))),(((extra legs))),pubic hair,plump,bad legs,error legs,username,blurry,bad feet,

    后面会针对提示词做一期专栏介绍。

    辅助模块:

    LoRA模型

    释义:LoRA(Low-Rank Adaptation of Large Language Models),可以理解为大模型的补丁,用于修改风格/对象。性价比很高(效果好而且训练较为快速和简单),所以很常用。

    默认文件路径:stable-diffusion-webui\models\Lora,LoRA模型通常是10~200 MB,常见格式为ckpt(safetensors)。

    LoRA的原理是冻结预训练好的模型权重参数,然后在每个Transformer块(利用注意力机制来提高模型训练速度)里注入可训练的层,由于不需要对模型的权重参数重新计算梯度,所以可以减少参数量和计算量,提高训练效率和生成质量。

    Embedding模型(Textual inversion)

    释义:文本编码器模型,用于改变文字向量。 embedding模型用于定义新关键字来生成新的对象或风格的小文件(多用于风格引导),可以将其理解为一组 Prompt。

    默认文件路径: stable-diffusion-webui\embeddings ,后缀为 .pt 或者 .safetensors,体积非常小,一般只有几 kb。

    个人理解作用机制是通过文字向量的方式特定提示词可以指向特定的角色或者风格,从而使得可以生成我们想要的人物形象或者风格。

    hypernetworks模型

    释义:hypernetworks是 Stable Diffusion 的微调模型之一,可以根据自己的图片训练一个小部分的神经网络,生成一个新的权重,然后用这个权重来改变生成图片的风格。较少使用(未验证)

    默认文件路径:stable-diffusion-webui\models\hypernetworks,通常为 5~300 MB,常见格式为pt。。

    基础参数配置

    特性描述采样方法(sample method)生成图片过程中降噪算法,不同算法对于不同类型的图片最终成效的效果有所差异,带++的算法是优化过的,默认推荐R-ESRGAN 4x+,偏向二次元的算法推荐R-ESRGAN 4x+ Anime6B,效果不错。采样迭代步数(sampling steps)加噪和去噪的过程,也就是生成图片不断调整的次数,理论上步骤越多,每一步移动也就越小越精确,同时也成比例增加生成图像所需要的时间,但基本上超过50的迭代次数没有明显的效果,结合生成效果和时间等,可以参考模型创作者推荐的迭代步数。面部修复(restore faces)对生成图片的人物面部(主要是真人)进行修复,让人脸更像真人的人脸,提供更多面部细节。平铺/分块(Tiling)将过大的图片分块生成,降低显存要求高清修复(Hirres fix)把低分辨率的照片调整到高分辨率。在较低的分辨率下部分渲染你的图片,再通过算法提高图片到高分辨率,然后在高分辨率下再添加细节。宽高(width/ height)图片的宽高尺寸。提示词相关性(CFG scale)图像和提示词的匹配程度,相关性越高,AI在提示词基础上自由发挥的程度越低。 增加这个值将导致图像更接近你的提示,但过高可能会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。生成批次(batch count)总共生成多少批次的图片单批生成数量(batch size)单一批次的生成图片数量,注意数量限制,避免显存爆炸。随机种子(seed)SD通过特定算法计算出的固定值,seed一样的情况下,可以生成比较相似的图片重绘幅度(denoising strength)可以理解为AI在提示词基础上自由发挥的程度,重绘幅度越大,图片与原始图片越不相似,越小与原始图片越相似。放大倍数(Upscale by)在原有宽度和长度上的放大倍数,拉高需要更高的显存。

    图片展示及再操作栏

    上面就是文生图的一些基本介绍啦,如有疑问,可以在评论区交流哦!

    ©著作权归作者所有,转载或内容合作请联系作者
    • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
      沈念sama阅读 201,552评论 5 474
    • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
      沈念sama阅读 84,666评论 2 377
    • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
      开封第一讲书人阅读 148,519评论 0 334
    • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
      开封第一讲书人阅读 54,180评论 1 272
    • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
      茶点故事阅读 63,205评论 5 363
    • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
      开封第一讲书人阅读 48,344评论 1 281
    • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
      沈念sama阅读 37,781评论 3 393
    • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
      开封第一讲书人阅读 36,449评论 0 256
    • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
      沈念sama阅读 40,635评论 1 295
    • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
      茶点故事阅读 35,467评论 2 317
    • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
      茶点故事阅读 37,515评论 1 329
    • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
      沈念sama阅读 33,217评论 3 318
    • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
      茶点故事阅读 38,775评论 3 303
    • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
      开封第一讲书人阅读 29,851评论 0 19
    • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
      开封第一讲书人阅读 31,084评论 1 258
    • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
      沈念sama阅读 42,637评论 2 348
    • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
      茶点故事阅读 42,204评论 2 341

    推荐阅读更多精彩内容