什么是Stable Diffusion
自从去年10月份Stable Diffusion开源以来,仅过了半年的时间,如今它已经能够创作出精美细致的二次元插画,媲美真人的赛博Coser,以及具有独特风格的AI动画。
无论你只是感兴趣,还是想了解AI绘画的潜力,又或者希望通过它为自媒体创建内容,甚至构建一些工具站点,本篇教程都将帮助你实现这些目标或者给你带来一些思路。
这一技术的突破引起了许多人对AI绘画领域的关注。目前,AI绘画仍然是一个相对新的技能分支,在网上的教学内容相对有限,主要以视频教程为主。然而,视频教程并不容易回顾和参考。
我打算写一系列公开的文字教程,以最低的学习成本帮助你掌握这项技术。即使你没有任何美术或编程基础,只要你能够使用键盘进行输入,你就能够轻松地参考我的教程,并创作出属于自己的AI绘画作品。
在这个系列中,我将详细介绍AI绘画的基本原理、应用平台的配置需求、安装方法、软件界面和基本操作步骤。我计划撰写大约15篇左右的文章。请关注我,你将能够在相关合集中找到后续的教程。它们将带领你进一步深入探索文生图、图像生成的奥秘,并通过综合利用各种提示词风格模型和辅助工具来实现高质量的绘画作品。
原理解析
实际上,AI绘画与人类的画图方式截然不同。它并不像人类那样按照一定的步骤完成绘画作品,比如先草拟草图,勾勒轮廓,再上色,最后进行细节加工。相反,AI绘画采用了一条人类从未设想过的路径,即扩散(diffusion)。通过深度学习的方式,它将许多不同的图像转换为抽象内容,并逐渐开始理解这个扩散的过程。每学习一张图像,它会通过一些方法提取图像中的信息特征,并与原图建立联系。
在实际的绘制过程中,这一过程变得更加复杂。例如,图像需要经过潜在空间的压缩,通过对比式的语言、文字和训练来实现内容匹配,然后借助对抗神经网络来提高学习的准确性。随着深入探索,你将逐渐接触到这些概念。如果你对这些术语不仅不感到乏味,反而感到兴奋和神秘,我们可以在单独的一篇文章中对其展开解释。然而,在此刻,你只需记住抽象和扩散这两个概念,就可以开始接下来的学习了。
SD简介
市场上的大部分主流AI绘画产品基本上都使用类似的原理来生成图像。
实际上,市场上有很多可用于AI绘画的应用程序,例如DALL-E,MidJourney,NovelAI等。但其中大部分都需要依赖云服务器来运行,效率不高,而且一些应用还需要支付会员费用以购买更多的使用额度。然而,在2022年8月,出现了一款名为"Stable Diffusion"的应用程序,通过算法迭代,将AI绘画的精细度提升到了一个新的水平,并且可以在几秒钟内完成图像生成,而且可以在任何一台配备民用级显卡的电脑上运行。在这里,我们将使用这款应用程序进行创作。借助它的帮助,你可以轻松地绘制出各种风格的作品,比如动漫风格的插画、立绘国风水墨和逼真的照片级图像。通过"LoRa" "ControlNet"等功能,SD还能够实现对美术风格、角色细节、姿势和动作构图的精确控制。
除了以上介绍的特点之外,还有一个非常重要的因素,即该应用是完全开源的。这意味着你可以在自己的电脑上部署整个程序,并且可以完全免费地使用它进行绘画,而且没有数量限制。市场上大多数商业级的AI绘画应用都是基于Stable Diffusion进行开发的。因此,如果你能掌握其根本逻辑,就能够轻松地使用任何一个门槛比它更低的工具。
安装及程序运行
要下载Stable Diffusion这个软件,与大多数生产力工具不同的是,Stable Diffusion实际上并不是一个完整的软件。它最初是以开源方式发布的,只是一段源代码,对非专业人士来说可能难以理解。
为了获得更好的使用体验,你可以使用B站 秋葉aaaki 提供的启动器。这里是他的视频,https://www.bilibili.com/video/BV1iM4y1y7oA ,视频简介里就有大佬的整合包。特别感谢大佬为此付出的辛勤努力。
下载后,通常需要解压缩文件夹,然后将其放在你可以找到的位置,这样就算是完成了安装。以秋叶安装包为例,你可以点击启动器,等待文件加载和更新完成,然后按照指引点击一键启动。
这会打开一个命令行窗口,系统会在其中加载所需的各种文件。加载完成后,浏览器会自动打开Web UI界面。如果没有自动打开,请注意命令行窗口中“by running on local url”后面的地址,并在浏览器中手动打开该地址。
每次启动程序时,都需要重复上述过程。请注意,浏览器中的Web UI界面只是一个操作界面,而命令行窗口中的内容才是程序的核心,也是进行绘画的整个过程。完成绘画后,请确保关闭命令行窗口的运行。
基本界面
当你在浏览器中打开Web UI后,你就可以开始绘图了。让我们先了解一下Web UI界面。顶部的一整行标签对应了Web UI的不同功能。
文生图 图生图
我们在绘图中最常用的是前两个标签,即"文生图"和"图生图",它们代表了两种基本的绘图方式。我会在接下来分别详细介绍它们,
附加功能
而"附加功能"标签主要用于对图像进行AI放大处理,可以生成更清晰的大图。我们将在后续的教程讨论。
设置
点击后面的"设置",你可以在此设置与绘图过程相关的选项,例如图像保存路径和采样参数等。在刚开始的阶段,保持默认设置一般不会出现问题。
扩展
旁边的"扩展"菜单主要用于安装和管理额外的插件。在后续的教程中,我们也会尝试安装插件,并在你的Web UI界面中添加额外的标签,例如用于加载LoRa模型的"Additional Network"。我将在后面与你分享它的用途。
作图流程
现在,让我们动手做一张图吧,完成后你就会对它有一个大致的了解。请查看你的界面,
模型相关的基本概念
左上角有一个选项可以选择"Stable Diffusion"模型。我们刚刚安装的Web UI实际上只是一个执行程序,但AI是从那里学习各种不同的绘画风格的呢?它借助于许多使用图片素材训练出来的模型,通过阅读大量图片积累经验。不同的模型可以为你的作品带来完全不同的画面内容和画风。我们将后续的教程进一步科普模型的概念。
为了方便你后续的学习和探索,我为你准备了一个基础模型:"cutegirlmix4",和一个Lora:“mix4”这,个模型是用抖音网红训练的,生成的图片不是任何特定的真人。私信我,获得这两个模型的下载链接。在后面的教程中,我将系统地介绍一些获取模型的方法。当你的技巧足够成熟后,你还可以尝试自己训练一些符合你需求的模型。
在下载完模型后,请打开Web UI的根目录下的"models"文件夹。把chilloutmix_
开头的文件放到Stable-diffusion
文件夹下。mix4
放到Lora
文件夹下(没这个文件夹可以新建一个)。
让我们加载一下这个chilloutmix_
模型,点击选择chilloutmix_
选项,等待加载过程中命令行窗口中会显示相应的操作进程。加载完成后会有提示,并且选框中的模型名称也会切换到chilloutmix_
。
文生图
加载完成后,先打开"文生图"选项。所谓的"文生图"是指你输入一段文字描述,AI会根据你的描述生成一幅图像。这些输入的描述文字就是"prompt"提示词。你可以用自然语言尝试描述一幅画面,例如描述一个可爱的女孩,晚上,在城市中,下雨。但请注意,提示词不支持中文。这时,你可以打开任何一个翻译软件,将你刚刚描述的话语翻译成英文,然后复制粘贴到提示词框中。也可以直接复制我的提示词
<pre class="md-fences md-end-block ty-contain-cm modeLoaded" spellcheck="false" lang="" cid="n46" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-thickness: initial; text-decoration-style: initial; text-decoration-color: initial;"><lora:mix4:0.5>,mix4,(8k, RAW photo, best quality, masterpiece:1.2), (realistic, photo-realistic:1.37),1girl,cute,cityscape, night, rain, wet, professional lighting, photon mapping, radiosity, physically-based rendering,</pre>
模型
但仅有提示词是不够的。为了让AI能更准确地理解我们的意图,并发挥其能力,我们需要在提示词后面加上一串更长的"魔咒"。上面的提示词中mix4,(8k, RAW photo, best quality, masterpiece:1.2), (realistic, photo-realistic:1.37)
就属于"魔咒“。
提示词框分为正向提示词和反向提示词两部分,分别用于控制你希望在画面中出现的内容和希望排除的内容。对于下面的反向提示词,我也提供了一段"魔咒"供你使用,将其复制到相应位置可以避免一些画面上的问题。如果你想更详细地了解这些所谓的"咒语"的含义,以及其中各种花里胡哨的括号和数字的作用,后面我会详细介绍。下面是我用的负面提示词,你也可以直接复制。
<pre class="md-fences md-end-block ty-contain-cm modeLoaded" spellcheck="false" lang="" cid="n50" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-thickness: initial; text-decoration-style: initial; text-decoration-color: initial;">paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans</pre>
尺寸规格
但仅有提示词还不够,你还需要通过下方一系列参数来定义图像的尺寸规格和生成方式。这也是接下来的教程我们将讨论的内容。你可以参考我的设定来进行设置。
生成
设置完成后,点击右上角的"生成"按钮,然后静待程序加载片刻后,你就会得到一幅描绘女孩在夜色下的图片。这就是你使用AI绘制的作品了。
修改提示词
对于效果你满意吗?哦,你想让女孩换一个动作,你只需要在提示词里加上looking back,
,女孩就可以转身看你了
这个小例子只是最最最最简单的使用,但是英文本篇教程也比较长了,我将会把跟多的操作放在后续的教程中。
希望这个小例子可以帮助你充分体会AI绘画的奇妙之处和乐趣所在。在不断的探索和实践中,你可能会像我一样越来越感受到人工智能的智慧,因为它确实可以听懂你的话语并做出相应的修改。在后面的教程中,我将带你探索通过提示词和更多高级手段,你甚至可以精确控制人物的发色、服饰、画面构图和风景等。
保存
完成AI绘画后,你无需特别保存图片,因为所有生成的图片都会保存在你的本地文件夹中。
在Web UI的标签栏中,有一个图库浏览器,你可以按类别查看通过不同方式生成的图像。如果你想导出图片,就像在浏览器中保存一张图片一样,只需右键点击并选择"另存为"即可。此外,你也可以在Web UI的根目录中找到一个名为"output"的文件夹,所有的图片都存储在其中。"txt2img-images"是文生图,"img2img-images"是图生图,复制出来也是一样的。图库浏览器还有许多高级功能,例如完整记录了图像生成的各种信息,你还可以快速打开已完成的图像,并对其进行局部重绘等。我们将在后面更详细地讨论这些特性。
配置要求
尽管Stable Fusion非常易于使用,但它仍然有一些配置要求。首先,它只能在Windows或Mac操作系统的电脑上运行。不论是在Windows还是Mac电脑上,它的Web用户界面的操作基本上是相似的。
其次,它需要一张性能强大的独立显卡来提供绘制所需的计算能力。尽管理论上来说,任何一个品牌的显卡都可以提供所需的计算能力,但根据大多数用户的交流经验,英伟达(NVIDIA)的显卡在性能和稳定性方面表现出色。简单来判断的话,如果你拥有一台可以流畅玩游戏的电脑,那么它应该能够满足AI绘画程序的运行需求。
总结
AI绘画本质在于成为人的画笔助手,即由人提出创意方案,而AI负责完成具体的绘画过程。Stable Diffusion 能让不具备绘画经验的人迅速达到初级甚至中级设计师的水准,同时具备快速绘图的能力(这是传统设计师所不具备的优势)。在如今的互联网时代,内容自然会吸引流量,而流量往往意味着金钱。我计划系统性地研究学习Stable Diffusion,并持续更新Stable Diffusion的教程、盈利思路以及商业模式。关注我,第一时间获取第一手信息。