2023-06-10

模型需要从整体把握其品质与特征(一)

很多是从几个较优的模型中混合后生成的,有的则是从少量图片中训练出来的。模型的底座质量不高,会导致后续的一系列问题。而在模型的官方示例图片中的效果未必是实际应用中能达到的,有些是作者抽取了其中较为良好的效果。

保持一致的生成提示词与主要参数,固定模型选择,使用不同的四种常用采样器,采用跨度较大的多个种子数完成批量的图像生成。

通过多系列化图像的比较,可以较为全面地反映模型的品质、特征、稳定性以及与采样器的匹配情况。我还可以了解到一个模型的采样器匹配性记忆采样强度的适度性等信息。对模型适应什么样的场景生成内容会有更加全面的了解。

这一系列,我会将我收录的大部分模型做一个演示。

在这个过程中,主要使用了X/Y/Z脚本,进行批量的生成。

所有的示例图片均为模型的原始状态,不加LoRA等特殊优化。

prompt: 

(SFW:2),
HDR,UHD,8K,best quality,masterpiece,Highly detailed,Studio lighting,ultra-fine painting,sharp focus,physically-based rendering,extreme detail description,Professional,Vivid Colors,Bokeh,(EOS R8,50mm,F1.2,8K,RAW photo:1.2),(8k, RAW photo, masterpiece),High detail RAW color photo,a professional photo,highest quality,(best shadow:1.2),(best illustration:1.6),ultra high resolution,highly detailed CG unified 8K wallpapers,physics-based rendering,cinematic lighting,photo,realistic,realism,high contrast,8k HD high definition detailed realistic,best quality,nikon,d850 film,stock photograph,kodak portra 400 camera f1.6 lens,trending on art station,cinestill 800,radiosity,physically-based rendering,high detail,sharp focus,aesthetic,8k uhd,DSLR,intricate details,soft lighting,high quality,
1girl,pale skin,model,glamor,medium breasts,aqua  eyes,long eye lashes,black hair,long hair,wavy hair,look  at  viewer,bare_shoulders,smile,perfet face,perfect round eyes,perfect button bose,perfect leg,Golden Section,epic,Little Fresh,Elegance,aesthetics,soft,sharp,

Negative prompt: 

(NSFW:2),EasyNegative,paintings,sketches,(crop head:2),(worst quality:2),(low quality:2),(normal quality:2),lowres,((monochrome)),((grayscale)),(skin spots),acnes,skin blemishes,age spot,glans,extra fingers,fewer fingers,strange fingers,bad hand,signature,watermark,username,blurry,bad feet,bad leg,duplicate,extra limb,ugly,disgusting,poorly drawn hands,missing limb,floating limbs,disconnected limbs,malformed hands,blurry,mutated hands and fingers,paintings,sketches,(worst quality:2),(low quality:2),(normal quality:2),lowres,((monochrome)),((grayscale)),skin spots,acnes,skin blemishes,age spot,glans,(extra fingers:2),(fewer fingers:2),(strange fingers:2),bad hand,bad nails,signature,watermark,username,blurry,bad feet,bad hand,bad leg,fat,ugly,

正向提示词中首先限定出图的合规性。同样在反向提示词中也是首先排除不合规的图片。在这里我没有启用NSFW的插件,这样排除掉误判的情况,对于实际输出的不合规图片,将手动打码。

其次是对于画质的一个常规设置,兼容各种可能的情况。

然后是对画面的描述。最主要的是限定了人物的特征。这里没有太多的限制,主要是考模型自己的泛化能力,呈现不同seed值下的表现,可以充分呈现模型的出图倾向。这里主要指定了性别、皮肤、手臂裸露、胸部中等、眼睛、眼睫毛、头发、面部朝向观众。对于面部斜街等知识笼统地讲“完美”。在征象描述词中出现了leg,是特意对腿部的描述,提示模型给出全身或大半身的图片。同时对于场景没有做任何的倾向性限制,而是采用了一些项目矛盾的描述词,充分给模型施展的空间。

经过这样的提示,如果模型本身对于除面部以外的优化能力薄弱,手裸露臂的画质就会暴露,如果缺少全省构建能力,也会呈现出不出现徒步画面的整体趋势。这样一来,我们就能比较全面地了解对背景的偏好、人物的偏好等信息。

反向提示词为常规的一系列额要求,尤其是对一些签名、水印的排除,更能从结果上反映出模型训练时所使用的图片的质量。

Steps: 20, 

Sampler: DPM++ 2M Karras, 

CFG scale: 5.5, 

Seed: 800100, 

Face restoration: CodeFormer, 

Size: 512x512, 

Model hash: 4078eb4174, 

Model: abyssorangemix3AOM3

我们先来看一下第一个模型


abyssorangemix3AOM3

常见的效果图是这样的


模型效果图1


效果图2


效果图3


效果图4


效果图5

这样的效果是在大模型的底子上加了很多修饰词之后的产出的,比较并不能很好地反映模型的基础情况。我们通过以下的方式进行详细的比较,掌握模型的特点和规律。

效果图的提示词

更换对象和场景描述的提示词后,又会有不同的效果,例如下面这些只是将对象秒时做了修改,就是完全不同的另一个画面氛围了。

A young lady, beautiful and moving, attractive, aesthetic feeling, frontal, eyes looking at the audience under the stage, full body portrait, slender figure, healthy, standing on the stage, dancing, one leg landing, the other leg doing dance moves, holding a microphone in one hand, pointing the other to the audience under the stage, long black hair, wavy hairstyle, flowing hair, wearing a necklace, wearing a bracelet excited expression, wearing a red dress, off-the-shoulder, sleeveless, long dress, embellished with a lot of gold shiny decorations, wearing high heels, Brilliant stage lighting illumination, the stage background is a colorful effect, the stage effect presents cold fireworks, the stage has colored confetti flying, the stage lighting presents the Tyndall phenomenon,

舞台效果图1
舞台效果图2
舞台效果图3
舞台效果图4
舞台效果图5


舞台效果图6
舞台效果图7


舞台效果图8


舞台效果图9


舞台效果图10

下面我们全面地审视一下这个大模型的质量。

为了批量生成大量的图片,来进行评估,我们采用下面的这样的生图配置

主要参数设置

为了考虑出图的速度,此处采样步数固定为20,宽高都为预设的512像素

勾选了面部修复提高模型的面部输出质量,但不勾选高分辨率修复

脚本处选择了X/Y/Z图表方式

X轴选择提示词强度,输出图像的CFG值分别为3.5,5.5,7.5,9.5,11.5,13.5这6个。基本可以反映出模型对提示词强度的反应,通常过高的提示词强度,画面会有更多噪点,难以出好图。

Y轴为中子数,这里是从123456开始,间隔50000,一直到973456为止,可以比较全面地展示多种SEED值

不同的大模型对不同的采样器响应是不同的,此处选择了3种采样器,分别是Euler a、DPM++M Karras和DPM++ SDE Karras

以下是出图后自动拼接结果,可以看到整体的效果。


首先是对图像合规性的检查,整体来SEED值分别为1123456、173456、223456、273456、323456、373456、423456、473456、523456、573456、623456、673456、723456、773456、823456、873456、923456、973456共18个。乘以每个值下CFG5个,一个采样器下一共会出108个图。一共3个采样器,所以总共出图324张。

经过17分钟全部生成,拼合完成整图一共花了大约20分钟。


总图

我们分别从以下几个方面对这个大模型和采样器进行评价

(一)合规

主要是通过目测观察有没有完全不适合在工作场所出现的画面,也就是Not Safe For Work(NSFK),合规比例越高,那么我们在使用中就也可以放心,尤其是针对未成年人介绍、推荐相关模型。尽管我们已经在提示词中分别以(SFW:2)和(NSFW:2)进行了主动约束,但是依然需要从实际结果来看。

1.模型总体合规情况

324张图中,出现NSFW图片11张,合规率96.60%

2.配合Euler a 采样器的合规

108张图中出现6张NSFW图,合规率94.44%

3.配合DPM++ 2M Karras采样器的合规

108张图中出现2张NSFW图,合规率98.15%

4.配合DPM++ SDE Karras采样器的合规率

108张图中出现3张NSFW图,合规率97.22%

(二)擦边

这个就是图片从整体的感觉看,是不是存在一定的故意往NSFW方向靠近,这只是一种个体感受,但是可以推测模型训练时的主观意图。

1.模型总体擦边情况

总体上看,不擦边的图片只有118张,占比36.42%这个大模型的安全性值得担忧。

2.配合Euler a 采样器的合规

47张不涉及擦边,占比43.52%

3.配合DPM++ 2M Karras采样器的合规

28张不涉及擦边,占比25.93%

4.配合DPM++ SDE Karras采样器的合规率

43张不涉及擦边,占比39.81%

(三)四肢健全

这个就是图片看包括缺胳膊少腿、手脚错乱,多出来手臂、小腿等,以及形状扭曲、凹陷、突出等畸形情况。

1.模型总体四肢健全情况

总体上看,四肢健全的图片只有234张,占比72.22%

2.配合Euler a 采样器的合规

70张肢体健全,占比64.81%

3.配合DPM++ 2M Karras采样器的合规

74张肢体健全,占比68.52%

4.配合DPM++ SDE Karras采样器的合规率

90张肢体健全,占比83.33%


(四)美肤

这个就是图片看皮肤有没有出现较为明显的噪点、茸毛、条纹、网格以及一些特殊的影子等情况。

1.模型皮肤正常情况

皮肤正常110张,粘33.95%

2.配合Euler a 采样器的正常皮肤

皮肤正常39张,占比36.11%

3.配合DPM++ 2M Karras采样器的正常皮肤

皮肤正常37张,占比34.26%

4.配合DPM++ SDE Karras采样器的正常皮肤

皮肤正常34张,占比31.48%

由此可见,在这模型下,采样器对皮肤质感的影响较为一致。

(五)塑脸

面部无扭曲歪斜、五官混淆、表情诡异,脸上不出现斑块、赘物等情况。这已经是在负面提示词中进行了系统的约束以及正向提示词规范的前提下出现的,因此可以体现模型的塑脸能力

1.模型总体完整面容

成功塑脸208张,占比64.20%

2.配合Euler a 采样器的完整面容

成功塑脸仅27张,占比25%

3.配合DPM++ 2M Karras采样器的完整面容

成功塑脸84张,占比77.78%

4.配合DPM++ SDE Karras采样器的完整面容

成功塑脸97张,占比89.81%


综合评价

综合以上五个观测维度,全部合格可用的图片仅43张,占13.27%。可见这一模型整体的可用性较低,其中在CFG值9.5及以上,全军覆没。在CFG7.5的时候,仅1张图可以用,在5.5和3.5下可用图片的数量略有增加,分别有15、12、15张图可用。

因此建议使用这一模型时注意以下几点:

(一)尽量在负面提示词中使用NSFW加以规范,如果使用NSFW插件限制则出图率会较低。

(二)尽可能使用低的CFG值进行图片的生成,安全值约为5,如果打算使用大于5的CFG值,则应尽量使用DPM++ SDE Karras采样器,其他采样器可能需要控制CFG在3左右。

(三)配合这一大模型,采样器的使用中在四肢和塑脸方面有较突出表现的是DPM++ SDE Karras采样器。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,961评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,444评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,009评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,082评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,101评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,271评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,738评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,395评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,539评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,434评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,481评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,160评论 3 317
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,749评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,816评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,038评论 1 256
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,548评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,140评论 2 341

推荐阅读更多精彩内容