麦克雷
标题:
SD工作原理浅显易懂,不涉及数学,小白闭眼可入。
[打印本页]
作者:
admin
时间:
2024-10-24 12:36
标题:
SD工作原理浅显易懂,不涉及数学,小白闭眼可入。
SD工作原理浅显易懂,不涉及数学,小白闭眼可入。
作者:
CharlesKa
时间:
2024-10-24 12:37
Stable Diffusion(稳定扩散)并非单一模型,而是由多个组件构成的系统。以生成文本到图像为例,我们来解析Stable Diffusion的工作流程。
用户输入指令,如“Cat, standing on the castle”,系统生成与指令相符的图像。实际上,生成过程包含三大步骤:首先概括介绍,然后逐步深入。
三大步骤分别是:输入指令到潜空间生成图片、在潜空间内多次降噪、最后输出图像。整个过程类似“雕刻”,去除不需要的部分,最终形成图像。
降噪过程在潜空间内进行,通常需要多次迭代。越多步骤,图片质量越好,但所需时间更长。Stable Diffusion XL Turbo能在一秒内完成一步生成,且质量高。
每个降噪步骤都涉及对随机图像的处理,目标是去除不相关噪声,最终形成符合指令的图像。
负向指令在生成噪声图后,与正向指令生成的噪声图相减,以去除与负向指令相关的部分,使生成的图像更接近正向指令。
潜空间的使用在于将图像编码为数值,同时压缩数据。图像编码器将图像转换为一系列数值,通过降维简化数据。解码器则将压缩后的数据还原为图像。
潜空间技术的好处是数据压缩,坏处是可能丢失某些细节。Stable Diffusion生成的图像中文字诡异的原因在于,文字细节丢失,预测噪音时文字与图像预测不连贯。
文本编码器将指令转化为特征向量,每条指令生成77个等长、768维的向量。这些向量包含指令的特征和含义,影响生成图像的最终结果。
使用Stable Diffusion或Midjourney时,输入指令语法或大小写不影响结果,因为这些信息都被转化为数值,模型对此不敏感。
欢迎光临 麦克雷 (http://imac.ly/)
Powered by Discuz! X3.5