麦克雷
标题:
十分钟读懂Stable Diffusion
[打印本页]
作者:
Stevendilm
时间:
2024-10-1 19:52
标题:
十分钟读懂Stable Diffusion
十分钟读懂Stable Diffusion
作者:
谢谢你的爱52
时间:
2024-10-1 19:53
在上一篇文章中,我们介绍了Diffusion扩散模型的原理及其将输入文本转换为图像的过程。然而,由于Diffusion在反向扩散过程中需要处理完整尺寸的图片,导致速度较慢,因此目前应用最广泛的是其改进版——Stable Diffusion。以下是关于Stable Diffusion的详细介绍。
首先,让我们了解Stable Diffusion是如何根据文字生成图像的,以及相比Diffusion它做了哪些优化。Stable Diffusion是StabilityAI公司于2022年提出的,论文和代码都已开源。StabilityAI在10月28日完成了1.01亿美元的融资,目前估值超过10亿美元。
我们可以在Stable Diffusion Online网站体验Stable Diffusion。例如,输入文本“A sunset over a mountain range, vector image”(山脉上的日落)并查看效果。
Stable Diffusion是Diffusion的改进版本,主要目的是解决Diffusion的速度问题。以下是Stable Diffusion生成图片的具体过程:对于输入的文字,会经过一个CLIP模型转化为text embedding,然后与初始图像(初始化使用随机高斯噪声)一起输入去噪模块(即Text conditioned latent U-Net),最后输出[公式]大小的图片。
Stable Diffusion的改进之一是图像压缩。Stable Diffusion原来的名字叫“Latent Diffusion Model”(LDM),在隐空间中进行扩散过程,即对图片进行了压缩,这也是Stable Diffusion比Diffusion速度快的原因。Stable Diffusion会先训练一个自编码器,学习将图像压缩成低维表示,然后在latent space中完成扩散过程。
Stable Diffusion的改进之二在于反向扩散过程。在反向扩散过程中,Stable Diffusion支持文本输入,并对U-Net的结构进行了修改,使得每一轮去噪过程中文本和图像相关联。
以下是Stable Diffusion的完整结构,包括文本向量表示、初始图像(随机高斯噪声)和时间embedding。Stable Diffusion的前向扩散和反向扩散过程都进行了详细展示。
此外,Midjourney也是一款非常出圈的AI绘图工具,其创始人是David Holz。Midjourney每月的收入大概超过200万美元,用户可以通过Discord平台的newbie频道使用。Discord平台是一款游戏聊天平台,月活超过1.5亿,其中使用Midjourney的用户数已突破380万。
总结起来,随着AIGC的爆火,AI绘画成为了一个典型案例。Stable Diffusion是目前最火的AI绘画模型之一,本文旨在详细介绍其原理和应用,让更多人了解这一技术。
欢迎光临 麦克雷 (http://imac.ly/)
Powered by Discuz! X3.5