麦克雷

标题: Stable Diffusion——Textual Inversion(TI)文本翻转和 Embedding 嵌入... [打印本页]

作者: WillieLer    时间: 2024-10-1 19:24
标题: Stable Diffusion——Textual Inversion(TI)文本翻转和 Embedding 嵌入...
Stable Diffusion——Textual Inversion(TI)文本翻转和 Embedding 嵌入...
作者: ihaqf    时间: 2024-10-1 19:25
文本翻转(Textual Inversion, TI)与嵌入(Embedding)模型在稳定扩散(Stable Diffusion)框架中扮演着关键角色。Embedding 是指将复杂数据,如文本、图像、音频等,转化为向量空间表示的过程,这种表示方式使得机器学习模型能够以数字形式处理和理解这些信息。在稳定扩散模型中,Embedding 特指经过文本翻转训练得出的特定向量。

文本翻转并非字面上的文本反转,而是通过将一组图像与特定概念词相关联,生成一个独特的嵌入向量。这个过程旨在增强大模型在特定情境下的生成能力,尤其是对于那些未在原始训练数据中出现的概念或风格。

当大模型无法生成特定风格的图像,如某些只有少数人知道的新型风格时,文本翻转训练便能发挥作用。通过选取一个代表特定新风格的词汇(如图中展示的“[公式]”),我们对相关图像进行训练,使得“[公式]”与这些图像建立起联系,从而生成对应的新嵌入向量。

文本翻转训练通过以下步骤实现:首先,使用文本编码器将提示词转换为向量表示,这些向量在大模型中构成一个语义词典的一部分。随后,将特定图像与新概念词之间的对应关系存储在嵌入向量中。尽管大模型本身未经过针对特定图像的训练,但通过文本翻转,它能够在生成过程中自然地产生与新概念词关联的图像。

关键在于潜空间的利用。尽管模型无法覆盖所有可能的图像,但其潜空间包含了各种常见图像的统计规律。通过在特定区域内采样,模型可以生成与新概念词相关的图像,即使这些图像并未在训练集中出现。

文本翻转的优势在于其对原始模型的非侵入性改造,以及其较小的模型体积,这使得训练过程高效且易于集成到现有模型中。此外,文本翻转模型能够作为提示词的一部分,用于控制生成图像的风格或细节。

在稳定扩散框架中,文本翻转模型的使用方法直观且简便。只需在提示词中加入新概念词,如“[公式]”,即可引导模型生成特定风格的图像。文本翻转模型的训练过程相对简单,通常只需几到五张特定风格的图像即可,而且对于新概念词的命名有着一定的要求,既要便于记忆,又要避免与通用词汇混淆。

整合多个文本翻转模型时,可以使用特定语法,如“[公式]”和“[公式]”,在同一批提示词中同时指定不同的风格。文本翻转模型的体积小巧,但其生成的图像质量可能不如其他高级模型。因此,它们更常被用于图像生成过程中的负向控制,以避免生成不希望出现的内容。

在使用文本翻转模型时,确保使用与模型训练时相同的基础模型至关重要,以确保预期的生成效果。下载模型后,将其放置于指定目录,无需重启WebUI,即可直接使用。文本翻转模型的详细训练过程和参数设置可查阅相关文章。

稳定扩散框架中主要使用的模型类型包括文本翻转、超网络、LoRA(及其变体LyCORIS)和Dreambooth模型。从训练效率和实用性来看,Dreambooth和LoRA模型最受欢迎,而超网络模型的趋势则有下降。




欢迎光临 麦克雷 (http://imac.ly/) Powered by Discuz! X3.5