聊聊Stable Diffusion 1
為了更好地?fù)肀I時(shí)代,不少設(shè)計(jì)師或許需要接觸AI應(yīng)用軟件,比如本文作者就開始學(xué)習(xí)并使用Stable Diffusion。這篇文章里,作者聊了聊自己的理解,一起來看一下。
AIGC已經(jīng)是大勢所驅(qū),設(shè)計(jì)師要如何不被AI所替代,是我經(jīng)常思考的問題,“覺得會被替代、對AI產(chǎn)生恐懼”,產(chǎn)生這種情緒只因我們不了解AIGC,因此我想我們應(yīng)該大膽迎接,深入了解?;诖耍以缫淹度氲綄W(xué)習(xí)的行列中了,這段時(shí)間以來,我學(xué)習(xí)stable diffusion以及comfyui的相關(guān)知識,并且想通過寫文章的方式將這些知識總結(jié)復(fù)盤。
本文章優(yōu)先介紹下stable diffusion,理解了stable diffusion原理,comfyui就比較簡單了,兩者原理是互通的。再加上現(xiàn)在市場很多AI生成圖片的軟件工具也是基于stable diffusion的邏輯去設(shè)計(jì)的,所以了解stable diffusion的運(yùn)行原理,幫助我們掌握其他AI生成圖片的軟件工具。
一、Stable Diffusion的來源
Stable Diffusion(簡稱SD)是2022年發(fā)布的一個(gè)深度學(xué)習(xí)文本到圖像生成模型,由慕尼黑大學(xué)的CompVis研究團(tuán)體首先提出,并與初創(chuàng)公司Stability AI、Runway合作開發(fā),同時(shí)得到了EleutherAI和LAION的支持。
二、Stable Diffusion的功能
它可以實(shí)現(xiàn)的功能有很多,可以根據(jù)文本的描述生成指定內(nèi)容的圖片(圖生圖),也可以用于已有圖片內(nèi)容的轉(zhuǎn)繪(圖生圖),還可以用作圖像的局部重繪、外補(bǔ)擴(kuò)充、高清修復(fù),甚至是視頻的“動(dòng)畫化”生成。
三、Stable Diffusion的原理
Stable Diffusion使用的是Latent Diffusion Model(潛在擴(kuò)散模型),它通過使用經(jīng)過訓(xùn)練的編碼器(VAE中的E)將全尺寸圖像編碼為較低維度的圖像,然后再在潛空間內(nèi)進(jìn)行正向擴(kuò)散過程和反向擴(kuò)散過程。再經(jīng)過訓(xùn)練的解碼器 (VAE中的D),將圖像從其潛在表示解碼回像素空間。
該模型由下圖所示的3個(gè)部分組成:pixel space(像素空間)、latent space (潛空間)、conditioning(條件)。
穩(wěn)定擴(kuò)散過程:
- 感知圖像壓縮(Perceptual Image Compression):圖3中最左側(cè)紅框部分是一個(gè)VQ-VAE,用于將輸入圖像x編碼為一個(gè)離散特征z。
- LDM:圖3的中間綠色部分是在潛變量空間的擴(kuò)散模型,其中上半部分是加噪過程,用于將特征Z加噪為ZT 。下半部分是去噪過程,去噪的核心結(jié)構(gòu)是一個(gè)由交叉注意力(Cross Attention)組成的U-Net,用于將ZT還原為Z 。
- 條件機(jī)制(Conditioning Mechanisms):上圖的右側(cè)是一個(gè)條件編碼器,用于將圖像,文本等前置條件編碼成一個(gè)特征向量,并將其送入到擴(kuò)散模型的去噪過程中。
四、Stable Diffusion(Latent Diffusion Model)的特點(diǎn)
與Diffusion Models和GAN模型相比,Stable Diffusion(Latent Diffusion Model模型)具備更快速、更穩(wěn)定的特點(diǎn)。
- 更快速:與Diffusion Models相比,Latent Diffusion Model模型通過減少噪聲的數(shù)量和步驟,從而減少模型的訓(xùn)練時(shí)間。
- 更穩(wěn)定:與GAN相比更穩(wěn)定,GAN作為是早期的圖像生成模型,通過生成器(Generato)與判別器(Discriminator)不斷對抗進(jìn)行訓(xùn)練。但生成的圖片存在對輸出結(jié)果的控制力較弱,容易產(chǎn)生隨機(jī)圖像、分辨率比較低的問題。
最后,這篇文章初步介紹了Stable Diffusion的原理和特點(diǎn),下一篇文章我想聊一聊自己是如何使用Stable Diffusion這個(gè)工具以及后續(xù)的一些實(shí)戰(zhàn)案例。敬請期待!
數(shù)據(jù)來源:
https://zhuanlan.zhihu.com/p/667057805
https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/
https://developer.baidu.com/article/details/3222941
本文由 @bwyw 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CCO協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!