JayAlammar再發新作:超高質量圖解StableDiffusion
小白能理解穩定擴散的原理!
還記得風靡全網的《圖形變形金剛》嗎。
最近博主Jay Alammar也在自己的博客上寫了一篇關于大火穩定擴散模型的插畫,讓你從零開始徹底了解圖像生成模型的原理,配有超詳細的視頻講解!
圖形穩定擴散
AI模型的最新圖像生成能力遠超人們的預期可以直接從文本描述中創建具有驚人視覺效果的圖像背后的運作機制非常神秘和神奇,但它確實影響了人類創造藝術的方式
穩定擴散的發布是AI圖像生成發展的里程碑,相當于為大眾提供了一個可用的高性能模型生成的圖像不僅質量非常高,運行速度快,而且對資源和內存的要求也很低
相信任何嘗試過AI圖像生成的人都會想知道它是如何工作的,本文將為你揭開穩定擴散工作原理的神秘面紗。
Stable Diffusion 從功能上來說主要包括兩方面:1)其核心功能為僅根據文本提示作為輸入來生成的圖像(text2img),2)你也可以用它對圖像根據文字描述進行修改(即輸入為文本 + 圖像)
以下圖表將用于幫助解釋穩定擴散的組成部分,它們如何相互作用以及圖像生成選項和參數的含義。
穩定擴散成分
穩定擴散是由多個組件和模型組成的系統,而不是單一的模型。
當我們從整個模型的角度看模型內部時,我們可以發現它包含一個文本理解組件,用于將文本信息轉換為數字表示,以捕捉文本中的語義信息。
雖然模型還是從宏觀角度分析的,后面會有更多的模型細節,但是我們也可以大致猜測這個文本編碼器是一個特殊的Transformer語言模型。
該模型的輸入是一個文本串,輸出是一個數字列表,用于表示文本中的每個單詞/標記,即每個標記被轉換成一個向量。
然后,這些信息將被提交給圖像生成器,它也包含多個組件。
圖像發生器主要包括兩個階段:
1.圖像信息創建者
這個組件是穩定擴散的獨家秘密,與之前的模型相比,它的許多性能增益都是在這里實現的。
該組件運行多個步驟來生成圖像信息,其中steps也是穩定擴散界面和庫中的一個參數,通常默認為50或100。
圖像信息創建器完全在圖像信息空間中運行,這使得它比在像素空間中工作的其他擴散模型運行得更快從技術上講,這個組件由一個UNet神經網絡和一個調度算法組成
擴散這個詞描述的是組件內部運行過程中發生的事情,即信息被一步步處理,最后由下一個組件(圖像解碼器)生成高質量的圖像。
2.圖像解碼器
圖像解碼器根據從圖像信息創建器獲得的信息繪制圖像,整個過程只需運行一次即可生成最終的像素圖像。
如你所見,穩定擴散由三個主要部分組成,每個部分都有一個獨立的神經網絡:
1)剪輯文本用于文本編碼。
輸入:文本
輸出:77個令牌嵌入向量,每個向量包含768個維度。
2)UNet+Scheduler在信息(潛)空間中一步步處理/擴散信息。
輸入:文本嵌入和一個由噪聲組成的初始多維數組。
輸出:經過處理的信息數組。
3)自動編碼器解碼器,其使用經處理的信息矩陣來繪制最終圖像。
輸入:經過處理的信息矩陣,維數為。
輸出:尺寸為(紅/綠/藍,寬和高)的結果圖像。
什么是擴散。
擴散是一個發生在下圖中的粉紅色圖像信息創建器組件中的過程該過程包括嵌入令牌以表示輸入文本和隨機的初始圖像信息矩陣這個過程還需要圖像解碼器來繪制最終圖像的信息矩陣
整個操作過程是循序漸進的,每一步都會添加更多的相關信息。
為了更直觀地感受整個過程,我們可以中途看一下random latents矩陣,觀察它是如何轉化為視覺噪聲的,其中的視覺檢查是通過圖像解碼器進行的。
整個擴散過程包括幾個步驟,每個步驟都基于輸入的潛在矩陣,并生成另一個潛在矩陣以更好地擬合輸入文本和從模型圖像集中獲得的視覺信息。
將這些潛在信息可視化,看看信息是如何在每一步中累加起來的。
整個過程從零開始,看起來還挺刺激的。
擴散的工作原理
使用擴散模型生成圖像的核心思想仍然是基于現有的強大的計算機視覺模型只要輸入足夠大的數據集,這些模型就可以學習任何復雜的運算
假設我們已經有了一個圖像,生成一些噪聲并添加到圖像中,然后我們就可以把這個圖像當作一個訓練樣本。
使用相同的操作,可以生成大量的訓練樣本來訓練圖像生成模型中的核心組件。
上面的例子顯示了一些可選的噪聲值,從原始圖像到總噪聲添加(級別4),這樣就可以很容易地控制圖像中添加了多少噪聲。
因此,我們可以將這個過程分散在幾十個步驟中,并為數據集中的每幅圖像生成幾十個訓練樣本。
基于以上數據集,我們可以訓練出一個性能優秀的噪聲預測器,每個訓練步驟都與其他模型相似當在特定配置下運行時,噪聲預測器可以生成圖像
去除噪聲并繪制圖像。
經過訓練的噪聲預測器可以對添加了噪聲的圖像進行去噪,并且還可以預測添加的噪聲量。
因為采樣的噪聲是可預測的,如果從圖像中減去噪聲,最終的圖像會更接近模型訓練得到的圖像。
得到的圖像并不是準確的原始圖像,而是一種分布,即世界的像素排列,比如天空通常是藍色的,人有兩只眼睛,貓有尖尖的耳朵等等生成的特定圖像風格完全取決于訓練數據集
不僅穩定擴散通過去噪生成圖像,還有DALL—E 2和Google的Imagen模型。
應該注意到,到目前為止描述的擴散過程沒有使用任何文本數據來生成圖像
在下一節中,我們將描述如何將條件文本合并到流程中,以便控制模型生成的圖像類型。
加速:分布在壓縮數據上
為了加快圖像生成的過程,穩定擴散并不選擇在像素圖像本身上運行擴散過程,而是在圖像的壓縮版本上運行,本文也稱之為出發到潛空間。
整個壓縮過程,包括圖像的后續解壓縮和繪制,都是由自編碼器完成的,自編碼器將圖像壓縮到潛在空間,然后只用解碼器利用壓縮后的信息進行重構。
前向擴散過程在壓縮的分支中完成,噪聲的切片是應用于分支的噪聲,而不是像素圖像,因此噪聲預測器實際上被訓練來預測壓縮表示(latentss空間)中的噪聲。
正向過程是通過使用自編碼器中的編碼器來訓練噪聲預測器一旦訓練完成,就可以通過運行相反的過程來生成圖像
向前和向后的過程如下所示,圖中還包括一個條件組件,用來描述模型應該生成圖像的文本提示。
文本編碼器:轉換器語言模型
模型中的語言理解組件使用Transformer語言模型,該模型可以將輸入的文本提示轉換為令牌嵌入向量公布的穩定擴散模型使用ClipText為了便于解釋,本文選擇了BERT模型
Imagen論文中的實驗表明,較大的語言模型比選擇較大的圖像生成組件能帶來更大的圖像質量提升。
早期的穩定擴散模型使用OpenAI發布的預訓練CLIPText模型,但在穩定擴散V2中,它轉向了剪輯模型的最新版本和更大的變體OpenClip。
CLIP是怎么訓練的。
CLIP需要圖像及其標題,數據集包含大約4億個圖像和描述。
剪輯是圖像編碼器和文本編碼器的組合它的訓練過程可以簡化為拍攝圖像和文字描述,用兩個編碼器分別對數據進行編碼
然后嵌入余弦距離比較結果在訓練初期,即使文字描述和圖像匹配,它們之間的相似度肯定是很低的
伴隨著模型的不斷更新,在后續階段,編碼器編碼的圖像和文本的嵌入會逐漸相似。
文本信息饋送圖像生成過程
為了將文本條件整合到圖像生成過程中,噪聲預測器的輸入必須針對文本進行調整。
所有的操作都在潛在空間中,包括編碼文本,輸入圖像和預測噪聲。
為了更好地理解文本令牌在Unet中的用法,我們需要先了解Unet模型。
Unet噪聲預測器中的圖層
一個沒有文本的擴散Unet,它的輸入和輸出如下:
在模型內部,您可以看到:
1.UNET模型中的層主要用于轉換潛在客戶,,
2.每一層對前一層的輸出進行操作,
3.一些輸出將它送入網絡后面的處理。
4.將時間步長轉換為時間步長嵌入向量,可在層中使用。
Unet噪聲預測器中的圖層
現在需要把之前的系統修改成文字版。
主要修改是增加了對文本輸入的支持,也就是在ResNet塊之間增加了一個關注層。
需要注意的是,ResNet塊并不直接看到文本內容,而是通過attention層將latents中文本的表示組合起來,然后下一個ResNet就可以使用這個過程中的文本信息。
參考資料:
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
版權聲明:凡注明“來源:“生活消費網”的所有作品,版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用,須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名,否則將追究相關法律責任。
-
廈門整合濱海資源開通全域客運旅游航線日前,記者從廈門市港口管理局獲悉,根據《廈門市海上旅游客運優化升級實施方案》,廈門將整合全市濱海旅游資源,布局客運旅游碼頭,開通全域客運旅游線路,進一步提升廈門海上旅游客運整體質量。 廈門成立了優質......2023-01-21 14:56
-
京廣空中大通道19日零時起正式啟用連接京津冀地區和粵港澳大灣區京廣空中通道于19日零時正式開通。 2022年5月19日零時,京廣大通道空域結構調整方案正式投入運行,這標志著連接京津冀地區和粵港澳大灣區兩大世界級城市群的南北空中交通大動脈將由原來的單上單下兩車道......2023-01-21 14:51
-
肆拾玖坊1年3輪融資,張傳宗曾是聯想高管,向華米OV學習創業賣酒生產:創業的前沿 日前,白酒新國標將正式實施,白酒行業將再次迎來洗牌,充滿挑戰,也有諸多機遇。 在白酒創業軌跡中,有一家公司明顯不同于其他傳統白酒公司,它就是四十九方。 石臼坊的創始人是張傳宗,......2023-01-21 14:35
-
硬核打造多元紓困工作場景浙江普陀多舉措助力個體工商戶發展為全面落實《關于支持個體工商戶發展的若干意見》,浙江省舟山市場監管局普陀分局堅持幫扶與創新并舉,全力提高解困質量和效率一季度,全區普惠性小微企業信用貸款余額30.46億元,比年初增加3.55億元 截......2023-01-21 14:21
-
長城汽車獲南向資金連續4天凈買入長城汽車連續四天被南向資金買入,累計凈買入金額6.62億港元,股價上漲26.24%。 證券牛,據統計,5月18日,港股通活躍股票總成交金額為124.09億港元,凈買入金額為6.93億港元。 5月1......2023-01-21 14:11