有這樣一個模型它可以做到一句話生成視頻
有這樣一個模型,它可以做到一句話生成視頻:

不僅零樣本就能搞定,性能還直達 SOTA。
它的名字,叫NüWA。
女媧女媧,神通廣大,正如其名,一句話生成視頻只是這個模型的技能之一。
目前,在推特上已小有熱度。
八項全能女媧,單拎出來也不差
所以這個全能型選手究竟表現如何。
直接與 SOTA 模型對比,來看看她在各項任務上的表現。
在文本生成圖像中,不得不說,即使女媧的 FID—0 得分不及 XMC—GAN,但在實際效果中,女媧生成的圖肉眼可見的更好,清晰又逼真。
在視頻預測中,所有模型使用 64x64 的分辨率,Cond.代表供預測的幀數。
盡管只有 1 幀,女媧也將 FVD 得分從 94±2 降到 86.9。
草圖轉圖像時,與 SOTA 模型相比,女媧生成的卡車都更逼真。
而在零樣本的圖像補全任務中,女媧擁有更豐富的想象力。
并且,它的另一個優勢是推理速度,幾乎 50 秒就可以生成一個圖像,而 Paint By Word 在推理過程中需要額外的訓練,大約需要 300 秒才能收斂。
直接上效果:
看,像上面這些僅用色塊勾勒輪廓的視頻草圖,經女媧之手就能生成相應視頻。
而輸入一段潛水視頻,女媧也能在文本指導下讓潛水員浮出水面,繼續下潛,甚至游到天上。
可以說,女媧不僅技能多,哪個單項拿出來也完全不賴。
如何實現。
這樣一個無論操作對象是圖像還是視頻,無論是合成新的,還是在已有素材上改造都能做到做好的女媧,是如何被打造出來的呢。
其實不難,把文字,圖像,視頻分別看做一維,二維,三維數據,分別對應 3 個以它們為輸入的編碼器。
另外預訓練好一個處理圖像與視頻數據的 3D 解碼器。
兩者配合就獲得了以上各種能力。
而編碼解碼器都是基于一個 3D Nearby 的自注意力機制建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:
W 表示可學習的權重,X 和 C 分別代表文本,圖像,視頻數據的 3D 表示:
其中,h 和 w 表示空間軸上的 token 數,s 表時間軸上的 token 數,d 表示每個 token 的維數。
如果 C=X,3DNA 表示對目標 X 的自注意,如果 C≠X,3DNA 表示對在條件 C 下目標 X 的交叉注意。
該機制不僅可以降低模型的計算復雜度,還能提高生成結果的質量。
此外,模型還使用 VQ—GAN 替代 VQ—VAE 進行視覺 tokenization,這也讓生成效果好上加好。
團隊介紹
一作 Chenfei Wu,北京郵電大學博士畢業,現工作于微軟亞研院共同一作 Jian Liang,來自北京大學
。鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
版權聲明:凡注明“來源:“生活消費網”的所有作品,版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用,須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名,否則將追究相關法律責任。
-
《和平之舟》男女主角有感情戲嗎大家應該很久都沒看到他的劇了《和平之舟》男女主角有感情戲嗎 陳坤是大家很熟悉的演員,但是這幾年他的產量不是很高,大家應該很久都沒看到他的劇了最近,陳坤《和平之舟》定檔了,大家也好奇,《和平之舟》結局是什么 《和平之舟》講述了......2021-11-28 16:41
-
筆記本處理器ABF載板短缺加劇,面積大小和電路密度據業內消息人士稱,在筆記本處理器供應鏈中,ABF載板將是2022年短缺加劇的特定零部件之一,這可能導致筆記本處理器供應緊張,影響筆記本出貨。 據《電子時報》報道,ABF載板長期供不應求,制造商將......2021-11-28 16:32
-
首批6家公募同業存單指數基金獲批有普通同業存單基金首批6家公募同業存單指數基金獲批。 根據消息顯示,首批同業存單指數基金將堅持低波動產品定位,在投資范圍,信用管理和流動性管理上嚴控風險,且都設置100億元的發行規模上限?!敖Y果高于貨幣基金的收益......2021-11-28 16:04
-
會議上宣讀了《全市2021年度項目建設冬季會戰工作方案》最近幾天,一場以大抓項目,抓大項目的冬季會戰在牡丹江市啟動,為該市晉位爭先,振興發展作出貢獻。 年初以來,牡丹江市深入貫徹落實黑龍江省委省政府決策部署,以百大項目建設為核心引領,落實領導包保,掛圖作......2021-11-28 16:01
-
我國5G終端用戶占全球80%以上技術先進的5G獨立組網網絡5G獨立組網網絡全球規模最大 我國5G終端用戶占全球80%以上 5G信號全覆蓋,下行帶寬最高可達千兆,基于超高清智慧觀賽和自由視角視頻技術,用戶能在5G手機上遠程360度隨意切換觀賽視角,還可......2021-11-28 15:54