首頁 > 新聞 >

AI讀腦炸裂,掃描大腦畫面,StableDiffusion逼真復現圖像

發布時間:2023-03-06 18:26   來源:IT之家   閱讀量:14153   

近日,一項研究聲稱能夠用 Stable Diffusion 將大腦活動重建為高分辨率、高精確度的圖像。相關論文被 CVPR 2023 接收,引起網友嘩然,AI 讀腦已經近在咫尺?

即便沒有霍格沃茨的魔法,也能看到別人在想什么了!

方法很簡單,基于 Stable Diffusion 便可視化大腦圖像。

比如,你看到的小熊、飛機、火車是這樣的。

當 AI 看到大腦信號后,生成的圖像是下面的樣子,可見該有的要點全有了。

這個 AI 讀腦術剛剛被 CVPR 2023 接收,讓圈友們瞬間「顱內高潮」。

太野了!忘了提示工程吧,現在你只需要用腦子去「想」那些畫面就行了。

想象一下,用 Stable Diffusion 從 fMRI 數據中重建視覺圖像,或許意味著未來可能發展為非入侵式的腦機接口。

讓 AI 直接跳過人類語言,感知人類大腦中所思所想。

到時候,馬斯克搞的 Neuralink 也要追趕這一 AI 天花板了。

無需微調,用 AI 直接復現你在想什么

那么,AI 讀腦究竟如何實現?

最新研究來自日本大阪大學的研究團隊。

大阪大學前沿生物科學研究生院和日本 NICT 的 CiNet 的研究人員基于潛在的擴散模型,更具體地說,通過 Stable Diffusion 從 fMRI 數據中重建視覺體驗。

整個運作過程的框架也非常簡單:1 個圖像編碼器、1 個圖像解碼器,還有 1 個語義解碼器。

通過這樣做,該團隊消除了訓練和微調復雜人工智能模型的需要。

所有需要訓練的是簡單的線性模型,將下部和上部視覺腦區的 fMRI 信號映射到單個 Stable Diffusion 成分。

具體來說,研究人員將大腦區域映射為圖像和文本編碼器的輸入。下部腦區被映射到圖像編碼器,上部腦區被映射到文本編碼器。如此一來可以這讓該系統能夠使用圖像組成和語義內容進行重建。

首先是解碼分析。研究中采用的 LDM 模型,由圖像編碼器 ε、圖像解碼器 D、文本編碼器 τ 組成。

研究者分別從早期和高級視覺皮層的 fMRI 信號中解碼出重建圖像 z 以及相關文本 c 的潛在表征,將其作為輸入,由自動編碼器生成復現出的圖像 Xzc。

接著,研究者還建立了一個編碼模型,對來自 LDM 不同組件的 fMRI 信號進行預測,從而探索 LDM 的內部運作機制。

研究人員使用來自自然場景數據集的 fMRI 圖像進行實驗,并測試他們是否能使用 Stable Diffusion 來重建受試者看到的東西。

可以看到,編碼模型與 LDM 相關潛像預測精度,最后一種模型在大腦后部視覺皮層產生的預測精確度是最高的。

對一個主體的視覺重建結果顯示,只用 z 重建的圖像在視覺上與原始圖像一致,但不能捕捉到語義內容。

而只用 c 重建的圖像具有較好的語義保真度,但視覺一致性較差,使用 zc 重建的圖像則可以同時具備高語義保真度和高分辨率。

來自所有受試者對同一圖像的重建結果顯示,重建的效果在不同受試者之間是穩定且比較準確的。

最后,定量評估的結果被繪制成圖表。

種種結果顯示,研究中采用的方法不僅可以捕捉到低層次的視覺外觀,而且還能捕捉到原始刺激物的高層次語義內容。

由此看來,實驗表明圖像和文本解碼的結合提供了準確的重建。

研究人員表示,受試者之間在準確性方面存在差異,但這些差異與 fMRI 圖像的質量相關。根據該團隊的說法,重建的質量與目前 SOTA 的方法相當,但不需要訓練其中用到的 AI 模型。

與此同時,該團隊還利用從 fMRI 數據中得出的模型來研究 Stable Diffusion 的各個構建塊,例如語義內容是如何在逆向擴散過程中產生的,或者在 U-Net 中發生什么過程。

在去噪過程的早期階段,U-Net 的瓶頸層產生最高的預測性能,隨著去噪過程的進行,早期層(藍色)進行對早期視覺皮層活動的預測,瓶頸層則轉向高級視覺皮層。

這也就是說,在擴散過程剛開始時,圖像信息壓縮在瓶頸層中,伴隨著去噪,U-Net 層之間的分離出現在視覺皮層中。

此外,該團隊正在對擴散不同階段的圖像轉換進行定量解釋。通過這種方式,研究人員旨在從生物學的角度為更好地理解擴散模型做出貢獻,這些模型被廣泛使用,但人們對它們的理解仍然很有限。

人腦畫面,早被 AI 解碼了?

多年來,研究人員一直在使用人工智能模型來解碼來自人類大腦的信息。

大多數方法的核心,通過使用預先錄制的 fMRI 圖像作為文本或圖像的生成性 AI 模型的輸入。

例如,在 2018 年初,一組來自日本的研究人員展示了一個神經網絡如何從 fMRI 錄音中重建圖像。

2019 年,一個小組從猴子的神經元中重建了圖像,Meta 的研究小組在 Jean-Remi King 的領導下,發表了新的工作,例如從 fMRI 數據中得出文本。

2022 年 10 月,德克薩斯大學奧斯汀分校的一個團隊表明,GPT 模型可以從 fMRI 掃描中推斷出描述一個人在視頻中看到的語義內容的文本。

2022 年 11 月,新加坡國立大學、香港中文大學和斯坦福大學的研究人員使用了 MinD-Vis 擴散模型從 fMRI 掃描中重建圖像,其準確性明顯高于當時的可用方法。

再往前倒推的話,有網友指出了「根據腦電波生成圖像至少從 2008 年開始就有了,以某種方式暗示著 Stable Diffusion 能夠讀懂人的思想,簡直太荒謬了?!?/p>

這項由加利福尼亞大學伯克利分校發表在 Nature 的論文稱,利用視覺解碼器可以將人的腦電波活動轉換成圖像。

要說追溯歷史,還有人直接拿出 1999 年,斯坦福李飛飛的一項關于從大腦皮層重建圖像的研究。

李飛飛也動手點評轉發,稱自己那時還是一名大學實習生。

還有 2011 年,UC 伯克利的一項研究使用功能磁共振成像和計算模型,初步重建了大腦的「動態視覺圖像」。

也就是說,他們重現了人們看過的片段。

但是相比起最新研究,這項重建完全稱不上「高清」,幾乎無法辨認。

作者介紹

Yu Takagi

Yu Takagi 是大阪大學的一名助理教授。他的研究興趣是計算神經科學和人工智能的交叉領域。

在博士期間,他在 ATR 腦信息交流研究實驗室研究使用功能性磁共振成像從全腦功能連接預測不同個體差異的技術。

最近,他在牛津大學的牛津人腦活動中心和東京大學的心理學系,利用機器學習技術了解復雜決策任務中的動態計算。

Shinji Nishimoto

Shinji Nishimoto 是大阪大學的教授。他的研究方面是對大腦中視覺和認知處理的定量理解。

更具體地說,Nishimoto 教授團隊的研究重點是通過建立自然感知和認知條件下誘發的大腦活動的預測模型來理解神經處理和代表。

有網友問作者,這項研究能否用于解夢?

「將同樣的技術應用于睡眠期間的大腦活動是可能的,但這種應用的準確性目前還不清楚?!?/p>

看過這項研究后:攝神取念術妥妥的有了。

參考資料:

(責編:笑笑)

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

版權聲明:凡注明“來源:“生活消費網”的所有作品,版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用,須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名,否則將追究相關法律責任。

欧美人与性动交α欧美精品|国产自产一线在线视频|晚上你懂在线一区二区|久久狠狠中文字幕2020|亚洲中文字幕在线第二页