首頁 > 財經 >

2000億次訓練,只為能讓AI“自學”新游戲

發布時間:2021-08-01 18:22   來源:網絡   閱讀量:12836   

據外媒報道,Open-Ended Learning Team(開放式學習小組)在 Deepmind 的 Blog 上發表了一篇關于訓練一個無需與人類交互數據就能玩不同游戲的 AI 智能體(AI agents)的文章。

一般來說,需要先給智能體提供一部分新游戲的數據,再讓它自我進行游戲訓練,從而在該游戲中取得更好的成績。但目前的智能體,如果不從頭開始學習,它就無法完成新游戲或新任務。團隊的目的是省略前面的步驟,創造出的智能體能直接在新游戲中自我探索,并在復雜的游戲環境中取得好成績。

AI agents

團隊希望該文章能提供給其他研究人員另一條新思路,以創造更具適應性(more adaptive)、普遍能力(generally capable)更強的 AI 智能體。同時,他們邀請感興趣的人士一同加入研究。

一、專門為訓練 AI 造了個游戲場地

當 AI 智能體在訓練游戲時,缺乏數據(每個游戲的數據都是單獨的)是導致強化學習(reinforcement learning,RL) 效果不佳的主要原因。這就意味著如果想讓智能體可以完成所有任務,就需要讓它把每一款游戲(任務)都訓練了,否則它們在遇到新游戲的時候就只能“干瞪眼”。

團隊創建了一個 3D 游戲環境,稱之為“XLand”,該環境能夠容納多位玩家共同游戲。這種環境使得團隊能夠制定新的學習算法,而這種算法能動態地控制一個智能體進行游戲訓練。

Xland

因為 XLand 可以通過編程指定(programmatically specified),所以該游戲空間能夠以自動和算法(automated and algorithmic)的方式生成數據(該數據可以訓練智能體)。同時,XLand 中的任務涉及多個玩家,其他玩家的行為會加大 AI 智能體所面臨的挑戰。這些復雜的非線性交互(隨機性)為訓練提供了理想的數據源,因為有時訓練環境中的微小變化可能會給智能體帶來不一樣的挑戰。

二、任務難度要“剛剛好”

團隊研究的核心是深度強化學習在神經網絡中的作用(尤其是在智能體的訓練中)。團隊使用的神經網絡結構(neural network architecture)提供了一種關注智能體內部循環狀態(internal recurrent state)的機制,通過預測智能體所玩游戲的子目標(subgoals)來幫助引導智能體的注意力(預測游戲任務并引導智能體前往)。團隊發現這個目標關注智能體 (goal-attentive agent,GOAT) 有學習了一般能力的政策的能力(GOAT 方案使得智能體更具適應性)。

預測智能體的子目標

團隊還預測任務訓練的難度會影響智能體的總體能力。因此,他們使用動態任務生成(dynamic task generation)對智能體的訓練任務分配進行更改,并不斷優化,生成的每個任務既不是太難也不是太容易,而是剛好適合訓練。在這之后,他們使用基于群體的訓練 (population based training,PBT) 來調整動態任務的生成參數,以提高智能體的總體能力。最后,團隊將多個訓練運行串聯在一起,這樣每一代智能體都可以從上一代智能體中啟動(智能體迭代)。

三、智能體有啟發式行為?

團隊在對智能體進行了五代訓練后,發現其學習能力和性能都在持續提升。在 XLand 的 4,000 個世界中玩過大約 700,000 個游戲后,最后一代的每個智能體都經歷了 2000 億次(200 billion)訓練步驟,得到了 340 萬(3.4 million)個任務的結果。

目前,團隊的智能體已經能夠順利完成每次程序生成的測試任務,而且測試數據顯示,智能體的能力(相比于上一代)有了整體的提高。

除此之外,團隊還發現智能體表現出一般的啟發式行為(heuristic behaviours),如實驗(experimentation),該行為出現在于許多任務中,而不是專門針對單個任務的行為。團隊有觀察到智能體在游戲中使用不同的工具,包括利用障礙物來遮擋自己、利用物品創建坡道。隨著訓練的進展,智能體還偶爾會出現與其他玩家合作的行為,但目前團隊還不能確認這是否是有意識的行為。

結語:“自學”讓 AI 更智能

Open-Ended Learning Team 正在訓練一個新的智能體,它不需要從頭開始訓練數據,就能適應新的游戲。這個智能體將比僅使用強化學習方法的智能體更加“智能”。

大量的數據訓練一直以來是人工智能發展繞不開的難題,此次如果能大量減少訓練數據,并使其獲得跨領域的自主學習能力,那么人工智能的能力將能得到進一步的提升。

(責編:葉子琪)

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

版權聲明:凡注明“來源:“生活消費網”的所有作品,版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用,須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名,否則將追究相關法律責任。

  • 鴻星爾克之后:“端水大師”雷軍第七次曬鞋今天穿361°
    前不久,河南暴雨引發洪災讓全國各地十分牽掛,各地除了趕來許多救援隊幫助之外,還有許多民眾和企業都紛紛捐獻了自己的物資或金錢上的幫助,希望幫助河南盡快渡過難關。其中,本就瀕臨破產的鴻星爾克一口氣捐獻50......
    2021-08-01 18:17
  • 分析機構:華為P50/Pro系列采用京東方屏幕,6.5/6.6英寸2K柔
    IT之家7月30日消息7月29日晚上,華為余承東上臺發布了華為P50系列,號稱萬象新生。華為正式發布P50系列,為華為首款出廠預裝鴻蒙系統的手機。其中,華為P50采用6.5英寸純直屏,華為P50Pro......
    2021-08-01 18:15
  • 雷軍:為米粉打造小米直面會一大波新品來襲
    8月1日,小米官方宣布上線一檔官方視頻直播欄目ldquo;小米直面會rdquo;,第一期將于8月2日晚上8點在小米社區、小米商城和小米官方新媒體平臺直播。小米直面會是專門為米粉朋友們打造的一檔官方視頻......
    2021-08-01 18:13
  • 丐板、大雷DIY裝機高頻黑詞科普
    DIY裝機有不少專業的詞語,其中被玩家最常用的就是包含rdquo;丐ldquo;、rdquo;礦ldquo;、rdquo;雷ldquo;、這些字的詞,那么它們都是什么意思,有哪些硬件會被這么叫,接下來......
    2021-08-01 18:12
  • 郎平賽后哽咽向全國球迷道歉華為余承東打氣:永不言敗、女排精神一直在
    7月31日晚,中國女排3:0力克勁敵意大利隊,取得了東京奧運會小組賽的首勝。不過遺憾的是,根據當前的勝負關系和積分情況,即便中國女排最后一場小組賽再次擊敗阿根廷隊,也沒有了出線進入8強的機會。盡管創造......
    2021-08-01 18:12
欧美人与性动交α欧美精品|国产自产一线在线视频|晚上你懂在线一区二区|久久狠狠中文字幕2020|亚洲中文字幕在线第二页