首頁 > 生活 >

TutelMoE的三大優勢因此更容易擴展

發布時間：2021-11-28 16:58 來源：IT之家閱讀量：18637

，據微軟亞洲研究院發布，作為目前唯一被證明能夠將深度學習模型擴展到萬億以上參數的方法，MoE 能讓模型學習更多信息，并為計算機視覺，語音識別，自然語言處理和機器翻譯系統等提供支持近期，微軟亞洲研究院發布了一個高性能 MoE 庫 ——Tutel，并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 網絡的 Azure NDm A100 v4 節點上進行了實驗讓我們來看一看，這個用于促進大規模 DNN 模型開發的高性能 MoE 庫有哪些優勢其表現又如何

TutelMoE的三大優勢因此更容易擴展

混合專家是一種深度學習模型架構，其計算成本與參數的數量呈次線性關系，因此更容易擴展MoE 是目前唯一被證明能夠將深度學習模型擴展到萬億以上參數的方法，它能讓模型學習更多信息，并為計算機視覺，語音識別，自然語言處理和機器翻譯系統等提供支持，從而以全新的方式為人類社會提供幫助

最近幾天，微軟亞洲研究院發布了一個用于促進大規模 DNN 模型開發的高性能 MoE 庫 ——Tutel，并針對已普遍使用的新 Azure NDm A100 v4 系列進行了高度優化借助 Tutel 多樣化和靈活的 MoE 算法支持，AI 領域的開發人員可以更輕松，高效地執行 MoE與最先進的 MoE 實現方式，如 fairseq相比，對于單個 MoE 層，Tutel 在具有 8 個 GPU 的單個 NDm A100 v4 節點上實現了 8.49 倍的加速，在具有 512 個 A100 GPU 的 64 個 NDm A100 v4 節點上實現了 2.75 倍的加速在端到端性能方面，得益于 all—to—all 通信優化，Tutel 在 Meta的 1.1 萬億參數的 MoE 語言模型中使用 64 個 NDm A100 v4 節點實現了 40% 以上的加速

Tutel 具有良好的兼容性和豐富的功能，確保了其在 Azure NDm A100 v4 群集上運行時可以發揮出色的性能目前，Tutel 已開源，并已集成到 fairseq 中

Tutel MoE 的三大優勢

作為 fairseq，FastMoE 等其他高水平 MoE 解決方案的補充，Tutel 主要專注于優化面向 MoE 的計算和 all—to—all 通信，以及其他多樣化和靈活的 MoE 算法支持Tutel 具有簡潔的接口，可以輕松集成到其他 MoE 解決方案中當然，開發人員也可以從頭開始，利用 Tutel 的接口將獨立的 MoE 層合并到他們自己的 DNN 模型中，直接從高度優化的，最先進的 MoE 功能中受益

與現有的 MoE 解決方案相比，Tutel 具有以下三個主要優勢:

優化面向 MoE 的計算由于缺乏高效的實現方法，目前基于 MoE 的 DNN 模型依賴于深度學習框架提供的多個現成 DNN 運算符的拼接來組成 MoE 計算由于需要冗余計算，這種做法會導致顯著的性能開銷Tutel 設計并實現了多個高度優化的 GPU 內核，為面向 MoE 的計算提供了運算符例如，Tute l 將調度輸出選通的時間復雜度從 O 降低到 O ，顯著提高了數據調度的效率Tutel 還實現了快速 cumsum—minus—one 運算符，與 fairseq 實現方式相比，達到了 24 倍的加速此外，Tutel 還利用 NVRTC進一步實時優化了定制的 MoE 內核

圖 1 對比了 Tutel 與 faireseq 在 Azure NDm A100 v4 平臺上的運行結果，如前所述，使用 Tutel 的單個 MoE 層在 8 個 A100 GPU 上實現了 8.49 倍的加速，在 512 個 A100 GPU 上實現了 2.75 倍的加速。

圖 1:與 fairseq 相比，對于單個 MoE 層，Tutel 在具有 8 個 GPU 的單個 NDm A100 v4 節點上實現了 8.49 倍的加速，在具有 512 個 A100 GPU 的 64 個 NDm A100 v4 節點上實現了 2.75 倍的加速。詳細設置為:batch_size = 32， sequence_length = 1，024， Top_K = 2， model_dim = 2，048， ands hidden_size = 2，048

在 Azure NDm A100 v4 群集上實現底層 all—to—all 通信優化Tutel 針對 Azure NDm A100 v4 群集上的大規模 MoE 訓練，優化了 all—to—all 聚合通信，其中包括 CPU—GPU 綁定和自適應路由調整在非一致存儲訪問結構系統上，尤其是在 NDv4 VM 上，正確的 CPU—GPU 綁定對于 all—to—all 性能非常關鍵但是，現有的機器學習框架并未提供高效的 all—to—all 通信庫，導致大規模分布式訓練的性能下降

Tutel 可以自動優化綁定，并為用戶微調提供簡潔的接口此外，Tutel 在 NDm A100 v4 集群上使用了多路徑技術，即 AR對于 MoE 中的 all—to—all 通信，每個 GPU 通信的總數據流量規模并不會發生變化，但每個 GPU 之間的數據規模會伴隨著 GPU 數量的增加而變小而更小的數據規模會在 all—to—all 通信中產生更大的開銷，導致 MoE 訓練性能下降借助 Azure NDm A100 v4 集群提供的 AR 技術，Tutel 提高了小消息組的通信效率，并在 NDv4 系統上提供了高性能的 all—to—all 通信得益于 CPU—GPU 綁定和 AR 調整，Tutel 使用 512 個 A100 GPU，對通常用于 MoE 訓練的每次交換的數百兆字節的消息，實現了 2.56 倍到 5.93 倍的 all—to—all 加速，如圖 2 所示

圖 2:在應用 Tutel 前后，具有 64 個 NDm A100 v4 節點的不同消息大小的 all—to—all 帶寬Tutel 使用 512 個 A100 GPU，對大小為數百兆字節的消息實現了 2.56 倍到 5.93 倍的 all—to—all 加速

多樣，靈活的 MoE 算法支持。Tutel 為最先進的 MoE 算法提供了多樣化且靈活的支持，包括:

為 Top—K gating 算法設置任意 K 值。
不同的探索策略，包括批量優先路由，輸入信息丟失，輸入抖動。
不同的精度級別，包括半精度，全精度，混合精度等。
不同的設備類型，包括 NVIDIA CUDA 和 AMD ROCm 設備等。

Tutel 將積極整合來自開源社區的各種新興 MoE 算法。

Tutel 與 Meta 的 MoE 語言模型集成

此前，Meta 就開源了自己的 MoE 語言模型，并利用 fairseq 實現了 MoE微軟亞洲研究院與 Meta 合作將 Tutel 集成到了 fairseq 工具包中Meta 也一直用 Tutel 在 Azure NDm A100 v4 上訓練其大型語言模型，該模型中基于注意力的神經架構類似于 GPT—3

微軟亞洲研究院的研究員們使用 Meta 的語言模型評估了 Tutel 的端到端性能該模型有 32 個注意力層，每個層都有 32 個 128 維注意力頭每 2 層中包含 1 個 MoE 層，而每個 GPU 都配有一名專家表 1 總結了模型的詳細設置參數，圖 3 則顯示了 Tutel 的加速效果由于 all—to—all 通信成為瓶頸，所以伴隨著 GPU 數量的增加，Tutel 帶來的改進從 8 個 A100 GPU 的 131% 提升至 512 個 A100 GPU 的 40%研究員們將在下一個版本中對此做進一步優化

表 1:512 個 A100 GPU 的 MoE 語言模型配置

圖 3:在端到端性能方面，Tutel 在 Meta 的 1.1 萬億參數的 MoE 語言模型中使用 64 個 NDm A100 v4 節點實現了 40% 以上的加速。

MoE 技術前景廣闊，它可以基于許多領域的技術，實現整體訓練，例如系統路由，海量節點的網絡平衡，甚至可以從基于 GPU 的加速中受益微軟亞洲研究院展示了一個高效的 MoE 實現方式 ——Tutel，它比 fairseq 框架有著顯著的進步

現在，Tutel 也已集成到了 DeepSpeed 框架中相信 Tutel 和相關的集成將使更多 Azure 服務受益，特別是對于那些希望高效擴展自有大型模型的客戶今天的 MoE 仍處于早期階段，需要付出更多努力才能充分發揮 MoE 的潛力，因此研究員們也將繼續優化 Tutel，希望未來可以給大家帶來更多令人興奮的研究和應用成果

。

（責編：沐瑤）

鄭重聲明：此文內容為本網站轉載企業宣傳資訊，目的在于傳播更多信息，與本站立場無關。僅供讀者參考，并請自行核實相關內容。

版權聲明：凡注明“來源：“生活消費網”的所有作品，版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用，須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名，否則將追究相關法律責任。

相關閱讀

有這樣一個模型它可以做到一句話生成視頻
有這樣一個模型，它可以做到一句話生成視頻: 不僅零樣本就能搞定，性能還直達SOTA。它的名字，叫NüWA。女媧女媧，神通廣大，正如其名，一句話生成視頻只是這個模型的技能之一。目前，在......

2021-11-28 16:46
《和平之舟》男女主角有感情戲嗎大家應該很久都沒看到他的劇了
《和平之舟》男女主角有感情戲嗎陳坤是大家很熟悉的演員，但是這幾年他的產量不是很高，大家應該很久都沒看到他的劇了最近，陳坤《和平之舟》定檔了，大家也好奇，《和平之舟》結局是什么《和平之舟》講述了......

2021-11-28 16:41
筆記本處理器ABF載板短缺加劇，面積大小和電路密度
據業內消息人士稱，在筆記本處理器供應鏈中，ABF載板將是2022年短缺加劇的特定零部件之一，這可能導致筆記本處理器供應緊張，影響筆記本出貨。據《電子時報》報道，ABF載板長期供不應求，制造商將......

2021-11-28 16:32
首批6家公募同業存單指數基金獲批有普通同業存單基金
首批6家公募同業存單指數基金獲批。根據消息顯示，首批同業存單指數基金將堅持低波動產品定位，在投資范圍，信用管理和流動性管理上嚴控風險，且都設置100億元的發行規模上限?！敖Y果高于貨幣基金的收益......

2021-11-28 16:04
會議上宣讀了《全市2021年度項目建設冬季會戰工作方案》
最近幾天，一場以大抓項目，抓大項目的冬季會戰在牡丹江市啟動，為該市晉位爭先，振興發展作出貢獻。年初以來，牡丹江市深入貫徹落實黑龍江省委省政府決策部署，以百大項目建設為核心引領，落實領導包保，掛圖作......

2021-11-28 16:01

財經

s01

s05

旅游

國內的十條網紅公路

國內的十條網紅公路

云南優壹文旅聯合文旅行業共同成立 2022文旅夜游生態產業創新發展由中聯路海承監的第四師可克達拉市玩在千島湖，吃在我姐家國內的十條網紅公路

教育

快樂暑假健康成長

快樂暑假健康成長

孩子中學學習陷瓶頸？優學派AI學線下大校區教學！積云教育讓IT職 23年中級會計考生購課享雙十一冰 2022初級會計職稱考試成績公布樂友第六屆“913新生兒節”，開

文史

河北唐山：又到東方白鸛沿海育雛時

河北唐山：又到東方白鸛沿海育雛時

河北唐山：又到東方白鸛沿海育雛時第30屆中國廚師節開幕展示餐飲人《狼圖騰》推手安波舜推出長篇成長 “萬里千言話長城”主題征文活動正孔子學院迎來“改制”：民間基金會

最新

生活消費網

關于我們| 網站地圖| 廣告服務| 免責聲明|

生活消費網 | 專注于國內外今日生活資訊網站版權所有，未經書面授權禁止使用

生活消費網 | 專注于國內外今日生活資訊網站主辦版權所有：生活消費網 | 專注于國內外今日生活資訊網站 Copyright © 2007- by http://www.orangecountyfilmmakers.com/ All Rights Reserved

違法和不良信息舉報請電郵聯系，合作洽談也可聯系相關人員。皖ICP備2023007381號在線客服:znx177@sina.com

欧美人与性动交α欧美精品|国产自产一线在线视频|晚上你懂在线一区二区|久久狠狠中文字幕2020|亚洲中文字幕在线第二页