首頁 > 新聞 >

650億參數大模型預訓練方案開源可商用!LLaMA訓練加速38%,來自明

發布時間:2023-07-19 12:24   來源:IT之家   閱讀量:15045   

650 億參數大模型的預訓練方案,發布即開源。訓練速度較傳統方案提升 38%。

這就是由 Colossal-AI 最新發布的類 LLaMA 基礎大模型預訓練方案。

要知道,在“百模大戰”背景下,誰擁有自家大模型,往往被視為核心競爭力。在這個節點下,愿意開源大模型的公司少之又少。但自己從頭訓練一個大模型,對技術、資金都有很高要求。

由此,Colossal-AI 最新的開源動作,可以說是應時勢所需了。并且它還不限制商業使用,開箱即用僅需 4 步。

具體項目有哪些內容?一起往下看~

32 張 A100 / A800 即可使用

實際上,自從 Meta 開源 LLaMA 后,掀起了一波微調項目熱潮,如 Alpaca、Vicuna、ColossalChat 等都是在其基礎上打造的。

但是 LLaMA 只開源了模型權重且限制商業使用,微調能夠提升和注入的知識與能力也相對有限。

對于真正想要投身大模型浪潮的企業來說,訓練自己的核心大模型非常重要。

開源社區也此前已獻了一系列工作:

  • RedPajama:開源可商用類 LLaMA 數據集

  • OpenLLaMA:開源可商用類 LLaMA 7B / 13B 模型,使用 EasyLM 基于 JAX 和 TPU 訓練

  • Falcon:開源可商用類 LLaMA 7B / 40B 模型

但這些都還不夠,因為對于最主流的 PyTorch+GPU 生態,仍缺乏高效、可靠、易用的類 LLaMA 基礎大模型預訓練方案。

所以 Colossal-AI 交出了最新的開源答卷。僅需 32 張 A100 / A800,即可搞定 650 億參數類 LLaMA 大模型預訓練,訓練速度提升 38%。

而像原生 PyTorch、FSDP 等,則因顯存溢出無法運行該任務。

Hugging Face accelerate、DeepSpeed、Megatron-LM 也未對 LLaMA 預訓練進行官方支持。

開箱即用、4 步搞定

而這一項目真正上手起來也很簡易。共有四步:

  • 1、安裝 Colossal-AI

  • 2、安裝其他依賴項

  • 3、數據集

  • 4、運行命令

具體代碼如下:

第一步、安裝 Colossal-AI。

第二步、安裝其他依賴項。

cdexamples/language/llama#installotherdependenciespipinstall-rrequirements.txt#useflashattentionpipinstallxformers

第三步、數據集。

默認數據集 togethercomputer / RedPajama-Data-1T-Sample 將在首次運行時自動下載,也可通過-d 或 —dataset 指定自定義數據集。

第四步、運行命令。

已提供 7B 和 65B 的測速腳本,僅需根據實際硬件環境設置所用多節點的 host name 即可運行性能測試。

cdbenchmark_65B/gemini_autobashbatch12_seq2048_flash_attn.sh

對于實際的預訓練任務,使用與速度測試一致,啟動相應命令即可,如使用 4 節點 * 8 卡訓練 65B 的模型。

colossalairun--nproc_per_node8--hostfileYOUR_HOST_FILE--master_addrYOUR_MASTER_ADDRpretrain.py-c'65b'--plugin"gemini"-l2048-g-b8-a

如果使用 Colossal-AI gemini_auto 并行策略,可便捷實現多機多卡并行訓練,降低顯存消耗的同時保持高速訓練。

還可根據硬件環境或實際需求,選擇流水并行 + 張量并行 + ZeRO1 等復雜并行策略組合。

其中,通過 Colossal-AI 的 Booster Plugins,用戶可以便捷自定義并行訓練,如選擇 Low Level ZeRO、Gemini、DDP 等并行策略。

Gradient checkpointing 通過在反向傳播時重新計算模型的 activation 來減少內存使用。

通過引入 Flash attention 機制加速計算并節省顯存。用戶可以通過命令行參數便捷控制數十個類似的自定義參數,在保持高性能的同時為自定義開發保持了靈活性。

Colossal-AI 最新的 ShardFormer 極大降低了使用多維并行訓練 LLM 的上手成本。

現已支持包括 LLaMA 的多種等主流模型,且原生支持 Huggingface / transformers 模型庫。

無需改造模型,即可支持多維并行的各種配置組合,能夠在各種硬件配置上都發揮卓越的性能。

Colossal-AI:大模型系統基礎設施

帶來如上新工作的 Colossal-AI,如今已是大模型趨勢下的明星開發工具和社區了。

Colossal-AI 上述解決方案已在某世界 500 強落地應用,在千卡集群性能優異,僅需數周即可完成千億參數私有大模型預訓練。

上海 AI Lab 與商湯等新近發布的 InternLM 也基于 Colossal-AI 在千卡實現高效預訓練。

自開源以來,Colossal-AI 多次在 GitHub 熱榜位列世界第一,獲得 GitHub Star 超 3 萬顆,并成功入選 SC、AAAI、PPoPP、CVPR、ISC 等國際 AI 與 HPC 頂級會議的官方教程,已有上百家企業參與共建 Colossal-AI 生態。

它由加州伯克利大學杰出教授 James Demmel 和新加坡國立大學校長青年教授尤洋領導開發。

Colossal-AI 基于 PyTorch,可通過高效多維并行、異構內存等,主打為 AI 大模型訓練 / 微調 / 推理的開發與應用成本,降低 GPU 需求等。

其背后公司潞晨科技,近期獲得數億元 A 輪融資,已在成立 18 個月內已迅速連續完成三輪融資。

廣告聲明:文內含有的對外跳轉鏈接,用于傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

(責編:許一諾)

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

版權聲明:凡注明“來源:“生活消費網”的所有作品,版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用,須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名,否則將追究相關法律責任。

  • 全球財經連線|美元指數于100點下方震蕩,國際油價跌超1.5%
    美元指數仍在100點下方震蕩 上周,美元指數創下今年以來最大單周跌幅,盤中失守100點整數關口,為2022年4月份以來的首次。截至7月18日18點,美元指數報99.7321點,盤中最低探至99.58......
    2023-07-19 11:43
  • 挪威禁止Facebook和Instagram追蹤在線用戶并投放廣告,8月
    感謝IT之家網友OC_Formula的線索投遞! ,據外媒POLITICO報道,挪威數據保護局命令Facebook和Instagram的母公司Meta停止根據挪威用戶的在線活動和估計位置向其展示個性......
    2023-07-19 11:32
  • 地區銀行前景不妙!PNC金融服務PNC.US下調全年業績預期
    智通財經APP獲悉,PNC金融服務集團于7月18日美股盤前發布了其2023年第二季度的財務業績。財報顯示,該行Q1營業收入為53億美元,同步下降6%;凈利潤15億美元,同步下降11%;攤薄每股收益3.......
    2023-07-19 11:28
  • 用含綠量提升含金量
    眼下,生態產品總值與國內生產總值(GDP)之比得來的“綠金指數”成為熱詞?!熬G金指數”既反映出這個地區“綠水青山”向“金山銀山”的轉化潛力,也體現出優美生態環境已經成為人民幸福生活的增長點。 一般來......
    2023-07-19 11:07
  • 起亞EV9電動SUV銷售勢頭強勁,上市8天訂單超13000輛
    ,起亞EV9發布于今年3月,是起亞迄今為止最大的電動汽車,也是起亞首款三排電動SUV。 據《韓國經濟日報》,起亞于6月19日開始在韓國國內市場交付EV9,而這款電動SUV在上市的前8天就收到了超過1......
    2023-07-19 11:01
欧美人与性动交α欧美精品|国产自产一线在线视频|晚上你懂在线一区二区|久久狠狠中文字幕2020|亚洲中文字幕在线第二页