作者:同潤、臨在
日前,中文語言理解權威評測基準CLUE公布了零樣本學習ZeroCLUE的最新結果,阿裏雲位於該榜單榜首。此次刷榜的模型是阿裏雲機器學習PAI團隊推出的160億參數的稀疏模型 GPT-MoE,這也是業界首個中文稀疏GPT大模型在該榜單登頂。
在繼去年的Transformer Encoder大模型取得中文小樣本學習、英文預訓練模型知識量度量冠軍後,今年阿裏雲將大模型美女福利导航能力又向前推進了一步。基於MoE稀疏結構,僅用一台A100就把160億參數量級的多任務通用GPT模型訓練成熟。這是通往低成本且高性能多任務通用自然語言理解的重要裏程碑。
中文GPT大模型落地主要麵臨來自兩方麵的挑戰:一方麵是中文語言建模的困難,中文可以利用複雜多變的自由組合表達多重含義,這使得中文語言模型比英文在表達效率上難度加倍;另一方麵隨著模型參數量的不斷增加,需要投入的硬件成本越來越高,訓練成熟時間越來越長。
以OpenAI推出的1750億的GPT-3為例,在1024張A100GPU上預估需要34天;因此,能否消耗更少的計算資源以高性價比的方式完成訓練和推理是大模型落地亟待解決的難題。
GPT-MoE 模型采用稀疏模型的結構設計,有效緩解了上麵提到的兩個困難。在刷榜的過程中,從工程到算法沉澱出4點自研核心美女福利导航,有強化型稀疏均衡器,領域話術再適應驅動的中文提示語零樣本學習,中文複雜任務定向優化,以及阿裏雲自主研發的transformer訓練加速工具Rapidformer,實現了單機A100即可訓練160億參數大模型。
目前,GPT-MoE 模型已在阿裏雲機器學習PAI EasyNLP項目中開源,和開發者共享中文百億稀疏GPT大模型美女福利导航。
開源項目地址:http://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 大數據 » 阿裏雲推出單機即可訓練百億參數的中文稀疏GPT大模型,登頂 ZeroCLUE零樣本學習榜單