9月29日晚,DeepSeek-V3.2-Exp模型正式發布。優刻得模型服務平台UModelVerse極速完成接入,作為AI應用開發者,無需關注底層算力資源調度、基礎環境的模型部署,UModelVerse控製台全麵覆蓋從模型訓練到應用上線的全流程,輕鬆實現業務模型的快速落地與迭代,歡迎登陸體驗!
UModelVerse控製台模型廣場
官方表示DeepSeek-V3.2-Exp是一個實驗性(Experimental)的版本,是邁向新一代架構的中間步驟。V3.2-Exp在V3.1-Terminus的基礎上引入了DeepSeek Sparse Attention(一種稀疏注意力機製),針對長文本的訓練和推理效率進行了探索性的優化和驗證。
稀疏注意力機製(DSA)
DeepSeek Sparse Attention(DSA)首次實現了細粒度稀疏注意力機製,在幾乎不影響模型輸出效果的前提下,實現了長文本訓練和推理效率的大幅提升。
V3.1-Terminus和V3.2-Exp在BrowseComp和SWE Verified上的強化學習訓練曲線,實線和虛線分別表示準確率和平均輸出tokens
V3.1-Terminus和V3.2-Exp推理成本對比
與之前模型最大的不同在於,DSA不再要求每個Token關注序列中的所有其他Token,而是引入了一個名為「閃電索引器」(lightning indexer)的高效組件。這個索引器能以極快的速度判斷,對於當前正在處理的Token,序列中哪些曆史Token是最重要的。隨後,模型僅從這些關鍵Token中篩選出少量(例如Top-k,取2048個)進行精細計算,從而在處理長文本時顯著提升效率。更重要的是,這種設計在實現效率飛躍的同時,並未犧牲模型的核心性能。
DeepSeek-V3.2-Exp的注意力架構
根據官方公布的評測結果,在與前代模型V3.1-Terminus嚴格對齊的訓練設置下,V3.2-Exp在各大公開基準測試中的表現與前者基本持平。
V3.1-Terminus和V3.2-Exp在各基準下測評對比
此外,為支持社區研究,DeepSeek還開源了新模型研究中設計和實現的GPU 算子,包括TileLang和CUDA兩種版本。官方團隊建議在進行研究性實驗時,優先使用基於TileLang的版本,以便於調試和快速迭代。
得益於新模型服務成本的大幅降低,官方API價格也相應下調,新價格即刻生效。在新的價格政策下,開發者調用DeepSeek API的成本將降低50%以上。
登錄UModelVerse一鍵調用
步驟一:注冊並登錄UCloud雲平台
平台地址:http://console.ucloud.cn/modelverse/model-center
步驟二:實名認證
使用模型服務前用戶需要完成實名認證。
步驟三:創建API Key
進入UModelVerse-API Key管理。
平台地址:http://console.ucloud.cn/modelverse/experience/api-keys
點擊左上角創建一個Key,新用戶注冊免費50萬tokens。
步驟四:發送請求
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 大數據 » 優刻得搶先接入DeepSeek-V3.2-Exp