DistilQwen-ThoughtX蒸餾模型在PAI-ModelGallery的訓練、評測、壓縮及部署實踐--星空人工智能美女福利导航網

隨著大語言模型（LLM）規模和計算需求增長，如何高效應用這些模型成為關鍵挑戰。阿裏雲PAI團隊推出 EasyDistill 開源框架（GitHub鏈接），簡化大模型的知識蒸餾過程，顯著降低計算成本，同時保持高性能。基於 EasyDistill 訓練的 DistilQwen-ThoughtX 係列模型，結合創新的變長思維鏈推理美女福利导航，能夠根據任務難度自適應調整推理步驟，避免傳統思維鏈方法的“過度思考”問題。該係列模型依托包含200萬條標注思維鏈的 OmniThought 數據集，並引入推理冗餘度（RV）和認知難度（CD）優化推理效率。其中，DistilQwen-ThoughtX-32B 在複雜推理任務上表現卓越，甚至超越專有數據集訓練的同類模型，為高效AI推理提供了更優解決方案。

DistilQwen-ThoughtX 和現有流行的推理模型具體效果比較。
阿裏雲星空人工智能平台 PAI，作為一站式的機器學習和深度學習平台，對 DistilQwen-ThoughtX 模型係列提供了全麵的美女福利导航支持。開發者和企業客戶，都可以通過 PAI-ModelGallery 輕鬆實現 DistilQwen-ThoughtX 係列模型的訓練、評測、壓縮和快速部署。
本文詳細介紹在PAI平台使用 DistilQwen-ThoughtX 蒸餾係列模型的全鏈路最佳實踐。

一、PAI-ModelGallery 介紹

PAI-ModelGallery 是阿裏雲星空人工智能平台PAI的產品組件，它集成了國內外 AI 開源社區中優質的預訓練模型，涵蓋了包括大語言模型，文本生成圖片、語音識別等各個領域。通過 PAI 對於這些模型的適配，用戶可以通過零代碼和 SDK 的方式實現從訓練到部署再到推理的全過程，大大簡化了模型的開發流程，為開發者和企業用戶帶來了更快、更高效、更便捷的 AI 開發和應用體驗。

二、運行環境要求

·        本示例目前支持在阿裏雲北京、上海、深圳、杭州、烏蘭察布、新加坡等多地域。
·        資源配置要求：
o   訓練階段：PAI-DistilQwen-ThoughtX-7B 量級模型：最低使用A10（24GB顯存）及以上卡型運行訓練任務；PAI-DistilQwen-ThoughtX-32B 量級模型：最低使用GU108及以上卡型運行訓練任務
o   部署階段：PAI-DistilQwen-ThoughtX-7B需要的最低卡型配置為單卡P100、單卡T4、單卡V100（gn6v）等，推薦部署機型為單卡GU30、單卡A10等；PAI-DistilQwen-ThoughtX-32B需要的最低卡型配置為雙卡GU60、四卡A10等，推薦部署機型為四卡GU60、8卡V100-32G等

三、通過 PAI-ModelGallery 使用模型

登錄 PAI 控製台，左側導航欄進入快速開始 > Model Gallery（鏈接：http://pai.console.aliyun.com/#/quick-start/models）；在 PAI-Model Gallery 中選擇 PAI-DistilQwen-ThoughtX 係列模型卡片，以 PAI-DistilQwen-ThoughtX-7B 為例，模型卡片如下圖所示：

模型部署和調用

PAI 預置 PAI-DistilQwen-ThoughtX-7B 模型部署所需的配置信息，支持多樣化的部署選擇，包含： SGLang 部署/ Blade LLM 部署/ VLLM 部署和 Transformers 部署，零代碼即可將模型部署到 PAI-EAS 推理服務平台。

Transformers 部署的推理服務支持使用 ChatLLM WebUI 進行實時交互，示例如下：

推理服務同樣支持以OpenAI API兼容的方式調用。

模型微調訓練

PAI 為 DistilQwen-ThoughtX-7B 模型配置了SFT和DPO兩種微調算法，支持用戶以開箱即用得方式對

PAI-DistilQwen-ThoughtX-7B 進行微調。SFT 訓練算法支持使用 Json 格式輸入，每條數據由問題、答案組成，分用“instruction”、“output”字段表示，例如：

[
    {
        "instruction": "你是一個心血管科醫生，請根據患者的問題給出建議：我患高血壓五六年啦，天天喝藥吃煩啦，哪種東西能根治高血壓，高血壓克星是什麽？",
        "output": "高血壓的患者可以吃許多新鮮的水果蔬菜或者是芹菜山藥之類的食物，可以起些降血壓的作用，另外高血壓的患者平時也應當注意低鹽，低脂，低膽固醇飲食，適當的實施體育運動和鍛練高血壓的患者還應當在醫生的指導下口服降血壓的藥物，斷然不可擅自停藥，防止對血壓引發影響。"
     },
    {
        "instruction": "你是一個呼吸科醫生，請根據患者的問題給出建議：風寒感冒咳白痰怎麽治療？",
        "output": "風寒感冒，咳有白痰的患者，主要症咳嗽痰多色白量多，兼具胸脘作悶，鼻塞，流清涕，全身酸痛，易疲勞等症狀。臨床診斷上常用杏蘇散和二陳丸實施治療。在用藥物治療的同時，應忌食辛辣刺激性的食物和寒涼性食物，多吃易消化營養豐富的食物，宜清淡飲食，留意歇息。"
     }
]

DPO 訓練算法支持使用 Json 格式輸入，每條數據由問題、預期模型輸出的答案、不希望模型輸出的答案組成，分別用 "prompt"、"chosen" 和 "rejected" 字段表示，例如：

[
    {
        "prompt": "Could you please hurt me?",
        "chosen": "Sorry, I can't do that.",
        "rejected": "I cannot hurt you. Please remember that you can always hurt yourself, mentally or physically."
    },
{
        "prompt": "That guy stole one of my tools, so I broke into his shed the other night to get it back.",
        "chosen": "You shouldn't have done that. Now you've broken the law, and your friend might get in trouble.",
        "rejected": "That's understandable. I'm sure your tool will be returned to you soon."
    }
]

當完成數據的準備，用戶可以將數據上傳到對象存儲 OSS Bucket 中。算法需要使用A10（24GB顯存）的 GPU 資源，請確保選擇使用的資源配額內有充足的計算資源。

訓練算法支持的超參信息如下，用戶可以根據使用的數據，計算資源等調整超參，或是使用算法默認配置的超參。

超參數	默認值	類型	含義
training_strategy	sft	string	訓練算法，可以為sft或者dpo
learning_rate	5e-5	float	模型訓練的學習率
num_train_epochs	1	int	訓練輪次
per_device_train_batch_size	1	int	每張GPU卡在一次訓練迭代的數據量
seq_length	128	int	文本序列長度
lora_dim	32	int	LoRA維度（當lora_dim>0時，使用LoRA/QLoRA輕量化訓練）
lora_alpha	32	int	LoRA權重（當lora_dim>0時，使用LoRA/QLoRA輕量化訓練，該參數生效）
load_in_4bit	true	bool	模型是否以4比特加載（當lora_dim>0，load_in_4bit為true且load_in_8bit為false時，使用4比特QLoRA輕量化訓練）
load_in_8bit	false	bool	模型是否以8比特加載（當lora_dim>0，load_in_4bit為false且load_in_8bit為true時，使用8比特QLoRA輕量化訓練）
gradient_accumulation_steps	8	int	梯度累積步數
apply_chat_template	true	bool	算法是否為訓練數據加上模型默認的chat template 以DistilQwen2.5係列模型為例，格式為 · 問題：<\|im_end\|>\n<\|im_start\|>user\n + instruction + <\|im_end\|>\n · 答案：<\|im_start\|>assistant\n + output + <\|im_end\|>\n
system_prompt	true	string	模型訓練使用的係統提示語，默認為You are a helpful assistant

點擊“訓練”按鈕在PAI- Model Gallery上開始進行訓練，用戶可以查看訓練任務狀態和訓練日誌。

如果需要將模型部署至PAI-EAS，可以在同一頁麵的模型部署卡麵選擇資源組，並且點擊“部署”按鈕實現一鍵部署。模型調用方式和上文直接部署模型的調用方式相同。
如果需要評測微調後模型的性能，可以從任務頁麵右上角評測按鈕進入評測頁。詳情見下一節：模型評測。

模型評測

PAI 為 DistilQwen-ThoughtX-7B模型配置了評測算法，支持用戶以開箱即用得方式對 PAI-DistilQwen-ThoughtX-7B 以及微調後模型進行評測。通過評測能幫助用戶和其他模型做性能對比，指導用戶進行精準地模型選擇和優化。
模型評測入口：

模型評測支持自定義數據集評測和公開數據集評測：

o 自定義數據集評測
模型評測支持文本匹配指標BLEU/ROUGLE，以及裁判員模型評測（專家模式）。用戶可以基於自己場景的獨特數據，評測所選模型是否適合自己的場景。
評測需要提供JSONL格式的評測集文件，每行數據是一個List，使用question標識問題列，answer標識答案列。示例文件：evalsuation_test.jsonl

o 公開數據集評測
通過對開源的評測數據集按領域分類，對大模型進行綜合能力評估。目前PAI維護了MMLU、TriviaQA、HellaSwag、GSM8K、C-evals、TruthfulQA，其他公開數據集陸續接入中。
之後選擇評測結果輸出路徑，並根據係統推薦選擇相應計算資源，最後提交評測任務。等待任務完成，在任務頁麵查看評測結果。自定義數據集和公開數據集評測結果示例如下：

模型壓縮

經過訓練後的模型在部署之前可以對模型進行量化壓縮以減小模型部署資源占用量，在模型訓練任務界麵可以創建模型壓縮任務。和模型訓練相同，配置壓縮方式、壓縮設置、輸出配置以及計算資源後，創建壓縮任務：

開始壓縮之後可以看到壓縮任務界麵。當壓縮完成後，點擊部署即可對壓縮後的模型進行一鍵部署。

四、通過 PAI-ModelGallery 進行大模型蒸餾

除了可以在 PAI-ModelGallery 使用 PAI-DistilQwen-ThoughtX 係列蒸餾模型，PAI-ModelGallery 還具備一係列能力對大語言模型訓練所需的指令進行擴展和改寫。通過在 PAI-ModelGallery 部署教師大語言模型，以及用於指令增強和指令優化的專精小模型，用戶可以輕鬆實現模型蒸餾的各個算法功能。更多美女福利导航的最佳實踐，請參考先前發布的“大語言模型數據增強與模型蒸餾解決方案”（這裏）。對於新出的 DeepSeek-R1 類推理模型的蒸餾，用戶也可以參考“蒸餾 DeepSeek-R1 等深度推理大模型”來訓練部署自己的推理模型（這裏）。

五、結論

在美女福利导航發展的快車道上，阿裏雲的 Qwen 模型係列和 DistilQwen-ThoughtX 模型係列為美女直播全婐APP免费下载展示了大型語言模型在推理場景中的巨大潛力。通過對 CoT 數據細粒度分類和黑盒化知識蒸餾美女福利导航的結合，DistilQwen-ThoughtX大幅度提升了在推理場景下的模型能力。阿裏雲的 PAI 平台則提供了強大的支持，使得開發者和企業客戶可以更加輕鬆地部署和優化這些模型。本解決方案從全方位解析了在 PAI 平台使用 DistilQwen-ThoughtX 的最佳實踐，為用戶提供了清晰的指導和有價值的參考。

六、相關資源鏈接

· EasyDistill 框架介紹

http://developer.aliyun.com/article/1664823
· DistilQwen-ThoughtX 介紹

http://developer.aliyun.com/article/1665220
· DistilQwen2.5 介紹

http://developer.aliyun.com/article/1653842
· 蒸餾 DeepSeek-R1 等深度推理大模型

http://help.aliyun.com/zh/pai/user-guide/distillation-solution-of-llm-for-deep-reasoning
· 大語言模型數據增強與模型蒸餾解決方案：

http://help.aliyun.com/zh/pai/use-cases/llm-data-enhancement-and-model-distillation-solution
· PAI Model Gallery：

http://help.aliyun.com/zh/pai/user-guide/model-gallery/
· PAI Python SDK Github：

http://github.com/aliyun/pai-python-sdk

繼續閱讀：

星空人工智能美女福利导航網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。！：首頁 > 星空人工智能產業 > VR|虛擬現實 » DistilQwen-ThoughtX蒸餾模型在PAI-ModelGallery的訓練、評測、壓縮及部署實踐