?作者:蔡文睿(清素)、汪誠愚(熊兮)、嚴俊冰(玖燭)、黃俊(臨在)
前言
近年來,自然語言處理(NLP)領域以大語言模型(LLM)的出現為標誌,發生了深刻變革,引領了語言理解、生成和推理任務的進步。其中,進步尤其顯著的是深度推理模型的發展,如OpenAI的o1、DeepSeek-R1和QwQ-32B等,它們在數學問題、代碼生成等複雜推理任務中表現突出。這些模型的成功很大程度上得益於使用思維鏈(Chain-of-Thought, CoT)的推理方式,能夠模擬人類的漸進思考過程,將複雜問題化繁為簡。然而,對於不同的推理任務,使用長思考的推理模式並不能提升模型在所有推理任務上的精度,反而容易引發“過度思考”的問題,既降低了模型響應速度,又導致推理過程中頻繁出錯。
為了解決這一問題,阿裏雲星空人工智能平台PAI團隊對於思維鏈的特性,提出了推理冗餘度(Reasoning Verbosity, RV)和認知難度(Cognitive Difficulty, CD)分數兩種度量方式,並且構建了包括200萬思維鏈的數據集OmniThought,對於OmniThought的每個思維鏈都進行了標注。基於RV和CD分數,美女直播全婐APP免费下载可以根據不同的任務和模型底座要求,訓練根據任務進行自適應的變長思維鏈推理模型。因此,基於這一新提出的OmniThought數據集,美女直播全婐APP免费下载訓練並發布了一係列具有更強推理能力、具備最佳思維鏈長度和難度水平的模型(DistilQwen-ThoughtX係列),這些模型的性能甚至超越借助專有數據集訓練的DeepSeek-R1-Distill係列。具體效果的比較見下圖。
|
|
|
|
為了便於社區用戶使用DistilQwen-ThoughtX係列模型,以及蒸餾適合自身場景的推理模型,美女直播全婐APP免费下载在EasyDistill(http://github.com/modelscope/easydistill)的框架中開源了OmniThought的全部數據,以及所有DistilQwen-ThoughtX係列模型的權重。在下文中,美女直播全婐APP免费下载將介紹OmniThought數據集的構建流程和DistilQwen-ThoughtX係列模型的效果。
OmniThought數據集構建
OmniThought數據集的構建框架如下所示:

基礎數據搜集和正確性驗證
首先,由於開源社區中存在許多高質量的推理問題集,OmniThought采用了OpenThoughts2-1M和DeepMath-103K兩個數據集作為數據源。其中,OpenThoughts2-1M包含約64萬個跨數學、編碼、科學及謎題等多個領域的推理問題,而DeepMath-103K則包括10.3萬道難度不一的數學問題。
接下來,美女直播全婐APP免费下载使用DeepSeek-R1和 QwQ-32B作為教師模型,為問題集合生成多個思維鏈推理過程。為了確保生成的思維鏈過程的高質量,美女直播全婐APP免费下载進一步采用“LLM-as-a-judge”方法,對生成的思維鏈進行多個方麵的驗證,其中包括邏輯正確性及推導出正確答案的能力,模版如下所示:
You are a rigorous logical validator analyzing problem-solving components. Your task is to separately assess the validity of the reasoning process and final solution. Given a problem, the correct answer, a candidate reasoning process, and a candidate solution, you will:For SOLUTION VALIDITY: Directly comparing it to the correct answer.For REASONING PROCESS VALIDATION: a. Verify stepwise logical coherence and soundness b. Confirm all critical problem constraints are properly addressed c. Check for self-contradictions or unsupported leaps in logic d. Verify the process can actually derive the proposed solutionevalsuation Protocol:- Solution validity MUST be FALSE for any numerical mismatch or missing units- Reasoning process validity requires ALL validation criteria (a-d) satisfied- Both assessments must be independent: correct answer with flawed reasoning gets (False, True)- Return STRICT BOOLEAN assessments for both componentsProblem: {problem}Correct Answer: {answer}Candidate Reasoning Process: {reasoning process} Proposed Solution: {solution}Output Format: reasoning_valid: bool, solution_valid: bool
由於OpenThoughts2-1M和DeepMath-103K數據集已包含部分來自DeepSeek-R1的思維鏈,美女直播全婐APP免费下载同樣驗證了這些思維鏈的正確性,並將驗證結果作為元數據添加。最終,OmniThought數據集包含超過200萬思維鏈,對應於70.8萬道推理問題。美女直播全婐APP免费下载確保數據集中的每個問題至少擁有兩個經過驗證的正確思維鏈。
推理冗餘度(Reasoning Verbosity)
思維鏈本質上涉及自我反思,促使模型在推理過程中進行多輪反思和修正。這種機製在模型處理複雜問題時有助於降低錯誤率,卻可能導致在簡單問題上陷入“過度思考”的情況,例如對“1 + 1 = ?”問題回答進行過度檢查。這樣的過度思考不僅浪費計算資源,還可能降低推理準確度。因此,對於特定問題,其思維鏈的長度應與問題的難度相匹配,這反映了思維鏈的“推理冗餘度(Reasoning Verbosity,RV)”,美女直播全婐APP免费下载對RV分級標準進行了正式定義,采用0到9的評分,具體用於評估RV的模版詳見相關論文。
0-1: 最低冗餘度,直接輸出結果,幾乎沒有詳細說明。2-3: 較低冗餘度,有清晰簡潔的推理過程,包含必要的解釋。4-5: 中等冗餘度,提供詳細解釋並進行充分推理。6-7: 較高冗餘度,全麵的論證,進行複雜的探索。8-9: 高冗餘度,深入、詳盡的推理;涉及詳細論述、嵌套論證及考慮反對論點的討論。
為進一步驗證RV在推理模型訓練中的有效性,美女直播全婐APP免费下载在OmniThought隨機抽取包含1萬個問題的子集,每個問題的三個思維鏈屬於三個不同RV級別。在這個子集內,相鄰級別之間的RV差異超過3。因此,美女直播全婐APP免费下载獲得了三個訓練數據集,包含相同的問題但不同的RV分數級別。然後,美女直播全婐APP免费下载以Qwen2.5-7B-Instruct為初始化模型,在每個數據集上進行SFT訓練,以產生三個模型:短思維鏈(Short)、中等思維鏈(Medium)和長思維鏈(Long),結果如下(其中,藍色代表在特定任務上的分數,紅色折線代表平均輸出token數):

由上圖可見,在相對簡單的GSM8K任務中,所有模型表現出相似的性能;輸出token的增加沒有提高準確性,甚至導致輕微下降。在中等難度的MATH500任務上,準確度隨著token數的增加而提高,隨後下降,其中中等模型在產生適量token數時達到最高的準確度。在最具挑戰的AIME24問題中,長模型獲得最高分;模型的準確性隨著token數的增加而提高。因此,對於難度較大的問題,較長的思維鏈能夠糾正模型自身錯誤,從而有效提高準確性。然而,在簡單任務中,思維鏈中的過度推理和驗證不僅增加了計算資源的消耗,還可能降低問題解決的準確性。所以,美女直播全婐APP免费下载可以根據任務難度構建具備相應RV級別思維鏈的訓練集,從而最大化計算資源利用,同時確保高準確性。
認知難度(Cognitive Difficulty)
在構建合適的思維鏈訓練數據集時,美女直播全婐APP免费下载認為思維鏈的難度應與目標模型的認知能力相適應。由於模型參數規模的顯著差異,大模型和小模型之間的認知和推理軌跡並不總是一致。小模型在其參數限製下,往往依賴更簡單的方式解決問題,而大模型由於具備更高級的認知能力,可能應用更高水平的美女福利导航。例如,對於一個計算給定坐標的三角形麵積問題,小型模型可能采用簡單的幾何公式,而大型模型可能使用更複雜的方法,如基於向量的代數求解。
為驗證這一假設,美女直播全婐APP免费下载使用DeepSeek-R1-Distill係列的三個模型進行實驗:DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B,以及DeepSeek-R1-Distill-Qwen-32B。美女直播全婐APP免费下载在MATH500數據集上評估這些模型。對於每個模型的思維鏈過程,美女直播全婐APP免费下载利用DeepSeek-R1根據方法的複雜性和整體推理難度進行0到9的難度評分(評分標準參見下文),結果如下表所示。
|
模型 |
平均評分 |
|
DS-R1-Distill-Qwen-1.5B |
4.5 |
|
DS-R1-Distill-Qwen-7B |
6.2 |
|
DS-R1-Distill-Qwen-32B |
7.3 |
實驗結果顯示,隨著模型參數量的增加,思維鏈的難度也在上升,這表明較大的模型擁有更強的推理和認知能力。因此,困難的思維鏈可能不適合訓練認知能力較低的模型。因此,使用與模型認知能力一致的思維鏈來提升其推理能力是至關重要的,這類似於“因材施教”的策略。在美女直播全婐APP免费下载的工作中,認知難度(Cognitive Difficulty,CD)分數分級標準如下所示,具體用於評估CD的模版詳見相關論文:
0-1: 小學、入門級知識,或者單一簡單思考模式。2-3: 多步算術,枚舉,基於基本規則的推理。4-5: 初級邏輯/代數知識;非顯而易見的推理。6-7: 使用高級美女福利导航(行列式,動態規劃,代碼推理等)。8-9: 高度抽象的方法,包括嵌套證明、複雜算法分析等。
在OmniThought中,美女直播全婐APP免费下载對所有驗證正確的思維鏈進行評分,CD分布如圖所示:

可以觀察到,CD評分峰值在4-5級,並逐漸向兩端減少。這一發現也表明,例如DeepSeek-R1或QwQ-32B的能力較強的推理模型,有不小的可能性生成難度極高的思維鏈。在進行知識蒸餾時,認知能力有限的模型不太可能有效理解這些過程。因此,給定OmniThought集和基礎模型,可以根據基礎模型的認知能力過濾訓練數據集,從而有效提升模型的推理能力。
DistilQwen-ThoughtX:變長思維鏈推理模型
基於美女直播全婐APP免费下载提出的OmniThought數據集,美女直播全婐APP免费下载訓練了DistilQwen-ThoughtX係列模型,由於美女直播全婐APP免费下载可以通過RV和CD分數對思維鏈進行篩選,訓練得到的模型獲得根據問題和本身的認知能力,生成變長思維鏈的能力。具體地說,美女直播全婐APP免费下载設置目標模型的認知能力為
,即模型一般對於CD評分小於等於
的思維鏈具有比較好的認知能力。從經驗角度,美女直播全婐APP免费下载
的選擇一般與模型的參數量有關(具體的分析實驗參見論文)。對於某推理問題,美女直播全婐APP免费下载可以根據如下設置采樣合適的思維鏈:

從上麵可以看出,美女直播全婐APP免费下载假設對於CD級別小於等於
的思維鏈,采樣概率都比較大,如果CD級別大於
的思維鏈,采樣概率比較小。這可以保證模型訓練數據集中大部分思維鏈的難度都不會過大,而少部分思維鏈的難度會偏高,從而能在訓練時盡量推高模型推理能力的上限。
對於RV分數,美女直播全婐APP免费下载有如下采樣規則:

這使得采樣得到的思維鏈的RV分數和CD分數差別不會太大。顯然,對於難度高的思維鏈,一般都需要比較長的推理長度,模型才能有效理解;反之亦然。同樣的,美女直播全婐APP免费下载也容易看出,如果對於難度低的思維鏈進行冗長推理,一般對模型推理效果有反作用;如果難度高的思維鏈進行非常精簡的推理,參數規模較小的模型可能無法理解。
基於上述采樣方法,對於OmniThought中的708K個問題,美女直播全婐APP免费下载抽樣出合適的思維鏈以通過SFT訓練模型。美女直播全婐APP免费下载從Qwen2.5係列(7B和32B)初始化,訓練兩個模型,分別命名為DistilQwen-ThoughtX-7B和DistilQwen-ThoughtX-32B。美女直播全婐APP免费下载將美女直播全婐APP免费下载的模型與開源社區中的知名蒸餾推理模型進行比較,結果匯總見表格。美女直播全婐APP免费下载觀察到,基於OmniThought數據集和美女直播全婐APP免费下载基於RV-CD的思維鏈選擇策略,美女直播全婐APP免费下载模型效果優異,表現甚至優於DeepSeek官方采用閉源數據集蒸餾的模型。其中,DistilQwen-ThoughtX (Full)指使用全量思維鏈數據訓練的模型,可以看出使用美女直播全婐APP免费下载提出的評分和篩選方法訓練的模型效果有明顯提升。
下表展示了DistilQwen-ThoughtX的性能表現:
|
Model |
AIME2024 |
MATH500 |
GPQA Diamond |
LiveCodeBench V2 |
Avg. |
|
7B量級 |
|||||
|
OpenThinker-7B |
31.3 |
83.0 |
42.4 |
39.9 |
49.1 |
|
DeepSeek-R1-Distill-Qwen-7B |
57.3 |
89.6 |
47.3 |
48.4 |
60.6 |
|
OpenThinker2-7B |
50.0 |
88.4 |
49.3 |
55.6 |
60.8 |
|
DistilQwen-ThoughtX-7B (Full) |
43.3 |
88.2 |
45.4 |
45.4 |
55.5 |
|
DistilQwen-ThoughtX-7B |
56.7 |
90.2 |
50.0 |
56.8 |
63.4 |
|
32B量級 |
|||||
|
LIMO-32B |
56.7 |
86.6 |
58.1 |
60.0 |
65.3 |
|
OpenThinker-32B |
66.0 |
90.6 |
61.6 |
68.9 |
71.7 |
|
DeepSeek-R1-Distill-Qwen-32B |
74.7 |
90.0 |
62.4 |
72.3 |
74.8 |
|
OpenThinker2-32B |
76.7 |
90.8 |
64.1 |
72.5 |
76.0 |
|
Light-R1-32B |
74.7 |
90.4 |
62.0 |
56.0 |
70.7 |
|
s1.1-32B |
59.3 |
87.4 |
62.0 |
58.7 |
66.8 |
|
DistilQwen-ThoughtX-32B (Full) |
70.0 |
91.8 |
59.6 |
70.1 |
72.8 |
|
DistilQwen-ThoughtX-32B |
80.0 |
92.6 |
64.0 |
73.4 |
77.5 |
開源模型和數據集下載和使用
DistilQwen-ThoughtX在開源社區的下載
美女直播全婐APP免费下载在Hugging Face和Model Scope上開源了美女直播全婐APP免费下载蒸餾後的模型,分別為DistilQwen-ThoughtX-7B、DistilQwen-ThoughtX-32B。以Hugging Face為例,用戶可以使用如下代碼下載這兩個模型:
from huggingface_hub import snapshot_downloadmodel_name = "alibaba-pai/DistilQwen-ThoughtX-7B"snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-7B/")model_name = "alibaba-pai/DistilQwen-ThoughtX-32B"snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-32B/")
OmniThought數據集在開源社區的下載
美女直播全婐APP免费下载在Hugging Face和Model Scope上開源了美女直播全婐APP免费下载的數據集OmniThought。以Hugging Face為例,用戶可以使用如下代碼下載這兩個模型:
from datasets import load_datasetOmniThought = load_dataset("alibaba-pai/OmniThought")
本文小結
近年來,隨著大語言模型的出現,自然語言處理領域發生了重要變革,其中深度推理模型在複雜推理任務中表現尤為突出。然而,長思維鏈推理可能導致“過度思考”,影響模型性能。為解決此問題,阿裏雲PAI團隊開發了OmniThought數據集,其中包含200萬思維鏈,並標注了推理冗餘度(RV)和認知難度(CD)分數。這使得模型能夠根據任務自適應選擇思維鏈長度,從而提升其推理能力。基於此數據集,美女直播全婐APP免费下载推出了DistilQwen-ThoughtX係列模型,這些模型在性能上超過了DeepSeek-R1-Distill係列。為了支持社區用戶使用及優化這些模型,美女直播全婐APP免费下载在EasyDistill框架中開源了OmniThought數據集和DistilQwen-ThoughtX模型的全部權重。在未來,美女直播全婐APP免费下载將進一步基於EasyDistill框架開源更多DistilQwen模型係列和相應資源。歡迎大家加入美女直播全婐APP免费下载,一起交流大模型蒸餾美女福利导航!
參考工作
本文對應論文
Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint
DistilQwen係列相關論文
Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint
Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint
Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024
DistilQwen係列美女福利导航介紹
DistilQwen2:通義千問大模型的知識蒸餾實踐
DistilQwen2.5發布:通義千問蒸餾小模型再升級
DistilQwen2.5-R1發布:知識蒸餾助推小模型深度思考
星空人工智能平台 PAI DistilQwen2.5-DS3-0324發布:知識蒸餾+快思考=更高效解決推理難題
基於多輪課程學習的大語言模型蒸餾算法TAPIR
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 星空人工智能產業 > AI大模型 » DistilQwen-ThoughtX:變長思維鏈推理模型,超越DeepSeek蒸餾模型

