更新時間:2025-07-17 10:14:34作者:佚名
上個月2025年研究生考試落幕之后,最新的考研數學試題便成為了檢驗大語言模型,尤其是推理模型能力的重要平臺,對它們的深度思維能力提出了挑戰。
業界普遍認為,大型語言模型在處理文字任務方面表現出色,然而在數學領域的表現則不盡如人意。去年那場廣為人知的“9.9與9.11”大小比較之爭,眾多知名模型如GPT-4o等均未能給出正確答案,直至深度推理模型問世,才從根本上解決了這一問題。
OpenAI 推出的 o1 模型在處理復雜及專業數理問題時,展現出令人矚目的表現。隨著模型經過一段時間的深思熟慮,其回答問題的能力和準確性顯著增強。這種現象,即所謂的推理側 Scaling Law,已成為持續推動大模型能力進步的核心動力。在黃仁勛于CES 2025舉辦的最新演講中,他還將測試階段(亦即推理階段)的Scaling視為推動大型模型進步的三大發展趨勢之一。
觀察可知,在o1推出之后,我國眾多大型模型制造商亦紛紛推出各自的深度推理模型,且在某些特定任務中展現出卓越的成效。大致的時間線順序可能是這樣的:
眾人或許會感到好奇,這些高階的推理算法(特別是其在數學領域的推理能力)究竟達到了何種高度,究竟又有哪位能夠脫穎而出呢?在這種情況下,舉辦一場公正且規范的測試便顯得尤為重要。
測評團隊,即清華SuperBench大模型測評團隊,旨在全面衡量這些模型在數學推理領域的表現,因而精心挑選了2025年考研數學(一、二、三)的題目,對上述深度推理模型進行了細致的評估。此外,為了保障評測的完整性,評測范圍還涵蓋了各家的頂級基礎模型。
此次選擇的 13 個模型具體如下:
綜合評估各項數據,OpenAI 的 GPT-o1模型在所有參賽模型中脫穎而出,以平均分數領先,這一結果并不令人感到意外。緊隨其后的是智譜的 GLM-Zero-Preview,其三門數學的平均得分高達138.70,僅以不到三分的差距位居第二,榮登國產大型模型之首。而第三名的位置則被通義的 QwQ所占據。
測試方法
在本次評測活動中,測評小組注意到并非所有模型都具備API接口,而且有些模型即便提供了API接口,當輸出內容的長度超過既定限制時,也會發生內容被截斷的現象。為了確保評測結果的公正性和精確度,測評小組決定統一利用各模型廠商提供的網頁版界面來進行測試。
測試環節中2024年考研數學一答案,每道題目都單獨在一個對話窗口內進行,這樣做旨在最大限度地減少上下文信息對測試結果可能帶來的影響。
考慮到某些模型輸出的結果存在一定的波動性,為了減少這種波動對評分結果的影響,測評小組規定,只有當某個模型在連續三次測試中至少有兩次給出正確答案時,才會將其判定為正確響應。
結果分析
接下來,我們將對本次測評結果進行深入剖析,具體從測試總分、單張試卷得分以及深度思考模型與基礎模型之間的對比這三個維度進行詳盡闡述。
總分
測評團隊對三張試卷的分數進行了匯總,并據此計算出了總分平均值,然后依照分數的多少進行了排列。具體結果,請參照下方的圖表。
觀察圖表可知,GPT-o1 繼續占據首位,成為唯一得分超過140分的模型,與位列最后一名的GPT-4相比,其得分優勢達到了70分。
處于第二等級(得分在130分及以上)的模型包括GLM-zero-preview和QwQ,它們分別取得了138.7分和137.0分的好成績。
DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 這些設備均位于第三等級,其得分均超過120分。
觀察結果顯示,深度思考模型普遍能實現120分以上的成績。這一點充分體現了這類模型在處理數學難題上的卓越性能。
值得關注的是,去年(2023年)一度高居榜首的基礎模型GPT-4,在本輪測試中僅得到了70.7分,排名最后。這一成績反映出,在過去的這一年(2024年)里,語言模型在數學推理方面的提升十分顯著。
另一方面,即便在缺乏深度思考能力的輔助之下,僅依靠邏輯推理的能力,DeepSeek-v3 這一基礎模型也成功進入了第三梯隊。這一現象表明,基礎模型與深度思考模型之間的能力差異并非絕對清晰。
單張試卷分析
為了更直觀地呈現大型模型在解答各類試卷時的能力水平,評估小組對每份試卷中錯誤題目的分布狀況進行了細致的剖析。
在數學一的評價環節中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite 這四種模型的表現一致。經過對錯誤題目的深入分析,測評小組發現這些模型在第20題(分值為12分,主要考查曲面積分的計算)和第21題的第二部分(分值為6分,主要涉及特征向量的求解)均出現了失誤。
在數學二的測評過程中,不同模型的得分分布呈現出較大的差異。通過詳細的分析,我們注意到第3題、第5題以及第7題是眾多模型普遍出現錯誤的部分。具體的錯誤題目分布情況,請參考下方的圖表。
數學三評測數據表明,錯誤率較高的區域集中在第14題、第15題、第16題以及第19題。具體錯誤分布情況,請參考下方的圖表。
通過對各試卷中錯誤題目的詳細分析,我們能夠明確地觀察到,在總共的66道題目中,GPT-o1(如陰影列所示)僅犯了3.5道錯誤;而且,GPT-o1所犯的錯誤,其他模型也普遍存在,這一現象表明GPT-o1在當前階段仍然是深度推理領域的頂尖水平。
基礎模型 vs 深度思考模型
最終,測評團隊致力于全面而深入地考察各模型制造商在提升深度思考能力方面所達成的進展,他們細致地對比分析了相關的基礎模型以及深度思考模型。
需要指出的是,這種對比并不代表各個深度思考模型都是基于相應的原始模型進行改進的,其主要意圖是直觀地展示不同廠商在提升模型整體性能方面所取得的進展和成果。
相關對比結果如下圖所示:
經過對比研究,OpenAI開發的深度學習模型GPT-o1在性能上相較于基礎版GPT-4o有了顯著進步,增幅高達57.3分。緊隨其后的是阿里巴巴的Qwen模型和智譜AI的GLM模型,它們的提升幅度分別是47.0分和34.3分。
此外,深度探求與月球背面性能的提升并不顯著,這主要是因為它們的基礎模型分數已經相當高。以深度探求為例,其基礎模型DeepSeek-v3的初始得分竟高達120.3分,在所有參評模型中排名第一。
在本次測試里2024年考研數學一答案,測評小組挑選了表現最為出色的基礎模型DeepSeek-v3作為衡量標準,隨后對各個廠商深度思考模型的性能進步進行了評估,具體的數據分布情況如下圖所展示:
觀察表明,OpenAI、智譜、阿里等公司對深度思考模型的性能進行了顯著改進,與此同時,DeepSeek-v3等模型在本次測試中的表現也大體相當。
仔細審視這些測試結果,我們發現:盡管 OpenAI 的 o1 在深度推理領域依舊保持領先地位,然而國產推理大型模型正逐步縮短與它的距離,智譜 GLM-zero-preview 和阿里 QwQ 在此次的成績中便充分體現了這一趨勢。