#基準測試

共 3 篇文章

研究突破2026年4月1日

LLM 基準測試可靠性危機：研究揭示主要測試集的污染與過擬合問題

多篇 Q1 論文揭示現有 LLM 基準測試（包括 MMLU、HumanEval、GSM8K）存在嚴重的數據污染和過擬合問題，呼籲建立更嚴格的評估方法論，以防止模型在公開測試集上的「刷分」行為。

#LLM評估 #基準測試 #數據污染

研究突破2026年3月30日

AI 代碼生成基準測試深度分析：SWE-bench 的局限性與下一代評測框架的設計方向

隨著 AI 代碼生成能力的快速進步，現有基準測試的局限性日益凸顯。本文深度分析 SWE-bench、HumanEval 等主流代碼評測框架的方法論問題，並探討下一代評測框架應如何設計才能真實衡量 AI 的軟件工程能力。

#代碼生成 #SWE-bench #AI評測

模型發布2026年3月29日

GPT-5.4 Thinking 技術深度分析：專家級推理能力與百萬 Token 上下文窗口的架構突破

OpenAI 發布 GPT-5.4 'Thinking' 模型，在 GDPVal 專家級基準測試中取得 83% 的成績，配備 100 萬 Token 上下文窗口，並以更小的架構實現接近 GPT-6 等級的推理能力。該模型在 OSWorld-V 基準測試中達到 75%，標誌著推理模型研究的重大里程碑。

#OpenAI #GPT-5.4 #推理模型