自大型語言模型(LLM)競賽格局形成以來,模型排行榜(Leaderboard)扮演著重要的信息角色,然而近期多篇 arXiv 論文對主流基準測試的可靠性提出了系統性質疑。
問題的根源:什麼是「基準污染」?
「基準污染」(Benchmark Contamination)指的是:模型訓練數據中包含了評估測試集的題目或答案,導致模型在測試時表現出「記憶答案」而非「真正推理」的能力。
由於現代 LLM 的訓練語料通常涵蓋大量公開網絡文本,而 MMLU、GSM8K、HumanEval 等主流測試集長期公開可用,其題目和答案不可避免地出現在訓練數據中。
最新研究發現
MMLU 污染率研究
MIT 和 Stanford 合作的論文《Re-evaluating MMLU: Contamination, Saturation, and the Future of LLM Benchmarks》(arXiv, Q1 2026)發現:
- 對主流開源 LLM 的測試顯示,約 15-28% 的 MMLU 題目存在不同程度的污染(即題目可在模型訓練期間的公開網頁中找到原始版本)
- 在「污染」題目上,模型表現比「未污染」題目高出約 12-18 個百分點
- 即使是閉源模型,也無法排除訓練數據爬取了包含 MMLU 答案的網頁
HumanEval 過擬合問題
HumanEval(代碼生成標準測試集)的問題更為嚴峻:其所有164道題目早在 2021 年已公開,且被廣泛引用和討論。
EvalPlus 研究團隊的調查發現,將 HumanEval 題目改寫為「語義等效但表述不同」的版本(HumanEval+)後,多數模型的通過率下降 8-22%,說明部分「能力」實為對特定題目表述的記憶。
GSM8K 飽和問題
多個前沿模型在 GSM8K(小學算術推理)已達到 97%+ 的通過率,使該測試集失去區分能力。研究者正尋找難度更高的替代方案(如 GSM-Symbolic、AIME 2026 等)。
影響:排行榜可信度存疑
這一系列發現對當前 LLM 生態的影響不容低估:
- 模型選型困難:企業依賴排行榜選擇模型時,所獲信息可能存在系統性偏差
- 研究重複建設:基於「過擬合基準」進行的模型改進研究,其意義存疑
- 公正競爭問題:閉源模型可在不透明的訓練數據中悄然包含測試集信息
解決方向
研究社群正在探索多種替代評估方式:
- 動態基準(Dynamic Benchmarks):每次評估時動態生成新題目,防止固定題目被記憶
- 私有保留集(Private Hold-out Sets):測試集不公開,僅由獨立第三方執行
- 能力溯源評估(Capability Tracing):不僅評估最終答案,也評估推理路徑
- 對抗性評估(Adversarial Evaluation):設計專門針對模型「盲點」的題目集
相關論文可在 arXiv.org 上搜索「benchmark contamination LLM 2026」查閱最新進展。