研究突破2026年4月1日LLM 基準測試可靠性危機:研究揭示主要測試集的污染與過擬合問題多篇 Q1 論文揭示現有 LLM 基準測試(包括 MMLU、HumanEval、GSM8K)存在嚴重的數據污染和過擬合問題,呼籲建立更嚴格的評估方法論,以防止模型在公開測試集上的「刷分」行為。 #LLM評估 #基準測試 #數據污染