#LLM評估

共 1 篇文章

研究突破2026年4月1日

多篇 Q1 論文揭示現有 LLM 基準測試（包括 MMLU、HumanEval、GSM8K）存在嚴重的數據污染和過擬合問題，呼籲建立更嚴格的評估方法論，以防止模型在公開測試集上的「刷分」行為。