#SWE-bench

共 1 篇文章

研究突破2026年3月30日

隨著 AI 代碼生成能力的快速進步，現有基準測試的局限性日益凸顯。本文深度分析 SWE-bench、HumanEval 等主流代碼評測框架的方法論問題，並探討下一代評測框架應如何設計才能真實衡量 AI 的軟件工程能力。