研究突破
AI 代碼生成基準測試深度分析:SWE-bench 的局限性與下一代評測框架的設計方向
隨著 AI 代碼生成能力的快速進步,現有基準測試的局限性日益凸顯。本文深度分析 SWE-bench、HumanEval 等主流代碼評測框架的方法論問題,並探討下一代評測框架應如何設計才能真實衡量 AI 的軟件工程能力。
隨著 AI 代碼生成能力的快速進步,現有基準測試的局限性日益凸顯。本文深度分析 SWE-bench、HumanEval 等主流代碼評測框架的方法論問題,並探討下一代評測框架應如何設計才能真實衡量 AI 的軟件工程能力。
OpenAI 發布 GPT-5.4 'Thinking' 模型,在 GDPVal 專家級基準測試中取得 83% 的成績,配備 100 萬 Token 上下文窗口,並以更小的架構實現接近 GPT-6 等級的推理能力。該模型在 OSWorld-V 基準測試中達到 75%,標誌著推理模型研究的重大里程碑。