OpenAI GPT-5.3 Codex 首度觸發「高能力」網安風險警報:AI 編程與網絡安全的分水嶺
2 月 5 日,OpenAI 發布 GPT-5.3 Codex——史上最強 Agentic 編程模型。但前所未有的是,這是 OpenAI 首次在其「準備度框架」下將一款模型標記為網絡安全領域的「高能力」風險。上線兩週後,網安公司報告 AI 生成的惡意軟件樣本激增 30%。AI 監管機構 Midas Project 隨即指控 OpenAI 違反加州 AI 安全法。
2 月 5 日,OpenAI 發布 GPT-5.3 Codex——史上最強 Agentic 編程模型。但前所未有的是,這是 OpenAI 首次在其「準備度框架」下將一款模型標記為網絡安全領域的「高能力」風險。上線兩週後,網安公司報告 AI 生成的惡意軟件樣本激增 30%。AI 監管機構 Midas Project 隨即指控 OpenAI 違反加州 AI 安全法。
GPT-5.3 Codex 不僅是一個更好的代碼生成器——它是 OpenAI 迄今最強大的 Agentic 編程模型,能夠執行開發者和專業人員在電腦上能做的幾乎所有事情。它在 SWE-Bench Pro 和 Terminal-Bench 上創下了新的行業最高記錄,在實際軟件工程評估中達到了最先進的性能水平。
更引人注目的是,GPT-5.3 Codex 在一定程度上「參與了自身的構建」。The New Stack 報導稱,這個模型在開發過程中被用來輔助其自身的改進——這代表了 AI 系統自我遞歸改進的一個早期里程碑。
與此同時,OpenAI 還推出了 GPT-5.3-Codex-Spark——一個更小、更快的版本,標誌著 OpenAI 與 Cerebras 合作的第一個里程碑。Codex-Spark 針對超低延遲硬體優化,能夠實現每秒超過 1,000 個 Token 的輸出速度,專為實時編程場景設計。
這是 OpenAI 歷史上首次在其「準備度框架」(Preparedness Framework)下,將一款模型在網絡安全領域標記為「高能力」風險,並啟動了相應的安全措施。OpenAI 的系統卡明確表示:「這是我們認為第一個在編程和推理方面足夠出色,可能在現實世界中實質性地促成網絡危害的模型——特別是在自動化或大規模使用的情況下。」
需要注意的是,OpenAI 表示他們「並沒有確定性證據表明該模型能夠端到端地自動化網絡攻擊」。但出於預防原則,他們正在部署「迄今最全面的網絡安全安全堆棧」,包括安全訓練、自動化監控、可信訪問機制和執法管道。
「網絡安全本質上是雙重用途的。我們正在採取基於證據的、迭代的方法——加速防禦者發現和修復漏洞的能力,同時減緩濫用。」——OpenAI GPT-5.3 Codex 系統卡
OpenAI 的系統卡披露了一組令人深思的紅隊測試數據。紅隊測試人員總共投入了 2,151 小時的測試努力,提交了 279 份報告。他們發現了 132 個「假陰性」——即安全推理器(Safety Reasoner)本應觸發阻擋但未能觸發的案例。
更值得關注的是,英國 AI 安全研究所(UK AISI)開發了一種通用越獄攻擊方法(帶重試),在一個違反政策的網絡安全數據集上,僅使用單一用戶消息就實現了 0.778 的 pass@200 成功率。這意味著,在 200 次嘗試中,有約 78% 的概率可以繞過安全防護措施。
GPT-5.3 Codex 的發布迅速引發了法律爭議。AI 監管機構 Midas Project 指控 OpenAI 未能遵守其自身的安全承諾——而這些承諾現在在加州法律下具有法律約束力。
Midas Project 的核心指控是:儘管 GPT-5.3 Codex 觸發了「高風險」網絡安全閾值,OpenAI 似乎未能實施所要求的安全措施。他們引用了安全報告第 29 頁的內容,指出相關措施「不足以成為一份安全保障報告」。
OpenAI 反駁了這些指控,聲明「GPT-5.3 Codex 完成了我們完整的測試和治理流程」,並且「沒有展示出長期自主能力」。這場爭議突顯了一個更深層次的問題:當 AI 模型的能力進入安全敏感區域時,什麼才構成「足夠」的安全措施?
GPT-5.3 Codex 的影響不僅限於理論層面。自 2 月 5 日發布以來,網絡安全公司報告 AI 生成的惡意軟件樣本增加了 30%,並且在野外發現了更複雜的漏洞利用代碼。
這些數據並不意味著 GPT-5.3 Codex 是惡意軟件增長的直接原因——它可能反映了整個 AI 編程工具生態系統能力提升的累積效應。但它確實表明,隨著 AI 編程能力的急速提升,網絡安全威脅的性質和規模正在發生根本性變化。
GPT-5.3 Codex 的故事完美地體現了先進 AI 系統的「雙重用途」特性。同樣的能力既可以被安全研究人員用來發現和修補漏洞,也可以被攻擊者用來發現和利用漏洞。
OpenAI 正試圖通過「可信訪問」機制來管理這種雙重性——為經過身份驗證的安全專業人員提供完整訪問權限,同時限制可能的濫用。但這種方法的有效性取決於身份驗證系統的嚴密程度和攻擊者規避限制的能力。
紅隊測試中發現的 132 個假陰性和 UK AISI 的 78% 越獄成功率,表明現有的安全措施遠非完美。這引發了一個根本性的問題:是否應該在安全措施完善之前就發布具有潛在危險的 AI 系統?
香港作為國際金融中心,是網絡攻擊的高優先目標。GPT-5.3 Codex 級別的 AI 編程能力意味著,針對金融系統的自動化攻擊可能變得更加精細和難以檢測。
對於香港的網絡安全從業者來說,這是一個既挑戰也是機遇的時刻。挑戰在於,他們需要應對 AI 增強的網絡威脅;機遇在於,同樣的 AI 工具也可以大幅提升防禦能力——包括自動化漏洞掃描、即時威脅檢測和智能事件回應。