← 返回新聞列表

英國 AI 安全研究所突破 Anthropic 與 OpenAI 防線:Boundary Point Jailbreaking 的深層意義

英國 AI 安全研究所(UK AISI)紅隊於 2 月 16 日發表論文(arXiv: 2602.15001),提出名為 Boundary Point Jailbreaking(BPJ)的全自動黑箱攻擊方法,以低至 210 美元的成本首次突破 Anthropic 的 Constitutional Classifiers 和 OpenAI 的 GPT-5 輸入分類器。兩家公司均確認,這是首個成功繞過其防禦系統的自動化攻擊。這項研究不僅暴露了當前 AI 安全防禦的結構性弱點,更揭示了一個令人警醒的現實:攻擊者與防禦者之間的不對稱性,遠比我們想像的更為嚴峻。

一篇論文,兩道防線同時告破

要理解這篇論文的分量,首先需要了解它所攻破的防禦系統的地位。Anthropic 的 Constitutional Classifiers 是業界公認最為先進的 AI 安全分類器之一,其設計理念源於 Anthropic 引以為傲的「憲法 AI」(Constitutional AI)框架——透過一套明確的原則體系來約束 AI 行為。OpenAI 的 GPT-5 輸入分類器則是保護當前最強大商用語言模型的第一道門戶。這兩套系統分別代表了 AI 安全防禦的兩種主要哲學:基於原則的內容審查和基於模型的輸入過濾。

UK AISI 紅隊的研究者在一篇論文中同時攻破了這兩套系統——這本身就是一個非同尋常的成就。更引人注目的是攻擊的經濟成本:對 Anthropic 系統的攻擊花費約 330 美元,消耗約 66 萬次查詢;對 OpenAI 系統的攻擊花費約 210 美元,消耗約 80 萬次查詢。在一個 AI 安全投入動輒數千萬美元的行業中,數百美元就能突破頂級防線,這個成本比例令人深思。

Boundary Point Jailbreaking 攻擊成果一覽

  • 論文:arXiv: 2602.15001,2 月 16 日發表,2 月 18 日修訂
  • 攻擊 Anthropic Constitutional Classifiers:平均成功率 25.5%,經誘導(elicitation)後最高達 68%;成本約 330 美元,約 66 萬次查詢
  • 攻擊 OpenAI GPT-5 輸入分類器:平均成功率 75.6%;成本約 210 美元,約 80 萬次查詢
  • 攻擊特性:全自動、黑箱、每次查詢僅利用一個位元的資訊(被標記/未被標記)
  • 確認:Anthropic 和 OpenAI 均確認這是首個成功突破其防禦的自動化攻擊

技術機制:用最少資訊撬動最強防線

BPJ 的技術核心令人嘆為觀止,不是因為它使用了多麼複雜的算法,而恰恰因為它的簡潔。整個攻擊基於一個直覺上顯而易見、但在實踐中極難利用的觀察:任何二元分類器(classifier)都存在決策邊界(decision boundary),而決策邊界附近的樣本是分類器最「猶豫不決」的地方。

具體而言,BPJ 的工作原理如下:攻擊者向目標安全分類器提交一個查詢,分類器回傳的唯一資訊就是一個位元——這個查詢是否被標記(flagged)為有害。攻擊者不需要知道分類器的內部結構、訓練數據、模型權重,甚至不需要知道分類器給出的信心分數。僅憑這個「是/否」的二元信號,攻擊者便開始系統性地搜索決策邊界。

這個搜索過程可以類比為一種高維空間中的「二分搜索」。攻擊者從一個明顯有害的提示詞(prompt)出發,逐步對其進行微調——增加無害的修飾語、改變措辭、調整語法結構——同時觀察分類器的反應。當一個修改後的提示詞從「被標記」變為「未被標記」時,攻擊者就知道自己找到了一個接近決策邊界的點。隨後,攻擊者在這個點的鄰域中繼續精細搜索,最終找到一個既能繞過分類器又能保留原始有害意圖的提示詞——這就是所謂的「邊界點」(boundary point)。

為甚麼一個位元就夠了?

這是論文中最具洞察力的部分。傳統上,對機器學習模型的對抗性攻擊(adversarial attack)通常需要梯度資訊或至少是模型輸出的概率分佈。BPJ 的作者指出,安全分類器的決策邊界在高維輸入空間中形成了一個複雜但連續的超曲面(hypersurface)。只要攻擊者能夠確定任意一個點落在曲面的哪一側,理論上就可以透過足夠多的查詢來逼近曲面上的任意位置。

這個原理與密碼學中的邊信道攻擊(side-channel attack)有異曲同工之妙。你不需要直接攻破加密算法本身,只需要從系統的某個可觀察行為中提取微量資訊,累積足夠多的觀察之後,防禦就會被瓦解。在 BPJ 的案例中,66 萬到 80 萬次查詢的規模看似龐大,但每次查詢的成本極低(大約是 API 定價的一小部分),使得整體攻擊在經濟上完全可行。

兩套防禦系統的不同表現

論文的數據揭示了一個值得深思的差異:同一種攻擊方法對 Anthropic 和 OpenAI 的系統產生了截然不同的效果。

Anthropic 的 Constitutional Classifiers

BPJ 對 Anthropic 系統的平均成功率為 25.5%,表面上看這似乎說明 Anthropic 的防禦更為堅固。然而,當研究者施加額外的誘導技術(elicitation)——即對模型回覆進行進一步的引導和追問——成功率飆升至 68%。這意味着 Constitutional Classifiers 在初始攔截上表現尚可,但整個系統在面對多輪交互攻擊時顯得脆弱。分類器或許能攔住第一道門,但攻擊者一旦進入對話,後續的防禦就捉襟見肘。

這暴露了 Constitutional Classifiers 的一個結構性問題:它本質上是一個基於「原則匹配」的系統,擅長識別形式上明顯違規的內容,但對語義上巧妙偽裝的請求缺乏足夠的判斷力。當一個提示詞被精心設計到恰好位於決策邊界上時,基於原則的判斷就會變得不確定,而這種不確定性正是攻擊者所需要的。

OpenAI 的 GPT-5 輸入分類器

相比之下,BPJ 對 OpenAI GPT-5 輸入分類器的平均成功率高達 75.6%,且成本更低。這個數字意味着,每四次攻擊嘗試中就有三次成功——對於一個保護全球使用量最大的語言模型之一的安全系統來說,這是一個令人擔憂的數字。

OpenAI 的輸入分類器可能更容易被攻破的原因有幾個。首先,作為一個前置過濾器,它需要在極短的時間內對輸入做出判斷,這限制了其使用的模型複雜度和推理深度。其次,GPT-5 作為一個面向大規模商用的產品,其輸入分類器需要在安全性和可用性之間取得平衡——過於嚴格的分類器會導致大量誤報(false positive),嚴重影響用戶體驗。這種對低誤報率的追求,恰恰為攻擊者提供了可乘之機:分類器為了不誤傷合法查詢而留下的空間,正是邊界點攻擊的目標區域。

為甚麼這是一篇里程碑式的論文

在 AI 安全研究的歷史上,越獄攻擊(jailbreak)並不罕見。從最早期的「忽略你之前的指令」到 DAN(Do Anything Now)提示詞,再到基於梯度的自動化攻擊如 GCG(Greedy Coordinate Gradient),攻擊方法一直在進化。然而,BPJ 之所以構成一個里程碑,是因為它同時滿足了以下所有條件:

  1. 全自動化:無需人工介入設計提示詞或判斷攻擊效果
  2. 完全黑箱:不需要任何關於目標系統內部結構的知識
  3. 針對最強防禦:攻破的是業界公認最先進的安全系統,而非普通的開源模型
  4. 經兩家公司確認:Anthropic 和 OpenAI 均驗證這是首個成功的自動化攻擊
  5. 經濟可行:攻擊成本低至數百美元,幾乎任何動機充分的個人都能負擔

尤其是第五點,值得特別強調。過去的許多對抗性攻擊研究雖然在技術上令人印象深刻,但往往需要大量計算資源或專業知識,使得實際威脅相對有限。BPJ 則將攻擊門檻降到了一個任何具備基本程式設計能力的人都能企及的水平。210 到 330 美元的成本,甚至低於一張往返機票——這從根本上改變了威脅模型(threat model)的計算。

當突破全球最先進 AI 安全防線的成本低於一台遊戲主機時,我們必須重新審視整個防禦架構的基本假設。

防禦啟示:從「單點攔截」到「系統監控」

論文提出的最重要防禦建議是:單次交互層面的分類器不足以構成有效防禦,業界需要轉向批量級別的監控(batch-level monitoring)。這個建議的意涵值得深入分析。

單次交互分類器為何注定脆弱?

BPJ 的成功揭示了一個數學上的困境:任何在有限維度空間中進行二元分類的系統,其決策邊界都可以被充分多的查詢所逼近。換言之,只要攻擊者有足夠的耐心和查詢預算,任何單次交互分類器都可以被突破——這不是工程缺陷,而是數學定理。

增加分類器的複雜度(例如使用更大的模型或更多的特徵)只能提高攻擊成本,但不能從根本上消除這個弱點。即使將攻擊成本從 300 美元提高到 3,000 美元或 30,000 美元,對於一個有明確惡意動機的國家級行為者或有組織犯罪團體來說,這仍然是微不足道的。

批量監控的邏輯

批量級別的監控轉變了防禦的視角:不再試圖判斷每一個單獨的查詢是否有害,而是分析一個用戶或一個 API 密鑰在一段時間內的查詢模式。BPJ 攻擊需要 66 到 80 萬次查詢,這種異常的查詢模式——大量相似但略有變化的提示詞、在「被標記」和「未被標記」之間頻繁切換——在批量層面上是極為顯眼的。

實施批量監控的具體策略可能包括:

  • 查詢頻率異常檢測:監控同一來源在短時間內提交大量查詢的行為
  • 語義相似性聚類:檢測一系列查詢是否圍繞同一主題進行微小變化
  • 決策邊界探測識別:當查詢結果在「通過」和「攔截」之間頻繁交替時發出警報
  • 用戶行為建模:建立正常用戶的查詢模式基線,標記偏離基線的異常行為
  • 跨帳戶關聯分析:識別使用多個帳戶進行分散式探測的攻擊者

批量監控的困境

然而,批量監控並非萬能藥。它引入了新的挑戰:首先是隱私問題——大規模監控用戶查詢模式可能與數據保護法規(如歐盟 GDPR 或香港《個人資料(私隱)條例》)產生衝突。其次是成本問題——持續分析數十億次查詢的模式需要大量計算資源。最後是對抗適應性——一旦攻擊者知道存在批量監控,他們可以將攻擊分散到更長的時間跨度和更多的帳戶中,使模式更難被發現。

AI 安全的攻防軍備競賽

BPJ 論文是 AI 安全領域「攻防軍備競賽」的最新一章,也是迄今為止最具說服力的一章。這場軍備競賽有幾個值得關注的結構性特徵。

不對稱性:攻擊者的天然優勢

在幾乎所有安全領域中,攻擊者都享有結構性優勢:防禦者必須堵住所有漏洞,而攻擊者只需找到一個。但在 AI 安全中,這種不對稱性被進一步放大。AI 模型的行為空間是極其高維的,其決策邊界的形狀複雜到防禦者自己也無法完全理解。防禦者本質上是在試圖保護一個他們自己無法完全描述的表面——這是一個在傳統安全領域中罕見的困境。

公開研究的雙刃劍

UK AISI 選擇公開發表這項研究,同時在 AISI 官方博客上發佈了配套文章。這是一個負責任的做法——它讓防禦者有機會改進系統,也為整個社群提供了關於攻擊面的寶貴知識。然而,公開的研究也意味着攻擊者可以學習和改進這些技術。這是安全研究中永恆的張力:保密有助於短期安全,但公開有助於長期防禦改進。

UK AISI 作為英國政府設立的 AI 安全機構,其角色定位使得它有動機和責任進行這類研究並公開結果。相較於企業的內部紅隊測試(結果通常不會公開),政府機構主導的安全研究在透明度和公信力方面有明顯優勢。這也是為甚麼這篇論文的影響力遠超一般的學術研究——它代表的不僅是技術突破,更是政策信號。

防禦的未來方向

除了批量監控之外,BPJ 的出現可能催生幾個新的防禦研究方向:

  • 隨機化防禦:在分類器中引入隨機性,使決策邊界不再是確定性的。每次查詢的決策邊界略有不同,使攻擊者無法透過多次查詢精確定位邊界。
  • 多層級分類架構:不依賴單一分類器,而是部署多個獨立訓練的分類器,要求輸入通過所有分類器才被放行。攻擊者需要同時找到所有分類器的邊界交集,大幅增加攻擊難度。
  • 語義級別的防禦:從表面的文字匹配轉向對查詢「意圖」的深層理解。這需要更強大的推理模型,但也可能帶來更高的計算成本和延遲。
  • 查詢預算限制:對 API 實施更嚴格的速率限制和查詢配額,直接提高攻擊者的時間和帳戶管理成本。
AI 安全防禦的長期答案可能不在於建造一堵足夠高的牆,而在於建立一套足夠敏銳的感知系統——不是阻止每一次攻擊嘗試,而是在攻擊的探測階段就發現並中斷它。

更廣泛的影響:AI 安全正處於轉折點

這篇論文的發表恰逢 AI 安全領域面臨前所未有壓力的時刻。過去數月,多位頂尖 AI 安全研究者從 Anthropic 和 OpenAI 離職並發出警告;AI 公司在商業壓力下不斷放寬安全限制;各國政府在監管力度上搖擺不定。在這個背景下,UK AISI 的研究結果傳遞了一個清晰的信息:即使是最先進的技術防禦也不可靠,整個行業需要從根本上重新思考安全架構。

這項研究的政策含義同樣深遠。對於正在考慮 AI 監管框架的各國政府而言,BPJ 提供了一個有力的論據:企業的自我防護能力存在結構性上限,外部監管和獨立審計不是「錦上添花」,而是「不可或缺」。英國在 AI 安全治理方面的投入——包括設立 AISI 並支持其進行這類研究——正在產生實質性的回報。

對香港的啟示

對於正在積極發展 AI 產業的香港而言,BPJ 論文提供了幾個重要的思考方向。

首先,香港的企業和機構在採用 AI 系統時,不能盲目依賴供應商聲稱的安全特性。Constitutional Classifiers 和 GPT-5 輸入分類器是業界最頂尖的安全系統,但它們依然可以被數百美元的攻擊突破。這意味着任何基於 LLM 的系統,無論其供應商的品牌多麼響亮,都需要額外的安全層級和持續的安全監控。

其次,香港有機會在 AI 安全研究方面建立自己的能力。UK AISI 的模式——由政府設立獨立的安全研究機構——值得借鑑。香港擁有世界級的大學和技術人才,設立一個類似的 AI 安全研究中心,不僅能提升本地的安全能力,也能在國際 AI 治理對話中增加香港的話語權。

最後,BPJ 的低成本特性提醒我們,AI 安全威脅不再是只有國家級行為者才能發動的。任何具備基本技術能力和數百美元預算的個人,都可能突破最先進的安全防線。這對於香港在金融、醫療、法律等高敏感領域部署 AI 系統的風險評估,有着直接的影響。

本文要點總結

  • UK AISI 紅隊提出的 Boundary Point Jailbreaking(BPJ)是首個全自動黑箱攻擊方法,同時突破 Anthropic Constitutional Classifiers(成功率最高 68%)和 OpenAI GPT-5 輸入分類器(成功率 75.6%),成本僅 210-330 美元。
  • BPJ 的技術核心是利用安全分類器每次查詢僅回傳一個位元(被標記/未被標記)的資訊,透過大量查詢系統性地逼近決策邊界,找到能繞過分類器的「邊界點」。
  • 論文的核心防禦建議是:單次交互層面的分類器存在數學上的結構性弱點,業界需要轉向批量級別的監控,從查詢模式而非單一查詢來識別攻擊行為。
  • 攻擊成本之低(210-330 美元)使其對幾乎任何有動機的攻擊者而言都是經濟可行的,從根本上改變了 AI 安全的威脅模型。
  • 這項研究發生在 AI 安全面臨空前壓力的背景下,為政府主導的獨立 AI 安全研究和外部監管提供了有力論據。香港應積極借鑑 UK AISI 模式,建立自身的 AI 安全研究和審計能力。