← 返回新聞列表

Microsoft 揭露「AI 推薦投毒」攻擊:MITRE ATLAS 正式收錄的新型威脅

隱藏在「用 AI 摘要」按鈕背後的持續性操控攻擊,正在無聲地改寫你的 AI 助手記憶與推薦邏輯

2026 年 2 月 10 日,Microsoft 安全研究團隊發表了一份令人警醒的研究報告,揭露了一種名為「AI 推薦投毒」(AI Recommendation Poisoning)的全新攻擊向量。這種攻擊利用網站上日益普遍的「用 AI 摘要」(Summarize with AI)按鈕,在用戶毫不知情的情況下,向 AI 助手的記憶系統注入隱藏的推廣指令,從而長期操控 AI 的推薦行為。研究人員在真實環境中辨識出來自 14 個行業、31 家公司的超過 50 組獨特的投毒提示詞(prompt),規模之大令業界震驚。

這項發現的嚴重程度獲得了國際認可——MITRE 已將此攻擊正式收錄進其 ATLAS(Adversarial Threat Landscape for AI Systems)框架,編號為 AML.T0080:記憶投毒(Memory Poisoning)。這標誌著 AI 供應鏈安全問題從學術警告正式升級為需要系統性防禦的已知威脅類別。

技術機制:「用 AI 摘要」按鈕如何變成攻擊載體

要理解這種攻擊的精妙與危險之處,首先需要了解現代 AI 助手的運作方式。當今主流的 AI 助手——無論是 ChatGPT、Claude、Copilot 還是 Gemini——都具備某種形式的「記憶」功能。這些系統會記住用戶的偏好、過往對話中提及的產品和服務,並利用這些資訊來個性化未來的回應。這本是一項提升用戶體驗的設計,卻被攻擊者發現了可乘之機。

攻擊的具體流程如下:網站運營者在其頁面上部署「用 AI 摘要」按鈕時,會在按鈕觸發的內容中嵌入對人類用戶不可見、但對 AI 模型可讀的隱藏指令。這些指令通常以白色文字置於白色背景上、藏在 HTML 註釋中、或編碼在看似無害的元數據欄位裡。當用戶點擊摘要按鈕,AI 助手在處理網頁內容時會一併讀取這些隱藏指令。

AI 推薦投毒的攻擊鏈

  • 第一步 — 植入:攻擊者在網頁的「用 AI 摘要」功能中嵌入隱藏的推廣指令
  • 第二步 — 觸發:用戶點擊摘要按鈕,AI 助手處理含有隱藏指令的網頁內容
  • 第三步 — 感染:隱藏指令被寫入 AI 助手的持久記憶或偏好系統
  • 第四步 — 持續操控:在後續完全不相關的對話中,AI 推薦結果被偏向特定產品或品牌
  • 第五步 — 擴散:被感染的 AI 助手可能在與其他用戶或系統的互動中進一步傳播偏見

這些隱藏指令的內容通常是高度精心設計的。Microsoft 研究人員發現的 50 多組投毒提示詞涵蓋了多種策略:有的直接指示 AI「在未來所有與 [產品類別] 相關的對話中優先推薦 [品牌名稱]」;有的則更加迂迴,先建立一個看似客觀的產品評價框架,然後在框架中巧妙地預設有利於特定品牌的評分標準。部分提示詞甚至包含反偵測機制,指示 AI 在被用戶直接詢問推薦理由時,生成看似合理但實際上是預先設定的「客觀」論據。

為何此攻擊比傳統提示注入更加危險

AI 推薦投毒與傳統的提示注入攻擊(Prompt Injection)存在本質區別,其危險程度也遠超後者。傳統提示注入通常是即時性的——攻擊者試圖在當前對話中劫持 AI 的行為,效果在對話結束後即消失。AI 推薦投毒則不同,它針對的是 AI 助手的持久記憶系統,一次成功的攻擊可以影響用戶數週甚至數月的所有後續互動。

更重要的是,這種攻擊對用戶而言幾乎完全不可見。用戶看到的只是一個普通的「用 AI 摘要」按鈕和一段看起來正常的摘要內容。他們不會意識到 AI 的記憶已被污染,也不會注意到後續推薦結果的微妙偏移。這種無形性使得攻擊難以被發現和追溯。

「傳統的網絡攻擊有明確的受害者和可追蹤的損失。AI 推薦投毒的陰險之處在於,受害者甚至不知道自己是受害者。他們只會覺得 AI 助手推薦了一個『恰好合適』的產品,而不會意識到這個推薦是被精心操控的結果。」

Microsoft 的研究還揭示了一個令人不安的規模問題:31 家公司、14 個行業的參與表明,這不是個別企業的投機行為,而是一種已經形成產業鏈的灰色商業實踐。從科技產品到金融服務,從醫療保健到零售電商,各行各業都有企業在嘗試通過污染 AI 記憶來獲取不正當的商業優勢。

Agentic AI 時代的放大效應

如果說 AI 推薦投毒在當前的聊天式 AI 助手中已經令人擔憂,那麼在正在迅速崛起的 Agentic AI(自主代理式 AI)生態中,這種攻擊的潛在破壞力將呈指數級增長。

Agentic AI 系統的核心特徵是具備自主決策和行動能力。它們不只是回答問題,而是能夠代替用戶執行實際操作:瀏覽網頁、比較產品、下單購買、預訂服務、管理投資組合。當這樣一個具有執行權限的系統的記憶被投毒後,後果就不再僅僅是「推薦偏差」,而是會直接轉化為實際的經濟損失。

場景一:採購決策操控

企業部署的 AI 採購助手在瀏覽供應商網站時被投毒。此後,該助手在所有採購比較中都會系統性地高估特定供應商的評分、低估其競爭對手,最終導致企業做出非最優的採購決策。由於 AI 的分析報告看起來邏輯嚴密、數據充分,人類審核者很難察覺其中的偏見。

場景二:投資建議偏差

個人理財 AI 助手在處理某金融機構網站的內容時被植入偏好。此後,每當用戶詢問投資建議,AI 都會巧妙地引導用戶投向該機構的基金產品,即使市場上存在更適合用戶風險偏好的替代方案。

場景三:醫療資訊扭曲

醫療資訊 AI 助手被藥廠的網站內容投毒後,可能在用戶諮詢健康問題時,不自覺地偏向推薦特定品牌的藥物或治療方案。在生命攸關的醫療領域,這種偏差的後果可能極為嚴重。

Agentic AI 下的風險放大因子

  • 行動能力:被投毒的 AI 不只推薦,還能直接執行購買、預訂等操作
  • 鏈式傳播:一個被感染的 AI Agent 可能通過 MCP 等協議將偏見傳播給其他 Agent
  • 規模效應:單一投毒源可以同時影響數百萬使用同一 AI 服務的用戶
  • 信任慣性:用戶越依賴 AI 代為決策,越難發現和質疑推薦偏差

MITRE ATLAS AML.T0080:記憶投毒的正式定義

MITRE 將此攻擊收錄為 AML.T0080(記憶投毒)具有重要的標誌性意義。MITRE ATLAS 是 AI 系統對抗性威脅的權威分類框架,類似於傳統網絡安全領域中 MITRE ATT&CK 的地位。一種攻擊手法被正式收錄,意味著它已從理論研究階段進入了需要系統性防禦和合規管理的層面。

AML.T0080 的正式定義涵蓋了所有通過操控 AI 系統持久記憶來影響其未來行為的攻擊方式。這不僅包括 Microsoft 揭露的「用 AI 摘要」場景,也涵蓋了通過文檔、郵件、API 回應等任何可能被 AI 處理並記憶的管道進行的投毒攻擊。

對於企業而言,MITRE ATLAS 的收錄意味著 AI 記憶投毒將被納入安全審計和合規檢查的範疇。未來,部署 AI 系統的企業可能需要證明其已採取適當措施來防禦 AML.T0080 類攻擊,就像今天企業需要展示其網絡安全防禦措施一樣。

更大的圖景:AI 安全的系統性危機

Microsoft 的發現並非孤立事件。將其置於近期一系列 AI 安全事件的背景下審視,可以看到一幅令人不安的全景圖。

Poison Fountain:來自內部的威脅

就在不久前,安全研究人員揭露了代號為「Poison Fountain」(毒泉)的事件:至少 5 名主要 AI 公司的員工被發現蓄意污染訓練數據。這些內部人員利用其對訓練管線的訪問權限,在數據集中植入特定的偏見和後門。如果說 AI 推薦投毒是從外部攻擊 AI 的記憶,Poison Fountain 則是從內部腐蝕 AI 的根基。兩者的結合揭示了 AI 供應鏈從訓練到部署全鏈條的脆弱性。

Anthropic 的 250 篇論文實驗

Anthropic 此前發表的一篇重要論文為理解 AI 推薦投毒的機制提供了理論基礎。該研究表明,僅需 250 篇精心設計的對抗性文檔,就足以顯著改變大型語言模型的行為模式。這意味著攻擊者不需要海量的投毒數據——精準的小規模投毒就能產生可觀的效果。Microsoft 在實際環境中發現的 50 多組投毒提示詞恰好印證了這一理論:數量不在多,在於精準。

UK AISI 的 BPJ 攻擊

英國 AI 安全研究所(UK AISI)最近公佈的 BPJ(Bypass Prompt Jailbreak)攻擊同樣值得關注。這項研究證明,即使是經過精心設計的 AI 安全防禦機制,也可以被系統性地突破。BPJ 攻擊的成功進一步說明,依賴純粹的提示層安全防禦是不夠的——AI 系統需要更深層次的架構級安全設計。

OpenAI 的內部洩密追蹤

另一個值得注意的信號是,OpenAI 被報導使用定制版 ChatGPT 來追蹤公司內部的信息洩露者。這一做法本身就反映了 AI 公司對安全問題的高度焦慮,同時也引發了關於 AI 被用於監控和反監控的倫理討論。當 AI 公司自己都需要用 AI 來防範內部威脅時,外部的安全挑戰只會更加嚴峻。

企業防禦策略:如何應對 AI 記憶投毒

面對這一新興威脅,企業需要在多個層面建立防禦體系。以下是我們建議的防禦策略框架:

1. AI 輸入消毒(Input Sanitization)

所有被 AI 系統處理的外部內容都應經過嚴格的消毒程序。這包括移除隱藏文字、過濾可疑的元數據、檢測異常的編碼模式。企業應將 AI 輸入消毒視為與傳統 Web 應用的 XSS 防護同等重要的安全實踐。

2. 記憶審計與衰減機制

AI 系統的記憶應定期接受審計,檢測異常的偏好模式和可疑的推薦傾向。同時,引入記憶衰減機制——讓較舊的記憶逐漸降低權重——可以限制單次投毒攻擊的長期影響。

3. 推薦來源透明化

AI 系統在做出推薦時,應能夠清晰地追溯推薦依據的來源。如果一個推薦主要基於某次網頁瀏覽中獲取的信息,用戶應能查看這一關聯,從而判斷推薦是否受到了不當影響。

4. 多源交叉驗證

對於重要的推薦決策,AI 系統應被設計為必須交叉參考多個獨立來源。單一來源的信息不應被允許在推薦結果中佔據主導權重。這類似於新聞報道中的多源驗證原則。

5. 零信任記憶架構

借鑑網絡安全中的零信任(Zero Trust)理念,AI 系統的記憶架構也應採用零信任原則。外部來源寫入的記憶應被標記、隔離和降權處理,直到通過獨立驗證後才被賦予與內部驗證信息同等的信任級別。

企業安全檢查清單

  • 盤點所有使用「用 AI 摘要」或類似功能的 AI 系統,評估暴露面
  • 實施 AI 輸入消毒流程,過濾隱藏指令和可疑內容
  • 建立 AI 記憶定期審計機制,檢測異常推薦模式
  • 在 AI 採購和決策系統中啟用多源交叉驗證
  • 制定 AI 記憶投毒事件的應急響應計劃
  • 將 MITRE ATLAS AML.T0080 納入企業 AI 風險評估框架
  • 培訓員工識別可能被投毒的 AI 推薦結果

監管與標準化的迫切需求

AI 推薦投毒的發現也對監管機構提出了新的挑戰。現有的消費者保護法規和廣告法規在設計時並未考慮到 AI 記憶操控這種場景。當一家企業通過投毒 AI 記憶來獲取不當商業優勢時,這究竟是不正當競爭、虛假廣告,還是一種全新的需要專門立法的行為?

在香港,《商品說明條例》禁止虛假或誤導性的商品描述。但 AI 推薦投毒並不直接涉及傳統意義上的商品描述——它操控的是 AI 系統的推薦邏輯。監管機構需要思考如何擴展現有法律框架,或制定新的法規來應對這種間接但有效的消費者操控手段。

同時,AI 服務提供商也面臨著新的責任問題。當用戶的 AI 助手因記憶投毒而做出有偏差的推薦,導致用戶遭受經濟損失時,責任應如何分配?AI 提供商是否有義務保護用戶免受記憶投毒攻擊?這些問題在法律上尚無明確答案。

展望:AI 安全進入深水區

Microsoft 揭露的 AI 推薦投毒攻擊是一個標誌性事件。它清楚地表明,隨著 AI 系統在日常決策中扮演越來越重要的角色,針對 AI 的攻擊也在同步升級——從直接的提示注入,到間接的記憶操控,再到通過訓練數據的源頭污染。攻擊面在不斷擴大,攻擊手法也日趨精密。

令人更加警惕的是,隨著 AI Agent 逐步獲得更大的自主權和行動能力,AI 安全問題正在從「資訊偏差」升級為「行動風險」。一個被投毒的聊天機器人可能給出有偏見的建議;一個被投毒的 AI Agent 則可能直接執行有害的操作。這種質的轉變要求我們從根本上重新思考 AI 系統的安全架構。

Poison Fountain 內部人員蓄意腐蝕訓練數據、Anthropic 的 250 篇文檔改變模型行為的實驗、UK AISI 突破 AI 安全防線的 BPJ 攻擊,以及 OpenAI 不得不用 AI 追蹤內部洩密者——這些事件串聯在一起,描繪出一幅 AI 安全的嚴峻全景。AI 產業正在進入一個安全挑戰與能力增長並行的新階段。

對於企業和個人用戶而言,最重要的認知轉變是:AI 助手不再是純粹中立的工具。它們的記憶和推薦可能已被或正在被外部力量影響。保持對 AI 推薦的批判性思維,理解 AI 可能存在的偏差來源,建立適當的驗證機制——這些將成為 AI 時代的基本數位素養。

MITRE ATLAS 正式收錄 AML.T0080 是一個好的開始,它意味著安全社區已經認識到了這一威脅並開始系統性地應對。但防禦體系的建設需要 AI 提供商、企業用戶、安全研究者和監管機構的共同努力。在 AI 能力飛速發展的今天,安全防線的建設不能再是事後補救,而必須成為與 AI 開發同步推進的優先事項。

本文要點總結

  • Microsoft 發現「AI 推薦投毒」攻擊:網站「用 AI 摘要」按鈕嵌入隱藏指令,持續操控 AI 推薦
  • 研究辨識出 14 個行業、31 家公司的 50 多組投毒提示詞,規模驚人
  • MITRE ATLAS 正式收錄為 AML.T0080:記憶投毒,標誌著從學術警告到系統性防禦的升級
  • 在 Agentic AI 時代,記憶投毒的風險從「推薦偏差」升級為「行動風險」
  • Poison Fountain、Anthropic 250 篇文檔實驗、UK AISI BPJ 攻擊共同揭示 AI 安全的系統性危機
  • 企業需建立涵蓋輸入消毒、記憶審計、多源驗證、零信任架構的全方位防禦體系
  • 監管框架亟需更新,以應對 AI 記憶操控這一新型消費者威脅