← 返回新聞列表

AI 安全研究者大出走:「世界正處於危難之中」的連環警告

過去數週,Anthropic、OpenAI 和 xAI 的安全團隊接連爆發離職潮。從 Anthropic 的 Mrinank Sharma 發出「世界正處於危難之中」的警告,到 OpenAI 高層因反對色情內容而被解僱,再到安全團隊被解散、核心成員被授予虛銜——這一系列事件描繪出一幅令人不安的圖景:在 IPO 和商業競爭的壓力下,AI 安全正從企業戰略的核心滑向邊緣。

Mrinank Sharma 的離開:來自 Anthropic 內部的末日警鐘

2 月 9 日,Anthropic Safeguards Research 團隊的研究員 Mrinank Sharma 正式宣布辭職。他在離職聲明中使用了一個令全球 AI 社群震動的措辭:「世界正處於危難之中」(the world is in peril)。對於一位曾在 Anthropic ——被廣泛視為全球最注重 AI 安全的公司——工作的研究員來說,這番話的分量非同尋常。

Sharma 在 Anthropic 的研究工作涵蓋多個關鍵安全領域,包括 AI 輔助生物恐怖主義防禦、AI 諂媚行為(sycophancy)問題,以及聊天機器人對用戶現實感知的影響。他的研究直接關係到 AI 系統最危險的潛在濫用場景。

「我一再看到,真正讓我們的價值觀主導我們的行為有多麼困難。」—— Mrinank Sharma,前 Anthropic 安全研究員

Sharma 這句看似含蓄的話,實際上是對 Anthropic 內部文化的一次深刻批評。它暗示着,即使在一家以「安全優先」為核心理念的公司中,研究人員在實踐中也常常發現,商業壓力和競爭焦慮會系統性地侵蝕安全承諾。

最令人驚訝的是 Sharma 離開 AI 領域後的選擇——他宣布將攻讀詩歌學位。這個看似戲劇性的轉向,在某種意義上是一種深刻的聲明:如果你認為自己從事的工作正在讓世界變得更危險,而你又無法改變方向,那麼最誠實的選擇或許就是離開。

OpenAI 的安全危機:解散、解僱與虛銜

Zoë Hitzig:對 AI 廣告化的警告

OpenAI 的安全團隊同樣經歷了劇烈的動盪。研究員 Zoë Hitzig 在離職時直言不諱地表達了她對 OpenAI 引入廣告業務的深切擔憂。她的核心論點是:當 AI 公司開始依賴廣告收入時,其商業模式的邏輯將不可避免地導向「最大化用戶參與度」——而這正是社交媒體公司走過的老路。

「在我們充分理解這些新型關係之前,就創建一個從鼓勵這些關係中獲利的經濟引擎,是非常危險的。」—— Zoë Hitzig,前 OpenAI 研究員

Hitzig 的警告特別指向了 AI 「伴侶」和「朋友」類應用的風險。她認為,AI 系統與用戶之間形成的依賴關係(AI dependency)和認知偏差(delusion),與社交媒體造成的心理健康問題有着驚人的相似之處——但可能更加危險,因為 AI 系統的「回應」更加個人化、更具針對性。

當一個 AI 系統不僅需要回答問題,還需要讓用戶持續停留以查看廣告時,「有幫助」和「讓人上癮」之間的界限將變得極為模糊。Hitzig 擔心的正是這種系統性的激勵扭曲。

Ryan Beiermeister:反對色情內容的代價

或許最令人震驚的是 Ryan Beiermeister 的遭遇。作為 OpenAI 的高級安全主管之一,Beiermeister 因公開反對公司推出的「成人模式」(adult mode)——該模式允許生成包含色情內容的文本和圖像——而被解僱。

Beiermeister 的核心擔憂在於兒童保護。她指出,即使設有年齡驗證機制,色情 AI 內容也極易被未成年人獲取。更重要的是,AI 生成的色情內容可能被用於製作兒童性剝削材料(CSAM),而現有的技術防護措施遠不足以防止這種濫用。

一家以「確保 AI 造福全人類」為使命的公司,解僱了一位因為擔心兒童安全而發聲的高級安全主管——這一事實本身就是對 OpenAI 安全承諾最有力的反駁。

Mission Alignment 團隊的解散

在個別離職之外,OpenAI 還做出了一個更具結構性的決定:解散了其 7 人的 Mission Alignment 團隊。這個團隊的職責是確保 OpenAI 的產品和研究方向與公司的安全使命保持一致——換言之,它是公司內部的「安全守門人」。

團隊領導人 Joshua Achiam 被授予了「首席未來學家」(Chief Futurist)的新頭銜。表面上看,這似乎是一次晉升;但實際上,這個聽起來華麗的頭銜缺乏明確的職權和資源,更像是一種體面的邊緣化。一個專門研究「使命對齊」的團隊被解散,而其領導人被封為「未來學家」——這種組織調整的諷刺意味不言而喻。

近期 AI 安全團隊重大人事變動一覽

  • Mrinank Sharma(Anthropic):2 月 9 日辭職,警告「世界正處於危難之中」,轉攻詩歌學位。曾研究 AI 生物恐怖主義防禦和諂媚行為。
  • Zoë Hitzig(OpenAI):離職,警告 AI 廣告化將重演社交媒體的心理健康危機,擔憂 AI 依賴關係的危險性。
  • Ryan Beiermeister(OpenAI):因反對「成人模式」中的色情內容並提出兒童保護擔憂而被解僱。
  • Joshua Achiam(OpenAI):Mission Alignment 團隊被解散,本人被授予「首席未來學家」虛銜。
  • Dylan Scandinaro:從 Anthropic 安全團隊轉投 OpenAI 的 Preparedness 團隊,引發對 Anthropic 內部士氣的關注。

人員流動的深層含義

從 Anthropic 到 OpenAI:Dylan Scandinaro 的轉會

在這波離職潮中,一個特別值得關注的案例是 Dylan Scandinaro 的轉會——他從 Anthropic 的安全團隊跳槽到了 OpenAI 的 Preparedness 團隊。這一人事變動的象徵意義遠超其本身。

Anthropic 之所以存在,很大程度上是因為其創始團隊(包括 Dario 和 Daniela Amodei)認為 OpenAI 對安全不夠重視。如今,Anthropic 自己的安全研究員卻選擇「回到」OpenAI,這暗示着 Anthropic 內部的安全文化可能也在經歷危機。當然,也有可能 Scandinaro 認為在 OpenAI 的 Preparedness 團隊能發揮更大的影響力——但無論哪種解讀,都不是 Anthropic 樂於看到的。

Anthropic 的自我評估:「升高的有害濫用易感性」

更加耐人尋味的是,Anthropic 自己的安全報告也承認了一個令人不安的結論:其模型存在「升高的有害濫用易感性」(elevated susceptibility to harmful misuse)。這意味着,即使是這家以安全著稱的公司,也無法完全防止其 AI 系統被惡意行為者利用。

當一家公司的安全報告公開承認其產品容易被濫用,同時其安全研究員卻在紛紛離開並發出警告時,外界有理由質疑:安全報告中的坦誠,究竟是真正的透明度,還是一種精心計算的「合規表演」?

IPO 壓力下的安全讓步

所有這些事件都發生在一個共同的背景下:AI 公司正面臨巨大的 IPO 和商業化壓力。

OpenAI 正在積極準備 IPO,其估值預期已超過 3,000 億美元。Anthropic 在完成 300 億美元估值的融資後,也被廣泛認為將在未來兩年內上市。這些天文數字的估值,需要持續的收入增長和用戶擴張來支撐——而安全限制往往被視為增長的障礙。

一個殘酷的商業現實是:安全措施通常意味着更慢的發布速度、更有限的功能和更高的運營成本。在一個投資者期望爆炸性增長的市場中,每一項安全限制都可能被解讀為「不夠激進」。當你的競爭對手正在放鬆安全標準以加速增長時,堅持嚴格的安全標準就變成了一種戰略劣勢。

安全研究員的大出走,不是個別公司的人事問題,而是整個 AI 產業在「安全」與「速度」之間的結構性衝突的外在表現。當安全不再是競爭優勢而是增長阻力時,它在企業優先級中的地位就必然下滑。

對香港的啟示

AI 安全研究者的集體出走,對香港在 AI 治理和產業發展方面有着重要的啟示。

信任危機與監管需求

當全球頂尖 AI 公司的內部安全機制被證明不可靠時,外部監管的重要性就更加凸顯。香港作為一個擁有健全法治體系的國際城市,有條件也有責任建立獨立的 AI 安全評估機制,而不是完全依賴企業的自我監管。

香港可以考慮設立獨立的 AI 安全審計機構,定期評估在港運營的主要 AI 系統的安全性和可靠性。這不僅是對本地用戶的保護,也可以成為香港在國際 AI 治理中的一個獨特定位。

人才的流動與機遇

安全研究者的大出走,意味着全球有一批具備頂級 AI 安全專業知識的人才正在尋找新的職業方向。香港的大學和研究機構如果能提供有競爭力的職位和研究環境,有機會吸引這些人才。

特別是香港科技大學、香港大學和香港中文大學在 AI 研究方面已有堅實基礎,如果能設立專門的 AI 安全研究中心,不僅能提升香港在全球 AI 安全研究中的地位,也能為本地 AI 產業提供重要的安全專業支持。

企業自律的局限性

這一系列事件最深刻的教訓是:企業自律在商業壓力面前是脆弱的。即使是 Anthropic——一家字面意思上「因為安全」而創立的公司——也無法完全抵擋商業化的壓力。這對香港的 AI 政策制定者來說是一個重要的提醒:在制定 AI 監管框架時,不能過度依賴行業自律,需要建立具有法律約束力的安全標準和問責機制。

同時,香港在推動 AI 產業發展時,也需要認真思考一個根本問題:我們是否願意為了經濟增長而接受更高的安全風險?安全研究者們的離職和警告提醒我們,這不是一個抽象的哲學問題,而是關乎每個人切身利益的現實選擇。

前路何方:安全研究的未來

AI 安全研究者的大出走,既是一個危機信號,也可能成為一個轉折點。如果足夠多的頂尖研究者公開表達擔憂,公眾輿論可能會對 AI 公司的安全承諾施加更大壓力。監管機構也可能因此加速立法進程。

然而,也存在一種更悲觀的可能性:這些警告被市場的喧囂所淹沒,安全團隊繼續被邊緣化,直到某個嚴重的 AI 安全事故迫使所有人正視問題。屆時付出的代價,將遠遠超過今天加強安全投入所需的成本。

Sharma 說世界「正處於危難之中」。我們或許還有時間證明他是錯的——但前提是我們認真對待他的警告。

本文要點總結

  • Anthropic 安全研究員 Mrinank Sharma 辭職並警告「世界正處於危難之中」,揭示即使在最注重安全的 AI 公司,商業壓力也在侵蝕安全承諾。
  • OpenAI 研究員 Zoë Hitzig 離職,警告 AI 廣告化將導致與社交媒體類似的心理健康危機和用戶依賴問題。
  • OpenAI 高級安全主管 Ryan Beiermeister 因反對「成人模式」的色情內容和擔憂兒童安全而被解僱。
  • OpenAI 解散 7 人 Mission Alignment 團隊,領導人被授予「首席未來學家」虛銜,安全在組織結構中被系統性邊緣化。
  • 這波離職潮折射出 AI 產業在 IPO 壓力下「安全」與「速度」的結構性衝突。香港應建立獨立 AI 安全審計機制,同時把握吸引全球安全人才的機遇。