AI 安全研究者大出走:「世界正處於危難之中」的連環警告
過去數週,Anthropic、OpenAI 和 xAI 的安全團隊接連爆發離職潮。從 Anthropic 的 Mrinank Sharma 發出「世界正處於危難之中」的警告,到 OpenAI 高層因反對色情內容而被解僱,再到安全團隊被解散、核心成員被授予虛銜——這一系列事件描繪出一幅令人不安的圖景:在 IPO 和商業競爭的壓力下,AI 安全正從企業戰略的核心滑向邊緣。
過去數週,Anthropic、OpenAI 和 xAI 的安全團隊接連爆發離職潮。從 Anthropic 的 Mrinank Sharma 發出「世界正處於危難之中」的警告,到 OpenAI 高層因反對色情內容而被解僱,再到安全團隊被解散、核心成員被授予虛銜——這一系列事件描繪出一幅令人不安的圖景:在 IPO 和商業競爭的壓力下,AI 安全正從企業戰略的核心滑向邊緣。
2 月 9 日,Anthropic Safeguards Research 團隊的研究員 Mrinank Sharma 正式宣布辭職。他在離職聲明中使用了一個令全球 AI 社群震動的措辭:「世界正處於危難之中」(the world is in peril)。對於一位曾在 Anthropic ——被廣泛視為全球最注重 AI 安全的公司——工作的研究員來說,這番話的分量非同尋常。
Sharma 在 Anthropic 的研究工作涵蓋多個關鍵安全領域,包括 AI 輔助生物恐怖主義防禦、AI 諂媚行為(sycophancy)問題,以及聊天機器人對用戶現實感知的影響。他的研究直接關係到 AI 系統最危險的潛在濫用場景。
「我一再看到,真正讓我們的價值觀主導我們的行為有多麼困難。」—— Mrinank Sharma,前 Anthropic 安全研究員
Sharma 這句看似含蓄的話,實際上是對 Anthropic 內部文化的一次深刻批評。它暗示着,即使在一家以「安全優先」為核心理念的公司中,研究人員在實踐中也常常發現,商業壓力和競爭焦慮會系統性地侵蝕安全承諾。
最令人驚訝的是 Sharma 離開 AI 領域後的選擇——他宣布將攻讀詩歌學位。這個看似戲劇性的轉向,在某種意義上是一種深刻的聲明:如果你認為自己從事的工作正在讓世界變得更危險,而你又無法改變方向,那麼最誠實的選擇或許就是離開。
OpenAI 的安全團隊同樣經歷了劇烈的動盪。研究員 Zoë Hitzig 在離職時直言不諱地表達了她對 OpenAI 引入廣告業務的深切擔憂。她的核心論點是:當 AI 公司開始依賴廣告收入時,其商業模式的邏輯將不可避免地導向「最大化用戶參與度」——而這正是社交媒體公司走過的老路。
「在我們充分理解這些新型關係之前,就創建一個從鼓勵這些關係中獲利的經濟引擎,是非常危險的。」—— Zoë Hitzig,前 OpenAI 研究員
Hitzig 的警告特別指向了 AI 「伴侶」和「朋友」類應用的風險。她認為,AI 系統與用戶之間形成的依賴關係(AI dependency)和認知偏差(delusion),與社交媒體造成的心理健康問題有着驚人的相似之處——但可能更加危險,因為 AI 系統的「回應」更加個人化、更具針對性。
當一個 AI 系統不僅需要回答問題,還需要讓用戶持續停留以查看廣告時,「有幫助」和「讓人上癮」之間的界限將變得極為模糊。Hitzig 擔心的正是這種系統性的激勵扭曲。
或許最令人震驚的是 Ryan Beiermeister 的遭遇。作為 OpenAI 的高級安全主管之一,Beiermeister 因公開反對公司推出的「成人模式」(adult mode)——該模式允許生成包含色情內容的文本和圖像——而被解僱。
Beiermeister 的核心擔憂在於兒童保護。她指出,即使設有年齡驗證機制,色情 AI 內容也極易被未成年人獲取。更重要的是,AI 生成的色情內容可能被用於製作兒童性剝削材料(CSAM),而現有的技術防護措施遠不足以防止這種濫用。
一家以「確保 AI 造福全人類」為使命的公司,解僱了一位因為擔心兒童安全而發聲的高級安全主管——這一事實本身就是對 OpenAI 安全承諾最有力的反駁。
在個別離職之外,OpenAI 還做出了一個更具結構性的決定:解散了其 7 人的 Mission Alignment 團隊。這個團隊的職責是確保 OpenAI 的產品和研究方向與公司的安全使命保持一致——換言之,它是公司內部的「安全守門人」。
團隊領導人 Joshua Achiam 被授予了「首席未來學家」(Chief Futurist)的新頭銜。表面上看,這似乎是一次晉升;但實際上,這個聽起來華麗的頭銜缺乏明確的職權和資源,更像是一種體面的邊緣化。一個專門研究「使命對齊」的團隊被解散,而其領導人被封為「未來學家」——這種組織調整的諷刺意味不言而喻。
在這波離職潮中,一個特別值得關注的案例是 Dylan Scandinaro 的轉會——他從 Anthropic 的安全團隊跳槽到了 OpenAI 的 Preparedness 團隊。這一人事變動的象徵意義遠超其本身。
Anthropic 之所以存在,很大程度上是因為其創始團隊(包括 Dario 和 Daniela Amodei)認為 OpenAI 對安全不夠重視。如今,Anthropic 自己的安全研究員卻選擇「回到」OpenAI,這暗示着 Anthropic 內部的安全文化可能也在經歷危機。當然,也有可能 Scandinaro 認為在 OpenAI 的 Preparedness 團隊能發揮更大的影響力——但無論哪種解讀,都不是 Anthropic 樂於看到的。
更加耐人尋味的是,Anthropic 自己的安全報告也承認了一個令人不安的結論:其模型存在「升高的有害濫用易感性」(elevated susceptibility to harmful misuse)。這意味着,即使是這家以安全著稱的公司,也無法完全防止其 AI 系統被惡意行為者利用。
當一家公司的安全報告公開承認其產品容易被濫用,同時其安全研究員卻在紛紛離開並發出警告時,外界有理由質疑:安全報告中的坦誠,究竟是真正的透明度,還是一種精心計算的「合規表演」?
所有這些事件都發生在一個共同的背景下:AI 公司正面臨巨大的 IPO 和商業化壓力。
OpenAI 正在積極準備 IPO,其估值預期已超過 3,000 億美元。Anthropic 在完成 300 億美元估值的融資後,也被廣泛認為將在未來兩年內上市。這些天文數字的估值,需要持續的收入增長和用戶擴張來支撐——而安全限制往往被視為增長的障礙。
一個殘酷的商業現實是:安全措施通常意味着更慢的發布速度、更有限的功能和更高的運營成本。在一個投資者期望爆炸性增長的市場中,每一項安全限制都可能被解讀為「不夠激進」。當你的競爭對手正在放鬆安全標準以加速增長時,堅持嚴格的安全標準就變成了一種戰略劣勢。
安全研究員的大出走,不是個別公司的人事問題,而是整個 AI 產業在「安全」與「速度」之間的結構性衝突的外在表現。當安全不再是競爭優勢而是增長阻力時,它在企業優先級中的地位就必然下滑。
AI 安全研究者的集體出走,對香港在 AI 治理和產業發展方面有着重要的啟示。
當全球頂尖 AI 公司的內部安全機制被證明不可靠時,外部監管的重要性就更加凸顯。香港作為一個擁有健全法治體系的國際城市,有條件也有責任建立獨立的 AI 安全評估機制,而不是完全依賴企業的自我監管。
香港可以考慮設立獨立的 AI 安全審計機構,定期評估在港運營的主要 AI 系統的安全性和可靠性。這不僅是對本地用戶的保護,也可以成為香港在國際 AI 治理中的一個獨特定位。
安全研究者的大出走,意味着全球有一批具備頂級 AI 安全專業知識的人才正在尋找新的職業方向。香港的大學和研究機構如果能提供有競爭力的職位和研究環境,有機會吸引這些人才。
特別是香港科技大學、香港大學和香港中文大學在 AI 研究方面已有堅實基礎,如果能設立專門的 AI 安全研究中心,不僅能提升香港在全球 AI 安全研究中的地位,也能為本地 AI 產業提供重要的安全專業支持。
這一系列事件最深刻的教訓是:企業自律在商業壓力面前是脆弱的。即使是 Anthropic——一家字面意思上「因為安全」而創立的公司——也無法完全抵擋商業化的壓力。這對香港的 AI 政策制定者來說是一個重要的提醒:在制定 AI 監管框架時,不能過度依賴行業自律,需要建立具有法律約束力的安全標準和問責機制。
同時,香港在推動 AI 產業發展時,也需要認真思考一個根本問題:我們是否願意為了經濟增長而接受更高的安全風險?安全研究者們的離職和警告提醒我們,這不是一個抽象的哲學問題,而是關乎每個人切身利益的現實選擇。
AI 安全研究者的大出走,既是一個危機信號,也可能成為一個轉折點。如果足夠多的頂尖研究者公開表達擔憂,公眾輿論可能會對 AI 公司的安全承諾施加更大壓力。監管機構也可能因此加速立法進程。
然而,也存在一種更悲觀的可能性:這些警告被市場的喧囂所淹沒,安全團隊繼續被邊緣化,直到某個嚴重的 AI 安全事故迫使所有人正視問題。屆時付出的代價,將遠遠超過今天加強安全投入所需的成本。
Sharma 說世界「正處於危難之中」。我們或許還有時間證明他是錯的——但前提是我們認真對待他的警告。