AI 安全研究者大出走：「世界正處於危難之中」的連環警告

Mrinank Sharma 的離開：來自 Anthropic 內部的末日警鐘

2 月 9 日，Anthropic Safeguards Research 團隊的研究員 Mrinank Sharma 正式宣布辭職。他在離職聲明中使用了一個令全球 AI 社群震動的措辭：「世界正處於危難之中」（the world is in peril）。對於一位曾在 Anthropic ——被廣泛視為全球最注重 AI 安全的公司——工作的研究員來說，這番話的分量非同尋常。

Sharma 在 Anthropic 的研究工作涵蓋多個關鍵安全領域，包括 AI 輔助生物恐怖主義防禦、AI 諂媚行為（sycophancy）問題，以及聊天機器人對用戶現實感知的影響。他的研究直接關係到 AI 系統最危險的潛在濫用場景。

「我一再看到，真正讓我們的價值觀主導我們的行為有多麼困難。」—— Mrinank Sharma，前 Anthropic 安全研究員

Sharma 這句看似含蓄的話，實際上是對 Anthropic 內部文化的一次深刻批評。它暗示着，即使在一家以「安全優先」為核心理念的公司中，研究人員在實踐中也常常發現，商業壓力和競爭焦慮會系統性地侵蝕安全承諾。

最令人驚訝的是 Sharma 離開 AI 領域後的選擇——他宣布將攻讀詩歌學位。這個看似戲劇性的轉向，在某種意義上是一種深刻的聲明：如果你認為自己從事的工作正在讓世界變得更危險，而你又無法改變方向，那麼最誠實的選擇或許就是離開。

OpenAI 的安全危機：解散、解僱與虛銜

Zoë Hitzig：對 AI 廣告化的警告

OpenAI 的安全團隊同樣經歷了劇烈的動盪。研究員 Zoë Hitzig 在離職時直言不諱地表達了她對 OpenAI 引入廣告業務的深切擔憂。她的核心論點是：當 AI 公司開始依賴廣告收入時，其商業模式的邏輯將不可避免地導向「最大化用戶參與度」——而這正是社交媒體公司走過的老路。

「在我們充分理解這些新型關係之前，就創建一個從鼓勵這些關係中獲利的經濟引擎，是非常危險的。」—— Zoë Hitzig，前 OpenAI 研究員

Hitzig 的警告特別指向了 AI 「伴侶」和「朋友」類應用的風險。她認為，AI 系統與用戶之間形成的依賴關係（AI dependency）和認知偏差（delusion），與社交媒體造成的心理健康問題有着驚人的相似之處——但可能更加危險，因為 AI 系統的「回應」更加個人化、更具針對性。

當一個 AI 系統不僅需要回答問題，還需要讓用戶持續停留以查看廣告時，「有幫助」和「讓人上癮」之間的界限將變得極為模糊。Hitzig 擔心的正是這種系統性的激勵扭曲。

Ryan Beiermeister：反對色情內容的代價

或許最令人震驚的是 Ryan Beiermeister 的遭遇。作為 OpenAI 的高級安全主管之一，Beiermeister 因公開反對公司推出的「成人模式」（adult mode）——該模式允許生成包含色情內容的文本和圖像——而被解僱。

Beiermeister 的核心擔憂在於兒童保護。她指出，即使設有年齡驗證機制，色情 AI 內容也極易被未成年人獲取。更重要的是，AI 生成的色情內容可能被用於製作兒童性剝削材料（CSAM），而現有的技術防護措施遠不足以防止這種濫用。

一家以「確保 AI 造福全人類」為使命的公司，解僱了一位因為擔心兒童安全而發聲的高級安全主管——這一事實本身就是對 OpenAI 安全承諾最有力的反駁。

Mission Alignment 團隊的解散

在個別離職之外，OpenAI 還做出了一個更具結構性的決定：解散了其 7 人的 Mission Alignment 團隊。這個團隊的職責是確保 OpenAI 的產品和研究方向與公司的安全使命保持一致——換言之，它是公司內部的「安全守門人」。

團隊領導人 Joshua Achiam 被授予了「首席未來學家」（Chief Futurist）的新頭銜。表面上看，這似乎是一次晉升；但實際上，這個聽起來華麗的頭銜缺乏明確的職權和資源，更像是一種體面的邊緣化。一個專門研究「使命對齊」的團隊被解散，而其領導人被封為「未來學家」——這種組織調整的諷刺意味不言而喻。

                        近期 AI 安全團隊重大人事變動一覽
                        Mrinank Sharma（Anthropic）：2 月 9 日辭職，警告「世界正處於危難之中」，轉攻詩歌學位。曾研究 AI 生物恐怖主義防禦和諂媚行為。
Zoë Hitzig（OpenAI）：離職，警告 AI 廣告化將重演社交媒體的心理健康危機，擔憂 AI 依賴關係的危險性。
Ryan Beiermeister（OpenAI）：因反對「成人模式」中的色情內容並提出兒童保護擔憂而被解僱。
Joshua Achiam（OpenAI）：Mission Alignment 團隊被解散，本人被授予「首席未來學家」虛銜。
Dylan Scandinaro：從 Anthropic 安全團隊轉投 OpenAI 的 Preparedness 團隊，引發對 Anthropic 內部士氣的關注。

                    

人員流動的深層含義

從 Anthropic 到 OpenAI：Dylan Scandinaro 的轉會

在這波離職潮中，一個特別值得關注的案例是 Dylan Scandinaro 的轉會——他從 Anthropic 的安全團隊跳槽到了 OpenAI 的 Preparedness 團隊。這一人事變動的象徵意義遠超其本身。

Anthropic 之所以存在，很大程度上是因為其創始團隊（包括 Dario 和 Daniela Amodei）認為 OpenAI 對安全不夠重視。如今，Anthropic 自己的安全研究員卻選擇「回到」OpenAI，這暗示着 Anthropic 內部的安全文化可能也在經歷危機。當然，也有可能 Scandinaro 認為在 OpenAI 的 Preparedness 團隊能發揮更大的影響力——但無論哪種解讀，都不是 Anthropic 樂於看到的。

Anthropic 的自我評估：「升高的有害濫用易感性」

更加耐人尋味的是，Anthropic 自己的安全報告也承認了一個令人不安的結論：其模型存在「升高的有害濫用易感性」（elevated susceptibility to harmful misuse）。這意味着，即使是這家以安全著稱的公司，也無法完全防止其 AI 系統被惡意行為者利用。

當一家公司的安全報告公開承認其產品容易被濫用，同時其安全研究員卻在紛紛離開並發出警告時，外界有理由質疑：安全報告中的坦誠，究竟是真正的透明度，還是一種精心計算的「合規表演」？

IPO 壓力下的安全讓步

所有這些事件都發生在一個共同的背景下：AI 公司正面臨巨大的 IPO 和商業化壓力。

OpenAI 正在積極準備 IPO，其估值預期已超過 3,000 億美元。Anthropic 在完成 300 億美元估值的融資後，也被廣泛認為將在未來兩年內上市。這些天文數字的估值，需要持續的收入增長和用戶擴張來支撐——而安全限制往往被視為增長的障礙。

一個殘酷的商業現實是：安全措施通常意味着更慢的發布速度、更有限的功能和更高的運營成本。在一個投資者期望爆炸性增長的市場中，每一項安全限制都可能被解讀為「不夠激進」。當你的競爭對手正在放鬆安全標準以加速增長時，堅持嚴格的安全標準就變成了一種戰略劣勢。

安全研究員的大出走，不是個別公司的人事問題，而是整個 AI 產業在「安全」與「速度」之間的結構性衝突的外在表現。當安全不再是競爭優勢而是增長阻力時，它在企業優先級中的地位就必然下滑。

對香港的啟示

AI 安全研究者的集體出走，對香港在 AI 治理和產業發展方面有着重要的啟示。

信任危機與監管需求

當全球頂尖 AI 公司的內部安全機制被證明不可靠時，外部監管的重要性就更加凸顯。香港作為一個擁有健全法治體系的國際城市，有條件也有責任建立獨立的 AI 安全評估機制，而不是完全依賴企業的自我監管。

香港可以考慮設立獨立的 AI 安全審計機構，定期評估在港運營的主要 AI 系統的安全性和可靠性。這不僅是對本地用戶的保護，也可以成為香港在國際 AI 治理中的一個獨特定位。

人才的流動與機遇

安全研究者的大出走，意味着全球有一批具備頂級 AI 安全專業知識的人才正在尋找新的職業方向。香港的大學和研究機構如果能提供有競爭力的職位和研究環境，有機會吸引這些人才。

特別是香港科技大學、香港大學和香港中文大學在 AI 研究方面已有堅實基礎，如果能設立專門的 AI 安全研究中心，不僅能提升香港在全球 AI 安全研究中的地位，也能為本地 AI 產業提供重要的安全專業支持。

企業自律的局限性

這一系列事件最深刻的教訓是：企業自律在商業壓力面前是脆弱的。即使是 Anthropic——一家字面意思上「因為安全」而創立的公司——也無法完全抵擋商業化的壓力。這對香港的 AI 政策制定者來說是一個重要的提醒：在制定 AI 監管框架時，不能過度依賴行業自律，需要建立具有法律約束力的安全標準和問責機制。

同時，香港在推動 AI 產業發展時，也需要認真思考一個根本問題：我們是否願意為了經濟增長而接受更高的安全風險？安全研究者們的離職和警告提醒我們，這不是一個抽象的哲學問題，而是關乎每個人切身利益的現實選擇。

前路何方：安全研究的未來

AI 安全研究者的大出走，既是一個危機信號，也可能成為一個轉折點。如果足夠多的頂尖研究者公開表達擔憂，公眾輿論可能會對 AI 公司的安全承諾施加更大壓力。監管機構也可能因此加速立法進程。

然而，也存在一種更悲觀的可能性：這些警告被市場的喧囂所淹沒，安全團隊繼續被邊緣化，直到某個嚴重的 AI 安全事故迫使所有人正視問題。屆時付出的代價，將遠遠超過今天加強安全投入所需的成本。

Sharma 說世界「正處於危難之中」。我們或許還有時間證明他是錯的——但前提是我們認真對待他的警告。

                        本文要點總結
                        Anthropic 安全研究員 Mrinank Sharma 辭職並警告「世界正處於危難之中」，揭示即使在最注重安全的 AI 公司，商業壓力也在侵蝕安全承諾。
OpenAI 研究員 Zoë Hitzig 離職，警告 AI 廣告化將導致與社交媒體類似的心理健康危機和用戶依賴問題。
OpenAI 高級安全主管 Ryan Beiermeister 因反對「成人模式」的色情內容和擔憂兒童安全而被解僱。
OpenAI 解散 7 人 Mission Alignment 團隊，領導人被授予「首席未來學家」虛銜，安全在組織結構中被系統性邊緣化。
這波離職潮折射出 AI 產業在 IPO 壓力下「安全」與「速度」的結構性衝突。香港應建立獨立 AI 安全審計機制，同時把握吸引全球安全人才的機遇。