OpenAI 推出「成人模式」引發安全危機：安全主管被解僱的背後

事件始末：一場被解僱引爆的風暴

2026 年 2 月 14 日，《華爾街日報》率先披露了一則震動業界的消息：OpenAI 解僱了其高級安全主管 Ryan Beiermeister。據報道，Beiermeister 被解僱的真正原因是她公開反對 OpenAI 計劃在 ChatGPT 中推出「成人模式」（Adult Mode）——一個允許生成色情、暴力等 NSFW（Not Safe For Work）內容的功能。

Beiermeister 的核心關切在於兒童保護。她認為，在一個全球擁有超過 3 億用戶的平台上推出 NSFW 內容功能，即使設有年齡驗證機制，也無法有效防止未成年人接觸不當內容。她在內部備忘錄中警告，現有的年齡驗證技術「漏洞百出」，且 OpenAI 尚未建立足夠的兒童保護基礎設施。

然而，OpenAI 對此給出了截然不同的解釋。公司聲稱，Beiermeister 被解僱的原因是「涉嫌性別歧視」行為——一項她本人堅決否認的指控。這種說辭立刻引起了廣泛質疑：在矽谷，用「人事問題」來掩蓋對安全倡導者的報復，早已是一個眾所周知的模式。

使命對齊團隊的解散：制度性安全防線的瓦解

Beiermeister 被解僱並非孤立事件。幾乎在同一時期，OpenAI 宣布解散其七人「使命對齊團隊」（Mission Alignment Team）。這個團隊成立於 2024 年，其明確使命是確保 OpenAI 的 AGI（通用人工智能）開發始終忠於公司的創始宗旨——「確保 AI 造福全人類」。

該團隊的負責人 Joshua Achiam 並未被解僱，而是被賦予了一個新頭銜——「首席未來學家」（Chief Futurist）。這個聽起來光鮮實則空洞的頭銜，被業界普遍解讀為一種「明升暗降」——剝奪其實際決策權，同時避免了因再次解僱安全高管而引發的公關危機。

「當一家 AI 公司將其安全團隊負責人的頭銜從『使命對齊主管』改為『首席未來學家』時，這家公司對安全的態度已經一目了然。」——前 OpenAI 研究員在社交媒體上的評論

一個令人不安的模式

將這些事件放在更大的時間線上審視，一個令人不安的模式浮現出來：

2024 年 5 月：OpenAI 聯合創辦人 Ilya Sutskever 和超級對齊團隊負責人 Jan Leike 相繼離職。Leike 在離開時公開表示，OpenAI 的安全文化已經「被邊緣化」，公司「將閃亮的產品置於安全之上」。
2024 年下半年：OpenAI 的超級對齊（Superalignment）團隊實質上被解散，其承諾的 20% 計算資源從未真正兌現。
2025 年：多名安全研究員陸續離開 OpenAI，其中數人加入了 Anthropic 等競爭對手。
2026 年 2 月：Beiermeister 被解僱，使命對齊團隊被解散。

從 Sutskever 和 Leike 的離開，到超級對齊團隊的解散，再到如今使命對齊團隊的終結和 Beiermeister 的被解僱，OpenAI 內部的安全力量正在被系統性地削弱。這不是偶發事件，而是一個清晰的趨勢。

商業壓力下的安全讓步

理解 OpenAI 的行為邏輯，需要將其置於更廣闘的商業背景下。OpenAI 正在積極準備 IPO（首次公開發行），據報道其目標估值高達 3,000 億美元。為了支撐這一天文數字級別的估值，OpenAI 需要展示強勁的營收增長。

「成人模式」的推出，從商業角度看並不難理解。成人內容平台是互聯網上最賺錢的商業模式之一。OnlyFans 在 2025 年的營收超過 80 億美元，僅靠內容創作者的分成就實現了驚人的利潤。如果 ChatGPT 能夠合法地進入這一市場——即使只是其中一小部分——對營收的提振效果將立竿見影。

但問題在於：這種商業邏輯與 AI 安全之間存在根本性的張力。NSFW 內容生成不僅涉及兒童保護問題，還涉及 deepfake 色情、非自願色情內容（NCII）、以及 AI 生成的兒童性虐待材料（CSAM）等嚴重犯罪風險。在這些風險尚未得到充分解決的情況下，急於推出「成人模式」，無異於在安全網尚未架好時就開始走鋼索。

                        「成人模式」的核心安全隱憂
                        年齡驗證不足：目前沒有可靠的線上年齡驗證技術能有效阻止未成年人繞過限制。
Deepfake 色情風險：AI 生成的色情內容可能被用來製作未經當事人同意的虛假色情材料。
CSAM 防護：確保 AI 不會生成任何涉及未成年人的性內容，在技術上極為困難。
成癮設計：結合 AI 的個性化能力，NSFW 內容可能被設計為高度成癮性的產品。
監管合規：不同國家和地區對色情內容的法律規定差異巨大，全球合規成本極高。

                    

Anthropic 的安全報告：問題不只在 OpenAI

值得注意的是，AI 安全問題絕非 OpenAI 獨有。Anthropic——長期以「安全優先」自居的 AI 公司——在其最新模型的安全報告中也承認，其最先進的模型存在「對有害濫用的提高易感性」，包括在化學武器開發方面可能提供的支持。

這份報告的坦誠令人敬佩，但其揭示的問題令人擔憂。如果連最注重安全的 AI 公司都無法完全解決有害濫用問題，那麼在整個行業面臨 IPO 壓力、營收競賽的背景下，安全防線被突破的風險只會更高。

「快速行動，打破常規」的回歸

矽谷的文化基因中有一個根深蒂固的信條：「Move fast and break things」（快速行動，打破常規）。在社交媒體的早期，這種文化導致了隱私侵犯、虛假信息泛濫和社會極化等一系列問題，而這些問題至今仍未得到妥善解決。

如今，同樣的文化正在 AI 行業中重演。OpenAI 解僱安全主管、解散對齊團隊的做法，與 Facebook 早期無視隱私警告、Twitter 在 Musk 收購後大規模裁撤安全團隊的做法，有著驚人的相似之處。歷史正在重演，只是這一次的風險更高——因為 AI 系統的能力遠超社交媒體平台。

公眾信任的侵蝕

對 OpenAI 而言，這些事件的長期影響可能遠超短期的公關危機。公眾對 AI 公司的信任，是整個行業得以發展的基石。當公眾看到 AI 公司為了商業利益而解僱安全倡導者、解散安全團隊時，信任的裂縫將迅速擴大。

民調數據已經發出了警訊。皮尤研究中心 2025 年底的調查顯示，僅有 28% 的美國成年人認為 AI 公司在安全方面「做得足夠」，較一年前下降了 12 個百分點。在歐洲，這一數字更低，僅為 19%。

信任一旦失去，恢復的代價將極為高昂。監管機構可能會因此採取更加嚴厲的措施，公眾可能對 AI 產品產生抵觸情緒，人才也可能流向被認為更加負責任的競爭對手。

「AI 行業正處於一個關鍵的十字路口。如果領先的公司無法證明它們有能力和意願在追求利潤的同時保障安全，監管的鐵錘遲早會落下——而且力度可能遠超行業所能承受。」

對香港的啟示

內容監管框架的緊迫性

OpenAI「成人模式」事件對香港有著直接的啟示。ChatGPT 在香港擁有大量用戶，如果「成人模式」在全球範圍內推出，香港用戶也將受到影響。目前，香港的《淫褻及不雅物品管制條例》主要針對傳統媒體，對 AI 生成的 NSFW 內容並無明確規範。

香港特區政府需要前瞻性地思考以下問題：AI 生成的色情內容是否受現行法律管轄？AI 平台是否有責任在香港地區限制 NSFW 內容的訪問？如何保護香港的未成年人免受 AI 生成不當內容的侵害？

AI 治理的制度建設

更廣泛地看，OpenAI 的安全團隊困境提醒我們，企業的自我約束是不可靠的。當商業利益與安全原則發生衝突時，缺乏外部監管的企業幾乎必然會選擇利益。這意味著，香港需要建立獨立的 AI 治理機制，而不能僅依賴 AI 公司的自律承諾。

香港在金融監管方面有著世界級的經驗和聲譽。香港金融管理局（HKMA）和證券及期貨事務監察委員會（SFC）在金融科技監管方面已積累了豐富的「監管沙盒」經驗。這些經驗完全可以借鑑到 AI 治理領域。建議設立專門的 AI 安全監管機構或在現有監管框架內增設 AI 安全職能，對在港運營的 AI 平台進行安全審查和合規監督。

成為亞洲 AI 安全研究的中心

危機中也蘊含著機遇。當全球 AI 行業面臨安全信任危機時，香港有機會將自己定位為亞洲 AI 安全研究的中心。香港的法治傳統、學術自由和國際化環境，為 AI 安全研究提供了理想的土壤。如果香港的大學能夠吸引因對 OpenAI 等公司失望而離職的頂尖安全研究員，這將是一筆寶貴的人才資產。

此外，隨著大灣區科技產業的快速發展，香港作為內地與國際社會之間的橋樑，可以在制定跨境 AI 安全標準方面發揮獨特的協調作用。

                        本文要點總結
                        OpenAI 解僱安全主管 Ryan Beiermeister 並解散使命對齊團隊，延續了自 2024 年以來系統性削弱內部安全力量的趨勢。
「成人模式」的推出反映了 IPO 壓力下 AI 公司在商業利益與安全原則之間的根本性衝突。
AI 安全問題非 OpenAI 獨有——Anthropic 最新安全報告也承認其模型存在被有害濫用的風險。
公眾對 AI 公司的信任正在下降，僅 28% 的美國成年人認為 AI 公司在安全方面做得足夠。
香港需要盡快完善 AI 內容監管框架，建立獨立的 AI 安全監管機制，並有機會成為亞洲 AI 安全研究的重要中心。