打開神經網路的「黑箱」:什麼是 AI 可解釋性?
要理解 Goodfire 融資事件的深層意義,首先需要理解什麼是 AI 可解釋性(interpretability)。當我們使用 ChatGPT、Claude 或 Gemini 等大型語言模型時,這些模型內部擁有數十億甚至數萬億個參數,它們透過極其複雜的方式相互作用來生成回應。然而,即使是創建這些模型的工程師,也無法完全理解模型「為什麼」會做出某個特定的決定。這就是所謂的「黑箱問題」。
AI 可解釋性研究的目標,就是打開這個黑箱。研究者試圖理解神經網路內部的運作機制——每一層神經元在做什麼、特定的「特徵」(features)如何被編碼和組合、模型的推理路徑是什麼。這不僅僅是學術好奇心驅動的研究,而是關乎 AI 系統能否被安全、負責任地部署的核心問題。
想像一下:一個 AI 模型被用來審批貸款申請或做出醫療診斷建議。如果我們無法理解它為什麼做出某個決定,我們如何確保它沒有基於種族、性別等不當因素做出判斷?如果一個 AI 系統在關鍵基礎設施中被使用,我們如何確保它不會在意想不到的情況下做出危險的決策?可解釋性正是回答這些問題的關鍵。
Goodfire 的獨角獸之路:從學術實驗室到十億美元企業
Goodfire 的故事始於全球頂尖 AI 實驗室的可解釋性研究團隊。公司核心團隊匯聚了來自 DeepMind 和 OpenAI 的頂尖研究者,以及哈佛大學和史丹福大學的學術精英,形成了一支在 AI 可解釋性領域具有無可比擬深度的團隊。
其中,Nick Cammarata 曾在 OpenAI 的可解釋性團隊工作,是早期探索神經網路內部表徵的先驅之一。Tom McGrath 則在 DeepMind 創立了可解釋性研究方向,從零開始構建了這個對 AI 安全至關重要的研究領域。Leon Bergen 來自加州大學聖地亞哥分校(UC San Diego),為團隊帶來了認知科學和計算語言學的跨學科視角。
這支團隊的學術底蘊和產業經驗的結合,正是 Goodfire 能夠吸引頂級投資者的核心原因。他們不是在追逐 AI 的表面應用,而是在攻克 AI 最根本的技術挑戰之一——而這正是長期價值的所在。
2026 年 2 月 5 日,Goodfire 宣布完成 1.5 億美元 Series B 融資,由 B Capital 領投。參與本輪的投資者陣容同樣引人注目:Juniper Ventures、Menlo Ventures、Lightspeed Venture Partners、South Park Commons、Wing VC、DFJ Growth 和 Salesforce Ventures 均有參與。此外,前 Google CEO Eric Schmidt 也以個人身份投資。算上此前的融資輪次,Goodfire 的累計融資額已超過 2.09 億美元。12.5 億美元的投後估值讓 Goodfire 正式邁入獨角獸行列——這在 AI 可解釋性這個細分領域尚屬首次。
Goodfire 融資歷程與關鍵數據
- Series B(2026 年 2 月):融資 1.5 億美元,估值 12.5 億美元(獨角獸)
- 領投方:B Capital
- 參投方:Juniper Ventures、Menlo Ventures、Lightspeed、South Park Commons、Wing VC、DFJ Growth、Salesforce Ventures、Eric Schmidt
- 累計融資:超過 2.09 億美元
- 核心團隊:來自 DeepMind、OpenAI 的頂尖研究者,哈佛、史丹福學術精英
- 關鍵人物:Nick Cammarata(OpenAI 可解釋性)、Tom McGrath(DeepMind 可解釋性創立者)、Leon Bergen(UC San Diego)
模型設計環境:Goodfire 的核心產品願景
Goodfire 的商業願景圍繞著一個核心概念:「模型設計環境」(Model Design Environment)。這不是一個簡單的模型監控或除錯工具,而是一個全新的平台類別——它讓工程師和研究者能夠深入到 AI 模型的內部,理解、除錯和設計模型的行為。
傳統上,AI 模型的開發流程是:收集數據、訓練模型、測試結果。如果結果不理想,工程師只能調整數據或超參數,然後重新訓練——這是一個高成本、低效率、且本質上是「試錯」的過程。Goodfire 的模型設計環境則提供了一條全新路徑:透過前沿的可解釋性技術「深入到模型內部」(reach inside models),研究者可以直接觀察和理解模型的內部表徵,識別出導致特定行為的神經元模式,並有針對性地進行修改。
這意味著,AI 開發者不再需要將模型視為黑箱。他們可以像軟體工程師使用除錯器(debugger)一樣,逐步追蹤模型的「推理過程」,找出錯誤的根源,並進行精確的修復。這對於企業部署 AI 系統來說意義重大:它大幅降低了模型行為不可預測的風險,縮短了開發週期,並提高了模型的可靠性。
Goodfire 所使用的「前沿可解釋性技術」涵蓋了稀疏自動編碼器(Sparse Autoencoders)、特徵迴路分析(Feature Circuit Analysis)、以及機械式可解釋性(Mechanistic Interpretability)等多種方法。這些技術能夠將模型內部數十億維的活動空間分解為人類可理解的「特徵」,揭示模型是如何表徵和處理資訊的。
從阿茲海默症到 AI 安全:可解釋性的實際應用
Goodfire 最引人注目的應用案例之一,是他們在生物醫學領域的突破。透過對一個名為 Prima Mente 的基礎模型進行逆向工程分析,Goodfire 的團隊發現了新型的阿茲海默症生物標記物(biomarkers)。這個案例完美地展示了可解釋性技術的實際價值:不是簡單地讓 AI 模型給出預測結果,而是深入模型內部,理解它「學到了什麼」,進而發現人類研究者可能忽略的生物學洞見。
這個發現的過程值得深入描述。Prima Mente 模型在處理大量生物醫學數據後,能夠對阿茲海默症的風險做出預測。但 Goodfire 的可解釋性技術不僅停留在「模型能預測」這個層面——他們逆向工程分析了模型的內部表徵,找到了模型用於做出預測的關鍵特徵。這些特徵對應的生物學標記物,部分是已知的阿茲海默症相關因子,但部分則是全新的發現。這意味著,可解釋性技術不僅可以驗證 AI 模型的推理是否合理,還可以成為科學發現的催化劑。
除了生物醫學領域,可解釋性在 AI 安全方面的應用同樣至關重要。隨著 AI 模型被部署到越來越多的高風險場景——金融交易、醫療診斷、自動駕駛、軍事決策——理解模型行為的能力不再是「可有可無」的學術追求,而是「必不可少」的安全需求。
具體而言,可解釋性技術可以幫助識別:
- 偏見與歧視:發現模型是否基於種族、性別等不當特徵做出決策
- 對抗性脆弱性:找到模型可能被精心設計的輸入「欺騙」的弱點
- 知識邊界:理解模型在什麼情況下可能給出不可靠的回答(即「幻覺」問題的根源)
- 後門檢測:發現模型是否在訓練過程中被植入了惡意行為模式
- 能力評估:準確判斷模型的真實能力邊界,避免過度依賴或低估
為什麼現在是可解釋性的「獨角獸時刻」?
AI 可解釋性研究已有多年歷史,但為什麼 Goodfire 在 2026 年才成為獨角獸?這背後有多個因素的匯聚。
技術成熟度的突破
近兩年來,機械式可解釋性技術取得了重大進展。Anthropic 在 2024 年發表的稀疏自動編碼器研究、OpenAI 的「超對齊」(Superalignment)團隊的相關工作,以及學術界在特徵迴路、多義性消解等方面的突破,使得可解釋性技術從「概念驗證」階段進入了「工程應用」階段。Goodfire 團隊的成員本身就是這些技術突破的核心貢獻者——他們現在將這些技術轉化為商業產品。
企業需求的爆發
隨著 AI 在企業中的部署從「實驗」轉向「生產」,企業對 AI 系統的可信賴度要求急劇上升。一個在實驗室中表現優異的模型,在實際業務場景中可能會出現意想不到的行為。企業需要能夠理解、預測和控制 AI 系統行為的工具——而這正是 Goodfire 提供的價值。
監管壓力的升級
歐盟的《AI 法案》(AI Act)已於 2025 年開始分階段實施,其中對高風險 AI 系統的透明度和可解釋性要求極為嚴格。美國、中國、以及包括香港在內的亞太各監管機構也在加速制定 AI 治理框架。這些監管要求正在創造一個龐大的合規市場——企業需要證明其 AI 系統的決策過程是可理解和可審計的。
AI 安全意識的提升
隨著 AI 模型的能力日益強大,全球對 AI 安全的關注度也在不斷提升。從 2024 年的 AI 安全峰會到 2025 年的多國 AI 安全協議,國際社會對「理解 AI 系統如何運作」的需求越來越迫切。可解釋性被廣泛認為是實現 AI 安全的核心技術之一——如果我們不能理解一個 AI 系統,我們就無法確保它是安全的。
投資者的信號:Eric Schmidt 與 Salesforce 的戰略意圖
這輪融資的投資者組成本身就傳遞了重要的市場信號。B Capital 作為領投方,是由 Facebook 聯合創始人 Eduardo Saverin 創立的全球性風投基金,專注於具有深度技術壁壘的投資機會。他們選擇領投 Goodfire,表明了對 AI 可解釋性作為平台級技術的長期看好。
Eric Schmidt 的參與尤其值得關注。作為 Google 前 CEO 和 AI 政策領域的積極推動者,Schmidt 近年來一直在投資和推動 AI 安全和治理相關的技術。他對 Goodfire 的投資,不僅是對可解釋性技術商業前景的背書,也反映了他對 AI 安全基礎設施的戰略投資邏輯。
Salesforce Ventures 的參與則揭示了一個更直接的商業信號。Salesforce 是全球最大的企業軟體公司之一,其 CRM 平台正在大規模整合 AI 功能(包括 Agentforce 等 AI 代理產品)。Salesforce Ventures 投資 Goodfire,很可能意味著 Salesforce 正在考慮將可解釋性技術整合到其企業 AI 產品中——這將為 Goodfire 打開一個龐大的企業市場通道。
Menlo Ventures 和 Lightspeed Venture Partners 的參與代表了矽谷頂級風投對可解釋性賽道的認可。這兩家基金在 AI 領域的投資記錄極為豐富,它們的參與不僅帶來資金,也帶來了廣泛的產業資源和戰略指導。South Park Commons 作為一個以技術深度見長的社群型基金,Wing VC 和 DFJ Growth 的加入則進一步豐富了 Goodfire 的投資者生態。
AI 可解釋性產業的競爭格局
Goodfire 的獨角獸地位並不意味著它在可解釋性領域獨佔鰲頭。事實上,AI 可解釋性正在形成一個日益活躍的生態系統。
Anthropic 自身擁有強大的可解釋性研究團隊,並將可解釋性作為其安全策略的核心支柱之一。OpenAI 在 2024 年曾短暫解散其超對齊團隊,但隨後重新加大了對可解釋性研究的投入。Google DeepMind 同樣在這一領域投入了大量資源。
然而,Goodfire 的差異化在於:它是一家純粹以可解釋性為核心的獨立公司。與大型 AI 實驗室將可解釋性作為「安全研究的一部分」不同,Goodfire 的全部商業模式都圍繞著可解釋性展開。這使得它能夠以更專注、更靈活的方式開發和部署可解釋性工具,服務於所有 AI 模型的開發者和部署者——包括那些大型實驗室的競爭對手的客戶。
此外,學術界也在持續推動可解釋性研究的邊界。哈佛大學、MIT、劍橋大學等頂尖研究機構都在這一領域做出了重要貢獻。Goodfire 與學術界的緊密聯繫——其團隊包括來自哈佛和史丹福的研究者——使得它能夠快速將最新的學術成果轉化為商業應用。
對香港的深層啟示:AI 治理與金融監管的新維度
Goodfire 的崛起對香港有著多層面的啟示,尤其在 AI 治理和金融監管方面。
金融業的 AI 可解釋性需求
香港作為國際金融中心,其銀行、保險和資產管理行業正在大規模採用 AI 技術。香港金融管理局(HKMA)和證券及期貨事務監察委員會(SFC)對 AI 在金融服務中的使用已有指導框架,其中對 AI 系統的透明度和可解釋性有明確要求。Goodfire 所代表的可解釋性技術,正是金融機構滿足這些監管要求的關鍵工具。
例如,當一個 AI 模型被用於信貸審批時,監管機構需要金融機構能夠解釋模型做出每一個決定的依據。當 AI 被用於反洗錢(AML)監控時,可疑交易的標記需要有可追溯的邏輯鏈條。可解釋性技術使得這些要求從技術上成為可能。
AI 治理框架的技術基礎
香港政府正在積極制定 AI 治理框架。在這個過程中,一個核心挑戰是:如何在促進 AI 創新和確保 AI 安全之間取得平衡?可解釋性技術提供了一個答案——它使得我們可以在不限制 AI 能力的前提下,確保 AI 系統的行為是可理解和可預測的。
這對香港的政策制定者來說意義重大:如果可解釋性技術足夠成熟和可用,監管框架可以將重點放在「要求 AI 系統具備可解釋性」而非「限制 AI 系統的功能」上。這是一種更有利於創新的監管路徑。
創投與科技產業的機遇
Goodfire 的獨角獸估值表明,AI 基礎設施和工具層面的投資價值正在被市場重新認識。對香港的創投生態而言,這意味著除了追逐 AI 應用層面的機會(如 AI 聊天機器人、AI 內容生成等),還應該關注 AI 基礎技術層面的投資機會——包括可解釋性、AI 安全、模型評估等「基礎設施」類別的初創企業。
此外,香港的大學(特別是香港大學、香港科技大學和香港中文大學)在 AI 研究方面具有相當實力。如果能夠建立更有效的學術成果商業化機制,香港有潛力在 AI 安全和可解釋性這個日益重要的領域培育出本土的創新企業。
本文要點總結
- 融資里程碑:Goodfire 完成 1.5 億美元 Series B 融資,估值 12.5 億美元,成為 AI 可解釋性領域首個獨角獸。B Capital 領投,Eric Schmidt、Salesforce Ventures 等知名投資者參與,累計融資超 2.09 億美元。
- 頂尖團隊:核心成員來自 DeepMind(Tom McGrath,創立可解釋性方向)、OpenAI(Nick Cammarata,可解釋性研究先驅),以及哈佛、史丹福等頂尖學府。
- 核心產品:「模型設計環境」——利用前沿可解釋性技術深入模型內部,實現 AI 模型的理解、除錯和設計。
- 實際應用突破:透過逆向工程分析 Prima Mente 基礎模型,發現新型阿茲海默症生物標記物,展示可解釋性作為科學發現工具的潛力。
- 市場驅動力:AI 安全需求、企業信賴度要求、全球監管合規壓力(歐盟 AI 法案等)三大因素推動可解釋性從學術走向商業核心。
- 香港啟示:金融業 AI 可解釋性需求迫切(HKMA、SFC 監管要求),AI 治理框架制定需以可解釋性技術為基礎,創投應關注 AI 基礎設施層面的投資機會。