← 返回新聞列表

DeepRare 登上 Nature:AI 多代理系統診斷罕見疾病首次超越醫生,惠及全球 3 億患者

上海交通大學團隊研發的 DeepRare 系統以多代理架構模擬專家會診流程,在超過 7,000 種罕見疾病的診斷中全面超越資深醫生,標誌著 AI 醫療從輔助工具邁向核心診斷能力的歷史性轉折。

2026 年 2 月 18 日,國際頂級學術期刊《Nature》刊發了一項足以改變全球罕見疾病診療格局的研究成果。由上海交通大學研究團隊開發的 DeepRare 多代理人工智能系統,在針對罕見疾病的診斷測試中,首次系統性地超越了經驗豐富的人類醫生。這不僅是一篇學術論文的發表,更是全球逾 3 億名深陷「診斷困境」的罕見病患者等待多年的曙光。

這是首個在 Nature 上發表的代理式 AI 系統,能夠以完全可追溯的推理鏈條,證明其診斷表現超越有經驗的臨床醫生。對於一個長期被忽視、資源匱乏的醫學領域而言,DeepRare 的出現意味著範式級別的變革。

64.4% vs 54.6% DeepRare 首次嘗試正確診斷率 vs 人類醫生首次嘗試正確診斷率

罕見疾病:被遺忘的醫學困境

要理解 DeepRare 的突破意義,首先需要認識罕見疾病這個長期被全球醫療體系邊緣化的領域。目前已知的罕見疾病超過 7,000 種,影響全球約 6% 至 8% 的人口,合計超過 3 億人。儘管每一種罕見病的個別患者人數有限,但罕見疾病的總體患者規模卻相當龐大——如果將全球罕見病患者視為一個國家,其「人口」將排名世界第三,僅次於中國和印度。

然而,罕見疾病患者面臨的最殘酷現實,往往不是疾病本身,而是漫長到令人絕望的「診斷之旅」(diagnostic odyssey)。統計數據顯示,一名罕見病患者從出現症狀到獲得正確診斷,平均需要超過 5 年時間。在這段漫長的歲月中,患者往往輾轉多家醫院、遍訪數十位醫生,經歷無數次誤診和錯誤治療。部分患者甚至在漫長的等待中病情惡化至不可逆轉的地步。

罕見疾病的「罕見」僅指單一病種的患者數量,但這些疾病的總體負擔絕非罕見。全球超過 3 億人正在承受診斷延遲和治療匱乏之苦,每一天的等待都可能意味著不可逆的損害。

造成這一困境的根源在於:罕見疾病種類繁多、症狀高度異質化,而絕大多數醫生在職業生涯中可能僅接觸過其中極少數幾種。即使是頂尖醫學中心的資深專家,面對某些罕見病例時也常常束手無策。傳統的臨床決策流程——依賴個人經驗與有限的文獻檢索——在面對 7,000 多種可能的罕見疾病時,顯然力不從心。

DeepRare 的技術架構:模擬專家會診的多代理系統

DeepRare 最核心的設計理念,是以 AI 多代理架構模擬現實中頂尖醫學專家的協作會診流程。在臨床實踐中,疑難罕見病例通常需要多學科團隊(MDT)的協作討論——來自不同專科的醫生各自從自己的領域出發,彙集線索,共同推導出最終診斷。DeepRare 將這一人類智慧結晶轉化為了系統化的 AI 架構。

以 DeepSeek-V3 為骨幹的多代理協作

系統以 DeepSeek-V3 大型語言模型作為核心骨幹,構建了由 40 餘種專業化工具組成的代理工具箱。每一個工具代理都對應著特定的臨床功能——有的負責解析表型數據,有的專精基因變異判讀,有的聚焦遺傳模式分析,有的則負責交叉比對龐大的罕見病資料庫。這些代理在一個精心設計的協作框架下運作,彼此交換信息、質疑假設、驗證結論,最終匯聚為一個經過多重檢驗的診斷結果。

這種架構設計的精妙之處在於,它不是簡單地讓一個超大模型「一口氣」給出答案,而是讓多個專業化代理在結構化的流程中反覆推敲。這與人類專家團隊的運作模式驚人地相似——正如一個好的多學科會診不是某位醫生的「一言堂」,而是多方觀點的碰撞與整合。

DeepRare 系統核心技術參數

  • 骨幹模型:DeepSeek-V3 大型語言模型
  • 代理工具數量:超過 40 種專業化工具
  • 架構類型:多代理協作系統,模擬多學科專家會診
  • 訓練方法:「Slime」異步強化學習系統
  • 幻覺率降低:較前一代系統降低 56%
  • 推理可追溯性:完整推理鏈條,每一步決策可供臨床驗證

「Slime」異步強化學習:解決 AI 醫療的幻覺頑疾

AI 在醫療領域應用的最大隱憂之一,是所謂的「幻覺」問題——模型可能生成看似合理但實際上完全錯誤的診斷推理。在一般的聊天場景中,幻覺或許只是一個令人不悅的小瑕疵;但在攸關生死的臨床診斷中,一次幻覺可能意味著一條生命的喪失。

DeepRare 團隊為此開發了一套名為「Slime」的異步強化學習系統。這套系統的核心思路是,讓多個代理在非同步的訓練循環中相互監督和糾錯,從而大幅壓低幻覺率。結果令人印象深刻:相較於前一代系統,DeepRare 的幻覺率降低了 56%。這一改進對於將 AI 引入臨床實踐具有決定性意義——它意味著系統不僅「聰明」,而且「可靠」。

里程碑式的評測結果

DeepRare 在多項基準測試中展現了壓倒性的優勢。在最核心的臨床模擬測試中,系統的首次嘗試正確診斷率達到 64.4%,而對照組中經驗豐富的人類醫生僅為 54.6%。這近 10 個百分點的差距,在罕見疾病診斷這一極其困難的領域中,代表著巨大的臨床意義。

專家驗證:95.4% 的推理認同率

更值得關注的是 DeepRare 在推理品質方面的表現。研究團隊邀請了 10 位來自不同專科的資深醫學專家,對 DeepRare 生成的診斷推理過程進行盲審。結果顯示,專家對 AI 推理過程的認同率高達 95.4%。這意味著 DeepRare 不僅「答對了」,而且「想對了」——它的推理邏輯是臨床醫生能夠理解、驗證和信任的。

這一點至關重要。一個只能給出答案但無法解釋理由的「黑箱」系統,在臨床上是不可接受的。DeepRare 的完整可追溯推理鏈條,使得每一步診斷邏輯都可供臨床醫生審視和驗證,這為 AI 在真實臨床環境中的採納掃除了最大的信任障礙。

表型數據分析的突破性進展

在僅依賴表型數據(即臨床症狀和體徵描述,不含基因測序結果)的測試條件下,DeepRare 的 Top-1 準確率達到 57.18%,較此前最優系統(State-of-the-Art)高出 23.79 個百分點。這一躍升意義非凡,因為在許多醫療資源匱乏的地區和場景中,基因測序尚未普及,臨床醫生只能依靠患者的症狀描述進行初步判斷。DeepRare 在純表型條件下的卓越表現,意味著它能夠在最基礎的臨床條件下發揮巨大價值。

DeepRare 核心評測結果

  • 首次嘗試正確診斷率:AI 64.4% vs 醫生 54.6%(差距近 10 個百分點)
  • 專家推理認同率:10 位醫學專家中 95.4% 認同 AI 推理過程
  • 表型數據 Top-1 準確率:57.18%(高於前 SOTA 23.79 個百分點)
  • 幻覺率:較前一代降低 56%
  • 部署規模:自 2025 年 7 月起已在逾 600 家醫療機構使用

從論文到臨床:600 餘家機構的實戰驗證

與許多停留在學術論文階段的 AI 研究不同,DeepRare 早在 2025 年 7 月便已開始在真實臨床環境中部署。截至研究發表時,已有超過 600 家醫療機構在使用這套系統。這一事實說明 DeepRare 不僅僅是一個實驗室中的概念驗證,而是一個經過大規模臨床實踐檢驗的成熟工具。

大規模部署帶來的另一個重要價值是持續的數據回饋。每一次臨床使用都為系統提供了新的學習材料,使其能夠不斷優化對罕見疾病模式的識別能力。這種良性循環在傳統醫學中幾乎不可能實現——一位醫生的個人經驗增長速度遠遠無法與一個同時從 600 餘家機構汲取知識的 AI 系統相比。

對全球罕見病診療的深遠影響

DeepRare 的出現,有望從根本上改變罕見病患者的「診斷之旅」。如果一個 AI 系統能夠在首次接觸時就以 64.4% 的準確率鎖定正確診斷,那麼原本平均超過 5 年的診斷等待時間可能被大幅縮短至數天甚至數小時。

更深層的影響在於醫療公平性。罕見疾病的診斷能力在全球範圍內分布極不均衡——頂尖的罕見病診斷專家幾乎全部集中在少數幾個發達國家的大型醫學中心。對於發展中國家或偏遠地區的患者而言,獲得專家級別的診斷意見幾乎是一種奢望。DeepRare 作為一個可規模化部署的 AI 系統,有潛力將世界一流的罕見病診斷能力帶到任何一個有網絡連接的醫療機構。

如果將 DeepRare 的部署視為一場「醫療民主化」運動,它所承諾的不僅是更快速的診斷,更是讓全球每一位罕見病患者——無論其地理位置或經濟條件——都有機會獲得頂尖專家級別的診斷服務。

對香港醫療體系的深層啟示

香港作為亞洲領先的醫療樞紐,在罕見疾病領域面臨著獨特的挑戰與機遇。DeepRare 的成功為香港醫療體系提供了多維度的啟示。

香港罕見病診療的現狀與痛點

根據香港罕見疾病聯盟的數據,本港約有數萬名罕見病患者。儘管香港擁有世界一流的醫療基礎設施和專業人才,但罕見疾病診斷仍然面臨嚴峻挑戰。公立醫院專科門診輪候時間長、罕見病專科醫生稀缺、基因測序費用高昂,這些因素使得本港罕見病患者同樣面臨漫長的「診斷之旅」。香港政府雖已在 2019 年成立了罕見疾病問題委員會,但在診斷效率方面仍有巨大的提升空間。

AI 輔助診斷的本地化機遇

DeepRare 的技術路線對香港具有特殊的參考價值。首先,香港擁有完善的電子病歷系統和高質量的臨床數據,這為 AI 診斷系統的本地化部署提供了堅實的數據基礎。其次,香港的醫療體系高度集中——醫院管理局轄下的公立醫院覆蓋全港約 90% 的住院服務,這意味著一套 AI 診斷系統一旦接入醫管局體系,便能迅速覆蓋絕大多數患者。

更值得注意的是,DeepRare 在純表型數據下的出色表現(Top-1 準確率 57.18%),意味著即使在基因測序資源有限的基層醫療場景中,系統也能發揮顯著作用。這對於香港正在大力推動的基層醫療改革——尤其是地區康健中心的發展——具有直接的實踐意義。

大灣區醫療合作的新契機

DeepRare 由上海交通大學團隊開發,使用 DeepSeek-V3 作為骨幹模型,這一完全源自中國本土的技術棧,為香港融入大灣區醫療 AI 生態提供了天然的橋梁。隨著河套深港科技創新合作區的加速推進以及大灣區跨境醫療合作的深化,香港有條件成為 DeepRare 類系統在國際化臨床驗證中的關鍵節點——利用香港嚴格的醫療監管標準和國際化的臨床研究環境,為此類 AI 系統的全球推廣提供可信的第三方驗證。

審慎的前瞻:挑戰與限制

儘管 DeepRare 的成果令人振奮,但將這一技術推向更廣泛的臨床應用仍面臨若干重要挑戰。

  • 監管框架尚待建立:全球範圍內,針對代理式 AI 診斷系統的醫療器械監管標準仍在發展中。香港的藥物及醫療器械監管制度如何適應這類新型 AI 工具,是一個亟需解決的問題。
  • 數據隱私與跨境治理:AI 診斷系統的持續優化依賴大量臨床數據的回饋。在跨境醫療合作日益頻繁的背景下,如何在保障患者隱私的前提下實現數據的合理流通,是一個複雜的法律和倫理問題。
  • 臨床採納的文化阻力:即使 AI 在技術指標上超越人類醫生,要讓臨床醫生在日常實踐中真正信任和使用 AI 建議,仍需要漫長的信任建立過程。DeepRare 95.4% 的推理認同率是一個良好的開端,但從「認同」到「採納」之間仍有距離。
  • 罕見病的「長尾」挑戰:7,000 多種罕見疾病中,相當一部分的已知病例極為稀少,AI 訓練數據的覆蓋率和代表性仍是一個根本性的限制。

結語:從「診斷之旅」到「一站式診斷」的願景

DeepRare 登上 Nature,標誌著 AI 在醫療診斷領域邁過了一個歷史性的里程碑。它不僅是第一個在頂級學術期刊上被證明超越人類醫生的代理式 AI 診斷系統,更是一個已經在 600 餘家醫療機構中經受實戰考驗的成熟工具。對於全球超過 3 億名罕見病患者而言,這項研究帶來的不僅是學術上的突破,更是一個切實的希望:或許在不遠的將來,他們不再需要忍受長達數年的「診斷之旅」,而是能夠在首次就診時就獲得準確的方向。

對於香港而言,DeepRare 的成功既是一個啟示,也是一個行動呼籲。在全球 AI 醫療競賽日益白熱化的今天,香港需要加速建立 AI 醫療的監管框架、深化與大灣區的技術合作、並在臨床實踐中積極擁抱經過嚴格驗證的 AI 輔助診斷工具。罕見疾病患者已經等待了太久,技術的曙光已然出現,現在需要的是制度和意識的跟進。

本文要點總結

  • DeepRare 是首個發表於 Nature 的代理式 AI 系統,在罕見疾病診斷中系統性超越人類醫生(64.4% vs 54.6%)
  • 系統採用 40 餘種專業工具的多代理架構,以 DeepSeek-V3 為骨幹,模擬多學科專家會診流程
  • 10 位醫學專家對 AI 推理的認同率達 95.4%,證明系統具備可解釋、可追溯的臨床推理能力
  • 創新的「Slime」異步強化學習系統將幻覺率降低 56%,大幅提升臨床可靠性
  • 自 2025 年 7 月起已部署於逾 600 家醫療機構,從學術研究邁入大規模臨床實踐
  • 香港可藉此契機加速罕見病 AI 輔助診斷部署,深化大灣區醫療 AI 合作,惠及本港數萬名罕見病患者