← 返回新聞列表

Microsoft CORPGEN 研究突破:「數位員工」在企業多任務環境表現提升 3.5 倍,AI 代理進化為真正的辦公室同事

Microsoft Research 最新論文揭示現有 AI 代理的根本瓶頸,並提出以持久身份、多層規劃與經驗學習為核心的「數位員工」架構,為企業 AI 部署開闢全新路徑。

2026 年 2 月 26 日,Microsoft Research 發布了一篇題為《CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments》的研究論文,為當前 AI 代理研究帶來了一個令人警醒的發現:幾乎所有現有的評測框架,都在一個根本性的假設上與現實職場脫節——它們每次只讓 AI 處理一項任務。

這聽起來或許不像是什麼大問題,但試想一下你今天的工作狀態:你同時追蹤著三個項目的進度、等待兩位同事的回覆、記掛著下週要提交的季度報告,還要在會議間隙處理突發的客戶查詢。真實的職場工作,本質上是一種持續的多任務管理。而我們目前幾乎所有評測 AI 代理能力的方式,都沒有反映這個現實。

數字背後的殘酷現實

CORPGEN 論文呈現了一組讓人不得不重新思考的基準數據。在單一任務環境下,當前領先的 AI 代理系統的任務完成率約為 16.7%——這個數字本身已經相當低,但更值得注意的是接下來發生的事。

當研究人員引入「多任務負載」——也就是要求代理同時應對多個相互交織的任務時——完成率直接腰斬,跌至 8.7%。換言之,只是把任務數量增加、讓情境更接近真實辦公室,現有 AI 代理的表現便下滑了近一半。

16.7%
基準代理單任務完成率
8.7%
多任務負載下的完成率
3.5x
CORPGEN 的最大性能提升
15.2%
CORPGEN 在高負載下的完成率(對比基準 4.3%)

Microsoft 的研究者將這類場景正式命名為「多層時域任務環境」(Multi-Horizon Task Environments,MHTEs)——一個新的問題類別,專門描述代理需要在不同時間尺度上同時追蹤、優先排序並執行多項任務的情境。這不僅是工程層面的挑戰,更是 AI 代理研究社群長期以來忽視的一個盲區。

為什麼現有代理會在多任務環境下失敗?

要理解 CORPGEN 的解決方案,首先需要理解現有代理的失敗模式。問題的核心在於「無狀態性」(statelessness)與「上下文污染」(context contamination)。

現有大多數 AI 代理在設計上是無記憶的:每一次任務執行都從一個空白狀態開始,它不知道上次做了什麼、哪些任務還在等待、哪些決定已經做出。這在單任務場景下尚可應付,但一旦任務數量增加,代理便開始在不同任務的上下文之間迷失——它可能把 A 項目的背景資訊錯誤地帶入 B 任務的推理過程,或者因為無法追蹤任務的優先級而陷入低效的重複行動。

「現實的企業工作環境從來不是一次性任務的集合,而是一個由數十個相互依賴的任務構成的持續運作系統。我們的研究旨在讓 AI 代理真正理解並融入這種複雜性。」
——CORPGEN 研究團隊

另一個問題是缺乏角色認同。人類員工在辦公室裡扮演特定角色:財務分析師知道自己的職責邊界,不會隨意越界處理法務文件;HR 專員有自己的工作節奏和優先事項。現有 AI 代理則通常是「萬能但無個性」的——它們沒有明確的角色定位,也沒有工作節律,更遑論在不同代理之間的有效協作。

CORPGEN 的解方:讓 AI 成為真正的「數位員工」

CORPGEN(Corporate Generation)框架的核心理念,是讓 AI 代理具備真實員工應有的特質:持久的身份認同、角色特定的專業知識、以及符合人類工作節律的時間觀念。研究者將這種設計稱為「數位員工」(Digital Employees)。

這個架構建立在四個相互支撐的機制之上:

機制一:三層時間規劃尺度

CORPGEN 代理的規劃體系分為三個時間層次,分別對應不同的思考粒度:

  • 戰略層(Strategic)——月度目標:代理維護對長期目標的整體認知,知道本季度的優先事項是什麼,在每個月的維度上做出資源分配的判斷。
  • 戰術層(Tactical)——每日任務:代理將月度目標分解為每日可執行的具體任務,並在一天的工作開始前進行排序,決定今天先做什麼、後做什麼。
  • 操作層(Operational)——每個執行週期的具體行動:代理在每個執行週期(cycle)內處理具體的步驟動作,確保微觀執行與宏觀目標保持一致。

這種層次化的規劃方式,讓代理能夠在「見樹又見林」的狀態下工作,避免陷入只顧眼前而忘記全局的困境——這正是許多人類新員工也會犯的錯誤。

機制二:模組化子代理系統

對於複雜任務,CORPGEN 採用「隔離上下文」的模組化子代理設計。當主代理需要處理一項複雜子任務時,它會啟動一個具有獨立上下文空間的子代理,讓後者在完全隔離的環境中完成工作,然後只將結果(而非整個思考過程)回傳給主代理。

這個設計有效防止了「上下文污染」——不同任務的資訊不再互相干擾。就像一個資深主管把不同的項目分派給不同的下屬負責,自己只需要彙整結果、而不必把所有細節都裝進腦袋裡一樣。

機制三:智能上下文壓縮

當代理的工作記憶(上下文視窗)超過 4,000 個 token 時,CORPGEN 會啟動一套差異化的壓縮策略:對「關鍵內容」進行逐字保留(verbatim preservation),對例行性資訊則壓縮為摘要形式。

這個機制解決了長時間運作代理的一個根本難題:上下文視窗是有限的,但工作記錄是不斷累積的。如何在有限空間裡保留最重要的資訊,直接決定了代理能否在長跑中保持準確性。CORPGEN 的方案是讓代理學會「有選擇地遺忘」。

機制四:經驗學習與知識庫

CORPGEN 引入了一套基於 FAISS(Facebook AI Similarity Search)向量資料庫的「經驗學習」機制。每當代理成功完成一項任務,這個執行軌跡(canonical trajectory)就會被儲存起來,成為未來處理類似任務時的參考範本。

CORPGEN 四大架構機制總覽

  • 三層時間規劃:戰略(月度)、戰術(每日)、操作(每週期)三個層次協同運作
  • 模組化子代理:複雜任務交由獨立上下文的子代理處理,防止資訊交叉污染
  • 差異化上下文壓縮:超過 4,000 token 時,關鍵內容逐字保留,例行資訊壓縮為摘要
  • FAISS 經驗資料庫:成功執行軌跡自動儲存,供未來類似任務參考

這個設計讓 CORPGEN 代理具備了某種程度的「組織記憶」——它不必每次都從零開始摸索,而是能夠站在過去成功經驗的肩膀上。這與人類員工積累工作經驗的方式,在邏輯上驚人地相似。

多代理協作:用電郵和 Teams 溝通的 AI 同事

CORPGEN 框架中另一個值得關注的設計是其多代理協作模式。不同的數位員工之間透過電子郵件和 Microsoft Teams 進行協調——這不是隱喻,而是字面意義上使用這些企業通訊工具進行非同步訊息傳遞。

更重要的是,這種協作是「無預設規則」的(without predefined rules):代理不是按照硬編碼的工作流程執行,而是根據情境自行判斷何時需要聯繫哪個同事、請求什麼類型的協助。這種靈活性,使得整個多代理系統能夠應對事先難以預測的工作情境。

研究結果顯示,在 100% 任務負載的極端情境下,CORPGEN 的數位員工達到了 15.2% 的任務完成率,而基準系統僅有 4.3%——差距超過三倍。即便是相對溫和的負載情境,CORPGEN 也持續展現出最高達 3.5 倍的性能優勢。

架構中立:從 UFO2 到 OpenAI CUA 都能用

CORPGEN 的另一個工程層面的優點是「架構無關性」(architecture-agnostic)。研究團隊驗證了這套框架可以接入多種不同的代理後端,包括 Microsoft 自家的 UFO2 框架、OpenAI 的 Computer Use Agent(CUA),以及層次化代理架構。

這意味著 CORPGEN 的設計原則並非綁定特定底層技術,而是一套可移植的架構思路。對於企業 IT 決策者而言,這降低了技術鎖定(vendor lock-in)的風險,也讓不同技術棧的組織都有機會從這套框架中受益。

與 Microsoft Copilot 的戰略連結

CORPGEN 的研究發布時機並非偶然。2026 年 2 月,Microsoft 正在大規模推出 Copilot Agent Mode,覆蓋 Excel、Word、Teams 和 PowerPoint 等核心辦公應用。Microsoft 明確將 2026 年定位為「AI 從工具進化為協作者」的轉折年。

CORPGEN 可以視為這一戰略方向的學術支撐:在 Copilot 開始進入真實辦公室的同時,研究團隊正在系統性地研究如何讓這些 AI 助手在複雜的企業任務環境中真正站穩腳跟。兩者的目標一致——讓 AI 不只是一個回答問題的工具,而是一個能夠承擔責任、完成任務、與人類同事並肩工作的數位同事。

對香港企業的實際意涵

對於正在評估或已經部署 AI 代理方案的香港企業而言,CORPGEN 的研究帶來幾個值得深思的啟示。

重新審視 AI 代理的評估標準

如果你目前在評估 AI 代理產品,請留意供應商的演示場景是否只涉及單一任務。單任務表現良好,不代表在真實辦公室環境中同樣可靠。CORPGEN 的數據清楚地表明,多任務負載會讓現有系統的表現大幅下滑。在採購決策前,要求供應商提供多任務並發場景下的測試結果,是更有意義的評估方式。

上下文管理是企業部署的核心挑戰

CORPGEN 的上下文壓縮機制揭示了一個實務問題:AI 代理在長時間、多任務的工作中,如何管理有限的「工作記憶」直接影響其可靠性。企業在設計 AI 代理工作流程時,應當考慮任務的持續時長與資訊累積量,並評估所使用的系統是否具備應對這一挑戰的機制。

角色設計比模型選擇更關鍵

CORPGEN 的「數位員工」概念提醒我們:AI 代理的效能,很大程度上取決於其角色設計的清晰度。給代理一個明確的角色定位、具體的職責範圍、以及符合業務邏輯的工作節律,往往比單純追求更強大的底層模型更能帶來實際效益。香港的金融、法律和專業服務業,尤其適合探索這種以角色為中心的代理設計。

經驗積累機制值得投資

CORPGEN 的 FAISS 經驗資料庫設計,對應到企業場景,就是「組織知識的沉澱與復用」。成功的任務執行不應該只是一次性的輸出,而應當成為系統未來學習的素材。企業在評估 AI 代理平台時,可以關注其是否具備類似的「從成功案例中學習」機制——這將成為長期競爭優勢的重要來源。

關鍵要點總結

  • 現有 AI 代理在多任務環境下完成率從 16.7% 跌至 8.7%,暴露出行業評測的系統性盲點
  • CORPGEN 的「數位員工」架構通過三層規劃、隔離上下文、智能壓縮與經驗學習四個機制,在高負載下實現最高 3.5 倍的性能提升
  • 多代理協作透過電郵與 Teams 進行,無需預設規則,接近真實職場的人際協調模式
  • 框架與底層代理架構無關,可接入 UFO2、OpenAI CUA 等多種系統
  • 與 Microsoft Copilot 的企業佈局形成戰略呼應,印證「AI 從工具走向協作者」的 2026 主旋律
  • 香港企業應重新審視 AI 代理的評估方式,優先考量多任務場景下的真實表現

Microsoft Research 的 CORPGEN 研究,本質上是一面鏡子:它讓我們看見,在漂亮的單任務演示背後,AI 代理距離真正融入企業工作環境,還有多少距離需要彌合。而它同時也給出了一條清晰的路徑——不是靠更大的模型,而是靠更接近人類工作方式的架構設計。

2026 年的 AI 競賽,勝負或許不在於誰的模型參數最多,而在於誰的代理最懂得如何在真實辦公室裡安身立命。