Microsoft CORPGEN 研究突破:「數位員工」在企業多任務環境表現提升 3.5 倍,AI 代理進化為真正的辦公室同事
Microsoft Research 最新論文揭示現有 AI 代理的根本瓶頸,並提出以持久身份、多層規劃與經驗學習為核心的「數位員工」架構,為企業 AI 部署開闢全新路徑。
Microsoft Research 最新論文揭示現有 AI 代理的根本瓶頸,並提出以持久身份、多層規劃與經驗學習為核心的「數位員工」架構,為企業 AI 部署開闢全新路徑。
2026 年 2 月 26 日,Microsoft Research 發布了一篇題為《CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments》的研究論文,為當前 AI 代理研究帶來了一個令人警醒的發現:幾乎所有現有的評測框架,都在一個根本性的假設上與現實職場脫節——它們每次只讓 AI 處理一項任務。
這聽起來或許不像是什麼大問題,但試想一下你今天的工作狀態:你同時追蹤著三個項目的進度、等待兩位同事的回覆、記掛著下週要提交的季度報告,還要在會議間隙處理突發的客戶查詢。真實的職場工作,本質上是一種持續的多任務管理。而我們目前幾乎所有評測 AI 代理能力的方式,都沒有反映這個現實。
CORPGEN 論文呈現了一組讓人不得不重新思考的基準數據。在單一任務環境下,當前領先的 AI 代理系統的任務完成率約為 16.7%——這個數字本身已經相當低,但更值得注意的是接下來發生的事。
當研究人員引入「多任務負載」——也就是要求代理同時應對多個相互交織的任務時——完成率直接腰斬,跌至 8.7%。換言之,只是把任務數量增加、讓情境更接近真實辦公室,現有 AI 代理的表現便下滑了近一半。
Microsoft 的研究者將這類場景正式命名為「多層時域任務環境」(Multi-Horizon Task Environments,MHTEs)——一個新的問題類別,專門描述代理需要在不同時間尺度上同時追蹤、優先排序並執行多項任務的情境。這不僅是工程層面的挑戰,更是 AI 代理研究社群長期以來忽視的一個盲區。
要理解 CORPGEN 的解決方案,首先需要理解現有代理的失敗模式。問題的核心在於「無狀態性」(statelessness)與「上下文污染」(context contamination)。
現有大多數 AI 代理在設計上是無記憶的:每一次任務執行都從一個空白狀態開始,它不知道上次做了什麼、哪些任務還在等待、哪些決定已經做出。這在單任務場景下尚可應付,但一旦任務數量增加,代理便開始在不同任務的上下文之間迷失——它可能把 A 項目的背景資訊錯誤地帶入 B 任務的推理過程,或者因為無法追蹤任務的優先級而陷入低效的重複行動。
「現實的企業工作環境從來不是一次性任務的集合,而是一個由數十個相互依賴的任務構成的持續運作系統。我們的研究旨在讓 AI 代理真正理解並融入這種複雜性。」
——CORPGEN 研究團隊
另一個問題是缺乏角色認同。人類員工在辦公室裡扮演特定角色:財務分析師知道自己的職責邊界,不會隨意越界處理法務文件;HR 專員有自己的工作節奏和優先事項。現有 AI 代理則通常是「萬能但無個性」的——它們沒有明確的角色定位,也沒有工作節律,更遑論在不同代理之間的有效協作。
CORPGEN(Corporate Generation)框架的核心理念,是讓 AI 代理具備真實員工應有的特質:持久的身份認同、角色特定的專業知識、以及符合人類工作節律的時間觀念。研究者將這種設計稱為「數位員工」(Digital Employees)。
這個架構建立在四個相互支撐的機制之上:
CORPGEN 代理的規劃體系分為三個時間層次,分別對應不同的思考粒度:
這種層次化的規劃方式,讓代理能夠在「見樹又見林」的狀態下工作,避免陷入只顧眼前而忘記全局的困境——這正是許多人類新員工也會犯的錯誤。
對於複雜任務,CORPGEN 採用「隔離上下文」的模組化子代理設計。當主代理需要處理一項複雜子任務時,它會啟動一個具有獨立上下文空間的子代理,讓後者在完全隔離的環境中完成工作,然後只將結果(而非整個思考過程)回傳給主代理。
這個設計有效防止了「上下文污染」——不同任務的資訊不再互相干擾。就像一個資深主管把不同的項目分派給不同的下屬負責,自己只需要彙整結果、而不必把所有細節都裝進腦袋裡一樣。
當代理的工作記憶(上下文視窗)超過 4,000 個 token 時,CORPGEN 會啟動一套差異化的壓縮策略:對「關鍵內容」進行逐字保留(verbatim preservation),對例行性資訊則壓縮為摘要形式。
這個機制解決了長時間運作代理的一個根本難題:上下文視窗是有限的,但工作記錄是不斷累積的。如何在有限空間裡保留最重要的資訊,直接決定了代理能否在長跑中保持準確性。CORPGEN 的方案是讓代理學會「有選擇地遺忘」。
CORPGEN 引入了一套基於 FAISS(Facebook AI Similarity Search)向量資料庫的「經驗學習」機制。每當代理成功完成一項任務,這個執行軌跡(canonical trajectory)就會被儲存起來,成為未來處理類似任務時的參考範本。
這個設計讓 CORPGEN 代理具備了某種程度的「組織記憶」——它不必每次都從零開始摸索,而是能夠站在過去成功經驗的肩膀上。這與人類員工積累工作經驗的方式,在邏輯上驚人地相似。
CORPGEN 框架中另一個值得關注的設計是其多代理協作模式。不同的數位員工之間透過電子郵件和 Microsoft Teams 進行協調——這不是隱喻,而是字面意義上使用這些企業通訊工具進行非同步訊息傳遞。
更重要的是,這種協作是「無預設規則」的(without predefined rules):代理不是按照硬編碼的工作流程執行,而是根據情境自行判斷何時需要聯繫哪個同事、請求什麼類型的協助。這種靈活性,使得整個多代理系統能夠應對事先難以預測的工作情境。
研究結果顯示,在 100% 任務負載的極端情境下,CORPGEN 的數位員工達到了 15.2% 的任務完成率,而基準系統僅有 4.3%——差距超過三倍。即便是相對溫和的負載情境,CORPGEN 也持續展現出最高達 3.5 倍的性能優勢。
CORPGEN 的另一個工程層面的優點是「架構無關性」(architecture-agnostic)。研究團隊驗證了這套框架可以接入多種不同的代理後端,包括 Microsoft 自家的 UFO2 框架、OpenAI 的 Computer Use Agent(CUA),以及層次化代理架構。
這意味著 CORPGEN 的設計原則並非綁定特定底層技術,而是一套可移植的架構思路。對於企業 IT 決策者而言,這降低了技術鎖定(vendor lock-in)的風險,也讓不同技術棧的組織都有機會從這套框架中受益。
CORPGEN 的研究發布時機並非偶然。2026 年 2 月,Microsoft 正在大規模推出 Copilot Agent Mode,覆蓋 Excel、Word、Teams 和 PowerPoint 等核心辦公應用。Microsoft 明確將 2026 年定位為「AI 從工具進化為協作者」的轉折年。
CORPGEN 可以視為這一戰略方向的學術支撐:在 Copilot 開始進入真實辦公室的同時,研究團隊正在系統性地研究如何讓這些 AI 助手在複雜的企業任務環境中真正站穩腳跟。兩者的目標一致——讓 AI 不只是一個回答問題的工具,而是一個能夠承擔責任、完成任務、與人類同事並肩工作的數位同事。
對於正在評估或已經部署 AI 代理方案的香港企業而言,CORPGEN 的研究帶來幾個值得深思的啟示。
如果你目前在評估 AI 代理產品,請留意供應商的演示場景是否只涉及單一任務。單任務表現良好,不代表在真實辦公室環境中同樣可靠。CORPGEN 的數據清楚地表明,多任務負載會讓現有系統的表現大幅下滑。在採購決策前,要求供應商提供多任務並發場景下的測試結果,是更有意義的評估方式。
CORPGEN 的上下文壓縮機制揭示了一個實務問題:AI 代理在長時間、多任務的工作中,如何管理有限的「工作記憶」直接影響其可靠性。企業在設計 AI 代理工作流程時,應當考慮任務的持續時長與資訊累積量,並評估所使用的系統是否具備應對這一挑戰的機制。
CORPGEN 的「數位員工」概念提醒我們:AI 代理的效能,很大程度上取決於其角色設計的清晰度。給代理一個明確的角色定位、具體的職責範圍、以及符合業務邏輯的工作節律,往往比單純追求更強大的底層模型更能帶來實際效益。香港的金融、法律和專業服務業,尤其適合探索這種以角色為中心的代理設計。
CORPGEN 的 FAISS 經驗資料庫設計,對應到企業場景,就是「組織知識的沉澱與復用」。成功的任務執行不應該只是一次性的輸出,而應當成為系統未來學習的素材。企業在評估 AI 代理平台時,可以關注其是否具備類似的「從成功案例中學習」機制——這將成為長期競爭優勢的重要來源。
Microsoft Research 的 CORPGEN 研究,本質上是一面鏡子:它讓我們看見,在漂亮的單任務演示背後,AI 代理距離真正融入企業工作環境,還有多少距離需要彌合。而它同時也給出了一條清晰的路徑——不是靠更大的模型,而是靠更接近人類工作方式的架構設計。
2026 年的 AI 競賽,勝負或許不在於誰的模型參數最多,而在於誰的代理最懂得如何在真實辦公室裡安身立命。