Google 與 Microsoft 聯手發布 WebMCP：當網頁開始「說機器語言」，瀏覽器成為 AI Agent 的原生作業系統

為什麼 AI Agent 需要一個「網頁原生」的工具協議？

過去兩年，AI Agent 與網頁的互動方式基本上停留在兩個極端之間。一種是「截圖理解」法：Agent 截取網頁的螢幕畫面，透過視覺模型辨識按鈕、表單和文字，然後模擬人類的點擊與輸入操作。另一種是「HTML 解析」法：Agent 直接讀取網頁的原始碼，試圖從巢狀的 div 標籤和 CSS 樣式中萃取語義資訊。

這兩種方法都存在根本性的缺陷。截圖法的 token 消耗極為驚人——一張 1920x1080 的網頁截圖在多模態模型中可能消耗數千個 token，而其中大量像素承載的是裝飾性圖形、品牌 Logo 和留白等對任務毫無價值的資訊。HTML 解析法稍好一些，但現代網頁的 DOM 結構往往錯綜複雜，充斥著框架生成的雜訊代碼，且缺乏機器可理解的語義標記。

更關鍵的問題在於：這些方法本質上都是在讓 AI Agent「假裝成人類」來使用為人類設計的介面。這就像讓一個精通數學的計算機透過 OCR 閱讀手寫試卷來做算術——技術上可行，但效率低下得令人痛心。

WebMCP 的核心洞見在於：與其讓 AI Agent 費力地「理解」人類介面，不如讓網頁直接「告訴」Agent 自己能做什麼。這聽起來簡單，但它代表了網頁架構思維的根本轉變——從「設計給人看」到「同時設計給人和機器用」。

navigator.modelContext：瀏覽器的新原生 API

WebMCP 的技術實現圍繞一個新的瀏覽器 API——navigator.modelContext——展開。這是一個與 navigator.geolocation 或 navigator.mediaDevices 同級的瀏覽器原生介面，意味著它是瀏覽器平台的一等公民，而非第三方擴充套件或 polyfill。

當一個網頁支援 WebMCP 時，它會在載入過程中向瀏覽器註冊一組「工具」（Tools）。每個工具都有明確定義的名稱、功能描述、輸入參數 schema 和輸出格式。以一個航空公司訂票網站為例，它可能註冊以下工具：

searchFlights：接受出發地、目的地、日期、乘客數作為參數，返回可用航班列表
selectSeat：接受航班編號和座位偏好，返回可用座位圖
completePurchase：接受乘客資訊和付款方式，完成訂票流程

AI Agent 可以直接調用這些結構化的工具，而非試圖在網頁上「找到日期選擇器、點擊出發地輸入框、輸入城市名稱……」這樣模擬人類操作。整個流程從模糊的視覺解讀變成了精確的函數調用。

                        WebMCP 與現有協議的關係
                        Anthropic MCP（Model Context Protocol）— 定義後端工具與 AI 模型之間的連接標準，運行在伺服器端。WebMCP 是其在瀏覽器前端的互補延伸，解決的是「網頁到 Agent」的最後一哩路。
Google A2A（Agent-to-Agent Protocol）— 定義 AI Agent 之間如何發現彼此、協商任務和交換結果。A2A 解決的是 Agent 間的橫向協作，WebMCP 解決的是 Agent 與網頁的縱向工具調用。
Schema.org / JSON-LD— 傳統結構化數據標記靜態資訊（營業時間、產品價格），WebMCP 則暴露可執行的動態操作（搜尋航班、提交訂單）。兩者互補而非替代。

                    

89% Token 效率提升的技術根源

WebMCP 宣稱的 89% token 效率改進並非行銷數字遊戲，而是有堅實的技術基礎。要理解這個數字，需要拆解 AI Agent 在傳統方法中浪費 token 的主要環節。

視覺感知的冗餘

在截圖方法中，一個典型的電商產品頁面可能包含：頁首導航列、品牌 Banner、側邊欄廣告、頁尾連結、Cookie 同意橫幅——這些元素佔據了頁面面積的 40% 至 60%，但與用戶的實際任務（例如「把這件商品加入購物車」）完全無關。多模態模型必須處理整張截圖的每一個像素，付出了大量無效的計算和 token 成本。

DOM 解析的語義鴻溝

在 HTML 解析方法中，一個簡單的「加入購物車」按鈕在 React 框架生成的 DOM 中可能被包裹在十幾層嵌套的 div 中，帶有隨機生成的 CSS class 名稱和大量的事件監聽器代碼。Agent 需要從這堆代碼雜訊中「猜測」哪個元素是可點擊的按鈕，哪些屬性攜帶語義資訊。

WebMCP 的精準交付

相比之下，WebMCP 直接告訴 Agent：「這個頁面有一個 addToCart 工具，它接受 productId 和 quantity 兩個參數，返回購物車更新狀態。」全部資訊濃縮在幾十個 token 內，而截圖方法可能需要數千個 token 來傳達同樣的語義。89% 的效率提升在這個語境下不僅合理，甚至可能是保守估計。

這種效率提升的實際意義遠超成本節省。更少的 token 意味著 Agent 可以在同一個上下文窗口中同時處理更多工具、記住更長的對話歷史、執行更複雜的多步驟任務。它從根本上擴展了 Agent 在單次交互中的能力邊界。

「權限優先」安全模型：吸取了瀏覽器擴充套件的教訓

WebMCP 採用的「permission-first」安全模型，在設計哲學上明顯吸取了瀏覽器擴充套件生態系統多年來的安全教訓。Chrome 擴充套件的 Manifest V3 遷移之所以爭議巨大，正是因為早期過於寬鬆的權限模型導致了大量惡意擴充套件問題。WebMCP 從第一天起就將安全性置於核心位置。

分層權限控制

WebMCP 的安全模型至少包含三個層級。首先，網站必須明確聲明它暴露了哪些工具以及每個工具的數據存取範圍——這是「供給側」的透明度。其次，AI Agent 在調用任何工具之前，必須獲得用戶的明確授權——這是「需求側」的同意機制。最後，瀏覽器本身作為中間層，有權審查和限制工具調用的頻率、範圍和數據傳輸——這是「平台側」的治理。

防止工具注入攻擊

在 AI 安全研究中，「提示詞注入」（Prompt Injection）已經是一個眾所周知的風險。WebMCP 面臨的類似風險是「工具注入」——惡意網頁可能註冊一個偽裝成合法功能的工具，實際上在後台執行未經授權的操作。WebMCP 的 schema 驗證和瀏覽器中介機制為防範這類攻擊提供了第一道防線，但這也意味著瀏覽器廠商需要承擔起新的安全審查責任。

「如果說 Web 2.0 時代瀏覽器的核心安全職責是保護用戶的隱私和數據，那麼 Agentic Web 時代，瀏覽器的安全職責將擴展到保護用戶的行動——確保 AI Agent 代替用戶執行的每一個操作都在用戶的知情同意範圍內。」

「自結構化數據以來技術 SEO 最大的變革」

技術 SEO 專家 Dan Petrovic 將 WebMCP 稱為「自結構化數據以來技術 SEO 最大的變革」，這個評價值得深入分析。要理解它的分量，需要回顧結構化數據如何改變了搜尋引擎的運作方式。

從「爬蟲閱讀」到「機器理解」

2011 年 Google、Microsoft 和 Yahoo 聯合發布 Schema.org 時，網頁的結構化數據革命正式開始。在此之前，搜尋引擎爬蟲需要從非結構化的 HTML 中「猜測」頁面的語義——這個數字是價格還是評分？這段文字是地址還是產品描述？Schema.org 讓網站可以明確標記：「這是一個 Product，它的 price 是 299，currency 是 HKD，aggregateRating 是 4.5。」

這一變革催生了搜尋結果中的豐富摘要（Rich Snippets）、知識面板（Knowledge Panel）和結構化答案，根本性地改變了用戶與搜尋引擎的互動方式。網站的 SEO 策略也隨之轉型——從純粹的關鍵詞優化擴展到結構化數據標記。

從「標記資訊」到「暴露能力」

WebMCP 代表的是下一個維度的跳躍：從告訴機器「這個頁面是什麼」，升級到告訴機器「這個頁面能做什麼」。Schema.org 標記的是靜態資訊，WebMCP 暴露的是動態能力。這意味著 AI Agent 不僅可以「了解」一個網站的內容，還可以直接「使用」它的功能。

對搜尋引擎和 AI 助手而言，這帶來了全新的可能性。想像一個用戶對 AI 助手說：「幫我找一間下週五在尖沙咀有空位的日本餐廳，預算人均 500 元以下，然後訂位四位。」在 WebMCP 之前，AI 助手最多能搜尋餐廳資訊並提供連結，用戶需要自己完成訂位。有了 WebMCP，餐廳訂位網站可以直接暴露 searchRestaurants 和 makeReservation 工具，AI 助手可以端到端地完成整個流程。

AEO 的興起：Agent Experience Optimization

如果 SEO（Search Engine Optimization）是為搜尋引擎優化網站，那麼 WebMCP 催生的將是 AEO（Agent Experience Optimization）——為 AI Agent 優化網站。這不僅僅是在現有 SEO 策略上疊加一層技術標記，而是一種根本性的思維轉變。

在 AEO 的世界裡，網站的競爭維度從「搜尋排名」擴展到「Agent 選擇」。當多個航空公司網站都支援 WebMCP 時，AI Agent 會傾向選擇工具定義最清晰、參數最完整、回應速度最快的那個。工具的「可發現性」（Discoverability）和「可用性」（Usability）將成為新的競爭指標。

Chrome 146 Canary：早期採用者的窗口

WebMCP 目前在 Chrome 146 Canary 版本中可用，這意味著它仍處於實驗階段，距離穩定版發布還有數個月的時間。但 Canary 階段恰恰是早期採用者建立先發優勢的黃金窗口。

回顧歷史，PWA（Progressive Web Apps）在 Chrome Canary 首次支援 Service Worker 時，提前佈局的公司在移動端用戶體驗上取得了顯著領先。WebGL 的早期採用者在互動式網頁體驗領域建立了持久的技術壁壘。WebMCP 的早期實驗同樣可能帶來類似的先行者優勢。

值得注意的是，Google 和 Microsoft 作為全球兩大瀏覽器引擎（Blink 和 Blink/EdgeHTML）的控制者聯手推動這項標準，意味著 WebMCP 從一開始就覆蓋了全球桌面瀏覽器市場份額的 80% 以上。Apple 的 Safari（WebKit 引擎）和 Mozilla 的 Firefox（Gecko 引擎）的態度尚不明朗，但考慮到 W3C 社區組的框架，其他瀏覽器跟進只是時間問題。

對開發者的實務影響

WebMCP 的引入將為前端開發帶來一系列新的實務挑戰和機遇。

工具設計成為核心技能

過去，前端開發者的核心技能是設計用戶介面——按鈕放在哪裡、表單怎麼排版、互動流程如何設計。WebMCP 時代，開發者還需要學會設計「工具介面」——如何將複雜的業務流程抽象為一組清晰、正交、完備的工具集合。這更像是 API 設計的思維，而非 UI 設計的思維。

雙軌體驗架構

網站將需要同時維護兩套「體驗」：面向人類用戶的視覺介面，以及面向 AI Agent 的工具介面。這兩套體驗需要保持功能一致性，但表現形式截然不同。例如，人類用戶需要一個帶有日曆彈出的日期選擇器，AI Agent 只需要一個接受 ISO 8601 日期格式的參數。如何優雅地管理這種雙軌架構，將是前端架構的新課題。

測試和監控的新維度

傳統的網頁測試關注的是視覺渲染是否正確、用戶互動是否流暢。WebMCP 引入了新的測試需求：工具是否正確註冊？參數驗證是否嚴格？錯誤回應是否結構化？這需要一套全新的測試工具和方法論。

Google 與 Microsoft 的戰略博弈

從戰略層面來看，Google 和 Microsoft 聯手推動 WebMCP 是各取所需的合作。

對 Google 而言，WebMCP 強化了瀏覽器作為 AI 入口的定位。在 AI 助手（Gemini）逐漸取代傳統搜尋的趨勢下，確保網頁能夠直接被 AI Agent 使用，就是確保 Chrome 和 Google 搜尋在 Agent 時代仍然是不可繞過的基礎設施。如果 AI Agent 只能透過後端 API 與服務互動，瀏覽器就有被邊緣化的風險；WebMCP 將瀏覽器重新確立為 Agent 與網頁世界之間的必經之路。

對 Microsoft 而言，WebMCP 為 Copilot 生態系統提供了通往整個網頁世界的橋樑。Microsoft 已經透過 Microsoft Graph 讓 Copilot 深度整合了 Office 365 的內部工具；WebMCP 將這種整合能力延伸到了企業使用的一切外部網頁服務——從供應商平台到政府門戶。

值得深思的是，這項標準的推出在 Anthropic 的 MCP 已經建立強大的後端生態之後。WebMCP 巧妙地定位為 MCP 的「前端互補」而非競爭者，但實質上它為 Google 和 Microsoft 在 Agentic AI 的工具連接標準領域贏得了自己的話語權。三大協議——MCP（後端工具連接）、A2A（Agent 間協作）、WebMCP（前端網頁工具）——共同構成了 Agentic Web 的完整協議棧，而 Google 和 Microsoft 分別在其中兩個擁有重要影響力。

對香港數位經濟的影響與機遇

WebMCP 的出現對香港數位經濟帶來了多層次的影響。

金融服務的 Agent 化轉型

香港作為國際金融中心，其銀行和證券公司的網上服務平台是最適合率先採用 WebMCP 的場景之一。想像一個投資顧問的 AI Agent 可以直接調用恒生銀行、匯豐銀行、中銀香港等網銀平台的 WebMCP 工具——查詢帳戶餘額、執行轉帳、購買基金——而無需模擬人類在介面上的操作。這將大幅提升私人銀行和財富管理服務的自動化程度。

但這同時也帶來了嚴峻的監管問題。香港金管局和證監會需要迅速建立針對 AI Agent 操作金融帳戶的監管框架。AI Agent 代替用戶執行交易時，責任歸屬如何認定？系統故障導致的損失誰來承擔？這些問題的答案將直接影響香港能否在 Agent 金融服務領域搶佔先機。

電子商務與零售

香港的電商市場雖然規模不及內地，但人均消費力高、國際化程度強。支援 WebMCP 的電商網站將在 AI 購物助手的推薦中獲得天然優勢——Agent 可以精準比較不同平台的價格、庫存和配送選項，而不僅僅依賴搜尋引擎排名。這可能重塑香港電商的競爭格局，讓中小型特色電商有機會與大平台公平競爭。

智慧城市與政府服務

香港政府近年大力推動智慧城市發展，「智方便」（iAM Smart）平台是其核心基礎設施。若政府服務入口網站採用 WebMCP，市民的 AI 助手將可以直接幫助他們完成稅務申報、續領護照、預約公立醫院等流程。這對於不熟悉科技操作的長者群體尤其有益——他們只需要用自然語言告訴 AI 助手想做什麼，而不必學會操作複雜的政府網站介面。

跨境商貿的 Agent 橋樑

在大灣區融合的背景下，香港企業常常需要同時使用內地和國際的各種網上平台。WebMCP 可以讓 AI Agent 同時操作這些跨境平台——在阿里巴巴國際站查詢供應商、在 DHL 安排物流、在匯豐進行跨境結算——形成端到端的自動化貿易流程。香港作為「超級連繫人」的角色將在 Agent 時代獲得新的技術基礎。

開放問題與潛在風險

WebMCP 的前景光明，但仍有若干重大問題尚待解答。

碎片化風險

W3C 社區組（Community Group）的標準不具備 W3C 推薦標準（Recommendation）的約束力。這意味著不同瀏覽器廠商可能在實現上出現分歧，就像早期 Web 標準的「瀏覽器大戰」一樣。Google 和 Microsoft 的合作降低了這種風險，但 Apple 的態度仍然是一個關鍵變數。

工具品質的「公地悲劇」

當每個網站都可以向 AI Agent 暴露工具時，工具定義的品質將參差不齊。低品質的工具描述（模糊的參數說明、不一致的錯誤處理、缺失的邊界條件）不僅會降低 Agent 的效率，還可能導致意外操作。誰來建立和執行工具品質的最低標準？這是一個尚未回答的治理問題。

數位落差的加劇

能夠實施 WebMCP 的往往是技術能力較強的大型企業和平台。小型企業和個人網站可能因為缺乏技術資源而無法提供 WebMCP 工具，從而在 AI Agent 的工具選擇中被邊緣化。這與早期 SEO 中大型網站壟斷搜尋排名的問題類似，但在 Agent 時代可能更為嚴重——因為 Agent 會直接跳過不提供工具的網站，而非僅僅將它們排在較低位置。

「WebMCP 的長期影響不亞於 Netscape 在 1994 年將 JavaScript 嵌入瀏覽器。那一刻，網頁從靜態文檔變成了互動式應用；現在，網頁正在從互動式應用變成 AI Agent 的原生工具平台。每一次這樣的範式跳躍，都會催生新的贏家和輸家。」

結語：Web 4.0 的起點

如果 Web 1.0 是靜態文檔的閱讀（Read），Web 2.0 是互動內容的創作（Read-Write），Web 3.0 是去中心化的所有權（Read-Write-Own），那麼 WebMCP 所預示的可能是 Web 4.0 的曙光——一個由 AI Agent 代替人類直接與網頁互動的時代（Read-Write-Own-Act）。

在這個新時代，「網頁」的概念本身正在被重新定義。它不再僅僅是一個供人類閱讀和點擊的視覺介面，而是同時服務於人類和機器的多模態平台。設計一個好的網站，將不僅意味著美觀的 UI 和流暢的 UX，還意味著清晰的工具定義和嚴謹的安全邊界。

對於香港的開發者、企業和政策制定者而言，WebMCP 帶來的變革浪潮正在逼近。那些率先理解並擁抱這一轉變的參與者，將在 Agentic Web 時代佔據有利位置；而那些仍然將網站僅視為「人類介面」的參與者，可能會發現自己正在被一個全新的數位生態系統悄然繞過。

                        本文要點總結
                        WebMCP 是 Google 和 Microsoft 在 W3C 社區組框架下聯合推出的新標準，透過 navigator.modelContext API 讓網頁向 AI Agent 暴露結構化的可調用工具，token 效率較截圖方法提升 89%。
WebMCP 與 Anthropic MCP（後端工具連接）和 Google A2A（Agent 間協作）形成互補的三層協議棧，共同構成 Agentic Web 的完整基礎設施。
技術 SEO 專家將其視為結構化數據以來最大的變革，預示著從 SEO 到 AEO（Agent Experience Optimization）的範式轉移——網站的競爭維度從搜尋排名擴展到 Agent 工具選擇。
「權限優先」安全模型在網站聲明、用戶同意和瀏覽器治理三個層級建立防護，吸取了瀏覽器擴充套件生態的安全教訓。
香港在金融服務 Agent 化、電子商務工具化、智慧城市門戶和跨境商貿自動化四個領域存在顯著的早期採用機遇，但也面臨監管框架、數位落差和人才培養等挑戰。