Claude Sonnet 4.6 發布:以 Sonnet 價格實現 Opus 級性能,電腦使用 AI 逼近實用化臨界點
Anthropic 在 12 天內發布第二款重磅模型。OSWorld 得分 72.5%、ARC-AGI-2 達 60.4%,配合 100 萬 token 上下文窗口,Sonnet 4.6 正在模糊旗艦與中端模型之間的界線——而這一切只需 Sonnet 的價格。
Anthropic 在 12 天內發布第二款重磅模型。OSWorld 得分 72.5%、ARC-AGI-2 達 60.4%,配合 100 萬 token 上下文窗口,Sonnet 4.6 正在模糊旗艦與中端模型之間的界線——而這一切只需 Sonnet 的價格。
2026 年 2 月 17 日,距離 Claude Opus 4.6 發布僅過去 12 天,Anthropic 再度投下重磅炸彈:Claude Sonnet 4.6 正式上線。這款定位為中端的模型,卻在多項關鍵基準測試中交出了逼近甚至匹敵旗艦級的成績單。更關鍵的是,它的定價依然維持在 Sonnet 級別——每百萬輸入 token 3 美元、每百萬輸出 token 15 美元。在 AI 產業競爭白熱化的今天,Anthropic 的這步棋不僅重新定義了「性價比」的天花板,更在電腦使用(computer use)這一前沿領域發出了明確的信號:實用化的臨界點,已經近在咫尺。
在理解 Sonnet 4.6 的突破之前,我們需要先認識 OSWorld 這個基準測試的特殊性。不同於傳統的語言理解或推理測試,OSWorld 是一個衡量 AI 在真實操作系統環境中執行複雜任務能力的基準。它要求模型像人類用戶一樣操作電腦:打開應用程式、填寫多步驟網頁表單、在試算表的不同工作表之間切換、拖放文件、管理多個窗口——這些都是日常辦公中習以為常卻對 AI 極具挑戰的操作。
Sonnet 4.6 在 OSWorld 上取得 72.5% 的得分,這個數字的分量需要放在歷史脈絡中理解。僅僅一年前,最先進的 AI 模型在同一測試中的得分還徘徊在個位數百分比。即便是 2025 年底的頂級模型,也鮮少突破 40% 的門檻。72.5% 代表的不是線性進步,而是一次能力階梯的躍遷。它意味著 AI 現在能夠可靠地完成大部分日常電腦操作任務,雖然仍有約四分之一的操作可能失敗,但成功率已經高到足以在受監督的工作流程中發揮實際價值。
另一個值得關注的指標是 ARC-AGI-2 的 60.4% 得分。ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)測試旨在衡量 AI 的抽象推理和泛化能力——即面對從未見過的問題時,能否像人類一樣靈活思考。第二代測試(ARC-AGI-2)在難度上進一步提升,要求更深層次的類比推理。Sonnet 4.6 在這項測試中突破 60% 的門檻,表明它不僅在「執行已知任務」方面更強,在「理解新問題」的根本能力上也取得了實質性進展。
Sonnet 4.6 在電腦使用方面的改進不僅是分數上的提升,更體現在具體場景的能力深化。Anthropic 在技術報告中特別強調了三個關鍵改進領域。
在現實辦公場景中,填寫複雜的網頁表單是一項看似簡單卻極其繁瑣的工作。申請政府補助、提交合規報告、處理客戶入職流程——這些任務往往涉及多個頁面、條件邏輯跳轉、文件上傳和驗證步驟。此前的 AI 模型在處理這類多步驟交互時常常在中途迷失,忘記前面頁面填入的數據,或在頁面跳轉時失去對任務的整體把控。
Sonnet 4.6 在這方面展現出顯著的改善。配合 100 萬 token 的上下文窗口,模型能夠在長達數十個步驟的表單填寫過程中保持對整體任務的理解,記住先前步驟的輸入,並根據上下文動態調整後續操作。這對於金融服務、法律合規和公共行政等高度依賴表單的領域來說,具有直接的生產力影響。
試算表操作是 AI 電腦使用中公認的難題之一。現實中的試算表往往包含數十個工作表,每個工作表之間存在複雜的引用關係。人類用戶可以直覺地在標籤頁之間切換、追蹤公式引用、對比不同工作表的數據——但對 AI 而言,這需要在螢幕視覺理解、任務記憶和操作規劃之間進行精密的協調。
Sonnet 4.6 在試算表導航方面的提升,意味著它現在能夠更可靠地處理跨工作表的數據查詢、公式驗證和報表整理工作。對於香港眾多依賴 Excel 進行日常運營的中小企業來說,這是一個具有直接應用價值的進步。
電腦使用 AI 面臨的一個獨特安全挑戰是提示注入攻擊(prompt injection)。當 AI 代理在網頁上瀏覽、閱讀文檔或處理郵件時,惡意內容可能被嵌入其中,試圖劫持 AI 的行為。例如,一封精心構造的電子郵件可能包含隱藏指令,試圖讓 AI 代理執行非預期的操作。
Anthropic 在 Sonnet 4.6 中顯著提升了對提示注入的抵抗能力。這一改進對於電腦使用場景的安全部署至關重要——如果企業要將 AI 代理投入實際的辦公自動化流程,它必須能夠在面對潛在惡意內容時保持行為的可預測性和安全性。
「72.5% 的 OSWorld 得分不只是一個數字。它代表的是一個閾值:AI 電腦使用從『有趣但不可靠的演示』跨越到『可以在監督下投入生產環境』的轉折點。」
Sonnet 4.6 最引人注目的商業故事,或許不是它的技術突破,而是它的定價策略。以每百萬輸入 token 3 美元、每百萬輸出 token 15 美元的價格提供接近 Opus 級別的性能,這一決策蘊含著 Anthropic 對市場走向的深層判斷。
從純經濟角度來看,Sonnet 4.6 的定價使得大規模 AI 代理部署的成本大幅下降。一家需要同時運行數百個 AI 代理處理客戶服務、數據處理和文檔管理的企業,使用 Sonnet 4.6 而非 Opus 4.6 可以節省數倍的 API 成本,同時犧牲的性能相當有限。這種「性能民主化」的策略,直接擴大了 AI 代理技術的可及市場規模。
值得注意的是,Anthropic 同時將 Sonnet 4.6 設為免費用戶的預設模型。這意味著全球數以百萬計的 Claude 免費用戶,現在可以直接體驗到接近旗艦級的 AI 能力。這一決策具有強烈的戰略意圖:透過讓更多人體驗到 Sonnet 4.6 的能力上限,Anthropic 不僅建立了用戶黏性,更在開發者生態中植入了 Claude 作為預設選擇的慣性。
Sonnet 4.6 提供的 100 萬 token 上下文窗口(目前為 Beta 階段)是另一個值得深入討論的技術特性。100 萬 token 大約等同於 75 萬字的英文文本,或者一整本長篇技術手冊、數百頁的法律合約、或一個中型軟件專案的完整程式碼庫。
長上下文能力的價值在與電腦使用功能結合時尤為突出。當 AI 代理需要處理一個涉及多個文檔、多個應用程式的複雜工作流程時,它需要在記憶中保持大量的任務上下文。例如,一個法律助理代理可能需要同時參考多份合約、比對條款差異、填寫審核表單並撰寫摘要報告——整個過程中涉及的文本量可能輕易超過數十萬 token。
Anthropic 在技術報告中特別提到了 Sonnet 4.6 在長上下文推理方面的改進。這不僅意味著模型能夠「讀取」更多內容,更重要的是它能夠在超長上下文中準確地找到相關資訊、建立跨文檔的邏輯連結、並基於完整的上下文做出一致性更高的決策。
將 Sonnet 4.6 放在更大的時間軸上來看,Anthropic 在 12 天內連續發布兩款重量級模型——2 月 5 日的 Opus 4.6 和 2 月 17 日的 Sonnet 4.6——這一節奏本身就傳遞了重要的信號。
首先,這表明 Anthropic 的模型訓練和部署管線已達到高度成熟。能夠在如此短的時間內完成兩次主要模型發布,不僅需要強大的計算資源,更需要高效的訓練基礎設施、完善的安全評估流程和順暢的產品化路徑。
其次,這一節奏反映了 Anthropic 在競爭格局中的主動出擊姿態。在 OpenAI 持續推進 GPT 系列迭代、Google 全力發展 Gemini 3 生態的背景下,Anthropic 選擇以密集發布的方式搶佔注意力和市場份額。Opus 4.6 瞄準企業級高端需求,Sonnet 4.6 則覆蓋更廣泛的中端和開發者市場——這種「高低搭配」的產品策略,確保了 Anthropic 在模型能力光譜的每一個區間都有競爭力的產品。
在 Opus 4.6 已經在編碼領域展現出卓越能力的基礎上,Sonnet 4.6 進一步強化了其作為開發者日常編碼助手的定位。對於大多數編碼任務——程式碼生成、除錯、重構、測試撰寫——Sonnet 4.6 能夠提供與 Opus 4.6 相當的品質,但響應速度更快、成本更低。這使得它成為整合進 IDE、CI/CD 管線和程式碼審查流程的理想選擇。
這種定位的精妙之處在於:開發者可以在日常工作中使用 Sonnet 4.6 作為主力模型,而在遇到特別複雜的架構設計、大規模程式碼遷移或深度安全分析時切換到 Opus 4.6。這種分層使用策略,在保持生產力的同時有效控制了 AI 工具的使用成本。
Sonnet 4.6 的發布對香港的科技產業和企業數碼轉型具有多層面的影響。
香港經濟的支柱之一是龐大的中小企業群體。這些企業往往面臨人力成本高企但數碼化程度有限的困境。Sonnet 4.6 在電腦使用方面的突破,為這些企業提供了一條全新的自動化路徑。以往需要專門開發 RPA(機器人流程自動化)方案的工作——如發票處理、報關文件填寫、庫存管理——現在有可能通過通用的 AI 代理來完成。更重要的是,Sonnet 4.6 的定價使得這種自動化方案的成本遠低於傳統 RPA 解決方案。
作為國際金融中心,香港的金融機構對 AI 的採納一直走在前列。Sonnet 4.6 的長上下文能力和跨工作表導航特性,對於需要處理大量合規文檔、財務報表和市場數據的金融從業者來說極具價值。特別是在反洗錢(AML)審查、盡職調查和監管報告等需要交叉比對大量文件的流程中,Sonnet 4.6 的能力提升可以顯著縮短處理時間。
香港的科技人才一直是稀缺資源。Sonnet 4.6 在編碼領域的強大表現,結合其較低的 API 成本,為本地軟件開發團隊提供了更具經濟效益的 AI 輔助編程選項。本地的科技創業公司可以利用 Sonnet 4.6 建構更複雜的 AI 代理產品,而無需承擔旗艦模型的高昂成本。這對於正在孕育中的香港 AI 創業生態而言,是一個降低進入門檻的積極信號。
隨著香港企業越來越多地考慮部署 AI 代理來處理日常業務,安全問題成為首要考量。Sonnet 4.6 在提示注入防禦方面的強化,為企業部署提供了更高的安全保障。對於受到嚴格監管的金融和醫療行業來說,這一改進尤為重要——它意味著 AI 代理在處理敏感業務流程時,具有更強的抵抗惡意操縱的能力。
展望未來,OSWorld 72.5% 的得分既是里程碑,也是起點。要讓電腦使用 AI 真正成為無處不在的辦公助手,成功率需要進一步提升到 90% 甚至 95% 以上——這意味著模型需要在邊緣情況(edge case)的處理上更加穩健。不規則的 UI 佈局、非標準的應用程式行為、網絡延遲導致的頁面載入問題——這些現實世界中常見卻難以預測的情況,仍然是 AI 電腦使用的主要挑戰。
然而,從 2025 年初的個位數百分比到 2026 年 2 月的 72.5%,進步的速度令人矚目。如果這一趨勢延續,我們有理由期待在 2026 年底前看到 AI 電腦使用達到足以在多數辦公場景中獨立運作的可靠性水平。這將是繼大型語言模型的文本生成突破之後,AI 產業的又一次範式性轉變。
Sonnet 4.6 的發布也再次凸顯了 AI 發展的一個核心規律:能力的下沉速度越來越快。今天旗艦模型的能力,會以驚人的速度被壓縮進更小、更便宜的模型中。對於企業決策者來說,這意味著 AI 策略的制定需要充分考慮這種「能力民主化」的趨勢——等待半年,同等能力的獲取成本可能下降一個數量級。但與此同時,率先部署 AI 代理的企業所積累的流程優化經驗和數據資產,是後來者難以複製的競爭優勢。
「AI 模型的能力邊界正在以前所未有的速度向下沉降。今天 Opus 級別的能力,明天就成為 Sonnet 的基準線。企業需要做的不是等待完美的模型,而是在當前能力水平下建立起自己的 AI 實踐體系。」
Claude Sonnet 4.6 的發布標誌著 AI 產業進入了一個新的階段。當中端模型能夠提供接近旗艦級的性能,當電腦使用 AI 的成功率突破 70%,當 100 萬 token 的上下文窗口成為標配——AI 的實用化不再是需要期待的未來,而是正在展開的現實。
對於 Anthropic 而言,12 天內的兩次重大發布展示了其日益增強的技術實力和競爭決心。對於整個產業而言,Sonnet 4.6 所代表的「Opus 級性能、Sonnet 級定價」範式,將加速 AI 代理技術的普及,並推動新一輪的企業數碼轉型浪潮。
而對於香港——這座正在積極擁抱 AI 的城市來說——Sonnet 4.6 降低了先進 AI 能力的獲取門檻,為各行各業的企業提供了更具可行性的 AI 自動化選項。從金融機構的合規自動化到中小企業的日常辦公助理,從軟件開發的效率提升到網絡安全的防禦強化,Sonnet 4.6 的影響將滲透到商業運營的每一個角落。