← 返回新聞列表

Google Gemini 3 系列登場:Computer Use、Agentic 編程與多模態推理的全面進化

Google 正式發布 Gemini 3 系列模型——gemini-3-pro-preview 和 gemini-3-flash-preview。新系列被定位為 Google 最先進的推理和多模態理解模型,具備強大的 Agentic 和編程能力,並首次在 Gemini 模型中引入 Computer Use 工具支持。與此同時,Gemini 2.0 Flash 確認將於 3 月 31 日退役,標誌著 Google AI 的全面代際更替。

Gemini 3:Google AI 的代際躍升

Gemini 3 系列的發布標誌著 Google 在 AI 模型能力上的又一次重大飛躍。gemini-3-pro-preview 被描述為 Google「最先進的推理和多模態理解模型」,具備強大的 Agentic 和編程能力。gemini-3-flash-preview 則是面向速度和效率優化的版本,在保持高質量輸出的同時大幅降低延遲和成本。

這次發布的時機意味深長。OpenAI 剛剛推出了 GPT-5.3 Codex,Anthropic 的 Claude 系列也在持續進化。Gemini 3 的登場不僅是技術更新,更是 Google 在日益激烈的 AI 三國演義中亮出的最新武器。

Computer Use:Gemini 首次直接操控電腦

Gemini 3 系列最引人注目的新功能之一是 Computer Use 工具支持。這意味著 Gemini 3 Pro 和 Gemini 3 Flash 都能夠直接觀察電腦螢幕,移動滑鼠,點擊按鈕,輸入文字——像人類用戶一樣操作電腦應用程式。

Computer Use 能力的引入代表了 AI 從「回答問題」向「執行任務」的根本轉變。過去,AI 只能通過 API 與軟件系統互動——這要求每個系統都暴露適當的 API 接口。Computer Use 則繞過了這個限制:AI 可以直接操作任何具有圖形界面的應用程式,包括那些沒有 API 的遺留系統。

這對企業而言意義重大。大量的企業流程仍然依賴於沒有 API 的桌面應用程式——從特定行業的專業軟件到老舊的 ERP 系統。Computer Use 讓 AI 代理能夠自動化這些原本需要人類手動操作的流程。

「Computer Use 之於 AI 代理,就像圖形界面之於人類用戶——它讓 AI 能夠與幾乎任何軟件互動,而不僅限於那些專門為機器設計的 API。」

Agentic 編程能力的強化

Gemini 3 Pro 在編程能力方面的提升同樣顯著。Google 將其定位為具備「強大的 Agentic 和編程能力」——這意味著 Gemini 3 不僅能生成代碼,還能自主地理解項目架構、規劃開發步驟、執行測試和調試。

結合 Computer Use 功能,Gemini 3 的編程代理可以直接在 IDE 中操作——打開文件、導航代碼結構、執行構建命令、查看測試結果——所有這些都通過視覺理解和鍵鼠操作完成,而不需要專門的 IDE 插件或 API 集成。

Gemini 模型家族的全面重組

Gemini 3 的發布伴隨著 Google AI 模型家族的全面重組。以下是目前的模型佈局:

Google Gemini 模型家族現狀(2026 年 2 月)

  • Gemini 3 Pro Preview:最先進推理模型,支持 Computer Use,強大的 Agentic 和編程能力。
  • Gemini 3 Flash Preview:高速版本,同樣支持 Computer Use,平衡效能與成本。
  • Gemini 2.5 Pro:成熟的生產模型,新增 TTS(文字轉語音)預覽功能。
  • Gemini 2.5 Flash:快速思考模型,Gemini App 中可用。
  • Gemini 2.0 Flash:已標記為棄用,將於 2026 年 3 月 31 日關閉。

Gemini 2.0 Flash 退役:遷移時間線

Google 確認 Gemini 2.0 Flash 已被標記為棄用,並將於 2026 年 3 月 31 日正式關閉。這意味著所有仍在使用 Gemini 2.0 Flash 的開發者和企業需要在未來約六週內完成遷移。

對於大量依賴 Gemini 2.0 Flash API 的企業來說,這是一個需要立即關注的時間點。Google 建議遷移到 Gemini 2.5 Flash(適合需要高速推理的場景)或 Gemini 3 Flash Preview(適合需要最新能力的場景)。

語音合成能力的突破

Gemini 2.5 系列還引入了值得關注的語音能力——Gemini 2.5 Flash TTS Preview(針對低延遲優化)和 Gemini 2.5 Pro TTS Preview(針對質量優化)。這些模型具備增強的表達力、精確的語速控制和流暢的對話能力。

語音合成能力的加入意味著 Gemini 正在從純文本和視覺的多模態能力,擴展到包含語音在內的全方位多模態。對於客戶服務、教育、無障礙訪問等場景,這是一個有價值的能力增強。

三國演義:Gemini 3 vs GPT-5.3 vs Claude

Gemini 3 的發布使得全球 AI 模型的競爭格局更加清晰。目前三大 AI 實驗室各自推出了其最強大的模型系列:

Google Gemini 3 Pro

強調多模態理解、Computer Use 和 Agentic 能力。背靠 Google 的搜索和雲端生態系統,在信息檢索和企業 AI 應用方面具有獨特優勢。1,850 億美元的年度資本支出計劃確保了計算資源的充沛供應。

OpenAI GPT-5.3 Codex

在 Agentic 編程方面目前領先,首個在 SWE-Bench Pro 和 Terminal-Bench 上創下行業記錄的模型。與 Cerebras 合作的 Codex-Spark 實現了每秒 1,000+ Token 的超低延遲輸出。

Anthropic Claude 系列

以 AI 安全和可控性著稱,Claude Code 的年化營收突破 25 億美元。MCP 協議的行業標準化為 Claude 生態系統創造了獨特的互操作性優勢。

三家公司在不同維度上各有優勢,短期內不太可能出現「一家獨大」的局面。對於開發者和企業來說,這意味著多模型策略(Multi-Model Strategy)可能成為最佳實踐——根據不同任務的特性選擇最合適的模型。

對香港的啟示

Gemini 3 的 Computer Use 能力對香港企業自動化具有直接影響。香港大量的中小企業仍然依賴沒有 API 的桌面軟件處理日常業務——從會計系統到庫存管理。Computer Use 技術使得這些系統也能被 AI 代理自動化,而不需要昂貴的系統升級或替換。

Gemini 2.0 Flash 的退役時間線也提醒了香港開發者社區:在快速迭代的 AI 模型市場中,緊跟模型更新週期和及時遷移是一項必要的技術管理實踐。

本文要點總結

  • Google 發布 Gemini 3 系列(Pro 和 Flash Preview),定位為最先進的推理和多模態模型,具備強大的 Agentic 編程能力。
  • Gemini 3 首次引入 Computer Use 工具,使 AI 能夠直接觀察和操作電腦圖形界面,自動化無 API 系統。
  • Gemini 2.0 Flash 確認棄用,2026 年 3 月 31 日關閉。企業需在六週內完成遷移。
  • Gemini 2.5 系列新增 TTS 語音合成預覽,擴展全方位多模態能力。
  • AI 三國演義格局更加清晰:Gemini 3(多模態 + Computer Use)vs GPT-5.3(Agentic 編程)vs Claude(安全 + MCP 生態),多模型策略成為企業最佳實踐。