Google Gemini 3 系列登場：Computer Use、Agentic 編程與多模態推理的全面進化

Gemini 3：Google AI 的代際躍升

Gemini 3 系列的發布標誌著 Google 在 AI 模型能力上的又一次重大飛躍。gemini-3-pro-preview 被描述為 Google「最先進的推理和多模態理解模型」，具備強大的 Agentic 和編程能力。gemini-3-flash-preview 則是面向速度和效率優化的版本，在保持高質量輸出的同時大幅降低延遲和成本。

這次發布的時機意味深長。OpenAI 剛剛推出了 GPT-5.3 Codex，Anthropic 的 Claude 系列也在持續進化。Gemini 3 的登場不僅是技術更新，更是 Google 在日益激烈的 AI 三國演義中亮出的最新武器。

Computer Use：Gemini 首次直接操控電腦

Gemini 3 系列最引人注目的新功能之一是 Computer Use 工具支持。這意味著 Gemini 3 Pro 和 Gemini 3 Flash 都能夠直接觀察電腦螢幕，移動滑鼠，點擊按鈕，輸入文字——像人類用戶一樣操作電腦應用程式。

Computer Use 能力的引入代表了 AI 從「回答問題」向「執行任務」的根本轉變。過去，AI 只能通過 API 與軟件系統互動——這要求每個系統都暴露適當的 API 接口。Computer Use 則繞過了這個限制：AI 可以直接操作任何具有圖形界面的應用程式，包括那些沒有 API 的遺留系統。

這對企業而言意義重大。大量的企業流程仍然依賴於沒有 API 的桌面應用程式——從特定行業的專業軟件到老舊的 ERP 系統。Computer Use 讓 AI 代理能夠自動化這些原本需要人類手動操作的流程。

「Computer Use 之於 AI 代理，就像圖形界面之於人類用戶——它讓 AI 能夠與幾乎任何軟件互動，而不僅限於那些專門為機器設計的 API。」

Agentic 編程能力的強化

Gemini 3 Pro 在編程能力方面的提升同樣顯著。Google 將其定位為具備「強大的 Agentic 和編程能力」——這意味著 Gemini 3 不僅能生成代碼，還能自主地理解項目架構、規劃開發步驟、執行測試和調試。

結合 Computer Use 功能，Gemini 3 的編程代理可以直接在 IDE 中操作——打開文件、導航代碼結構、執行構建命令、查看測試結果——所有這些都通過視覺理解和鍵鼠操作完成，而不需要專門的 IDE 插件或 API 集成。

Gemini 模型家族的全面重組

Gemini 3 的發布伴隨著 Google AI 模型家族的全面重組。以下是目前的模型佈局：

                        Google Gemini 模型家族現狀（2026 年 2 月）
                        Gemini 3 Pro Preview：最先進推理模型，支持 Computer Use，強大的 Agentic 和編程能力。
Gemini 3 Flash Preview：高速版本，同樣支持 Computer Use，平衡效能與成本。
Gemini 2.5 Pro：成熟的生產模型，新增 TTS（文字轉語音）預覽功能。
Gemini 2.5 Flash：快速思考模型，Gemini App 中可用。
Gemini 2.0 Flash：已標記為棄用，將於 2026 年 3 月 31 日關閉。

                    

Gemini 2.0 Flash 退役：遷移時間線

Google 確認 Gemini 2.0 Flash 已被標記為棄用，並將於 2026 年 3 月 31 日正式關閉。這意味著所有仍在使用 Gemini 2.0 Flash 的開發者和企業需要在未來約六週內完成遷移。

對於大量依賴 Gemini 2.0 Flash API 的企業來說，這是一個需要立即關注的時間點。Google 建議遷移到 Gemini 2.5 Flash（適合需要高速推理的場景）或 Gemini 3 Flash Preview（適合需要最新能力的場景）。

語音合成能力的突破

Gemini 2.5 系列還引入了值得關注的語音能力——Gemini 2.5 Flash TTS Preview（針對低延遲優化）和 Gemini 2.5 Pro TTS Preview（針對質量優化）。這些模型具備增強的表達力、精確的語速控制和流暢的對話能力。

語音合成能力的加入意味著 Gemini 正在從純文本和視覺的多模態能力，擴展到包含語音在內的全方位多模態。對於客戶服務、教育、無障礙訪問等場景，這是一個有價值的能力增強。

三國演義：Gemini 3 vs GPT-5.3 vs Claude

Gemini 3 的發布使得全球 AI 模型的競爭格局更加清晰。目前三大 AI 實驗室各自推出了其最強大的模型系列：

Google Gemini 3 Pro

強調多模態理解、Computer Use 和 Agentic 能力。背靠 Google 的搜索和雲端生態系統，在信息檢索和企業 AI 應用方面具有獨特優勢。1,850 億美元的年度資本支出計劃確保了計算資源的充沛供應。

OpenAI GPT-5.3 Codex

在 Agentic 編程方面目前領先，首個在 SWE-Bench Pro 和 Terminal-Bench 上創下行業記錄的模型。與 Cerebras 合作的 Codex-Spark 實現了每秒 1,000+ Token 的超低延遲輸出。

Anthropic Claude 系列

以 AI 安全和可控性著稱，Claude Code 的年化營收突破 25 億美元。MCP 協議的行業標準化為 Claude 生態系統創造了獨特的互操作性優勢。

三家公司在不同維度上各有優勢，短期內不太可能出現「一家獨大」的局面。對於開發者和企業來說，這意味著多模型策略（Multi-Model Strategy）可能成為最佳實踐——根據不同任務的特性選擇最合適的模型。

對香港的啟示

Gemini 3 的 Computer Use 能力對香港企業自動化具有直接影響。香港大量的中小企業仍然依賴沒有 API 的桌面軟件處理日常業務——從會計系統到庫存管理。Computer Use 技術使得這些系統也能被 AI 代理自動化，而不需要昂貴的系統升級或替換。

Gemini 2.0 Flash 的退役時間線也提醒了香港開發者社區：在快速迭代的 AI 模型市場中，緊跟模型更新週期和及時遷移是一項必要的技術管理實踐。

                        本文要點總結
                        Google 發布 Gemini 3 系列（Pro 和 Flash Preview），定位為最先進的推理和多模態模型，具備強大的 Agentic 編程能力。
Gemini 3 首次引入 Computer Use 工具，使 AI 能夠直接觀察和操作電腦圖形界面，自動化無 API 系統。
Gemini 2.0 Flash 確認棄用，2026 年 3 月 31 日關閉。企業需在六週內完成遷移。
Gemini 2.5 系列新增 TTS 語音合成預覽，擴展全方位多模態能力。
AI 三國演義格局更加清晰：Gemini 3（多模態 + Computer Use）vs GPT-5.3（Agentic 編程）vs Claude（安全 + MCP 生態），多模型策略成為企業最佳實踐。