所有文章
共 178 篇文章,第 14 / 18 頁
OpenAI GPT-5 Mini 推理能力深度解析:小模型如何在基準測試中超越前代旗艦
OpenAI 最新發布的 GPT-5 Mini 在多項推理基準測試中超越 GPT-4o,同時將推理成本降低 90%。本文從架構設計、蒸餾技術及評測方法三個維度,深度分析小型高效能推理模型的技術路線。
Alibaba Qwen 3.5 多模態模型發布:中國 AI 進軍前沿模型競賽的技術分析
阿里巴巴正式發布 Qwen 3.5 多模態大型語言模型,在文本、影像、程式碼、數學等多項基準測試中展現出前沿級別的能力。此次發布標誌著中國 AI 產業在前沿模型研發上的重要突破,Qwen 3.5 在多項評測中與 GPT-5、Claude Opus 4 等國際頂尖模型形成正面競爭。
Google Gemini 3.1 Flash-Lite 架構解析:2.5 倍推理加速與蒸餾技術突破
Google 於 2026 年 3 月 3 日發布 Gemini 3.1 Flash-Lite,這是 Gemini 系列中最輕量的變體。該模型實現 2.5 倍回應速度提升與 45% 輸出速率加速,定價僅 0.25 美元/百萬輸入 Token,透過先進的蒸餾技術在效能與成本之間取得前所未有的平衡。
GPT-5.4 Thinking 技術深度分析:專家級推理能力與百萬 Token 上下文窗口的架構突破
OpenAI 發布 GPT-5.4 'Thinking' 模型,在 GDPVal 專家級基準測試中取得 83% 的成績,配備 100 萬 Token 上下文窗口,並以更小的架構實現接近 GPT-6 等級的推理能力。該模型在 OSWorld-V 基準測試中達到 75%,標誌著推理模型研究的重大里程碑。
Model Context Protocol 突破 9700 萬安裝量:從實驗性協議到代理基礎設施的蛻變
Anthropic 主導開發的 Model Context Protocol(MCP)在 2026 年 3 月突破 9700 萬安裝量,從最初的實驗性開放協議迅速演進為 AI 代理生態系統的基礎設施標準。所有主要 AI 供應商現已提供 MCP 相容工具支援,標誌著 AI 產業在互操作性標準化方面的重大里程碑。
NASA 火星探測器首次以 AI 自主導航:Claude 視覺模型取代 28 年人工規劃傳統
NASA 毅力號火星探測器成功完成人類史上首次由 AI 規劃的火星地面駕駛,使用 Anthropic Claude 視覺模型分析軌道影像後自主規劃路線,兩次駕駛總計 456 米。此成就取代了 JPL 工程師長達 28 年的手動路線規劃作業流程,為深空探索任務開啟全新範式。
OpenAI 關閉 Sora 公共 API:推理成本不可持續的技術與經濟分析
OpenAI 宣布關閉 Sora 視頻生成模型的公共 API,理由是每分鐘生成視頻的推理成本遠超可持續商業模式的承受範圍。此決定在視頻 AI 產業引發廣泛震盪,迫使整個行業重新評估生成式視頻技術的商業可行性與技術路線。
OpenClaw 開源 AI 代理框架技術剖析:從 iMessage 到 NVIDIA 黃仁勳的盛讚
奧地利開發者 Peter Steinberger 創建的開源 AI 代理框架 OpenClaw,在 GTC 2026 上獲 NVIDIA 執行長黃仁勳稱為「史上最成功的開源專案」。該框架透過 iMessage 與 Slack 等通訊平台運作,以獨特的架構設計實現了低門檻、高彈性的 AI 代理部署方案。
Anthropic 機密外洩:全新「Claude Mythos」模型意外曝光,網路安全股應聲重挫
Anthropic 因內容管理系統設定錯誤,意外公開逾 3,000 份內部文件,其中包含描述全新旗艦模型「Claude Mythos」的草稿。文件顯示 Mythos 在網路安全攻防能力上「遠超任何現有 AI 模型」,消息引發資安股集體下跌,CrowdStrike 單日跌幅達 7%。
Atlassian 裁員 1,600 人「自籌資金」押注 AI 轉型,雙 CTO 架構重組技術領導層
澳洲企業軟體巨頭 Atlassian 宣布裁員約 1,600 人(佔全球員工約 10%),執行長稱此為「自籌資金押注 AI 與企業銷售」的戰略舉措。公司同步以兩名 AI 專業高管取代原技術長,AI 代理產品 Rovo 月活用戶已達 500 萬。