所有文章
共 181 篇文章,第 13 / 19 頁
Google Personal Intelligence 技術架構:Gemini 如何整合十億用戶的個人資料實現個性化 AI
Google 於 3 月 27 日完成 Personal Intelligence 功能向所有美國免費用戶的全面推送。該功能允許 Gemini 存取用戶的 Gmail、Google Photos、YouTube 等應用資料,實現高度個性化的 AI 回應。本文從技術架構、隱私設計和產業影響三個維度進行深度分析。
LTX 2.3 技術突破:22B 參數擴散 Transformer 實現開源 4K 50FPS 影片與同步音訊生成
Lightricks 發布 LTX 2.3,一款 22B 參數的擴散 Transformer 模型,能在單次前向傳遞中同時生成原生 4K 解析度、50 FPS 影片與同步音訊。這是目前最高效能的開源影片生成模型,支援最長 20 秒片段,並配備可在消費級硬體上運行的桌面編輯器。
MiniMax M2.5 技術剖析:開源前沿模型如何以二十分之一成本挑戰 Claude Opus 4.6
MiniMax 發布開源前沿模型 M2.5,在 SWE-Bench Verified 達到 80.2%,BrowseComp 達 76.3%,代理工具使用能力領先業界。模型以 Apache 授權開源,API 定價僅為 Claude Opus 4.6 的二十分之一,重新定義了開源與閉源模型的性價比邊界。
Mistral Small 4 架構解析:128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型
Mistral AI 發布 Mistral Small 4,採用 128 專家混合架構(MoE),總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B,同時輸出長度減少 20%,推理延遲降低 40%。以 Apache 2.0 授權開源。
Mistral Voxtral TTS 技術分析:90 毫秒首音延遲與五秒語音複製的架構突破
Mistral AI 發布開源文字轉語音模型 Voxtral TTS,以極小的模型尺寸實現了 90 毫秒的首音延遲(TTFA),僅需不到五秒的語音樣本即可複製自定義聲音。模型支援九種語言,可在智慧手錶等邊緣裝置上運行,以 CC BY NC 4.0 授權開源。
Samsung 八億裝置 Gemini 部署計劃:端側 AI 大規模落地的技術挑戰與架構分析
Samsung 計劃在 2026 年底前將搭載 Google Gemini AI 功能的裝置數量從 4 億增加至 8 億。本文深度分析端側 AI 大規模部署的技術架構、硬體需求、以及對 AI 晶片和模型壓縮技術的連鎖影響。
AI 代碼生成基準測試深度分析:SWE-bench 的局限性與下一代評測框架的設計方向
隨著 AI 代碼生成能力的快速進步,現有基準測試的局限性日益凸顯。本文深度分析 SWE-bench、HumanEval 等主流代碼評測框架的方法論問題,並探討下一代評測框架應如何設計才能真實衡量 AI 的軟件工程能力。
AI 醫療影像 2026 年度進展:從輔助診斷到病理分割的技術突破與臨床驗證挑戰
2026年,AI 醫療影像系統在多個臨床領域實現重要突破,包括乳腺癌篩查召回率提升、視網膜病變早期檢測及病理切片全自動分析。本文回顧技術進展,並深度分析從研究到臨床部署的系統性障礙。
Anthropic Constitutional AI v2 技術解析:從規則列表到原則推導的 AI 對齊範式轉變
Anthropic 發布 Constitutional AI v2 研究報告,核心創新在於讓模型從少量高層次原則中推導出具體行為規範,而非依賴大量硬編碼規則。本文深度分析其技術實現、與 RLHF 的對比,及對 AI 對齊研究的理論意涵。
歐盟 AI 法案強制執行首年技術合規分析:高風險 AI 系統的技術文件要求與評估框架
歐盟 AI 法案(EU AI Act)已進入強制執行階段,高風險 AI 系統的技術文件要求和合規評估框架已正式生效。本文深度分析法案對模型卡(Model Card)、數據管理文件及可解釋性報告的技術要求,以及對 AI 研發實踐的深遠影響。