#VLM

共 1 篇文章

模型發布2026年3月30日

Gemini 2.0 Flash 採用原生多模態架構，拋棄了傳統 CLIP 式視覺編碼器，改以統一的 token 空間處理影像與文本。本文深度分析其技術創新、視覺問答基準表現及在醫療影像和科學圖表理解領域的突破。