#多模態

共 6 篇文章

產業動態2026年4月27日

中國新一代開源模型與晶片自主話題升溫，產業鏈也因算力需求而再度聚焦。另一方面，政府採購規範與提示注入等安全風險，提醒企業在導入生成式 AI 時必須同步強化治理與防護。

模型發布2026年4月3日

Google 發布 Gemma 4，除支援多語言與多步規劃外，也強調在低記憶體終端設備上的可部署性，為開放模型研究帶來新的落地指標。

研究突破2026年4月1日

第一季度 AI 研究格局呈現三大主軸：以 DeepSeek-R2 和 OpenAI o4 為代表的推理模型全面普及、多模態模型在視覺理解上實現重大突破，以及 AI Agent 架構在實際業務部署中逐步走向成熟。

研究突破2026年3月30日

Lightricks 發布 LTX 2.3，一款 22B 參數的擴散 Transformer 模型，能在單次前向傳遞中同時生成原生 4K 解析度、50 FPS 影片與同步音訊。這是目前最高效能的開源影片生成模型，支援最長 20 秒片段，並配備可在消費級硬體上運行的桌面編輯器。

模型發布2026年3月30日

Gemini 2.0 Flash 採用原生多模態架構，拋棄了傳統 CLIP 式視覺編碼器，改以統一的 token 空間處理影像與文本。本文深度分析其技術創新、視覺問答基準表現及在醫療影像和科學圖表理解領域的突破。

模型發布2026年3月29日

阿里巴巴正式發布 Qwen 3.5 多模態大型語言模型，在文本、影像、程式碼、數學等多項基準測試中展現出前沿級別的能力。此次發布標誌著中國 AI 產業在前沿模型研發上的重要突破，Qwen 3.5 在多項評測中與 GPT-5、Claude Opus 4 等國際頂尖模型形成正面競爭。