研究突破
LTX 2.3 技術突破:22B 參數擴散 Transformer 實現開源 4K 50FPS 影片與同步音訊生成
Lightricks 發布 LTX 2.3,一款 22B 參數的擴散 Transformer 模型,能在單次前向傳遞中同時生成原生 4K 解析度、50 FPS 影片與同步音訊。這是目前最高效能的開源影片生成模型,支援最長 20 秒片段,並配備可在消費級硬體上運行的桌面編輯器。
Lightricks 發布 LTX 2.3,一款 22B 參數的擴散 Transformer 模型,能在單次前向傳遞中同時生成原生 4K 解析度、50 FPS 影片與同步音訊。這是目前最高效能的開源影片生成模型,支援最長 20 秒片段,並配備可在消費級硬體上運行的桌面編輯器。
Gemini 2.0 Flash 採用原生多模態架構,拋棄了傳統 CLIP 式視覺編碼器,改以統一的 token 空間處理影像與文本。本文深度分析其技術創新、視覺問答基準表現及在醫療影像和科學圖表理解領域的突破。
阿里巴巴正式發布 Qwen 3.5 多模態大型語言模型,在文本、影像、程式碼、數學等多項基準測試中展現出前沿級別的能力。此次發布標誌著中國 AI 產業在前沿模型研發上的重要突破,Qwen 3.5 在多項評測中與 GPT-5、Claude Opus 4 等國際頂尖模型形成正面競爭。