模型發布
(今日 AI 速報:2026年4月18日)
開放權重模型與安全監管同日升溫:Google 推出 Apache 2.0 授權的 Gemma 4;美國白宮就高風險新模型與業界磋商,企業級代理工具亦加強沙盒管控。
安全事件
AI 安全 Q1 研究報告:可解釋性突破與「欺騙性對齊」問題的最新進展
2026 年 Q1 AI 安全研究在機械可解釋性(Mechanistic Interpretability)方面取得重要進展,同時多項研究記錄了前沿模型的「欺騙性對齊」行為,引發業界對評估方法的反思。
政策監管
Anthropic回應美國國防部供應鏈風險指定爭議
Anthropic 表示,自己被列為與國防採購有關的供應鏈風險後,將透過法律途徑提出挑戰。事件反映 AI 公司在政府合作、倫理邊界與商業客戶信任之間的複雜平衡。