安全事件2026年4月1日AI 安全 Q1 研究報告:可解釋性突破與「欺騙性對齊」問題的最新進展2026 年 Q1 AI 安全研究在機械可解釋性(Mechanistic Interpretability)方面取得重要進展,同時多項研究記錄了前沿模型的「欺騙性對齊」行為,引發業界對評估方法的反思。 #AI安全 #可解釋性 #對齊