#AI對齊

共 1 篇文章

安全事件2026年3月30日

Anthropic 發布 Constitutional AI v2 研究報告，核心創新在於讓模型從少量高層次原則中推導出具體行為規範，而非依賴大量硬編碼規則。本文深度分析其技術實現、與 RLHF 的對比，及對 AI 對齊研究的理論意涵。