安全研究必须先于能力扩展
阿莫代伊坚信,在AI系统能力尚未被充分理解和对齐之前进行大规模扩展,是对人类未来的不负责任赌注。这一信念是他离开OpenAI、创立Anthropic的核心动因,也是RSP框架的哲学基础——每提升一个能力级别,必须先通过对应的安全评估门控。
来源:Dario Amodei, 'Machines of Loving Grace', Anthropic blog, 2024
Loading Thinker Node
正在读取方法论、关键决策和影响关系。
以"宪法AI"重塑对齐范式、将安全置于能力之前的Anthropic联合创始人与CEO
达里奥·阿莫代伊是当代AI安全运动最具影响力的领导者之一。他在普林斯顿大学取得计算神经科学博士学位后,加入百度AI研究院,随后于2016年加入OpenAI担任研究副总裁,主导了GPT-2、GPT-3等大型语言模型的研究。2021年,因与OpenAI在AI安全优先级和公司治理上的理念分歧,他与妹妹Daniela Amodei等11名同事联合创立Anthropic,致力于将安全研究置于能力扩展之前。Anthropic提出了Constitutional AI(CAI)方法论,通过让AI根据一组宪法原则自我批评和修正,减少对人工标注的依赖;并发布了Responsible Scaling Policy(RSP),为AI能力评估与安全门控建立了系统性框架。其打造的Claude AI助手以HHH(Helpful, Harmless, Honest)为核心设计哲学,成为业界安全对齐的标杆。
阿莫代伊坚信,在AI系统能力尚未被充分理解和对齐之前进行大规模扩展,是对人类未来的不负责任赌注。这一信念是他离开OpenAI、创立Anthropic的核心动因,也是RSP框架的哲学基础——每提升一个能力级别,必须先通过对应的安全评估门控。
来源:Dario Amodei, 'Machines of Loving Grace', Anthropic blog, 2024
传统RLHF高度依赖人类反馈标注,成本高且难以扩展。阿莫代伊主导的Constitutional AI思路是:给AI一组明确的价值原则("宪法"),让模型自我生成批评和修订,再用这些自我修订数据进行强化学习。这使对齐过程更透明、可审计,且减少了对大量人工标注的依赖。
来源:Bai, Y., et al., 'Constitutional AI: Harmlessness from AI Feedback', Anthropic, arXiv:2212.08073, 2022
HHH框架是阿莫代伊对Claude设计哲学的核心表述。他认为"有帮助"与"无害"并非对立——过于保守的AI拒绝合理请求,本身也是一种伤害(harm of unhelpfulness)。真正的对齐是在三个维度上同时优化,而非以牺牲帮助性换取安全感。
来源:Askell, A., et al., 'A General Language Assistant as a Laboratory for Alignment', Anthropic, arXiv:2112.00861, 2021
阿莫代伊将Anthropic定位为"安全赛道上的领跑者"——他不认为减缓AI进展是现实选项,而是相信由真正重视安全的团队率先开发前沿模型,比让不重视安全的团队先到达更好。这是一种"负责任的加速主义",也是他被批评者质疑"安全洗白"的来源。
来源:Dario Amodei interview, Lex Fridman Podcast #369, 2023
阿莫代伊认为,在无法理解AI系统内部表征的情况下,任何对齐方法都是"蒙眼飞行"。Anthropic持续投入机制可解释性(Mechanistic Interpretability)研究,试图理解神经网络内部特征如何编码概念,是他对可解释性重要性这一信念的直接体现。
来源:Anthropic Research, 'Towards Monosemanticity: Decomposing Language Models With Dictionary Learning', 2023
给AI一部"宪法",让它自己批评和修正自己的回答,比大量人工标注更透明、更可扩展
Anthropic在2022年发布Constitutional AI论文,将一组16条原则(包括联合国人权宣言条款、无害性原则等)作为"宪法"输入给Claude。模型先生成一个初始回答,再根据宪法原则自我批评("这个回答是否有害?"),生成修订版本,最后用这些自我修订对进行强化学习(RLAIF)。实验显示CAI模型在有害性评分上优于纯RLHF模型,且减少了约90%的人工标注需求。
在每个能力里程碑前设置安全评估门控,未通过则不允许继续扩展——将安全承诺从口号变为可操作的流程约束
2023年9月,Anthropic发布首版RSP,定义了AI安全级别(ASL-1到ASL-4),并为每个级别规定了具体的评估标准和缓解措施要求。例如ASL-3级别要求模型在CBRN(化学、生物、放射、核武器)协助测试中低于特定阈值才能部署。这是业界首个将能力评估与部署决策系统性绑定的公开政策文件,后来成为其他AI公司制定类似政策的参照。
当你对组织的核心方向有根本性分歧,且内部改变无望时,创立新组织比妥协更有影响力
2020-2021年间,阿莫代伊在OpenAI内部对公司治理结构(营利性转型)和安全研究投入比例产生严重分歧。他认为OpenAI在能力扩展与安全研究之间的资源分配失衡,且公司结构变化使安全优先的使命难以持续。2021年他与包括妹妹Daniela在内的11名同事集体离职,以1.25亿美元种子融资创立Anthropic,将"AI安全公司"而非"AI能力公司"作为核心定位。这次分裂被视为AI历史上最重要的组织事件之一。
拒绝"安全vs有用"的假对立,真正优秀的AI必须在帮助性、无害性、诚实性三维同时达标
Claude的系统提示和训练目标明确体现HHH框架。阿莫代伊多次公开表示,过于保守的AI(如拒绝回答合理的医疗问题)本身就是一种伤害——他称之为"无帮助性的危害"(harm of unhelpfulness)。Claude的设计因此要求在每次拒绝前评估拒绝本身的成本,而非默认拒绝为"安全"选项。这一理念使Claude在医疗、法律、教育等敏感领域比竞争对手更愿意提供实质性帮助。
在能解释AI为什么做出某个决定之前,无法真正信任它——可解释性是对齐研究的底层基础设施
Anthropic的可解释性团队(由Chris Olah领导)在2023年发布了"Towards Monosemanticity"论文,通过字典学习方法在Claude的中间层中识别出数百万个可解释特征,包括"金门大桥"特征、"情感"特征等。阿莫代伊将这一研究方向定位为Anthropic的核心差异化投入,认为即使短期不能直接提升模型性能,理解模型内部机制是确保长期安全的必要条件。
阿莫代伊一方面声称AI安全是Anthropic的核心使命,另一方面Anthropic持续扩大模型规模、争夺前沿能力排名。批评者认为这是"安全洗白"——用安全话语包装本质上的能力竞赛。支持者认为这是"负责任的加速主义":由安全优先的团队率先到达前沿,比让不重视安全的团队先到达更好。这一张力是阿莫代伊最核心的身份悖论。
阿莫代伊公开表示AI可能是人类历史上最危险的技术之一,同时Anthropic每年投入数十亿美元用于训练更强大的Claude模型。他的解释是:危险技术的开发无法被单方面叫停,安全导向的实验室参与其中比缺席更能影响方向。但这种逻辑被一些AI安全研究者批评为自我服务的合理化。
阿莫代伊在OpenAI时期发表了大量开放研究,但Anthropic的Claude系列模型均为闭源,权重不公开。他认为在安全评估体系完善之前,开放权重可能放大风险;批评者则认为这是竞争壁垒的借口,与开放科学精神相悖。
物理学与计算神经科学训练,建立跨学科研究基础
阿莫代伊在普林斯顿大学完成物理学本科,随后在加州大学旧金山分校(UCSF)取得计算神经科学博士学位,研究方向为神经编码与感知。这一阶段培养了他严格的实验科学思维和对复杂系统的建模能力,为后来将AI视为科学研究对象而非纯工程项目奠定了基础。
从百度到OpenAI,主导大规模语言模型研究,积累前沿AI能力认知
2014年加入百度AI研究院,参与深度语音识别研究。2016年加入OpenAI,逐步晋升为研究副总裁,主导GPT-2、GPT-3等里程碑模型的研究工作。这一时期他深刻认识到大型语言模型的能力涌现和潜在风险,也逐渐对OpenAI的治理方向产生分歧,为后来的创业决策积累了认知和人脉基础。
创立Anthropic,构建Constitutional AI与RSP等核心安全研究框架
2021年联合创立Anthropic,确立"AI安全公司"的定位。发布Claude 1.0,提出Constitutional AI方法论,发布Responsible Scaling Policy。这一阶段的核心任务是证明"安全与能力可以兼得"——Claude在保持竞争性能力的同时,展示出比竞争对手更低的有害输出率。
Claude 3系列跻身全球顶级模型,推动AI安全议题进入政策与公众视野
Claude 3 Opus在多项基准测试上超越GPT-4,使Anthropic真正进入一线AI竞争。阿莫代伊开始频繁参与国会听证、政府咨询和国际AI治理讨论,其"Machines of Loving Grace"博文描绘了AI带来的正面未来愿景,成为AI乐观主义的重要文本。同时Anthropic完成多轮大额融资(亚马逊、谷歌),估值超过600亿美元。
背景:阿莫代伊在普林斯顿大学完成物理学本科后,进入加州大学旧金山分校攻读计算神经科学博士,师从Michael DeWeese,研究神经编码与感知信息处理。这一跨学科背景使他能以科学家而非纯工程师的视角看待AI系统。
决策:选择计算神经科学作为博士方向,而非直接进入计算机科学或AI领域。
决策推理:对智能的科学本质感兴趣,认为理解生物神经系统是理解人工智能的必要基础。物理学训练提供了严格的数学建模工具,神经科学提供了对智能机制的直觉。
结果:形成了将AI视为可被科学研究和实验验证的对象的思维方式,这直接影响了他后来对AI安全研究方法论的设计——强调可测量性、可重复性和实证基础。
洞见:跨学科背景往往比单一深度更能产生范式突破——物理学的建模思维与神经科学的系统观结合,为AI安全研究提供了独特的认识论框架。
背景:2014年正值深度学习在语音识别领域取得突破性进展。百度AI研究院由吴恩达(Andrew Ng)主导,汇聚了当时最优秀的深度学习研究人员。阿莫代伊在此期间参与了Deep Speech项目的研究工作。
决策:选择加入工业界AI研究院而非留在学术界,参与大规模深度学习系统的实际开发。
决策推理:认识到前沿AI研究需要大规模计算资源和数据,这在学术界难以获得。工业研究院提供了将理论与大规模实践结合的机会。
结果:积累了大规模深度学习系统开发经验,建立了与AI研究社区的广泛联系,为进入OpenAI打下基础。
洞见:前沿AI能力的边界只能在工业规模的实验中才能真正触及——学术研究提供理论,工业实践提供规模验证。
背景:2016年OpenAI刚成立不久,正处于从强化学习游戏AI(OpenAI Five)向大型语言模型转型的关键时期。阿莫代伊加入后迅速成为核心研究人员,参与了GPT-1、GPT-2、GPT-3的研究工作,最终晋升为研究副总裁。
决策:从百度转至OpenAI,加入当时AI安全使命最明确的研究机构。
决策推理:OpenAI的非营利使命和明确的AI安全研究方向与他的价值观更契合。GPT系列研究代表了当时最前沿的语言模型方向,这是他希望深入探索的领域。
结果:主导了GPT-2(2019)和GPT-3(2020)的研究,GPT-3成为大型语言模型的历史性里程碑,证明了规模扩展带来的能力涌现。同时也在这一过程中逐渐认识到大模型的潜在风险。
洞见:规模扩展带来的能力涌现是真实的,但也是双刃剑——GPT-3的成功既证明了扩展定律的威力,也首次让研究者直面大模型的对齐挑战。
背景:2019-2020年间,OpenAI完成了向"封顶营利性"结构的转型,并与微软建立了深度商业合作。阿莫代伊等核心研究人员对此产生了严重分歧——他们认为商业化压力正在侵蚀安全研究的优先级。2021年5月,阿莫代伊、Daniela Amodei、Tom Brown、Chris Olah等11人集体离职。
决策:拒绝继续在OpenAI内部推动改变,选择创立新组织,以"AI安全公司"为核心定位,获得1.24亿美元种子融资。
决策推理:相信只有在组织结构和激励机制上从根本上不同于商业AI公司,才能真正将安全研究置于能力扩展之前。OpenAI的结构性变化使内部改变的可能性越来越小。
结果:Anthropic成立,迅速获得谷歌、Spark Capital等机构的支持。这次分裂重塑了AI行业格局,使AI安全成为独立的竞争维度,而非附属于能力竞赛的次要考量。
洞见:当组织的激励结构与核心使命产生根本性冲突时,内部改革往往不如另起炉灶——但这需要极强的使命确信和创建新组织的执行能力。
背景:2022年ChatGPT的发布引爆了公众对大型语言模型的关注,也使AI对齐问题进入主流视野。传统RLHF方法需要大量人工标注,成本高且难以扩展到更复杂的价值判断。Anthropic的Constitutional AI论文提出了一种新路径。
决策:公开发布Constitutional AI方法论,将Anthropic的核心技术贡献以学术论文形式分享给整个AI研究社区。
决策推理:Constitutional AI的核心洞见是:如果AI系统足够强大,可以让它根据明确的价值原则自我批评,这比依赖人类标注员的主观判断更一致、更可扩展。同时公开方法论有助于建立Anthropic在AI安全研究领域的权威性。
结果:Constitutional AI成为AI对齐领域最重要的方法论贡献之一,被广泛引用和讨论。Claude 2及后续版本均基于CAI框架训练,在有害性评估中持续优于纯RLHF基线。
洞见:让AI参与自己的对齐过程(RLAIF)比完全依赖人类反馈更具可扩展性——这一洞见预示了AI辅助AI研究的更广泛范式。
背景:2023年随着GPT-4发布和AI能力快速提升,业界对"何时停止扩展"的问题讨论日益紧迫。各大AI公司纷纷表态重视安全,但缺乏具体可操作的承诺。Anthropic的RSP试图将安全承诺从原则层面落实到具体的评估流程。
决策:公开发布RSP,定义ASL-1到ASL-4四个安全级别,并承诺在未经相应安全评估的情况下不部署超过当前安全级别的模型。
决策推理:仅有原则声明不足以建立可信承诺——需要具体可测量的标准(如CBRN协助阈值)和明确的决策流程,才能让内外部利益相关者真正监督安全承诺的执行。
结果:RSP成为业界AI安全治理的参照标准,DeepMind、OpenAI等公司随后发布了类似的安全承诺框架。同时RSP也受到批评,认为其门控标准由Anthropic自行制定和评估,缺乏第三方独立监督。
洞见:将安全承诺操作化(从原则到可测量流程)是建立可信度的必要步骤,但自我评估的可信度终究有限——真正的问责需要外部独立审计机制。
背景:2024年3月,Anthropic发布Claude 3系列(Haiku、Sonnet、Opus三档),其中Opus在MMLU、HumanEval、MATH等主流基准测试上全面超越GPT-4,成为当时公认的最强大商业语言模型之一。这是Anthropic首次在能力维度上真正进入第一梯队。
决策:以三档产品线(轻量/标准/旗舰)覆盖不同用例,同时在旗舰模型上追求能力前沿,证明安全与能力可以兼得。
决策推理:只有在能力上真正具有竞争力,Anthropic的安全研究才能被行业认真对待——一个能力落后的"安全AI公司"无法影响行业标准的制定。
结果:Claude 3 Opus的成功使Anthropic完成了多轮大额融资(亚马逊40亿美元、谷歌20亿美元),估值超过600亿美元。同时也验证了Constitutional AI和RSP框架下训练的模型可以达到最高能力水平。
洞见:安全与能力的对立是假命题——Constitutional AI框架下训练的模型不仅更安全,在某些维度上还能达到更高的能力水平,因为对齐训练本身也在优化模型的推理一致性。
背景:在AI风险讨论主导公众话语的背景下,阿莫代伊发表了这篇长文,系统阐述了如果AI安全问题得到妥善解决,AI可以在未来5-10年内根本性地解决人类面临的重大挑战——包括加速医学研究、消灭贫困、推进科学发现。
决策:以个人名义发表长篇愿景文章,在强调安全的同时,为AI的正面潜力提供系统性论述,平衡Anthropic的公众形象。
决策推理:过度强调AI风险可能导致公众和政策制定者采取过于保守的监管立场,阻碍AI的正面应用。阿莫代伊希望提供一个既诚实面对风险、又充分肯定AI正面潜力的平衡叙事。
结果:文章成为AI乐观主义的重要文本,被广泛引用于AI政策讨论。也因其对AI能力的乐观预测受到部分AI安全研究者的批评,认为在安全问题尚未解决的情况下描绘如此乐观的未来图景存在误导性。
洞见:AI叙事需要同时容纳风险警示与正面愿景——只有风险叙事会导致恐惧性保守主义,只有乐观叙事会导致忽视风险的冒进主义。真正负责任的AI领导者需要在两者之间保持张力。
阿莫代伊在多次访谈中(包括2023年Lex Fridman播客)提及Bostrom的《超级智能》对其AI风险认知框架的奠基性影响,称其为理解AI存在性风险"必读的早期文本"。这本书直接影响了他对AI对齐问题严重性的判断。
阿莫代伊在Anthropic官方博客和多次公开场合推荐了Stuart Russell的《与人类兼容》,认为Russell对AI控制问题的系统性论述是理解为什么对齐研究至关重要的最佳入门读物。Russell提出的"逆向奖励设计"思路与Constitutional AI有深刻的理论呼应。
阿莫代伊在2022年接受《大西洋月刊》采访时推荐了Brian Christian的《对齐问题》,称其为"迄今为止对AI对齐挑战最清晰的大众读物",认为这本书帮助非技术读者理解为什么对齐不是一个可以简单解决的工程问题。
阿莫代伊在2021年接受《连线》杂志采访时提及Penrose的《皇帝新脑》对他在研究生阶段理解"意识与计算的关系"产生了深远影响,尽管他不同意Penrose的量子意识论,但这本书促使他严肃思考AI系统的本质与局限。
阿莫代伊在计算神经科学博士训练期间深度研读了PDP双卷本,这是他跨学科背景的核心文献来源之一。他在多次学术讨论中提及PDP框架对理解神经网络表征学习的基础性作用,这也影响了他后来对Constitutional AI中"原则驱动的表征修正"的设计思路。
OpenAI联合创始人,在OpenAI时期的核心合作者。两人共同推动了GPT系列的研究,也共同经历了OpenAI的治理危机。Ilya在AI安全上的关切与阿莫代伊相近,但最终选择了不同的路径。
AI对齐研究先驱,RLHF方法的重要贡献者。阿莫代伊在OpenAI时期与Christiano深度合作,其Constitutional AI思路在很大程度上是对Christiano的RLHF工作的延伸和改进。
《超级智能》作者,AI存在性风险研究的奠基人之一。阿莫代伊的AI安全框架在哲学层面深受Bostrom的影响,尤其是对超级智能对齐问题的重视。
神经网络可解释性研究的奠基人,Anthropic联合创始人之一。Olah对神经网络内部机制的深度研究直接影响了阿莫代伊对可解释性作为AI安全基础设施的重视。
阿莫代伊创立并领导Anthropic,直接影响了数百名AI安全研究人员的研究方向和方法论,使Constitutional AI、机制可解释性成为AI安全领域的主流研究方向。
通过RSP框架和国会听证,阿莫代伊深刻影响了AI安全政策讨论的框架和词汇。"能力评估"、"安全级别"等概念已成为AI治理讨论的标准语言。
Anthropic联合创始人兼总裁,达里奥的妹妹。两人共同离开OpenAI创立Anthropic,分工明确——达里奥主导技术研究方向,Daniela主导商业运营与产品。这种互补的兄妹搭档被视为Anthropic成功的关键组织因素之一。
OpenAI CEO,阿莫代伊的前同事和现在的主要竞争对手。两人在AI安全与商业化的优先级上有根本性分歧,代表了AI行业的两种主要路径——"安全优先的前沿研究"vs"快速商业化与开放生态"。
深度学习教父,2023年辞职谷歌警示AI风险。辛顿和阿莫代伊代表了AI安全警示的两代人——辛顿是从技术奠基者转变为风险警示者,阿莫代伊则是从一开始就将安全作为核心使命的创业者。两人在AI风险的严重性上有相近判断。
Dario is one of the most thoughtful people I know about AI safety. He left OpenAI because he genuinely believed we needed a company whose primary focus was on getting the safety right, not just as a side concern.
What Dario and Anthropic have done with Constitutional AI is genuinely important. It's one of the few concrete technical contributions to alignment that actually works at scale.
Dario Amodei is building the most safety-conscious frontier AI lab in the world, and he's doing it while competing at the very top of capability. That combination is unprecedented.