卷积结构是视觉智能的正确归纳偏置
视觉世界具有平移不变性、局部相关性和层级组合性。卷积神经网络通过权重共享和局部感受野,将这些物理先验直接编码进网络结构,这是其成功的根本原因。好的架构应该反映数据的真实结构,而非依赖暴力计算。
来源:Gradient-Based Learning Applied to Document Recognition, LeCun et al., Proceedings of the IEEE, 1998
Loading Thinker Node
正在读取方法论、关键决策和影响关系。
卷积神经网络之父,用开放科学和世界模型重塑 AI 未来的异见者
扬·勒丘恩是深度学习三巨头之一,卷积神经网络(CNN)的发明者,2018 年图灵奖得主。他在 Bell Labs 发明的 LeNet 是现代计算机视觉的基石,直接催生了今天所有图像识别、人脸检测和自动驾驶视觉系统。1990 年代他的手写数字识别系统被美国银行广泛部署,处理了全美 10% 以上的支票。2003 年加入纽约大学创立 Courant 机器学习实验室,后担任 Meta(Facebook)首席 AI 科学家,同时保留 NYU 教职。他是开放科学的坚定倡导者,主张 AI 研究成果应公开发布。近年来,他对 LLM 的路线持强烈批判态度,认为大型语言模型无法通向 AGI,倡导基于世界模型和 JEPA(联合嵌入预测架构)的新路线。他在 Twitter/X 上的直言不讳使他成为 AI 领域最具争议性的公共知识分子之一。
视觉世界具有平移不变性、局部相关性和层级组合性。卷积神经网络通过权重共享和局部感受野,将这些物理先验直接编码进网络结构,这是其成功的根本原因。好的架构应该反映数据的真实结构,而非依赖暴力计算。
来源:Gradient-Based Learning Applied to Document Recognition, LeCun et al., Proceedings of the IEEE, 1998
LLM 通过预测下一个词来学习,这种方式无法让模型理解物理世界的因果结构。真正的智能需要能够在潜在空间中预测世界状态的世界模型——类似于婴儿通过物理交互学习世界的方式。JEPA(联合嵌入预测架构)是实现这一目标的正确路径。
来源:A Path Towards Autonomous Machine Intelligence, Yann LeCun, OpenReview, June 2022
封闭 AI 研究不仅减缓整体进步,还会造成少数机构垄断技术的危险格局。Meta AI 坚持发布 LLaMA 系列开源模型,正是这一信念的实践。科学进步依赖于公开的同行评审和知识积累,商业竞争不应成为封闭研究的借口。
来源:Yann LeCun interview on open source AI, The Verge, April 2023 / LLaMA: Open and Efficient Foundation Language Models, Meta AI, February 2023
大型语言模型是「随机鹦鹉」——它们通过统计模式拼接语言,但没有真正理解世界。LLM 无法进行可靠的推理、规划和因果理解,因为它们缺乏对物理世界的基础性感知。通往 AGI 需要感知-行动循环、持续学习和世界模型,而非更大的文本预测器。
来源:Yann LeCun Twitter/X posts on LLM limitations, x.com/ylecun, 2023-2024 / A Path Towards Autonomous Machine Intelligence, Yann LeCun, OpenReview, June 2022
人类和动物通过观察世界学习,而非依赖大量人工标注。自监督学习让模型从数据本身的结构中学习表示,这才是可扩展的智能之路。对比学习、掩码自编码器和 JEPA 都是自监督学习的重要探索方向。
来源:Self-supervised learning: The dark matter of intelligence, Yann LeCun & Ishan Misra, Meta AI Blog, April 2021
将数据的真实结构先验编码进模型架构,而非期望模型从零学习所有结构。
LeNet 将视觉的平移不变性编码为卷积权重共享,将局部相关性编码为局部感受野,这两个归纳偏置使其在 MNIST 上的参数效率远超全连接网络。
智能系统需要在潜在空间中维护世界状态的预测模型,而非仅仅在观测空间中做模式匹配。
JEPA(联合嵌入预测架构)在潜在表示空间中预测未来状态,而非在像素空间中重建图像,避免了生成式模型的「幻觉」问题,同时学到更抽象的世界模型。
公开发布研究成果和模型权重,能够通过外部创新的反馈回路加速自身研究进展,同时建立生态系统护城河。
Meta 发布 LLaMA 系列开源模型后,全球研究社区在此基础上产生了数千个衍生研究和应用,这些外部创新反过来为 Meta 提供了宝贵的改进方向和人才吸引力。
用能量函数统一描述各类学习问题:好的预测对应低能量,坏的预测对应高能量,学习即是训练能量函数的形状。
对比学习(如 SimCLR、MoCo)可以被理解为能量基础模型的特例:正样本对的能量被压低,负样本对的能量被推高,从而学习到有意义的表示。
对主流共识保持批判性距离,但每一个异见都必须有具体的技术论据支撑,而非单纯的标新立异。
LeCun 在 LLM 热潮最盛时公开质疑其通向 AGI 的可行性,并提出具体的技术论据:LLM 缺乏物理世界模型、无法进行可靠规划、存在幻觉问题——这些批评在 2024-2025 年被越来越多的研究所验证。
LeCun 是深度学习三巨头之一,他的 CNN 工作直接催生了今天的 AI 热潮。但他却是对 LLM 路线批评最猛烈的顶级科学家之一,认为 Transformer 和自回归语言模型无法通向 AGI。这种「创造者批判自己孩子」的张力,折射出 AI 领域内部对未来路线的深刻分歧。
LeCun 同时担任 Meta 首席 AI 科学家和 NYU 教授,这使他处于商业利益和学术独立之间的微妙位置。他推动 Meta 开源 LLaMA,被批评者认为是商业策略而非纯粹的开放科学信念;他对 OpenAI 封闭路线的批评,也被部分人解读为竞争对手之间的舆论战。
LeCun 的核心论点是 AI 需要通过与物理世界的交互来学习世界模型,类似婴儿的发展过程。但他在 Meta 的工作主要集中在语言和视觉的数字领域,而非机器人或具身智能。这一矛盾在他倡导 JEPA 的同时尚未找到完全的实践解决方案。
1988-2002
卷积神经网络发明与手写识别工业化部署
在 Bell Labs 和 AT&T 实验室,LeCun 发明了 LeNet 系列卷积神经网络,并将其部署于美国银行系统的支票识别,处理了全美逾 10% 的银行支票。这一时期奠定了现代计算机视觉的技术基础,但也经历了 1990 年代「AI 寒冬」中深度学习被边缘化的困境。
2003-2013
建立 NYU 机器学习中心,推动深度学习理论与能量基础模型
2003 年加入纽约大学,创立 Courant 机器学习实验室(后更名为 CILVR)。在 AI 寒冬期间坚持深度学习研究,与 Hinton、Bengio 共同推动了 2006-2012 年的深度学习复兴。2012 年 AlexNet 的成功验证了他二十年的坚持,深度学习从边缘走向主流。
2013-2022
领导 Meta AI 研究院,推动自监督学习和开源 AI
2013 年加入 Facebook(后更名 Meta),创立并领导 FAIR(Facebook AI Research)。在此期间推动了自监督学习的重大突破(如 SimCLR 的前身研究),倡导开放发布研究成果,使 FAIR 成为全球顶级 AI 研究机构之一。LLaMA 系列开源模型的发布是这一时期开放科学理念的集中体现。
2022-至今
批判 LLM 路线,倡导 JEPA 世界模型作为 AGI 新路径
2022 年发布「通向自主机器智能之路」白皮书,系统阐述了基于世界模型的 AGI 路径,并提出 JEPA 架构。在 ChatGPT 引发全球 LLM 热潮的背景下,他坚持批评 LLM 的根本局限性,成为 AI 领域最具争议性的声音之一。通过 Twitter/X 上的公开辩论,他将技术争论带入了更广泛的公共讨论。
背景:1983 年,神经网络研究处于边缘地位,主流 AI 以符号逻辑和专家系统为主。Hinton 和 Rumelhart 的反向传播算法尚未发表(1986 年),LeCun 在几乎没有社区支持的情况下开始探索连接主义。
决策:选择在巴黎第六大学(UPMC)攻读博士,专注于神经网络和机器学习,师从 Maurice Milgram。
决策推理:LeCun 对生物神经系统的计算原理有强烈的好奇心,认为模仿大脑的学习机制比手工编写规则更有前途。
结果:1987 年完成博士论文,提出了卷积神经网络的早期思想,为后续 LeNet 的发明奠定了理论基础。
洞见:在主流范式不支持的方向上坚持研究,需要对技术直觉的极大信心;早期进入一个正确但被忽视的领域,长期回报是巨大的。
背景:Bell Labs 是当时世界上最重要的工业研究机构之一,拥有充足的资源和高度的研究自由度。AT&T 需要自动化支票识别系统来降低银行处理成本,这为 LeCun 提供了将理论研究转化为实际应用的完美场景。
决策:加入 Bell Labs 的自适应系统研究部门,专注于将卷积神经网络应用于手写数字和字符识别。
决策推理:Bell Labs 提供了工业规模的计算资源和真实应用场景;手写识别是一个有明确评估标准的具体问题,适合验证 CNN 的有效性。
结果:在 Bell Labs 期间发明了 LeNet 系列,并将其成功部署于美国银行系统,处理了全美超过 10% 的银行支票,是深度学习历史上第一个大规模工业化部署。
洞见:工业研究机构能提供学术界无法匹敌的资源和应用场景;将理论突破与真实需求结合,是加速创新的最有效方式。
背景:1990 年代末,深度学习受到 SVM 和核方法的强力竞争,学界对神经网络的热情正在冷却。LeCun 的 LeNet 在实际应用中已经成功,但缺乏一篇系统性的理论论文来总结其架构原则。
决策:在 Proceedings of the IEEE 发表长达 46 页的《基于梯度学习的文档识别》,系统阐述 LeNet-5 架构、卷积层、池化层、全连接层的设计原理,以及图谱连接网络(Graph Transformer Network)。
决策推理:系统性的论文总结能让其他研究者理解和复现 CNN 架构;在 SVM 盛行的时代,需要用严谨的实验证明 CNN 的竞争力。
结果:该论文成为深度学习历史上被引用最多的论文之一(超过 2 万次),LeNet-5 的架构设计直接影响了此后所有卷积神经网络,包括 AlexNet、VGG、ResNet 等。
洞见:将工程实践系统化为理论论文,是放大研究影响力的关键步骤;一篇时机合适、论证严谨的论文可以定义一个领域数十年。
背景:2003 年正值 AI 第二次寒冬,SVM 和核方法主导机器学习领域,深度学习被主流学界边缘化。AT&T 实验室重组后,LeCun 面临去向选择,他选择回归学术界继续深度学习研究。
决策:接受纽约大学 Courant 数学科学研究所的教职,创立机器学习与感知实验室(后更名为 CILVR),继续推进深度学习和能量基础模型研究。
决策推理:学术环境提供了长期研究的自由度;NYU 在纽约的地理位置有助于与工业界保持联系;坚信深度学习的长期正确性,愿意在寒冬中继续耕耘。
结果:NYU 机器学习实验室成为深度学习复兴的重要基地之一,培养了大量深度学习人才。与 Hinton(多伦多)、Bengio(蒙特利尔)形成三角研究中心,共同推动了 2012 年 AlexNet 之后的深度学习爆发。
洞见:在技术寒冬中坚守正确方向需要极大的信念;建立学术机构是积累长期影响力的最稳固方式,即使短期内不受主流认可。
背景:2012 年 AlexNet 证明深度学习的突破性能力后,科技巨头开始大规模招募 AI 研究者。Facebook 的 Mark Zuckerberg 亲自邀请 LeCun 领导其 AI 研究部门,开出了学术界无法匹敌的资源条件。
决策:接受 Facebook 邀请,创立 FAIR(Facebook AI Research),同时保留 NYU 教职,坚持以开放发表为核心原则——FAIR 的研究成果必须公开发布。
决策推理:Facebook 提供的计算资源和数据规模是学术界无法企及的;但 LeCun 坚持将开放发表作为加入条件,认为封闭研究会损害科学进步和 Facebook 的长期声誉。
结果:FAIR 迅速成为全球顶级 AI 研究机构之一,发表了大量高影响力论文,并推动了 PyTorch 的开源发布。LeCun 的坚持使 Meta AI 形成了区别于 OpenAI 的开放研究文化。
洞见:在加入商业机构时坚守核心原则(如开放发表),能够在长期建立差异化的机构文化和公信力;原则性的妥协往往代价高昂。
背景:深度学习在 2012-2018 年彻底改变了计算机视觉、自然语言处理、语音识别等领域,AlphaGo 击败世界冠军棋手,AI 成为全球最热门的技术话题。ACM 决定将 2018 年图灵奖授予深度学习的三位奠基人。
决策:接受图灵奖,与 Geoffrey Hinton 和 Yoshua Bengio 共同出席颁奖典礼,三人发表了关于深度学习过去、现在和未来的演讲。
决策推理:图灵奖是计算机科学的最高荣誉,对深度学习的认可也是对三十年坚守的正式确认。
结果:图灵奖的授予标志着深度学习从边缘学科正式进入计算机科学的核心殿堂,极大提升了 AI 研究的社会地位,也为三位获奖者带来了更大的公共影响力和发言权。
洞见:在被主流忽视的领域坚持数十年,最终可能获得最高认可;科学的时间尺度远长于商业周期。
背景:ChatGPT 尚未发布,但 GPT-3 已经展示了 LLM 的惊人能力,业界对大型语言模型路线的信心快速上升。LeCun 认为 LLM 的本质局限性被严重低估,需要系统性地提出替代路线。
决策:发布 60 页白皮书《通向自主机器智能之路》,系统阐述基于世界模型的 AGI 路径,提出 JEPA(联合嵌入预测架构)作为核心技术框架。
决策推理:在 LLM 热潮到来之前提出替代框架,可以在技术争论中占据主动;白皮书格式允许系统性阐述,比学术论文更适合传播宏观技术愿景。
结果:白皮书在 AI 研究社区引发广泛讨论,JEPA 框架成为自监督学习和世界模型研究的重要参考。尽管 LLM 在随后两年持续主导,LeCun 的批评促使更多研究者思考 LLM 的根本局限。
洞见:在范式转变的前夜提出系统性的替代框架,是建立长期技术影响力的最有效方式;即使短期内不被接受,好的框架会在时机成熟时被重新发现。
背景:ChatGPT 于 2022 年 11 月发布后,OpenAI 封闭路线成为行业主流,Google 和 Microsoft 纷纷跟进。开源 AI 社区面临被边缘化的危机,需要一个有足够能力的开源基础模型打破垄断。
决策:推动 Meta 发布 LLaMA(Large Language Model Meta AI),以研究许可证形式开放模型权重,使研究者可以在此基础上进行研究和改进。
决策推理:开源基础模型能够激活全球研究社区的创新力,同时为 Meta 建立生态系统护城河;这也是 LeCun 开放科学信念的直接实践。
结果:LLaMA 系列(包括后续的 LLaMA 2、LLaMA 3)成为开源 AI 生态的基础,催生了 Alpaca、Vicuna 等数百个衍生模型,彻底改变了 AI 研究的格局,使高质量 LLM 研究不再是少数封闭机构的专利。
洞见:在正确的时机开放正确的资源,能够创造远超预期的生态系统效应;开源不是慈善,而是建立长期平台优势的战略选择。
背景:2022 年白皮书提出 JEPA 框架后,需要具体的实验结果来验证其有效性。I-JEPA(图像 JEPA)于 2023 年发布后取得了良好结果,2024 年的 V-JEPA 将框架扩展到视频理解领域。
决策:发布 V-JEPA(视频联合嵌入预测架构),在视频理解任务上验证 JEPA 框架的有效性,并开源模型权重。
决策推理:视频理解需要时序世界模型,是验证 JEPA 框架的理想测试场;开源结果可以让全球研究者参与改进和验证。
结果:V-JEPA 在多个视频理解基准上取得了优于监督学习基线的结果,为 JEPA 框架提供了实证支持,吸引了更多研究者关注世界模型路线。
洞见:理论框架需要实证结果的支撑才能获得广泛认可;将大胆的理论愿景分解为可验证的实验步骤,是推进范式转变的务实路径。
LeCun 为本书撰写了推荐序,称其为「深度学习领域最全面的教科书」,并在多次演讲和访谈中将其列为必读书目。本书的理论框架与 LeCun 的研究方向高度契合。
Sejnowski 是深度学习历史的亲历者和记录者,本书详细记录了包括 LeCun 在内的深度学习先驱们的研究历程。LeCun 在多个场合推荐此书作为了解深度学习历史的权威参考,称其「准确记录了我们这一代人的工作」。
LeCun 在多次访谈中提及此书对深度学习历史的重要性——Minsky 和 Papert 对感知机的批评导致了第一次 AI 寒冬,也间接激励了 LeCun 等人证明多层网络的能力。这是理解深度学习为何在 1970-80 年代被边缘化的关键历史文献。
LeCun 在图灵奖演讲和多次访谈中将此书列为深度学习的奠基文献之一。Rumelhart 和 McClelland 在此书中发表的反向传播算法,是 LeCun 整个研究路线的技术起点。
LeCun 在关于 AI 安全的公开讨论中引用此书,但持批判性阅读立场——他认为书中对 AI 风险的描述过于悲观,与他对 AGI 时间线和风险的判断不符。这种「批判性引用」体现了 LeCun 对 AI 安全末日论的强烈反对。
Hinton 的反向传播算法(1986)是 LeCun 整个研究路线的技术基础;两人在多伦多大学的短暂合作期间,LeCun 深化了对梯度学习的理解。
深度学习三巨头之一,与 LeCun 长期合作推动深度学习理论发展,两人在自监督学习和序列模型方面有深度学术交集。
LeCun 在 Bell Labs 的长期合作者,共同发展了随机梯度下降(SGD)在大规模学习中的应用,是 LeNet-5 论文的共同作者之一。
Karpathy 在斯坦福 CS231n 课程中大量引用了 LeCun 的 CNN 工作,LeCun 的卷积神经网络和 Software 2.0 思想深刻影响了 Karpathy 的研究方向和教学风格。
LeNet 和 CNN 框架直接催生了 AlexNet、VGG、ResNet、Inception 等所有现代计算机视觉架构,LeCun 的卷积思想是整个视觉 AI 领域的技术基础。
LeCun 推动 Meta 发布 LLaMA 系列开源模型,激活了全球开源 AI 生态,使高质量 LLM 研究不再是封闭机构的专利,深刻影响了 AI 民主化进程。
深度学习三巨头之一,与 LeCun 共同推动了深度学习的学术复兴,在自监督学习、序列模型和 AI 伦理方面有长期合作与交流。
深度学习三巨头之一,与 LeCun 共享图灵奖,但在 AI 安全问题上持截然不同的立场——Hinton 离开 Google 后公开表达对 AI 风险的担忧,而 LeCun 坚决反对 AI 末日论。
认知科学家和 AI 批评者,与 LeCun 在 LLM 局限性方面有相似的批评立场,但在解决方案上分歧——Marcus 更倾向于神经符号混合方法,LeCun 倾向于纯神经网络的世界模型路线。
Yann LeCun has an extraordinary ability to take the most complex ideas in AI and make them feel obvious and accessible. nanoGPT is a masterpiece of pedagogical engineering.
LeCun's work on convolutional networks is one of the most important contributions to machine learning in the last 30 years. It's the foundation on which modern AI is built.
Yann is one of the most intellectually courageous people I know. He's willing to be wrong in public, to defend positions that are unpopular, and to change his mind when the evidence demands it.