cover of episode E161|聊聊大模型如何思考与深度学习科学家Yann LeCun

E161|聊聊大模型如何思考与深度学习科学家Yann LeCun

2024/7/29
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
泓君Jane
硅谷101创始人与播客主理人,曾任《财经》杂志驻美记者,著有多篇获奖专栏文章。
陈羽北
Topics
泓君Jane:大模型的“黑盒”特性引发了AI安全性的担忧,人们迫切需要理解其内部运作机制。 陈羽北:白盒研究旨在将深度学习从经验性学科转变为科学学科,目标是理解人工智能并通过理解重构它,构建出从根本上不同的东西。白盒研究的本质在于理解信号的结构,从而提升模型效率、鲁棒性、安全性以及可信度。通过分析词嵌入和大型语言模型,可以发现模型内部存在结构性信息,例如“原意思”,这有助于理解模型的运作机制。理解模型的运作机制可以反过来优化模型,例如调整模型中的偏见,使其更公平安全。OpenAI等机构的研究也尝试通过识别特定神经元的激活模式来理解模型的运作方式。人类可以通过少量数据获得强大的泛化能力,而大模型需要海量数据,这体现了人类学习效率的优越性。理解大模型和人脑运作机制的难度各有不同,大模型的可观测性更强,但其对世界的理解不如人脑全面。神经科学背景可以启发AI研究,例如对生物系统中信号处理方式的观察可以挑战现有的AI方法。传统机器学习模型是白盒模型,而大模型是黑盒模型,黑盒模型发展迅速的原因在于其包袱少,并且受益于数据规模的扩大。白盒模型追求简洁性,但过度简化可能限制其能力。白盒模型研究可以提升大模型的效率并统一不同模型,并扩展到控制领域。距离构建完全可解释的大模型还有很长的路要走,研究目标可以分阶段进行,例如先解释ImageNet的运作机制。白盒模型的研究流派包括可视化、神经科学和数学统计三种。 陈羽北:Yann LeCun长期坚持自监督学习和世界模型研究方向,他更关注模型的自身能力和自主学习能力,而非单纯依靠Scaling Law。Yann LeCun对Meta的贡献包括筹建Meta AI和推动开源路线。大模型研究已经从科学家驱动转向工程驱动,未来发展需要科学和工程的共同推动,Scaling Law虽然重要,但效率提升同样关键。

Deep Dive

Chapters
讨论白盒研究的目标是将深度学习从经验学科推向科学,并探讨如何解释大语言模型的输入输出。
  • 白盒研究旨在将深度学习从经验学科推向科学。
  • 通过理解大语言模型的输入输出,可以优化模型并提升效率。
  • 早期模型如词汇嵌入可以学到语言的表征,但需要进一步解释其性能提升的原因。

Shownotes Transcript

当人们输入一个数据,大模型就能直接输出一个答案,但是它的运作机制却没人知道,我们称之为“黑盒”。也正因为黑盒模型的不可解释性,AI的安全问题受到很多大佬的质疑。于是科学家们开始试图去打开大模型的黑盒子,业内称之为“白盒研究”。

一方面,白盒模型的研究能帮助人们理解黑盒模型,从而对大模型进行优化和效率的提升。另一方面,白盒研究的目标是把AI这一工程性学科推向科学。

今天我们邀请的嘉宾陈羽北,他的研究内容就与白盒有关,之前他也是著名深度学习专家Yann LeCun的博士后,我们今天将和他聊聊白盒模型的研究进展,以及Yann这位经历过AI行业起起伏伏,却依然纯粹专注的科学家。

【主播】 泓君Jane,硅谷101创始人,播客主理人 【嘉宾】 陈羽北,加州大学戴维斯分校电子与计算机工程系助理教授

【你将听到】 【大模型 vs 人脑】 02:09 白盒研究的目标:把AI从工程推向科学 02:53 从早期模型到大语言模型,如何识别词汇的元意思 06:51 OpenAI的研究:用gpt4理解gpt2模型 08:46 白盒研究的本质是理解信号的结构,从而提升模型效率 11:37 人脑如何通过少量数据获得泛化的能力 12:46 比起人脑,大语言模型观测手段多,但它对世界的理解不够 20:11 稀疏编码:源自大脑神经元的运作机制

【白盒研究】 22:01 黑盒模型发展很快:只求工作,不求简洁 24:56 白盒模型的问题:过度简洁 27:19 Yann Lecun:支持白盒研究但不确定走得通 28:25 基础AI研究靠好奇心驱动,而非商业化 30:16 白盒模型的三个流派:可视化、神经科学、数学统计 32:30 对黑盒模型的优化:提升效率、统一不同模型 33:44 距离白盒gpt还很远,发展是阶段性的 35:29 打开ImageNet是白盒的第一步

【关于Yann LeCun】 38:21 Yann经历了神经网络领域历史上的高峰低谷 39:45 加入Yann LeCun组是偶然 42:51 Yann对大方向的坚持和直觉 43:02 “不反对Scaling Law,但只堆数据是不够的” 49:10 科学家马毅 & Yann,观点并不冲突:高层次的规律是简洁的 51:58 从至暗时刻走出的AI科学家们:专注、纯粹 53:55 Yann希望学生可以做与时间共存的工作 55:57 “读PhD不应该研究LLM” 57:24 Yann在Meta的贡献:筹建Meta AI、开源路线 60:29 大模型未来的发展:Scaling Law依然重要,但提升效率也很重要

【相关研究】 Anthropic的研究:从神经网络Claude 3 Sonnet提取可解释的特征) OpenAI的研究:让GPT4去解释GPT2的神经元)(神经元图)) 马毅团队的白盒模型)

【相关人物】 Yann LeCun:计算机科学家,在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献,被誉为“卷积神经网络之父”,现任Meta首席AI科学家,并担任纽约大学教授。他在1980年代率先提出了卷积神经网络(CNN),这项技术成为现代计算机视觉的基础。LeCun与Geoffrey Hinton和Yoshua Bengio共同获得2018年图灵奖,表彰他们在深度学习方面的开创性工作。

【监制】 Holiday 【后期】 AMEI 【BGM】 Alteration - Karoliina Gabel Listen to the Forest Weep - Hanna Lindgren

【在这里找到我们】 公众号:硅谷101 收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客 海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music 联系我们:[email protected])

Special Guest: 陈羽北.