特斯拉在自动驾驶领域的优势主要在于其软件能力和全球规模化的部署潜力。尽管Waymo在硬件上看似占优,但特斯拉已经在全球大规模部署了车辆,通过软件优化和持续改进,特斯拉有望在自动驾驶技术上实现更快的商业化。
特斯拉通过使用摄像头和视觉系统,而不是昂贵的激光雷达,显著降低了成本和复杂性。这使得特斯拉的自动驾驶技术更容易普及,并在全球范围内扩展市场份额。
特斯拉的主要挑战在于软件优化,尤其是在处理各种边缘案例和复杂驾驶环境时。但特斯拉已经在全球大规模部署了车辆,这为未来的功能更新和服务收费提供了巨大的上升空间。
特斯拉的人形机器人Optimus利用了自动驾驶技术中的许多核心组件,如摄像头和计算机系统。早期版本的Optimus甚至使用了与汽车相同的计算机和摄像头,这使得机器人能够在办公室里行走并识别行走空间。
人形机器人Optimus的首个应用领域可能是内部使用,如在特斯拉工厂内进行物料处理。这可以避免复杂的法律问题和合作流程,确保机器人技术在初期得到充分验证和优化。
大型神经网络研究目前处于一个非常好的状态,尤其是Transformer架构的出现,使得神经网络具备了极强的通用性和扩展能力。现在的研究重点更多集中在数据集和损失函数的优化上,而不是架构本身。
合成数据在AI模型训练中起着重要作用,可以帮助模型更好地学习和泛化。然而,使用合成数据时需要非常小心,确保数据集的多样性和丰富性,以避免模型在无形中崩溃。
AI在某些方面比人类大脑更高效,特别是在记忆序列和前向反向传播方面。然而,人类大脑在处理复杂任务和适应新环境方面仍然有优势。AI的潜力在于通过正确的输入和数据,可以更好地模拟人类的认知过程。
人与AI系统的融合可以通过多种形式实现,如将AI作为工具或通过某种形式的外皮层连接。这种融合可以增强人类的能力,减少输入输出的瓶颈,使人们能够更高效地处理信息和任务。
AI教育的未来和规模化面临的主要挑战是如何覆盖全球80亿人,他们说着不同的语言,能力水平也各不相同。解决方案是利用AI技术来扩大优秀教师的教学规模,通过AI作为前端与学生互动,引导他们完成课程。
嗨,我是 Flo,欢迎来到播客第三浪我把科技领域一些对我产生重要启发的英文内容翻译后配上中文语音以更直观生动的方式将当事人的亲身经历和独特观点呈现给更多的人我希望无论是科技爱好者还是对新事物充满好奇的朋友
都能在第三浪获得价值和找到灵感。Andrew Capaci 的对话谈了特斯拉在自动驾驶和机器人技术领域的强大潜力和长期发展方向。如果你持有特斯拉的股票,那么这可能是一个比较积极的信号。Capaci 强调了特斯拉在自动驾驶技术上的优势,尽管 vimo 目前在硬件上看似占优,但特斯拉的核心竞争力在于其软件能力和全球规模化的部署潜力。
特斯拉依赖摄像头和视觉系统而不是昂贵的激光雷达从而显著地降低了成本增强了普及的可能性对于股票持有者来说这意味着特斯拉有望通过软件改进大幅扩展市场的份额并在全球范围内领先自动驾驶进行商业化 Capacity 提到特斯拉的挑战更多来自软件优化而非硬件的限制软件优化
软件问题相对容易解决,尤其是它已经具备了广泛的部署基础这为未来功能更新和服务收费提供了巨大的上升空间投资者可以期待特斯拉持续改进软件来提升自动驾驶的体验从而带来新的营收模式他还谈到特斯拉将自动驾驶技术应用于人型机器人 Optimus 的进展
特别是在自动化和工厂内部的使用方面尽管目前尚未大规模商用但这显示了特斯拉未来在人工智能和机器人领域的扩展潜力对于长期投资者来说这意味着特斯拉不仅是一家电动车公司更是一家在 AI 和机器人技术上拥有深厚积累的企业未来可能会更多在新兴市场打开机会特斯拉不仅在电动车和能源市场占据一席之地
而在自动驾驶 AI 和机器人等领域拥有巨大的长期潜力 Capacity 的观点表明特斯拉未来将继续通过技术创新推动增长对于持有者来说这意味着特斯拉可能会超越传统汽车制造商成为一个多领域的科技巨头其股票有望长期受益每次听完这些人物的对话我都会感叹从后视镜回看人们的观点总是能得到新的启发
本期播客的英文原声对谈人物的背景信息播客中提到的人物和概念我都放在了播客详情页 Show Notes 里尽管有 AI 的辅助但是翻译和校对再到配音还是花了大量的时间
如果你喜欢第三浪,请确保你的朋友也能听到。现在,就请欣赏这场精彩的对话吧。第三浪的朋友们好,本期是发布于 2024 年 9 月 5 日 No Priors 节目上 Andrej Karpacy 与两位主持人的对谈。
听众朋友们欢迎回到 No Priors 节目今天我们邀请到了无需多做介绍的 Andrej KarpacyAndrej 是一位著名的研究员深受喜爱的 AI 教育者曾是 OpenAI 的早期团队成员领导过特斯拉的 Autopilot 项目现在他正在从事与教育相关的 AI 工作我们将与他讨论研究现状他的新公司以及 AI 的未来发展非常感谢你今天能加入我们
很高兴你能来谢谢很高兴能来你曾经领导特斯拉的自动驾驶项目现在我们实际上已经有了完全自动驾驶的汽车乘用车也已经在路上行驶了你如何看待我们当前的技术能力水平乘用车的功能增强或广泛普及大概会有多快实现呢是的我大概在自动驾驶领域工作了五年我觉得这个领域非常有趣
现在这个领域的发展情况是我常常把自动驾驶和 AGI 做类比可能是因为我对自动驾驶比较熟悉但我觉得我们在自动驾驶领域某种程度上已经达到了 AGI 的水平因为现在有一些系统你可以作为付费用户来使用比如在旧金山 vamo 已经非常普遍你们可能也体验过 vamo 我自己做过很多次感觉非常棒它可以带你去任何地方而你是作为一个付费用户在使用它这个产品
关于 vamo 有意思的是我第一次做 vamo 其实是在十年前差不多是 2014 年左右当时我有一个朋友在那里工作他给我做了一个演示带我在街区里转了一圈十年前的那次驾驶几乎是完美的从我当时的体验到如今成为一个覆盖城市规模的付费产品并且还在扩展花了整整十年时间
你觉得在这十年里,技术和监管的影响各占多大比例?你认为技术是什么时候准备就绪的?我认为这项技术并不是一次 30 分钟的演示架势就能完全展现的。在演示中,你不会遇到它们十年里必须应对的各种问题。所以,演示和真正的产品之间有巨大的差距。我认为监管等因素也占了很大比重。
但我确实认为我们在自动驾驶领域已经在某种程度上达到了 AGI 的一些水平然而真正有趣的是这项技术在全球范围的应用还完全没有发生虽然你可以在旧金山体验到演示但世界还没有因此改变这个过程将需要很长时间所以从一次演示到真正的全球化之间我认为存在巨大的差距
这就是它与 AGI 相关的地方我怀疑 AGI 的发展过程也会类似当我们拥有它时情况可能会很相似接下来继续讨论自动驾驶领域很多人认为 VMOW 领先于特斯拉但我个人认为特斯拉才是领先的虽然看起来并不是这样但我对特斯拉的自动驾驶项目依然非常看好
我认为特斯拉面临的是软件问题而 vamo 面临的是硬件问题我觉得软件问题要容易解决的多特斯拉已经在全球大规模部署了这些车辆而 vamo 还没有达到这个规模所以一旦特斯拉能够真正部署并让系统顺利运行那将是非常令人惊叹的昨天我刚体验了最新版本的系统它现在已经可以带我到处行驶最近他们确实取得了很大的进展
我最近也经常用确实表现得非常不错昨天他为我完成了一次令人惊叹的架势我对团队的表现非常满意所以我仍然认为特斯拉主要面临的是软件问题而 vamo 主要是硬件问题现在看起来好像 vamo 领先但我认为再过 10 年回头看谁真正实现了规模化谁的主要收入来源更多我依然相信特斯拉会在这方面领先
你觉得我们离解决软件问题实现某种程度的等效还有多远显然就像你说的如果你看 vamo 的车它配备了很多非常昂贵的激光雷达和其他类型的传感器这些传感器支撑着它的整个软件系统而特斯拉的做法是只使用摄像头这样实际上就能大大降低成本和复杂性并且可以应用在各种不同类型的车辆上你觉得这种转变什么时候会发生
我的意思是希望这种转变能在未来几年内实现但其实有个非常有趣的点我不确定大家是否意识到特斯拉实际上也使用了很多昂贵的传感器只是训练阶段使用传感器很多车辆会带着激光雷达在路上行驶他们做了很多无法大规模应用的工作比如使用额外的传感器进行地图绘制等
这些都是在训练阶段完成的然后将这些信息浓缩为测试阶段的视觉系统软件包部署到车辆上这种方式有点像在传感器和成本上的优化策略我认为这是一个非常聪明的策略只是还没有被完全理解我相信这个策略会非常成功因为像宿中已经包含了所有需要的信息而且神经网络也能够处理这些信息
虽然传感器在训练阶段非常有用但我认为它们在测试阶段的作用就没那么大了我认为另一个正在发生的转变似乎是从涉及大量边缘案例的启发式策略转向端到端的深度学习这是最近发生的另一项转变你能稍微谈一下吗关于这个话题我觉得从一开始这就是计划
我之前提到过神经网络可以逐步取代这套系统的各个部分当我刚加入特斯拉时车上测试阶段的软件包里有大量的 C++代码而现在 C++代码少了很多因为我们没讨论的后台系统中依然有很多代码神经网络逐渐接管了系统
最初它只是在图像层面进行检测然后处理多个图像给出预测接着通过连续的多个图像提供预测你就可以逐步丢弃 C++代码最终直接发出转向指令所以我觉得特斯拉正在逐步接管整套系统
据我了解,当前的 vmo 实际上并不是这样做的,他们尝试过,但最终并没有采用这种方法,这是我目前的理解。不过我不确定,因为他们没有公开讨论这件事。但我从根本上相信这种方法。如果你要这么理解的话,我认为这是最后一个要攻克的难题。我怀疑特斯拉的端到端系统在未来十年内将会完全依赖神经网络。
也就是说视频流输入神经网络输出的是控制指令你必须逐步构建这个系统分阶段进行其实我们现在做的所有中间预测和其他工作我也不认为他们让开发偏离了方向我觉得他们是开发过程中的一部分因为其中有很多复杂的原因实际上当你只是在模仿人类驾驶时你只有很少的监督信号为来训练一个庞大的神经网络而这些信号太少无法训练数十亿的参数
所以使用中间表示等方法有助于开发各种特征和检测器从而使端到端部分的问题变得更容易解决我猜测虽然我不确定因为我并不在团队中可能有大量的预训练这样才能进行端到端的微调所以我觉得逐步攻克这一问题是必要的这也是特斯拉一直在做的事情我认为这是正确的做法而且看起来确实奏效了所以我非常认可这一点
如果你一开始就采用端到端的方式你也没有足够的数据对吧你在离开之前还参与了特斯拉的人形机器人项目是吗我有很多问题但我想先问一个有哪些技术是可以转移到机器人上的基本上所有技术都可以转移我觉得很多人并没有意识到这一点这是个很大的论断其实机器人和汽车本质上是一样的汽车也是一种机器人
我认为特斯拉并不是一家汽车公司这是一个误解它是一家大规模的机器人公司我觉得大规模也是一个完全不同的维度他们不是在建造某个单一的物品而是在建造生产物品的机器这完全是另一回事所以我认为特斯拉是一家大规模的机器人公司而从汽车技术转移到人形机器人技术实际上并没有花费太多工作量
事实上早期版本的 Optimus 机器人还以为自己是一辆车因为他用了完全相同的计算机和摄像头这非常有趣因为我们在机器人上运行的是汽车的神经网络但他却在办公室里走来走去试图识别可驾驶区域而现在这些区域都变成了行走空间不过他实际上还是有点泛滑了只是需要一些微调他以为自己在驾驶但实际上是在穿越环境移动
这么想合理吗?其实它就是一个机器人,很多技术是可以转移的,但比如你缺少了执行器和动作控制之类的东西。是的,确实缺少一些组件。另一方面,我觉得有很多技术是可以转移的。Optimus 启动的速度让我印象深刻,因为 Elon 一说我们要做这个项目,所有合适的工具和资源就迅速到位了,所有的 Kedden 模型、供应链都很快准备好了。
我感觉特斯拉内部在机器人制造方面的专业知识非常强大使用的工具几乎都是一样的就像电影变形金刚一样这些工具只是从汽车项目重新配置和调整但本质上是相同的东西
你需要的组件、硬件规模还有智能系统的设计都和汽车相似就智能系统来说不仅是具体的神经网络可以转移还有整个方法论、标注团队以及各方面的协调和实施策略我觉得有大量技术可以转移你认为人形机器人或类人形设备的首个应用领域会是什么?我觉得很多人都幻想它能帮你洗衣服之类的事但我认为那会来得比较晚
我不觉得 B2C 面向消费者的市场是合适的起点因为我们不能让机器人伤到奶奶这样的法律责任太大了我不喜欢这个说法我的意思是它可能会摔倒之类的因为这些设备还不够完美还需要一定的改进我认为最好的初始客户应该是自己内部使用我觉得特斯拉可能会这样做我非常看好特斯拉
如果人们能够理解首个客户应该是自己公司可以在工厂内部孵化这些机器人进行大量的物料处理等工作这样就不需要与第三方签合同避免了复杂的合作流程和律师参与等问题先在内部孵化然后我认为下一步应该是 B2B 企业对企业可以服务于拥有大型仓库的公司进行物料处理等工作这时候合同就会起草好围栏也会设好等
一旦在多家公司完成了孵化我认为那时候就可以进入 B2C 面向消费者的应用了我确实认为我们会看到 B2C 机器人比如 Unit3 等这些机器人正逐渐出现而且是我真的想要的我已经买了一个是的 G1 对吧所以我可能还会再买一个可能会有一个围绕这些平台的生态系统很多人会基于这些平台进行开发
但我认为在规模化的竞争中这种方式可能会获胜不过在最初阶段主要是物料处理之后会逐渐转向更多具体的任务比如家居护理等我特别兴奋的一个想法是无噪音吹叶机的挑战我很希望 Optimus 能走在街上像点着脚一样一片一片地捡起落叶这样我们就不需要吹叶机了我觉得这是可行的而且是一个非常棒的任务所以我希望这是其中一个应用
甚至扫叶子也是可以的安安静静地扫叶子也很棒这很有趣我是说现在确实有机器可以做这些事只是它们不是人形的对吧我们能聊一下人形机器人的理念吗
最简单的版本就是世界是为人类建造的所以你只需建造一套硬件合适的做法就是开发一个模型让它在这套硬件上能够执行越来越多的任务我觉得还有另一种观点认为人类并不是执行任何任务的最优形态你可以让机器人更强大更大或更小为什么我们不做出超越人类能力的东西呢你怎么看待这个问题
我觉得人们可能低估了为任何单一平台投入的固定成本的复杂性为每个平台支付的固定成本都很高因此集中起来拥有一个可以执行所有任务的平台是很合理的我认为人形的特性也很吸引人因为人们可以很容易地远程操作它这对于数据收集来说非常有帮助因为人们显然可以非常轻松地操作它我觉得这一点通常被忽略了
当然还有你提到的世界为人类设计的这一方面所以这也是重要的一点我认为我们将会在人形平台上进行一些变化和调整我认为训练平台的固定成本非常高还有最后一个方面是不同任务之间的迁移学习可以带来巨大的收益
在 AI 领域,你确实希望拥有一个能够多任务处理的单一神经网络从中获取所有的智能和能力这也是为什么语言模型如此有趣的原因因为它们在一个统一的模式下比如文本领域处理多个不同的问题所有这些问题之间共享知识并且都偶合在一个神经网络中我认为,你需要这种平台所有你为剪叶子任务收集的数据都能为其他任务带来收益
如果你为某个特定任务构建一个专用系统那就无法从其他任务之间的迁移中受益不知道这样说是否有道理是的有一个观点是 G1 大概售价是 3 万美元对吧但似乎很难在某个成本限制内打造一个非常强大的人形机器人如果你想在轮子上加一个手臂来完成任务可能一开始有更便宜的通用平台方案这样说有道理吗更便宜的通用
从硬件角度来看通用平台的方案是的我觉得这有道理你可以换成轮子而不是脚之类的东西但我觉得这样可能会让你走入一个局部最优解我觉得选定一个平台并把它做到完美是一个长期来看非常好的选择
当然还有一个因素是我觉得这种人形平台会让人们感觉熟悉大家可能会理解我在说的东西我觉得心理层面的因素可能也更有利于人形平台因为人们对它的恐惧可能更少反而会更喜欢这种形式如果是某种带轮子的怪物在执行任务那我就不确定了如果这是更多基于个人观点的话另一个常见的形象是机器狗对吧它看起来可能更友好更熟悉
是的 但看过黑镜的人可能突然就会觉得狗也很吓人了 所以很难说清楚我只是觉得从心理角度来说 人们更容易理解发生了什么你认为在推动机器人技术发展或实现人形机器人未来的过程中 还缺少哪些关键的技术里程碑是的 我不确定自己是否有很好的视角来看待这个问题我确实觉得在人形结构上有些有趣的地方
比如对于下半身我不确定是否需要通过模仿学习来进行演示因为下半身主要涉及很多道理摆控制之类的东西而对于上半身你则需要大量的远程操作数据收集以及端到端的训练等所以我觉得在这种情况下一切都变得非常混合我不太确定这些系统是如何交互的
当我和从事这个领域的人交流时他们觉得他们的重点很多是放在执行器操控特别是数字操控之类的东西上你预期在开始阶段会有很多远程操作来捡起东西模仿人类的动作做到大约 95%的成功率然后讨论人类与机器人工具的比例逐渐让人们成为机器人的监督者而不是直接执行任务这些变化会逐渐发生我不认为有任何我熟悉的重大障碍
我觉得这主要是很多基础性的工作许多工具都已经存在 Transformer 就像是一个漂亮的组织块可以用来执行各种任务你只需要合适的数据正确地整理数据进行训练、实验、部署并迭代就是很多基础性工作我不觉得有某个特定的因素真正阻碍了我们前进从技术角度来说大型神经网络研究目前处于什么状态?大型神经网络研究?
是的,我们现在处于一个非常好的状态我不确定大家是否完全意识到这一点但 Transformer 不仅仅是另一个神经网络它是一个非常惊人的神经网络具备极强的通用性比如,当人们谈论神经网络中的扩展定律时扩展定律在很大程度上其实是 Transformer 的特性在 Transformer 之前人们使用 LSTM 并对其进行堆叠等操作
在以前你并不能真正获得清晰的扩展定律那些东西无法很好的训练和运作是 Transformer 首次实现了扩展并且你能够得到扩展定律一切都变得合理了所以我把它看作是一种通用训练计算机实际上它就是一种可微分的计算机你可以给它输入和输出甚至数十亿的样本通过反向传播进行训练它实际上会自行调整形成能够完成任务的系统
我认为我们在算法领域偶然发现了一个非常神奇的东西而其中包含了一些关键的创新比如残差连接已经存在层规一化需要嵌入进去注意力机制模块也是其中一部分还有 Transformer 中没有像 TAN 这种饱和的非线性激活函数因为它们会破坏梯度信号有四到五个这样的创新被整合到一起形成了 Transformer 这就是谷歌在他们的论文中所做的
这个模型实际上能够很好的训练并且突然间你就得到了扩展定律仿佛拥有了一块能够大规模训练的组织所以这次突破是一个重大的解锁你觉得我们还没有接近这个突破的极限对吧因为现在有一种讨论当然是关于数据壁垒以及下一代大规模模型的成本会有多高你怎么看这个问题现在我们进入了一个阶段我不认为神经网络架构是根本性的障碍了
它已经不再是瓶颈而在 Transformer 之前它确实是个瓶颈但现在不是了现在我们更多讨论的是损失函数是什么数据集是什么我们讨论这些更多了这些几乎成了新的瓶颈而不是那个能够根据需求重新配置的通用组织所以我认为现在很多研究重心已经转移到这些方面了这就是为什么很多公司在应用这项技术时并不太关注 Transformer 的编辑改进或架构变化
比如 Lona 发布后 Transformer 本身并没有发生太大变化我们加入了用于位置编码的 Rope 旋转位置编码这是主要的变化其他变化并不太重要可能只提升了 3%左右的小改进实际上 Rope 是唯一真正加入的东西这是过去 5 年 Transformer 的主要变化所以在这方面并没有太多创新大家都理所当然地使用它进行训练等等
现在的创新主要集中在数据集合损失函数的细节上这是目前所有活动的重点那么关于这个领域的另一个论点是当我们使用互联网数据时比较容易但现在互联网数据已经耗尽了所以现在的问题主要围绕合成数据或更昂贵的数据收集我觉得这是个好问题这也是目前很多工作在老马模型中的重点
互联网数据并不是你真正想要的 Transformer 数据它更像是一个近似的替代虽然效果出奇的好但互联网数据本质上只是一些网页而你真正想要的是类似于你大脑中的互联网思维独白是大脑中的思维轨迹当你在解决问题时你大脑中的思维轨迹
如果我们有 11 个这样的数据,AGI,通用人工智能,大概就已经实现了,但我们现在没有这样的数据。所以,现在的很多工作重点是如何通过互联网数据来尽可能接近这一目标,因为互联网恰好包含了足够多的推理痕迹和大量的知识,而 Transformer 恰好能让这些工作起来。
我认为目前的很多活动都集中在将数据集重新整理成类似内心独白的格式我觉得大量的合成数据生成对此非常有帮助有趣的是现有模型在帮助我们创建下一代模型的过程中也发挥了很大的作用就像是一个不断攀升的阶梯
你觉得合成数据能带给我们多大进展因为正如你所说的每一代模型都有助于更好的训练下一代模型或者至少为其创造工具比如数据标注等这可能是其中的一部分你认为合成数据重要吗你怎么看合成数据的作用我认为这是我们唯一能够取得进展的方式我们必须让它起作用但在使用合成数据时需要小心因为这些模型可能会在无形中崩溃这是一个主要的问题之一
如果你去问 ChatGPT 给你讲的笑话你会发现它只知道大概三个笑话大多数时候它只会给你一个笑话有时可能会给你三个这是因为模型崩溃了而且是无形的当你看某个单一输出时你只看到了一个例子但如果你查看整体分布你会发现分布并不多样化它在无形中崩溃了
当你生成合成数据时,这是个问题因为你实际上非常需要数据中的商需要数据集的多样性和丰富性否则,你的数据集会崩溃但从单个例子上看不出来不过整个分布已经失去了大量的活力和丰富性数据质量无形中变差了所以,你必须非常小心确保在数据集中保持足够的商有很多技术可以解决这个问题
举个例子有人发布了一个 Persona 数据集这个数据集包含了 11 个人格信息比如类似于人类的背景数据我是一个老师或者我是一个艺术家我住在某个地方我做某些事情等等这些数据集像是一些简短的段落描述虚构的人类背景
在生成合成数据时,不仅仅是完成某个任务并按照某种方式进行还需要想象你是在向某个人描述这个过程然后你加入这些信息,迫使模型去探索更多的空间,从而获得一定的商所以我认为,必须非常小心地注入商,并保持分布的多样性这也是困难之处,可能人们普遍没有足够重视这一点所以我认为,合成数据绝对是未来的趋势
我的看法是我们不会缺乏数据只是要格外小心处理你认为我们现在通过这些研究学到了什么关于人类认知的内容有人可能会说我们在弄清我们想要的推理轨迹的形态时这对理解大脑如何工作有很大的启发作用我会对这些类比保持谨慎但总体来说我确实认为这是非常不同的事物不过我也认为有些类比是可以做的
比如我认为 Transformer 在很多方面实际上比人脑更好我觉得它们其实是一个效率更高的系统而它们之所以不如人脑运作得好大体上是因为数据问题这是我的第一层近似理解
实际上 Transformer 在记忆序列方面远胜于人类比如如果你给它一个序列并进行一次前向和反向传播如果你给它这个序列的前几个元素它就能完成剩下的部分它记住了这个序列而且非常擅长
如果你给人类展示一次训练,人类是绝对无法记住的。所以,基于 T 度的优化方法,也就是我们在训练神经网络时不断进行的前向和反向更新,可能在某些方面比大脑更高效。这些模型实际上更强大,只是还没准备好展现它们的全部潜力。但在许多认知方面,我认为它们可能会脱颖而出。
只要有正确的输入他们就会更好是的但这对于各种应用中的计算机都成立对吧尤其是记忆方面正如你所说没错我认为人类大脑有很多限制比如工作记忆非常小而 Transformer 的工作记忆要大得多而且未来也会继续如此他们的学习效率要高得多人类大脑在各种限制下工作
并不明显的是,人类大脑是否使用反向传播也不清楚这如何运作大脑是一个非常随机的动态系统,它有很多限制,比如环境条件等所以,我确实认为我们现在的技术实际上在某些方面可能比大脑更好只是还没完全达到那个水平你如何看待随着时间推移人与 AI 系统的增强融合?你认为这是一个可能的方向吗?
你觉得通过 AI 模型增强人类能力是否可行哦 当然我是说在某种意义上总的来说绝对是可行的我指的是它有抽象的版本比如你把它当作一个工具这是外部的版本还有一种是融合场景很多人都会谈到这个我的意思是我们确实在某种程度上已经在融合了问题在于存在输入输出的瓶颈但只要有这些模型你基本上可以随时使用它们
有点不一样,因为我认为人们已经在提出这个观点有四五十年了,技术工具只是人类能力的延伸,对吧?计算机在你面前也是如此。所以,AI 社区中有一部分人认为,比如我们与未来 AI 潜在冲突的解决方式,可能就是通过某种形式的融合。是的,就像 Neuralink 的构想等。我还不知道这种融合会是什么样子,但我确实认为你会希望减少人与工具之间的输入输出。
我把这看作是在我们大脑新皮层上构建的一种外皮层就像下一个层级只不过这个层级是在云端等地方但它确实是大脑的下一个层级 Brain Accelerant 这本书在 2000 年代初就有类似的构想基本上所有东西都被具象化为一副与大脑相连的计算眼镜如果你丢了这副眼镜你会感觉像失去了自己的一部分我认为这是非常可能的而且今天手机几乎已经是那样的了我觉得情况会变得更严重
如果你把这些技术设备放下,你就只是一个在自然中的裸人。你失去了一部分智能,带来很大的焦虑感。一个非常简单的例子就是地图,现在很多人都已经无法很好的导航自己所在的城市了,因为他们总是依赖于逐步导航。如果我们有了这种万能翻译器,我觉得这里我们不远了,一旦你把设备放下,你可能就无法与不讲英语的人交流了。
我很愿意把我大脑的那部分能力重新利用起来去做更多研究我不知道你有没有看到那个视频一个小孩拿着一本杂志试图在杂志上滑动让我觉得有趣的是这个小孩分不清什么是自然的什么是附加在自然上的科技因为科技变得太透明了
我觉得这种情况可能会类似人们会开始习惯这些工具然后当你把它们拿走时才意识到人们可能不知道什么是科技什么不是如果你带着一个设备它总是在为你翻译或者处理其他事情那可能人们就会失去这种能力基本的认知能力可能不存在但它们确实存在或者我们
专门化比如你无法理解说西班牙语的人或者当你接触物体时就像在迪士尼的世界里所有物体都是有生命的我觉得我们可能会进入那样的世界今天你已经可以和 Alexa 对话向他们提出请求等等我见过类似的场景他们基本上在尝试嵌入这种交互比如一个可以和孩子互动的玩具是啊这不是很奇怪吗当你走到一扇门前却不能直接说开门
另一个类似的例子是我不知道你是否看过毁灭战士我是机器人人们嘲笑这样的想法你不能直接对物体说话真是让人不解
如果我们在谈论外皮层的概念,这似乎是民主化访问权的一个非常重要的基础你觉得当前在大规模语言模型 LM 研究中的市场结构如何?现在只有少数大型实验室有能力推动下一代的训练进展,这如何影响未来人们的使用权限?你提到的是生态系统的状态,对吧?
我们有几家封闭平台组成的寡头垄断还有一些稍微落后的平台比如 Loma 等这有点像是开源生态系统的反应我确实认为当我们开始把这些技术看作外皮层时类似加密领域有一句话没有你的密钥就没有你的资产那么是否可以说没有你的权重就没有你的大脑呢你是说因为某家公司实际上在控制你的外皮层吗
因此,它开始让人觉得有点像是对我的外皮层的入侵了我认为人们会更加关心所有权的问题是的,你会意识到你在租借自己的大脑,就像租借你的大脑一样假设一个思想实验,你愿意放弃对大脑的所有权和控制权来租借一个更好的大脑吗?我愿意所以我认为这是一个权衡,我想我们会看到这会如何发展
也许默认情况下我们会使用封闭版本因为它们非常出色但在某些情况下你可以有备用方案我觉得这也是现在的趋势甚至当一些封闭源提供商的 API 出现故障时人们开始实现备用方案比如完全控制的开源生态系统这让他们感到有掌控感也许未来对大脑的扩展也是如此如果发生问题你可以依赖开源方案作为后备但大多数时候你还是会使用封闭系统
所以确保开源项目能够持续进步是非常重要的我认为是的 100%同意这可能不是一个显而易见的观点也不是大家现在都认同的观点但我确实认为这一点非常重要我一直在思考的一点是能达到的最小高效模型是什么无论是在参数规模上还是其他方面的考虑我很好奇你的看法你一直在思考模型蒸馏和小模型的问题我认为它可以出乎意料地小
我确实认为当前的模型浪费了大量容量来记住不重要的东西比如他们记住了夏哈希值甚至记住了一些古老的东西因为数据集没有经过精心整理对吧完全正确我认为这些问题会逐渐消失我们只需要找到认知核心我认为认知核心可以非常小它只需要能够思考如果需要查找信息它知道如何使用不同的工具
那么这个核心是 3 亿个参数还是 20 亿个我认为即便是几十亿参数的模型也可能会达到这个水平模型可以非常非常小我觉得它们之所以能这么小根本原因是蒸馏技术确实非常有效也许我会说蒸馏出乎意料的有效蒸馏就是用一个非常大的模型或大量计算资源来监督一个非常小的模型你实际上可以将大量的能力压缩到一个非常小的模型中
这似乎有某种数学上的信息论公式可以表达这一点,因为你现在应该几乎可以计算出这个值,比如。也许可以这样想,比如我们回到互联网数据集,这是我们正在处理的东西。互联网数据大概只有 0.001%涉及认知,而 99.99%只是信息,大多数对思考过程并没有用。
也许换个方式问这个问题,是否存在一个关于认知能力与模型规模之间的数学表示或者你如何在模型中捕捉认知能力,比如最低或最高的认知能力,相对于你要实现的目标也许没有一个好的方式来表示我觉得可能一个实意参数的模型可以形成一个不错的认知核心我也认为是这样,甚至我觉得实意参数可能都太多了不过我们拭目以待吧
考虑到边缘设备与云端的区别这确实令人非常兴奋但问题在于还有使用模型的成本问题这确实很令人兴奋对吧如果参数少于 10 亿我的外皮层也可以放在本地设备上是的而且可能不会是单一模型对吧我觉得思考这一点的发展方向非常有趣因为我认为你会受益于并行化处理而不是依赖顺序处理你希望有一个并行处理的过程
我认为公司在某种程度上也类似于工作并行化但公司内部有一个层级结构这是为了在组织内进行信息处理和简化
所以我觉得最终可能会出现由大规模语言模型 LMS 组成的公司这种情况并非不可能你会有具备不同能力专注于不同领域的模型比如程序员模型等他们实际上会在很大程度上开始类似于公司结构比如程序员模型和项目经理模型执行类似的任务协同工作为你组织计算所以或许我们不该将其看作单一的模型更像是一种群体运作
感觉像是一个生态系统,像一个生物生态系统,我们有不同的角色和生态位我觉得人们也会开始类似于这种结构根据问题的难度,自动升级到群体的其他部分尤其是 CEO 可能是一个非常聪明的云端模型而普通员工可以是更便宜的模型,甚至可能是开源模型而我的成本函数和你的成本函数是不同的是的,这样可能会很有趣
你离开了 OpenAI,现在从事教育工作,你一直以来都是一名教育者,为什么?为什么我这么做?首先,我一直是一名教育者,我热爱学习和教学,所以这是一个我长期以来非常热衷的领域。另外,还有一个推动我的宏观因素是,我认为 AAI 领域的活动非常多。
我认为大部分 AI 活动似乎是为了取代或替代人类这并不是让人们慢慢被淘汰的主题但我始终对能够赋能人类的事物更感兴趣我觉得自己是站在人类团队的立场上 AI 如何赋能人类很感兴趣我不希望未来人们被边缘化于自动化过程之外我希望人们能够处于一种非常有力量的状态变得比今天更加出色
我觉得另一个非常有趣的方面是如果一个人拥有针对所有学科的完美导师他能走多远我认为如果人们有一个完美的课程他们可以走得非常远我们已经看到一些有钱人确实有私人导师他们确实能走得更远所以我认为我们可以通过 AI 来实现这一点甚至是 Luxor, Poit 的
实际上关于这个问题从 80 年代起就有非常明确的研究文献一对一辅导能帮助人们提高一个标准差这就是气球效应的相关研究是的确实有很多有趣的先例你如何看待通过 AI 实现这一点或者你觉得哪些类型的产品会首先在这方面真正起到作用你知道的还有一些书比如钻石时代里面提到了那个年轻女子和她的互动式教材等等
我确实受到了这些想法的启发实际上我现在正在做的是尝试开发一门课程我想让它成为如果你想学习 AI 时会选择的那门课程问题基本上在于我已经教过课程比如我在斯坦福大学教了 231n 课程那是第一门深度学习课程也取得了很大的成功但问题是如何真正扩大这些课程的规模
如何让你的目标受众变成全球 80 亿人他们说着不同的语言能力水平也各不相同单靠一个老师是无法覆盖这样的受众的所以问题在于如何利用 AI 来扩大优秀教师的教学规模
我的想法是教师主要负责课程的创建和设计因为目前的 AI 能力还不足以创建一门优秀的课程但 AI 可以很好的成为学生的前端与他们互动并解读课程所以教师不再直接面向学生不再是前端而是在后台设计课程材料而 AI 则作为前端可以说不同的语言引导学生完成课程
我应该把这看作类似助教他家的体验还是说这个类比不太合适这是我思考的一种方式我把它更多地看作是面向学生的前端负责与学生互动引导他们完成课程我认为这是目前可行的但还没有人真正实现这一点而我认为它可以做得非常好随着 AI 能力的提升你可以通过不同的方式重新设计这一模式我喜欢找到那些能够与当下 AI 能力匹配的方案
我觉得很多公司可能没有真正直观地理解当前的能力水平结果他们构建的东西要么超前于现有技术要么不够大胆所以我认为这正是当前能力范围内的一个最佳点同时也非常有趣和令人兴奋
我想回到你刚才提到的一点,我觉得非常有启发性,特别是结合你的背景和对当前研究现状的理解。你提到的是,我们在拥有更好的工具的前提下,实际上并不知道人类学习能力的极限在哪里。
我觉得这很容易类比到我们刚刚经历的奥运会比如跑步项目如今的最佳跑步成绩比起十年前已经好了很多不考虑使用兴奋剂的情况仅仅因为我们开始更早的训练采用了不同的训练计划我们有更好的科学理解技术和手段你相信如果从更好的工具和课程开始人类能够更进一步的这个观点实在是令人惊叹我觉得我们还远没有触及可能性的极限
所以这里有两个维度第一是全球化维度我希望每个人都能接受到优质教育第二是一个人能够走多远我觉得这两个方面都非常有趣和令人兴奋通常在谈论一对一教学时人们会提到个性化教学的特点也就是根据学生的水平给予相应的挑战你认为今天的 AI 可以做到这一点吗还是说这是未来的事情而今天更多的是关于覆盖面和多语言支持
比如像不同语言这样的内容确实是低垂的果实我认为当前的模型在翻译方面非常出色基本上可以及时翻译并针对特定材料进行处理
所以我认为很多东西都是低垂的果实适应一个人背景的能力可能不算是低垂的果实但也不算太遥远不过这绝对是你想要实现的功能因为并不是每个人都有相同的背景而且如果你过去熟悉一些其他学科能够用类比的方式将他们与新的知识联系起来这在教育中非常有用你绝对想利用这一点
但我认为这开始涉及一些不太显而易见的领域需要更多的探索简单版本可能不太遥远比如你可以想象提示模型说哦我懂物理或我懂这个你可能会得到一些结果但我说的是能够真正有效的东西而不是只能偶尔展示一下效果我指的是它能像人一样真正起作用
是的,这就是关于适应性的原因因为人们的学习速度不同有些人觉得困难的东西其他人可能不会反之亦然所以问题在于如何根据这些背景进行调整我想你可以在模型中逐渐重新引入一个人擅长或不擅长的内容这就是 AI 的特点我觉得很多能力只需要一个提示就能展示出来所以你总是能看到一些掩饰但实际上能否转化为产品呢
你懂我的意思吗在这种情况下我会说眼视很近但产品还很远
我们之前讨论的一个很有趣的话题是研究社区中的传承现象你会看到大家来自某些实验室彼此讨论谁来自哪一家实验室实际上很大比例的诺贝尔奖获得者都曾在前诺贝尔奖得主的实验室工作过这里似乎有某种传播不知道是文化知识还是品牌在以 AI 教育为中心的世界里如何保持这种传承还是说它并不重要你怎么看待这种网络和知识传播的各个方面
我其实不希望生活在一个传承过于重要的世界里所以我希望 AI 能在某种程度上打破这种结构这感觉像是对某些有限稀缺资源的把控比如只有有限的人拥有这种传承等等所以我觉得这是其中的一个方面我希望 AI 能打破这种局限这确实是其中一部分另一部分是实际的学习一部分是出身背景是的这也是聚集效应的一部分对吧
比如 为什么大部分 AI 社区都在湾区或者为什么大多数金融科技社区都在纽约我认为这很大程度上是因为聪明的人聚集在一起他们有着共同的兴趣和信念然后他们从这个共同核心传播出去以一种有趣的方式分享知识你得承认 这种行为很大程度上已经转移到线上尤其是对于年轻人来说我认为其中一个方面是教育层面
如果你今天是某个社区的一部分你会获得大量的教育学徒制等这对你在该领域达到一个有力量的状态非常有帮助另一个方面是文化层面即是什么激励着你你想要从事什么工作文化重视什么推崇什么甚至是崇拜什么在学术界比如 H 指数大家都很在意 H 指数你发表的论文数量等我曾是这个社区的一部分我亲眼目睹了这一点
我觉得我现在到了不同的地方不同的社区都有各自的偶像崇拜这对人们的动机产生了巨大影响他们从中获得社会地位找到真正对他们重要的东西我还经历过不同的社区比如在斯洛伐克长大那是一个非常不同的环境在加拿大也是完全不同的环境那里重要的是什么抱歉谢谢是冰球冰球
比如说在加拿大我在多伦多大学身处多伦多我觉得那不是一个非常有创业氛围的环境你甚至不会想到自己应该去创办公司因为那不是大家在做的事情你没有认识的朋友在创业也不知道自己应该向谁学习人们不会阅读关于创业者的书籍也不会讨论他们这不是你渴望或关心的事情大家讨论的都是你在哪里找实习毕业后要去哪里工作
而且大家普遍接受有一组固定的公司你应该从中选择一家并加入这就是大家所仰望或向往的东西这些文化因素非常强大可能实际上是主导变量我几乎觉得今天的教育因素已经是较容易解决的部分大量资源已经可供使用的所以我认为主要是你所处的文化环境在起作用
在这个问题上,几周前我们讨论过的一个话题,我记得你也在网上提到过,学习和娱乐之间存在区别,学习本应是艰难的。我认为这与关于地位的问题有关,地位是一个强大的激励因素,比如谁是偶像,你觉得通过这种系统可以在激励方面改变多少?
如果这是一个阻碍因素,你的重点是为人们提供资源,让他们在自己能力范围内尽可能走得更远,比历史上的任何人都走得更远,已经足够鼓舞人心了。还是说你希望改变更多的人渴望学习,或者至少愿意走上学习的道路?渴望这个词或许有点负担过重了。我想让学习变得更容易一些,也许这样之后,人们可能还是不愿意学习。
我是说,今年很多人出于实用原因而想要学习,对吧?比如,他们想找一份工作,这完全可以理解。所以,在当前社会,教育是有用的。我认为人们会因此受到激励,因为他们在经济上不断向上攀登,等等。但在后 AGI 社会呢?在那种社会中,我认为教育在很大程度上会变成一种娱乐。
包括成功的教育结果对吧不仅仅是让内容从你身边掠过是的我指的结果是理解学习以及能够贡献新知识或者按照你自己的定义我认为这不是偶然的如果你回到 200 年前做科学的人都是贵族或者有财富的人
到时候我们都像贵族一样和安德烈一起学习我确实觉得这和你之前的比喻非常相似我觉得学习就像是给大脑去健身对吧就像去健身房一样有些人喜欢去健身房喜欢举重等等但有些人不去健身房对有些人去但需要付出努力这需要努力但同时也有点乐趣而且你会得到回报你会在不同方面对自己感觉良好对吧
我认为教育和这类似所以当我说教育不应该是娱乐时我的意思是它有点像是一种特定类型的乐趣我确实希望在后 AGI 世界里人们不仅会去健身房锻炼身体还会锻炼大脑并且我们会把高水平的教育看作是一件值得仰望的事情我能问你最后一个关于 Eureka 的问题吗因为我觉得大家会感兴趣第一门课程的受众是谁课程的受众我主要把它定位为本科水平的课程
所以如果你是本科生且学习技术领域我觉得这会是理想的受众群体我确实认为我们现在看到的是一种过时的教育概念即你完成学业后毕业去工作对吧显然这种模式会彻底崩溃特别是在一个技术快速变化的社会中人们会更频繁地重返学校所以虽然这是本科水平的课程但我觉得任何处于这个水平任何年龄段的人都在范围内
我认为受众会非常多样化比如技术领域的人尤其是那些真正想深入理解技术的人他们什么时候可以上这门课程我本希望是在今年年底但我有很多事情在干扰进度所以我想大概会是明年初这是我的时间表我想让它变得非常好但确实需要一些时间来实现我其实还有一个最后的问题和这个稍微相关如果你今天有小孩你觉得他们应该学些什么才能在未来有用
在我看来有一个正确答案那就是主要应该学习数学物理和计算机科学等学科我之所以这么说是因为我认为这些学科对培养思维能力非常有帮助他们构成了最好的思维技能核心当然我有特定的背景等所以我会这么认为但这就是我的看法我自己上物理课和其他课程的经历塑造了我的思维方式我觉得这些学科在解决问题方面非常有用等等
所以无论是在前 AGI 时代还是在后 AGI 时代这些学科都是有用的你仍然希望人类能够在各种任意的环境中保持有能力的状态所以我认为这是人们应该学习和从事的正确选择无论是实用性还是益处我都觉得这是正确的答案
我认为很多其他的东西可以稍后再学习但在人们有大量时间和精力的关键时期我觉得他们应该主要花时间在这些操作性强的任务和工作上而不是记忆负担重的任务复杂的任务和工作量我学的是数学我感觉在学习的过程中我的大脑似乎开辟了一条新的思维路径而且这种思维路径在后期会更难开辟当然我也会加入很多其他学科的内容我并不反对其他学科等
感谢你参与这次对话真的非常有趣