贫穷限制 AI 想象？｜硅谷徐老师对话英伟达、DeepMind 大模型专家（下）

2023/8/17

What's Next｜科技早知道

AI Deep Dive AI Chapters Transcript

People

Jim Fan

戴

戴涵俊

硅

硅谷徐老师

Topics

Jim Fan：多模态模型的pipeline还不确定，学术界和工业界都在探索中，Llama 2可以作为很好的推理引擎，提升多模态模型效果。一种方法是将其他模态作为插件接入已有的大语言模型，例如将图像信息处理后融合到Llama 2中。Llama 2可以作为强大的推理引擎，通过插件方式提升多模态模型，尤其在机器人控制领域。多模态的可能性很多，包括视频、音频、3D等多种模态的输入和输出，应用方面还在探索中。戴涵俊：处理多模态有两种方法：一种是将其他模态作为插件接入现有单模态模型；另一种是将不同模态统一到一个空间中进行处理。第二种方法更原生，但成本更高。现在的文本是大模型世界在低维空间的投影，大模型通过大量数据理解高维世界，但效率低。语言可能是智能最重要的部分，但视觉信息处理在人类大脑中占很大比例，这暗示了多模态的重要性。人类容易理解的事物对机器很难，反之亦然，这说明语言理解可能比视觉理解更重要。大模型在某些方面（如组合数学）可能优于人类，但在大多数方面仍远低于人类，这表明用人类智商测试评估大模型并不合适。多模态最大的未来应用是机器人，解决机器人多模态问题是实现机器人普及的关键。GPT-4的视觉部分提升了其在某些基准测试上的表现，尤其是在需要理解图像信息的任务中。图像信息冗余度高，如何高效表达图像信息是多模态模型的关键挑战。大模型需要能够适应不同企业和应用场景的特定工具和语言，这是一个挑战。硅谷徐老师：ChatGPT的成功在于其易用的UI和强大的基础设施，而非模型性能本身。大模型应用中，需要多次调用模型才能完成一个任务，这被低估了，需要改进。机器人的难度被低估了，包括硬件、产能和算法等方面。大模型的评估方法被低估了，需要开发自动化评估方法。长期来看，GPU算力不会成为瓶颈，但评估方法的改进和目标函数的设计至关重要。 Monica:

Deep Dive

Chapters

本部分探讨多模态模型的工作原理，以及Llama 2如何通过插件式集成其他模态数据，推动大模型生态发展。嘉宾们还讨论了多模态的未来方向和应用场景。

Llama 2作为强大的语义理解引擎，可以提升多模态模型效果
多模态模型的pipeline仍不确定，学术界和工业界持续探索
多模态的可能性很多，包括视频、音频、三维等模态及不同输出模态

Shownotes Transcript

年初火爆一时的斯坦福 Smallville「虚拟小镇」，现在宣布正式开源。硅谷人正在 all-in（全力投入） AI 智能体，希望能够创造出一个真实存在，又让人惊喜的「西部世界」，甚至让 AI 智能体们走入寻常人家，为人类的生活和工作效率带来巨大提升。

本期「科技早知道」与「OnBoard!」串台，由硅谷徐老师和合作主播 Monica 共同主持，邀请了曾在 OpenAI 工作和实习，从事 AI 智能体、大模型研究领域的两位大牛参与录制。他们分别是英伟达高级 AI 研究科学家 Jim Fan，和谷歌 DeepMind 研究员戴涵俊。

AI 智能体何时能够进入我们的生活，面临哪些挑战？为什么当今的大模型更像是「炼金术」？ Llama 2 为何刚一发布就刺激大量创新出现？在 AI 研究的道路上，如何避免被「贫穷限制了想象」？如果你想通过硅谷 AI 一线精英从业者那里了解未来即将发生的事情，这期节目一定不能错过。

（考虑到节目时间总长，分为上下两期发布。上半期)昨天已经发布，你现在听到的是下半期。由于话题专业性和嘉宾表达习惯，在本期节目中你可能会听到更多英文术语，请听友见谅。不明白的可以在小宇宙上留言提问，我们会尽力回答！）

主要话题 [01:35] 多模态模型是怎样工作的？为什么 Llama 2 对于大模型生态带来巨大推动？ [16:28] 要能够处理多模态模型的数据，有哪些核心的难点？ [19:59] 对于 Jim 和涵俊，在 OpenAI 实习和工作的哪些印象最深刻？ [21:32] 2016 年，GPT/ChatGPT 的「影子」在 OpenAI 内部浮现 [27:47] 当学术界被「贫穷」限制了想象：OpenAI 开创一种新的模型训练思维模式，让学术界自然语言研究大牛都觉得传统模式要完蛋了 [34:32] 做大语言模型，最被高估和低估的挑战是什么？ [40:18] 10-15 年后，纯语言模型的智商可能已经超越人了 [46:40] 普通人练就 critical thinking 本领，才能更好迎接 AI 时代的到来 [60:19] Jim 被贝索斯关注的时候在想什么？ [61:40] 涵俊、Jim 和徐老师的结尾寄语

本期人物 Jim Fan，英伟达高级 AI 研究科学家，曾在 OpenAI 实习，博士期间就读于斯坦福大学。 戴涵俊，Google DeepMind 研究员，曾在 OpenAI 工作，博士期间就读于乔治亚理工大学。 硅谷徐老师，硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师，「科技早知道」主播｜推特：@H0wie_Xu｜微信公众号：硅谷云 | AI 英文博客：howiexu.substack.com Monica，播客节目 Onboard! 主理人，美元 VC 投资人，前 AWS 硅谷团队+AI 创业公司打工人，公众号：M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

延伸阅读

关于多模态：给静态大预言模型增加视觉能力的论文)
关于openai早先用game来解锁泛化能力的论文)

往期节目

加入我们 声动活泼正在招聘「节目监制」和「声音设计师」，查看详细讯息请点击链接) 。如果你正准备在相关领域发挥专长、贡献能量，请联系我们。

欢迎加入声动胡同会员计划) 成为声动活泼会员，支持我们独立而无畏地持续创作，并让更多人听到这些声音。支付 ¥365/年) 成为声动胡同常住民。加入后，你将会在「声动胡同」里体验到专属内容、参与社群活动，和听友们一起「声动活泼」。在此之前，也欢迎你成为声动胡同闲逛者) ，免费体验会员内容、感受社群氛围。了解更多会员计划详情，我们在声动胡同等你。)

幕后制作 监制：杜晨、闻晓（实习）、刘灿、东君后期：迪卡普里鑫、六工（实习）运营：瑞涵、Babs 设计：饭团

商务合作 声动活泼商务合作咨询)

关于声动活泼 用声音碰撞世界。声动活泼致力于为人们提供源源不断的思考养料。我们还有这些播客：声东击西)、What's Next｜科技早知道)、声动早咖啡)、商业WHY酱)、跳进兔子洞)、反潮流俱乐部)、泡腾 VC)、吃喝玩乐了不起) 如果你想获取热门节目文字稿，请添加微信公众号 声动活泼 如果想与我们交流，欢迎到即刻)找到我们也期待你给我们写邮件交流，邮箱地址是：[email protected]) 如果你喜欢我们的节目，欢迎打赏) 支持，或把我们的节目推荐给朋友

Special Guests: Jim Fan, Monica, and 戴涵俊.

贫穷限制 AI 想象？｜硅谷徐老师对话英伟达、DeepMind 大模型专家（下） 01:07:11 Share

What's Next｜科技早知道

Deep Dive

Shownotes Transcript

贫穷限制 AI 想象？｜硅谷徐老师对话英伟达、DeepMind 大模型专家（下）