cover of episode 贫穷限制 AI 想象?|硅谷徐老师对话英伟达、DeepMind 大模型专家(下)

贫穷限制 AI 想象?|硅谷徐老师对话英伟达、DeepMind 大模型专家(下)

2023/8/17
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
J
Jim Fan
戴涵俊
硅谷徐老师
Topics
Jim Fan:多模态模型的pipeline还不确定,学术界和工业界都在探索中,Llama 2可以作为很好的推理引擎,提升多模态模型效果。一种方法是将其他模态作为插件接入已有的大语言模型,例如将图像信息处理后融合到Llama 2中。Llama 2可以作为强大的推理引擎,通过插件方式提升多模态模型,尤其在机器人控制领域。多模态的可能性很多,包括视频、音频、3D等多种模态的输入和输出,应用方面还在探索中。 戴涵俊:处理多模态有两种方法:一种是将其他模态作为插件接入现有单模态模型;另一种是将不同模态统一到一个空间中进行处理。第二种方法更原生,但成本更高。现在的文本是大模型世界在低维空间的投影,大模型通过大量数据理解高维世界,但效率低。语言可能是智能最重要的部分,但视觉信息处理在人类大脑中占很大比例,这暗示了多模态的重要性。人类容易理解的事物对机器很难,反之亦然,这说明语言理解可能比视觉理解更重要。大模型在某些方面(如组合数学)可能优于人类,但在大多数方面仍远低于人类,这表明用人类智商测试评估大模型并不合适。多模态最大的未来应用是机器人,解决机器人多模态问题是实现机器人普及的关键。GPT-4的视觉部分提升了其在某些基准测试上的表现,尤其是在需要理解图像信息的任务中。图像信息冗余度高,如何高效表达图像信息是多模态模型的关键挑战。大模型需要能够适应不同企业和应用场景的特定工具和语言,这是一个挑战。 硅谷徐老师:ChatGPT的成功在于其易用的UI和强大的基础设施,而非模型性能本身。大模型应用中,需要多次调用模型才能完成一个任务,这被低估了,需要改进。机器人的难度被低估了,包括硬件、产能和算法等方面。大模型的评估方法被低估了,需要开发自动化评估方法。长期来看,GPU算力不会成为瓶颈,但评估方法的改进和目标函数的设计至关重要。 Monica:

Deep Dive

Chapters
本部分探讨多模态模型的工作原理,以及Llama 2如何通过插件式集成其他模态数据,推动大模型生态发展。嘉宾们还讨论了多模态的未来方向和应用场景。
  • Llama 2作为强大的语义理解引擎,可以提升多模态模型效果
  • 多模态模型的pipeline仍不确定,学术界和工业界持续探索
  • 多模态的可能性很多,包括视频、音频、三维等模态及不同输出模态

Shownotes Transcript

年初火爆一时的斯坦福 Smallville「虚拟小镇」,现在宣布正式开源。硅谷人正在 all-in(全力投入) AI 智能体,希望能够创造出一个真实存在,又让人惊喜的「西部世界」,甚至让 AI 智能体们走入寻常人家,为人类的生活和工作效率带来巨大提升。

本期「科技早知道」与「OnBoard!」串台,由硅谷徐老师和合作主播 Monica 共同主持,邀请了曾在 OpenAI 工作和实习,从事 AI 智能体、大模型研究领域的两位大牛参与录制。他们分别是英伟达高级 AI 研究科学家 Jim Fan,和谷歌 DeepMind 研究员戴涵俊。

AI 智能体何时能够进入我们的生活,面临哪些挑战?为什么当今的大模型更像是「炼金术」? Llama 2 为何刚一发布就刺激大量创新出现? 在 AI 研究的道路上,如何避免被「贫穷限制了想象」?如果你想通过硅谷 AI 一线精英从业者那里了解未来即将发生的事情,这期节目一定不能错过。

(考虑到节目时间总长,分为上下两期发布。上半期)昨天已经发布,你现在听到的是下半期。由于话题专业性和嘉宾表达习惯,在本期节目中你可能会听到更多英文术语,请听友见谅。不明白的可以在小宇宙上留言提问,我们会尽力回答!)

主要话题 [01:35] 多模态模型是怎样工作的?为什么 Llama 2 对于大模型生态带来巨大推动? [16:28] 要能够处理多模态模型的数据,有哪些核心的难点? [19:59] 对于 Jim 和涵俊,在 OpenAI 实习和工作的哪些印象最深刻? [21:32] 2016 年,GPT/ChatGPT 的「影子」在 OpenAI 内部浮现 [27:47] 当学术界被「贫穷」限制了想象:OpenAI 开创一种新的模型训练思维模式,让学术界自然语言研究大牛都觉得传统模式要完蛋了 [34:32] 做大语言模型,最被高估和低估的挑战是什么? [40:18] 10-15 年后,纯语言模型的智商可能已经超越人了 [46:40] 普通人练就 critical thinking 本领,才能更好迎接 AI 时代的到来 [60:19] Jim 被贝索斯关注的时候在想什么? [61:40] 涵俊、Jim 和徐老师的结尾寄语

本期人物 Jim Fan,英伟达高级 AI 研究科学家,曾在 OpenAI 实习,博士期间就读于斯坦福大学。 戴涵俊,Google DeepMind 研究员,曾在 OpenAI 工作,博士期间就读于乔治亚理工大学。 硅谷徐老师,硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师,「科技早知道」主播 |推特:@H0wie_Xu| 微信公众号:硅谷云 | AI 英文博客:howiexu.substack.com Monica,播客节目 Onboard! 主理人,美元 VC 投资人,前 AWS 硅谷团队+AI 创业公司打工人,公众号:M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

延伸阅读

往期节目

加入我们 声动活泼正在招聘「节目监制」和「声音设计师」,查看详细讯息请 点击链接) 。如果你正准备在相关领域发挥专长、贡献能量,请联系我们。

欢迎加入声动胡同会员计划) 成为声动活泼会员,支持我们独立而无畏地持续创作,并让更多人听到这些声音。 支付 ¥365/年) 成为声动胡同常住民。加入后,你将会在「声动胡同」里体验到专属内容、参与社群活动,和听友们一起「声动活泼」。 在此之前,也欢迎你成为声动胡同闲逛者) ,免费体验会员内容、感受社群氛围。 了解更多会员计划详情,我们在声动胡同等你。)

幕后制作 监制:杜晨、闻晓(实习)、刘灿、东君 后期:迪卡普里鑫、六工(实习) 运营:瑞涵、Babs 设计:饭团

商务合作 声动活泼商务合作咨询)

关于声动活泼 用声音碰撞世界。声动活泼致力于为人们提供源源不断的思考养料。 我们还有这些播客:声东击西)、What's Next|科技早知道)、声动早咖啡)、商业WHY酱)、跳进兔子洞)、反潮流俱乐部)、泡腾 VC)、吃喝玩乐了不起) 如果你想获取热门节目文字稿,请添加微信公众号 声动活泼 如果想与我们交流,欢迎到即刻)找到我们 也期待你给我们写邮件交流,邮箱地址是:[email protected]) 如果你喜欢我们的节目,欢迎 打赏) 支持,或把我们的节目推荐给朋友

Special Guests: Jim Fan, Monica, and 戴涵俊.