cover of episode EP 55. 对话UCSD副教授苏昊:从学术到创业,深度解读具身智能的实现路径

EP 55. 对话UCSD副教授苏昊:从学术到创业,深度解读具身智能的实现路径

2024/6/13
logo of podcast OnBoard!

OnBoard!

AI Deep Dive AI Insights AI Chapters Transcript
People
苏昊
Topics
苏昊:我的AI研究始于初中,对算法的兴趣促使我投身人工智能领域,研究方向从自然语言处理转向计算机视觉,最终回归机器人研究。最近有关证明的研究进展对机器人领域很有启发,因为解决复杂问题的证明需要创造力和严谨性,这与克服人工智能的幻觉和提升探索能力密切相关。具身智能的概念源于20世纪六七十年代的具身假设,核心观点是智能是智能体与环境交互过程中感知和运动模块整合产生的适应性行为。如今,具身智能的定义已扩展到包含任何具备物理形态的智能系统。人工智能的发展路径与智能本身的演化路径存在差异,人工智能采用工程化方式走捷径,通过模仿人类机制或行为来实现智能,而非精确重演进化过程。实现具身智能有几条主流路径:从感知(计算机视觉)、交互(机械/控制)、闭环(强化学习)出发,以及结合监督学习和强化学习的演示学习。不同路径的选择取决于研究者的背景和对数据作用的理解。大语言模型(更准确地说是多模态模型)通过任务分解和规划来辅助机器人完成任务,但其能力受限于缺乏对硬件控制和低层交互(如触觉)数据的学习。获取机器人控制数据的方法包括:从YouTube等数据中学习、利用人形机器人采集通用数据、结合监督学习和强化学习,以及使用模拟器生成数据。这些方法相互补充,共同解决数据不足的问题。模拟器在机器人领域比在自动驾驶领域更重要,因为它能有效降低数据收集成本,解决数据不足的问题。模拟器的发展经历了从关注精度到关注速度和泛化能力的转变,并与3D生成模型等技术协同发展。模拟器在机器人训练中的作用是双重的:生成训练数据(sim2real)和测试模型(real2sim)。sim2real路径面临的主要难点是模拟与真实世界之间的差异(domain gap),但随着技术发展,这一差距正在缩小。模拟器与真实数据采集互补,共同提高训练数据的质量和数量。创立Hillbot公司的初衷是基于实验室研究成果,利用在机器人基础模型、模拟器和强化学习方面的技术优势,以较低的成本推动机器人大模型的训练和落地。 Monica:引导话题,提出问题,例如具身智能的定义、实现路径、数据问题、模拟器的作用等,并与苏昊进行深入探讨。

Deep Dive

Key Insights

为什么苏昊老师对证明的研究进展特别感兴趣?

苏昊老师认为,证明复杂问题的能力需要创造力和严谨性,这可以作为衡量人工智能算法的一个有效基准,帮助解决幻觉和探索能力不足的问题。

具身智能的本质是什么?

具身智能的本质是智能体在与环境的交互中,通过感知和运动功能的整合,逐渐形成智能行为。这种智能行为是生物为了适应环境压力而产生的。

为什么大语言模型的发展先于具身智能?

大语言模型的发展先于具身智能,因为语言能力建立在符号化抽象的基础上,而视觉和运动控制等能力更为复杂,需要更多的数据和时间来发展。

实现具身智能的主流路径有哪些?

实现具身智能的主流路径包括从感知出发的计算机视觉方法、从交互出发的机械控制方法,以及从闭环角度出发的强化学习方法。这些方法各有侧重,但都依赖于数据的有效利用。

为什么大模型在机器人控制中存在局限?

大模型在机器人控制中的局限在于缺乏低层次的控制数据,如触觉和物体交互的微妙变化。这些数据在语言和视觉数据中并不存在,导致复杂技能的执行能力不足。

模拟器在机器人训练中的作用是什么?

模拟器在机器人训练中主要用于降低数据采集成本,提供大量低成本的训练数据,并通过物理仿真和视觉渲染帮助机器人学习复杂任务。

AI生成的3D模型对模拟器有什么影响?

AI生成的3D模型可以大幅增加模拟器中物体的多样性和复杂性,帮助机器人更好地进行泛化训练。这些模型不仅需要几何结构,还需要具备物理属性,如质量、摩擦力等。

苏昊老师的创业公司Hillbot的愿景是什么?

Hillbot的愿景是开发机器人基础模型,使智能机器人在各种场景下完成复杂任务。公司通过模拟器和3D生成技术,降低数据采集成本,推动机器人大模型的训练和落地。

在具身智能的讨论中,哪些方面被高估或低估了?

人形机器人的重要性被高估,而模拟器和触觉的重要性被低估。模拟器在降低数据采集成本和提升训练效率方面的作用尤为关键,而触觉在复杂任务中的作用也常被忽视。

Chapters
苏昊教授从初中时期就对人工智能产生兴趣,本科期间接触到数理逻辑方法的自动证明,之后在微软亚洲研究院实习,研究方向从自然语言处理转向计算机视觉,最终回到机器人领域。他认为,人工智能研究是一个从抽象到具体,再从具体到整体的过程。
  • 苏昊教授的AI研究历程跨越自然语言处理、计算机视觉和机器人领域
  • 对数理逻辑方法自动证明的早期研究经历
  • 对人工智能的兴趣始于初中时期的最小生成树算法

Shownotes Transcript

这次依旧是硬核话题,我们跟学术大牛深度聊聊2024年上半年美国创投圈最火的的话题之一,具身智能。

没错,智能机器人之火终于从国内来到美国了。在去年下半年的时候,美国创投界还是在关注大模型和应用、infra等等,虽然Deepmind RT-2 等工作彼时已经崭露头角,更喜欢软件的美国VC似乎还在犹豫机器人这个太硬的赛道。但是从今年上半年开始,事情似乎有了变化。

Hello World, who is OnBoard!?

除了Figure AI 这样的人形机器人公司获得了英伟达、微软等一系列战投的加持,硅谷的老牌基金们也疯狂涌入了所谓的机器人大模型公司,比如学术大牛创立的 Physical intelligence, Skild, 还有 Cruise 前CEO 创立的Bot company, 等等。

这次的嘉宾也是大名鼎鼎,UCSD 计算机科学副教授,苏昊老师,关注具身智能和3D视觉领域的同学应该都不陌生。他参与的一系列AI数据集和软件工作,从ImageNet到ShapeNet、PointNet、SAPIEN,以及最近的ManiSkill等等,都是三维视觉、机器人操作等领域穿越几个时代的标志性作品。苏昊老师现在还是智能机器人创业公司Hillbot 的联合创始人,我们深度探讨了:

  • 过去一年,我们从学术界、工业界讨论的种种话题,又有了哪些新的进展?
  • 大模型的发展如何影响具身智能的不同技术路径?
  • 大模型带来的泛化能力,跟硬件、控制系统等,又会怎样相互作用?
  • 机器人模型里的数据问题,有哪些解决方案?

具身智能这个看似很纷繁的话题,苏昊老师总是能抽丝剥茧,相信你们也能从我们两个多小时的交流中,受益匪浅。Enjoy!

对了!今年年初,Onboard 就发布过一期关于具身智能的讨论,嘉宾包括了 Deepmind Robotics,高仙机器人和UCSD 的不同视角的重磅嘉宾。那一期讨论也非常精彩,建议大家回去复习哈!

嘉宾介绍

苏昊)** (Twitter @HaoSuLabUCSD))**,UC San Diego Associate Professor,Hillbot智能机器人初创公司创始人、CTO。Stanford PhD, UCSD 具身智能实验室主任,数据科学研究所创始成员,以及视觉计算中心和情境机器人研究所成员。他的研究工作集中在开发算法来模拟、理解并与物理世界互动。

**OnBoard! 主持:Monica, **美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

03:04 苏昊的学术历程,为什么最近觉得有关证明的研究进展对机器人领域很有启发?

10:05 从智能演化的角度,理解“具身智能”这个“老概念”

15:01 为什么从语言而不是视觉上最先看到了接近人类的智能?

21:31 实现具身智能有哪些主流的路线?如何理解不同路径不同切入点背后的逻辑?

32:10 可以通过大模型的能力实现运动控制吗?有泛化性的控制数据要怎么采集?

38:26 演示学习 (learning from demonstration) 有哪些不同路径?ALOHA这类遥操作有什么利弊?

47:00 规划和执行需要一起做训练吗?做一个端到端的系统核心难点在哪里?

51:15 划重点:好的算法的本质就是降低对数据的需求

52:23 针对机器人的大模型会跟LLM架构有什么异同?

59:31 人形机器人可以解决数据和能力泛化的问题吗?

66:16 模拟器能解决训练数据的问题吗?近年来模拟器相关技术有什么关键进展?

78:31 AI生成3D,Sora 等新技术进展对实现 sim2real 路径有什么影响?

95:26 苏昊老师现在的创业项目 Hillbot

100:32 快问快答:推荐的书,影响最大的人,具身智能被高估和低估的话题,如何解压!

重点词汇和公司

参考文章

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

***最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。***期待你来!