65: 信仰充值的威力：与逐际动力谌骅聊聊 GTC 和人形机器人新进展 | AI 大爆炸

2024/4/2

晚点聊 LateTalk

Frequently requested episodes will be transcribed first

Chapters

本期《晚点聊》邀请了在去年底就已造出人形机器人的公司，逐际动力的联合创始人谌骅。（*节目中涉及的术语可见 Shownotes 末尾的附录解释。） https://img2.imgtp.com/2024/04/02/J7JOMAeL.jpg 图：逐际动力人形机器人 CL-1 谌骅于 2012 年获浙江大学控制科学与工程学院自动化专业学士学位及竺可桢学院荣誉学位，在 2018 年获美国俄亥俄州立大学电气与计算机工程博士学位，后在本校进行博士后研究，2019 年 6 月回国。 2022 年，谌骅与他的博士生导师、知名机器人学者张巍一起创办了逐际动力。今年刚刚过去的三个月，我们已看到了这个领域的诸多新进展： Figure AI 获 OpenAI、微软、英伟达、贝佐斯 6.75 亿美元投资，接入 OpenAI 大模型；英伟达在 GTC 大会上发布机器人基础平台 GR00T，黄仁勋还与科幻动画片主角“机器人瓦力”的实物版同台；特斯拉 Optimus 新释放 demo；做机器人大脑的 PI 获得 OpenAI、红杉等的投资。与真实物理世界的交互是语言之外的重要学习与智能进化方式，有“身体”的智能也能大大拓展了 AI 的任务范畴。 https://img2.imgtp.com/2024/04/02/10gvlyt2.jpg 图：逐际动力四轮足机器人 W1（左），逐际动力点式双足机器人 P1（右）本期节目，从 GTC 等近期行业热点切入，谌骅分享了他博士以来亲历的技术进展和创业历程、目前人形机器人技术栈的瓶颈；我们也对比了中美人形机器人创业的诸多差异。他认为，GPT 大大加速了机器人大脑的发展，“小脑部分”也就是勾连大脑决策到最后身体执行的部分仍有很多突破空间，这也是最让人兴奋之处。内容摘要： · GTC 与近期进展：看好机器人，但黄仁勋与 Transformer 八子对话又没聊机器人 01:20 小脑能力已经赶不上大脑，更关注小脑 05:12 FigureAI 和 Aloha 背后的新技术：Diffusion Policy，扩散模型用于生成机器人动作 06:44 Diffusion Policy 和 Diffusion 模型之间的关系 09:04 重要提升在于泛化性：机器人可以像人那样洗盘子了，不需要盘子摆放精确 09:47 为何 GTC 黄仁勋与 Transformer 八子论坛完全没聊到机器人？ · 求学与创业：当软件与硬件 meet，机会信号出现 12:56 2016-2017 年读博期间，波士顿动力 demo 表现好，与他们的科学家交流，发现方法很相似 14:29 波士顿动力展现的是「足式运动能力」，它和「操作能力」是两条线 15:00 足式运动能力在控制上为什么难？——一个「欠驱动」系统 18:08 足式运动能力，抽象一下就是谌骅博士研究的课题：混杂系统的最优控制 20:08 MIT 开源硬件方案是对行业的重要推动 21:26 MIT 使用了原本用于其它领域的行星减速器，也从理论上做了解释 24:10 大公司 VS 小公司，一个没有完全 ready 的方向，更看中探索的灵活性 26:30 逐际做了 3 个产品，为什么做这么多？ · 市场观察：人形机器人为什么在中国先火？AGI 信仰充值带来了什么？ 27:43 去年中国为什么多了这么多人形机器人？——马斯克效应 29:50 走得像人能体现技术能力，但这也许没那么重要 31:43 逐际的四轮足机器人和点式双足机器人：用在哪儿？干什么？ 34:29 点式双足机器人的更强运动和平衡能力——来自这两年强化学习在机器人控制中的运用。 35:00 这和 Transformer 没有直接关系，但整个领域的信仰充值让大家意识到用数据驱动方法做控制是可行的。 36:43 为什么中国做人形机器人的公司看起来比美国公司“更不聚焦”？ 40:53 为什么大模型是美国先火，人形机器人是中国先火？ 42:45 波士顿动力居然有 30 多岁了！它仍在用液压驱动，几乎不可能产品化 45:19 一个现象：起步太早的科技公司，可能因在老技术栈上积累太深，采纳新技术更慢 47:10 这一次，这件事不会再发生了吗？为什么？ 48:54 更确定的事：人形机器人方向；发展不及预期的事：硬件 52:26 机器人的数据也是和硬件耦合的：比如触觉该如何表达？这受限于传感器 54:56 机器人端侧算力，英伟达 Jetston 又先人一步 57:23 人形机器人是交叉学科，兼具软硬能力的人可能会成为主导 59:25 对机器人“叛变”人类谨慎乐观相关链接： B站-逐际动力首次公开人形机器人CL-1动态测试（2023.12） https://www.bilibili.com/video/BV1fc411r7bC/?spmidfrom=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1 基于强化学习，逐际动力双足机器人P1野外徒步 https://www.bilibili.com/video/BV1bw4m1d7Yq/?spmidfrom=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1 逐际动力发布首款四轮足机器人 https://www.bilibili.com/video/BV1XF411m77a/?spmidfrom=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1 晚点聊 ep 40-通用机器人，AI 的下一个浪潮？ https://www.xiaoyuzhoufm.com/episode/64c239d70f7b199a693a55fa Diffusion Policy 论文 https://diffusion-policy.cs.columbia.edu/ 附录：节目中出现的技术、公司等名词逐际动力：一家通用机器人研发和制造商，产品包括人形机器人、四轮足机器人及相关软硬件和AI解决方案。 ·FigureAI：2022 年成立的美国人形机器人公司，近期获得 OpenAI、微软、英伟达、亚马逊创始人贝佐斯共计 6.75 亿美元的融资。 ·PI（Physical Intelligence)：今年新成立的机器人大脑创业公司，获红杉、OpenAI 投资。 ·Mobile Aloha：斯坦福大学服务机器人项目，展示过开窗、浇花、收拾垃圾等能力。 ·波士顿动力 Atlas：波士顿动力的一款人形机器人。 ·Diffusion Policy：一种基于扩散模型的机器人动作生成策略。 ·自由度：系统、模型或物理实体在运动或变化过程中可以变化或被独立控制的参数数量；在机器人领域常说的“某个关节有几个自由度”，就是指关节在运动时可被独立控制的方向和角度的数量，它决定了机器人的动作范围和灵活性。 ·欠驱动系统：系统的控制输入数量少于系统自由度的数量，导致系统不能完全控制所有自由度的状态。 ·混杂系统：包含连续和离散动态的系统，它们在同一系统内同时存在并相互作用，增加了系统的复杂性。 ·连续状态：系统的状态可以在一定范围内无限取值，变化是连续不断的，没有跳跃或间隔。 ·离散状态：系统的状态只能取特定的、分离的值，变化是阶段性的，不连续。登场人物：谌骅，逐际动力联合创始人程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）剪辑：甜食

65: 信仰充值的威力：与逐际动力谌骅聊聊 GTC 和人形机器人新进展 | AI 大爆炸

晚点聊 LateTalk

Chapters

GTC 与近期进展：看好机器人，但黄仁勋与 Transformer 八子对话又没聊机器人？

小脑能力已经赶不上大脑，更关注小脑

FigureAI 和 Aloha 背后的新技术：Diffusion Policy，扩散模型用于生成机器人动作

Diffusion Policy 和 Diffusion 模型之间的关系

重要提升在于泛化性：机器人可以像人那样洗盘子了，不需要盘子摆放精确

为何 GTC 黄仁勋与 Transformer 八子论坛完全没聊到机器人？

求学与创业：当软件与硬件 meet，机会信号出现

波士顿动力展现的是「足式运动能力」，它和「操作能力」是两条线

足式运动能力在控制上为什么难？——一个「欠驱动」系统

足式运动能力，抽象一下就是谌骅博士研究的课题：混杂系统的最优控制

MIT 开源硬件方案是对行业的重要推动

MIT 使用了原本用于其它领域的行星减速器，也从理论上做了解释

大公司 VS 小公司，一个没有完全 ready 的方向，更看中探索的灵活性

逐际做了 3 个产品，为什么做这么多？

市场观察：人形机器人为什么在中国先火？AGI 信仰充值带来了什么？

去年中国为什么多了这么多人形机器人？——马斯克效应

走得像人能体现技术能力，但这也许没那么重要

逐际的四轮足机器人和点式双足机器人：用在哪儿？干什么？

点式双足机器人的更强运动和平衡能力——来自这两年强化学习在机器人控制中的运用。

这和 Transformer 没有直接关系，但整个领域的信仰充值让大家意识到用数据驱动方法做控制是可行的。

为什么中国做人形机器人的公司看起来比美国公司“更不聚焦”？

为什么大模型是美国先火，人形机器人是中国先火？

波士顿动力居然有 30 多岁了！它仍在用液压驱动，几乎不可能产品化

一个现象：起步太早的科技公司，可能因在老技术栈上积累太深，采纳新技术更慢

这一次，这件事不会再发生了吗？为什么？

更确定的事：人形机器人方向；发展不及预期的事：硬件

机器人的数据也是和硬件耦合的：比如触觉该如何表达？这受限于传感器

机器人端侧算力，英伟达 Jetston 又先人一步

Shownotes Transcript

65: 信仰充值的威力：与逐际动力谌骅聊聊 GTC 和人形机器人新进展 | AI 大爆炸 01:03:20 Share

晚点聊 LateTalk

Chapters

GTC 与近期进展：看好机器人，但黄仁勋与 Transformer 八子对话又没聊机器人？

小脑能力已经赶不上大脑，更关注小脑

FigureAI 和 Aloha 背后的新技术：Diffusion Policy，扩散模型用于生成机器人动作

Diffusion Policy 和 Diffusion 模型之间的关系

重要提升在于泛化性：机器人可以像人那样洗盘子了，不需要盘子摆放精确

为何 GTC 黄仁勋与 Transformer 八子论坛完全没聊到机器人？

求学与创业：当软件与硬件 meet，机会信号出现

波士顿动力展现的是「足式运动能力」，它和「操作能力」是两条线

足式运动能力在控制上为什么难？——一个「欠驱动」系统

足式运动能力，抽象一下就是谌骅博士研究的课题：混杂系统的最优控制

MIT 开源硬件方案是对行业的重要推动

MIT 使用了原本用于其它领域的行星减速器，也从理论上做了解释

大公司 VS 小公司，一个没有完全 ready 的方向，更看中探索的灵活性

逐际做了 3 个产品，为什么做这么多？

市场观察：人形机器人为什么在中国先火？AGI 信仰充值带来了什么？

去年中国为什么多了这么多人形机器人？——马斯克效应

走得像人能体现技术能力，但这也许没那么重要

逐际的四轮足机器人和点式双足机器人：用在哪儿？干什么？

点式双足机器人的更强运动和平衡能力——来自这两年强化学习在机器人控制中的运用。

这和 Transformer 没有直接关系，但整个领域的信仰充值让大家意识到用数据驱动方法做控制是可行的。

为什么中国做人形机器人的公司看起来比美国公司“更不聚焦”？

为什么大模型是美国先火，人形机器人是中国先火？

波士顿动力居然有 30 多岁了！它仍在用液压驱动，几乎不可能产品化

一个现象：起步太早的科技公司，可能因在老技术栈上积累太深，采纳新技术更慢

这一次，这件事不会再发生了吗？为什么？

更确定的事：人形机器人方向；发展不及预期的事：硬件

机器人的数据也是和硬件耦合的：比如触觉该如何表达？这受限于传感器

机器人端侧算力，英伟达 Jetston 又先人一步

Shownotes Transcript

65: 信仰充值的威力：与逐际动力谌骅聊聊 GTC 和人形机器人新进展 | AI 大爆炸