cover of episode 解读斯坦福Aloha机器人:视频为何是“假的”?能做家务的机器人还有多远?-Vol41

解读斯坦福Aloha机器人:视频为何是“假的”?能做家务的机器人还有多远?-Vol41

2024/1/21
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
尼克森
托马斯
花花
Topics
托马斯:结合自身经验,探讨了长期使用工具后,使用者会将自身感知扩展到工具上的现象,并对数字孪生技术进行了阐述,认为其可以加速虚拟世界中的运行。 尼克森:分析了斯坦福Aloha机器人的技术亮点,包括其通过模仿人类动作进行学习的“demo模式”,以及利用改造后的Transformer模型将任务分解为一系列动作的能力。同时,也指出了视频中对机器人能力的夸大宣传,并补充了其他一些值得关注的机器人项目,例如谷歌Palm-E模型和波士顿动力的机器狗。 花花:从专业角度详细解释了传统工业机械臂与Transformer模型赋能的通用机械臂在学习方式上的区别,并对具身智能的概念进行了深入解读,强调了机器人感知自身状态并根据反馈调整行为的重要性。此外,还分析了目前机器人技术发展中面临的挑战,例如触觉和力学数据的匮乏,以及学术研究成果与实际应用之间的差距。 托马斯:对斯坦福Aloha机器人的宣传视频夸大其实际能力进行了批判性分析,并指出其能够自主完成一些简单的重复性动作,例如按电梯和擦拭酒杯,但其学习简单动作的成功率并非百分之百。同时,也补充了研究团队发布的失败案例视频,展现了机器人的局限性,并强调了媒体宣传与实际能力之间的差距。 尼克森:深入探讨了大语言模型与机器人的结合方式,解释了大语言模型如何通过将机器人反馈作为序列数据进行处理来指导机器人行为,以及大语言模型如何将复杂信息转化为机器人可以理解的指令。同时,也分析了为什么大语言模型能够指导现实生活中的机器人,并对谷歌开发的让机器人自主学习的方法进行了介绍。 花花:从专业角度解释了具身智能的概念,并结合自身研究经验,对力学传感器和触觉传感器在机器人技术中的应用进行了深入探讨,指出目前触觉和力学数据的匮乏是机器人技术发展的一个瓶颈。此外,还对人形机器人的发展现状进行了分析,指出其面临的挑战以及为什么大家都在卷这个赛道。 托马斯:从产业链的角度分析了当前商用机器人的困境,指出其缺乏实用性、性价比低以及商业模式存在问题等因素。并结合自身经验,对不同类型的机器人,例如扫地机器人、送餐机器人和清洁机器人等,在实际应用中的局限性进行了分析,并对学术研究成果与实际应用之间的差距进行了深入探讨。 尼克森:对当前市场上存在的各种机器人产品,例如Anki Cozmo、三星的Ballie和索尼机器狗等,进行了分析,指出这些产品大多缺乏实用性,主要依靠卖萌或其他非核心功能来吸引消费者。同时,也对机器人公司普遍存在的商业模式问题进行了分析,例如租赁模式和低毛利率等。 花花:总结了当前机器人技术发展中面临的挑战,例如环境的复杂性、数据匮乏以及商业模式的不完善等。并对未来机器人技术发展方向进行了展望,认为数字孪生、大语言模型和具身智能等技术将是推动机器人技术发展的重要力量。

Deep Dive

Chapters
讨论斯坦福Aloha机器人的功能和亮点,解释其技术原理,包括机器人与大语言模型的结合和具身智能的概念。
  • 斯坦福Aloha机器人能够完成复杂的家务操作,如折衣服和做饭。
  • 机器人通过克隆人类动作的模式进行学习,使用Transformer模型将任务分解为一系列动作。
  • 具身智能使机器人能够感知自己的动作和环境,提高任务执行的准确性。

Shownotes Transcript

本期节目(S02E20)我们关注:

-刷屏的斯坦福机器人研究(Mobile-Aloha)都有什么亮点?为什么刷屏的新闻竟然是“假的”?理解一些技术原理:机器人怎么和大语言模型结合;具身智能具体是怎么回事儿;

-为什么用上论文里面的机器人这么难?为什么说机器人行业“不像朝阳行业”

-我们距离家里有一台机器人,还有多远?哪些技术是关键?

我们和 AI 相关的节目,欢迎点击、搜索关键词收听:GPT并非替代你)/OpenAI发布会) / 611款 AI 生产力工具) / 论文:1016 种职业,哪些将被 AI 替代)

欢迎在评论区留言告诉你对于“通用机器人”的畅想

对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01)加群参与讨论。

主播及嘉宾:

托马斯白:脑放电波)主播,15+年科技行业从业者,科技媒体特约作者

Nixon:脑放电波)主播,XR产品经理、前机器人产品经理、前科技媒体记者

花花:自动化解决方案从业者,毕业于 CMU 机械工程系,网站:fujunruan.com

**剪辑:**水仙plus

时间轴

Part1:刷屏的斯坦福机器人(Mobile-Aloha)研究都有什么亮点?为什么刷屏的新闻竟然是“假的”?理解一些技术原理:机器人怎么和大语言模型结合;具身智能具体是怎么回事儿

02:42 - 斯坦福的Mobile Aloha机器人项目有哪些功能和亮点?

斯坦福机器人(Mobile-Aloha)的论文和网页arxiv.org)

刷屏内容:Mobile ALOHA: 你的管家机器人_哔哩哔哩_bilibili)

08:02 - 解释Mobile Aloha的“demo模式”

自动化的技能

克隆模式

13:07 - Transformer模型在机器人技术上的变革

18:28 - 波士顿动力的7万美金机器狗(一个机械臂)

18:37 - Mobile Aloha有哪些“假”的地方?

Mobile ALOHA搞笑失败集锦_哔哩哔哩_bilibili)

24:22 - 除了Aloha,近期还有哪些值得关注的机器人项目?

24:31 - Palm机器人模型的最新进展

23年3月的谷歌Palm-E,具身智能+多模态 palm-e.github.io)

24:58 - 谷歌在机器人技术上成果

谷歌的前沿机器人研究 deepmind.google)

27:00 - 什么是具身智能?

关于“具身智能”的比喻:你不可能依靠学动作拆解去模仿库里投篮,从而提升投篮技巧

33:57 - 理解具身智能的能力

44:47 - 为什么大家都在做人型机器人?为什么不是别的形态?

Part2:为什么用上论文里面的机器人这么难?

52:37 - 机器人进入生活“跨越鸿沟”难

割草机器人伤害动物:www.dailymail.co.uk)

没什么用的家庭机器人:Anki Cozmo、SAMSUNG’S BALLIE、索尼机器狗

01:14:14 - 机器人公司商业模式

54:45 - 酒店服务机器人案例

55:07 - 专业机器人(扫地、清洁等)现状

56:29 - 机械手难以批量生产销售

01:02:12 - 机器人公司商业模式多有问题

  • 餐饮机器人商业模式:依赖集成商,要玩租赁
  • 财务报表举例:库卡经营利润率为2.8%(毛利润)
  • 被到处转卖的波士顿动力
  • 受顶级资本关注的公司营收规模普遍在10-20亿人民币以内(Revenue),人员规模在400-1000人左右,因为研发成本高,总体处于亏损状态。盈亏平衡需要做到20亿元。

Part3:服务型/通用型机器人,还有多远?

01:22:20 - 关键技术:数字孪生、大模型、具身智能

01:28:13 - 一些基础研究:如何通过“触感”来识别材料?《Design of a Biomimetic Tactile Sensor for Material Classification》arxiv.org)

脑放电波往期节目精选(搜索关键词可收听)

苹果特权:苹果供应链迷思) / 苹果广告底层逻辑) / iPhone 15 和它的前任们) / 苹果零售店)

AI 相关:GPT并非替代你)/OpenAI发布会) / 611款 AI 生产力工具) / 论文:1016 种职业,哪些将被 AI 替代)

饮食健康相关:运动改造大脑) / 长寿革命) / 阿斯巴甜致癌疑云) / 结构化谈谈“健康饮食”)

XR 相关:Meta vs Apple) / Vision Pro:筹备13年) / Vision Pro 真机中的魔鬼细节)/ 老王者与新泡沫)

节目中用到的音乐

  • 来自 monkeyman535 的 90's Rock Style,地址 freesound.org)
  • 来自 kjartan_abel 的 Berlin Town,地址 freesound.org)
  • 基于 CC BY 4.0 DEED 使用

脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收藏转发,这对我们非常重要。