欢迎收听 AI 局内人每周和极客们一起聊聊 AGI 通用人工智能时代的新技术和创业方向
AGI Insider 是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客景本节目会围绕 AGI 相关领域的基础发展产品方向以及新的商业模式每周邀请相关领域的观察者和从业者与我们一起探讨和交流通用人工智能领域新的机遇与各种可能性
Google RG2,OpenAI Figure01,特斯拉的 Optimus 这些产品主因亮相科技节让巨声智能这一概念一夜之间成为了机器人和大模型领域的热门话题
巨深智能究竟如何定义?巨深智能也会有自己的 scaling law 吗?AGI 大模型和机器人硬件将如何结合?大模型给传统机器人行业带来怎样新的可能性?通用机器人会存在吗?它面临最重要的问题是什么?物理世界中的具体场景将如何被大模型学习?巨深智能商业化的前景有多大?
针对这些当下阶段巨深智能技术和产业上的具体问题 Founder Park 的创始人兼董财张鹏和三位巨深智能领域的专家和创业者一起聊了聊巨深智能的技术现状数据难题和商业前景
今天晚上我们又来要聊一场 Founder Park 的科技领域的新趋势的直播今天我们聊的这个话题可能也是非常热的一个话题巨神智能这个概念如果说在去年大概这个时候后可能大家有印象
还在看大圆模型但是在去年的下半年的时候我们已经开始看到了巨神智能这样的一条技术线开始出现了非常让人觉得期待的并且看到未来有更大的发展空间应该说从去年的年底到今年的上半年巨神智能这个赛道里面吸引了非常多的资本和非常多的优秀的人才
啊在这里面已经开始看得出来啊是接下来一段时间里面要去值得关注的一个技术赛道了在这个赛道里面涌现了很多优秀的公司啊今天呢我也啊要特别邀请到了这个很新锐的一家公司星海图的 CEO 啊高级杨啊
他会来到我们的直播间同时呢我们也有两位技术方面的专家哈一位呢是这个赵航清华大学交叉学院的助理教授也是清华大学这个 MarsLive 的负责人同时呢还有这个许花哲也是这个清华大学交叉心理学院的助理教授同时呢又是清华大学巨深智能实验室的负责人那今天我们既有一个创业者又有两位技术的专家会加入啊
来 季阳给大家打个招呼大家好 朋友们好季阳 你在这部创业之前好像是不是在某门他是吧对 我创业之前的话是在某门他工作然后再之后的话我是在 Google 无人车 Vimo 工作你看这个是从自动驾驶路线过来的当年是做技术和产品是都在做是吗主体是在技术还是在产品上
都有我是在 vmall 那时候主要是做感知嘛做预测然后呢也有一些就是工程师技术为主然后呢回到
某样他之后呢我是这个技术产品项目啊然后交付这些都负责过嗯你看这个这是创业者必备的就是要打过本雷达对吧肯定不是只干过一个岗要干过好几个对吧这是这个创业者的特质啊好我们我们看到这个华哲也连在来了华哲跟大家打个招呼做个自我介绍
我是许华哲然后也是清华大学交叉信息研究院的助理教授在清华大学巨神人工智能实验室做负责人很高兴认识大家我认识华哲的时候我当时特别震惊我说他已经是巨神智能实验室的负责人了然后看起来好年轻但其实你会看见这一波里面清华的体系在这一波 AI 的浪潮里真的是
核心的位置看得见今天华智应该是在控制这条体系上是有比较长期的研究的是不是我不知道我记得对不对是的是的是我在这个机器人控制尤其是基于学习的控制上面做了蛮久的
今天我们来的几位都是新锐赵航还在连线进来的路上没关系等着他在连线进来的同时咱们先展开咱们的话题最近巨神智能这个概念我相信已经从一个小范围的圈子变成了整个凡是对商业有点了解的圈子都知道这个概念了
但是这个概念到底说的是啥这个事我们先开宗明义嘛先要把它定义定义这个我想听听两位啊就是说我们到底怎么定义巨神智能对吧就看起来现在很多人会把巨神智能等同于什么双足机器人呢对吧然后可能都是因为看了这个马斯克的那个 Optimus 对吧然后就觉得就套到了那个上面但我们到底该怎么定义巨神智能这个事我觉得先
请这个季扬来给定义一下啊因为你做的就是一个巨神智能的创业公司然后华洲也在帮我们从你的角度来解读一下来季扬可以先说说嗯嗯嗯对我觉得先从这个巨神智能这四个字的这个字面意思开始出发啊对巨神智能啊就是这个具有身体的智能体英文是 embody 的 AI 啊就是说这个智能体赋予一个身体这就是巨神智能嘛是吧然后呢
那我们看到的这个巨神智能的未来是什么呢我们用四个字去概括就是一脑多形一个巨神智能大脑配合多种不同构型的身体完成物理世界的不同任务所以我们说这个巨神智能是一脑多形这个一脑多形不仅仅是我们对于未来这个巨神智能技术发展的一个判断也是对于未来巨神智能产品形态商业落地的一个基本判断所以人形
人应当说是一脑多形 多形当中的一种形而且人形机器人这个概念本身其实是一个很宽泛而且模糊的概念什么算是人形 具备哪些人类算是人形不具备哪些人类特征算是人形所以其实本身人形也是一个很宽泛的概念我们简单来说就是具有身体的智能智能智能未来会是一脑多形
理解对你刚才就上来先把几个定义咱们这个做一下这个层级的划分就是巨神智能这个定义呢是大于人形人形的定义呢又大于双足对吧就是其实这里边它是分好几类的这个巨神智能其实是一个更大的这样的一个概念华哲其实你做的就是巨神智能实验室
来你们怎么定义这个巨神智能啊或者说巨神智能里真正它跟传统机器人相比它的那个概念的核心变化是在哪对我觉得巨神智能我倾向于去从顺着说和逆着说其实巨神这个概念最早来自于巨神认知嘛
就是在心理学上有这样一个概念就是说我们对这个世界的认知如果只靠书本只靠这个观察是很难对这个世界有一个充分的认知的那我们必须要跟这个世界交互才能对这个世界有一个好的认知那巨神智能其实是说 OK 我现在有这个身体如何让用这个身体给这个身体赋予智能让它解决现实中的事情而在这个交互的过程中又让我的智能进一步的发展一个很经典的故事
或者叫例子是那个小猫的故事我们把小猫绑起来虽然有点坦无人道让他天天就看别的小猫在那个电视里面走来走去甚至是第一人称视角的然后让他看个几个月几年对吧然后把他放下来你发现他是不会走路的
尽管它除了身体以外别的东西都跟真正小猫经历的是一样的这其实是一个很惨无人道的实验但是其实告诉我们智能这件事跟巨神是一个强偶和强绑定的这样的一个关系我们研究巨神智能也就是我刚刚说的顺着和逆着我们怎么样用智能使得我们巨神可以做更多事情然后靠巨神使我们的智能在进一步的发展
這是我從可能這個誰是的思路上面去說這個巨神智能這件事
嗯对你说这个蛮有道理其实你看中国古代古人都有智慧读万卷书行万里路对吧这俩东西得合在一起这个他本质上讲就是你光看信息没有 grounding 是不行的你刚才讲的那个就是说我看了很多但是他没有实践他不在真实世界里边去落下来那他最后其实并不是一个完整的这个能力对吧所以军神智能本质上也是呃
既是可能那个脑但同时我觉得它还要落到一个现实世界里的东西好欢迎赵航也来了赵航跟大家打个招呼不好意思我刚才网络有点问题来打个招呼跟大家做个介绍大家好我叫赵航然后现在是清华大学的助理教授然后我
我自己的经历之前博士毕业于 MIT 然后后来我在谷歌的自动驾驶 VIMO 工作然后当时和吉昂认识然后我们当时是同事也是合作者然后后来就回到了清华然后来建立自己的研究组
然后我自己的研究方向主要是多模态学习 巨声智能 自动驾驶主要是这些方向然后特别关注相当于机器人的感知能力 移动能力需要让机器人看懂这个世界然后能够在这个世界里穿梭
大家听完这几位介绍应该能感知到你看第一首先我们来的都是年轻新锐这是 Founder Park 的一大特色我们这里面一般咱们先不说请德高望重的大神我们都更倾向于请年轻的新锐既在技术上有先锋的能力同时我觉得又是在最高产的年轻的时刻而且你们有没有感觉到今天我们请这个还是很讲究的
在控制方面的专家感知方面的专家产品做过本雷达啊从产品从技术到研发到产品到整个的这个甚至到最后落地的体系那这几位我觉得今天应该晚上能让大家对巨神智能这个概念和这个赛道有一个比较清晰的理解啊今天绝对非常高配的这个新锐科技创新者组合啊
好我自己也觉得很兴奋很期待刚才我们这个上来先把这个巨神智能盘了盘这个定义咱们就直接是聊一个有意思的话题就是怎么突然一下这个人形甚至双足这个概念现在就热起来以至于当我们说巨神智能的时候好多时候大家脑子里想象的就是那么个东西就是这个里边到底
怎么理解啊就为什么这件事突然一下变得这么热这样做成一个双形双足的人形的机器人反而现在好像被资本也会追捧然后在这个各个领域里大家都会觉得特别愿意在这上面去做对应的这个投入
来给我们拆解拆解正好呢那个那个赵航刚进来嘛就你你所在这个领域里边因为机器人其实原来各种形态都有最近肯定你也会看到就是双足人形这个东西起来这个背后有什么技术的变化促进了他突然变得这么热嗯
我就先说纯从技术方向我们先不说商业相关的我们先说纯从技术角度来看我觉得是这样子我自己组也做一些这个足视机器人的移动
然后我觉得是在过去两年我们看到了对于足视机器人来说我们可以做一些强化学习的用强化学习的方法去训练这个足视机器人的地形通过能力然后我们发现了现在的足视机器人的地形通过能力用强化学习做已经比传统的
基于 NPC 的这些方案的能力更强了然后大家看到了这个足视机器人这个地形通过通用地形通过能力的这个进展然后我觉得如果纯从您刚才说到的双足这个角度来说的话我觉得是这个原因
但是我這裡有一個但是就是我覺得機器人的進展是遠遠不僅僅在於雙足或者四足的進展其實我們看到的更多是這個叫做通用的巨神智能的這個希望應該說就是從我的角度來看我自己是更多的研究視覺
基端技视觉以及多模态学习这个方向其实我们看到大圆模型在过去两年的进展让我们看到在自然语言中我们这个通用智能是可以实现的然后以及在基端技视觉领域现在大家也都纷纷积极地投入说我们要做到通用的视觉
如果我们再往前看一步我们就可以预料到那么下一步我们要做的是什么应该就是一个通用的巨声智能我觉得其实这个通用这里的通用的巨声智能是我们大家更加期待就也是看到了自然语言和计算机视觉的进展以后我们大家都在期待的这么一个突破
嗯 哎 你提到了一个非常重要的观点啊就是说别人看到的是什么双足人形但是其实你们看到的首先是说这种足视机器人它的技术的演进随着一些技术条件的变化有了快速发展的可能性对吧 这是一个变化再有呢 就是看到了这种通用这个词上面机器人的能力的这种发展那正好这个问题我觉得转到纪阳这儿啊
就是因为你刚才说了一个概念就是叫一脑多行对吧就是看起来并不是非得要人行不人行双足不双足但那个脑我们看得见是在快速发展这个你怎么理解就是这一波巨神智能的机会听起来大家好像这个机会真正落到的点是通用机器人这个方向你会怎么拆解这个概念没错没错对我觉得其实这一波呃
这刚才彭哥的问题是为什么资本市场对这个事这么追捧大家真看到了这一波技术进展带来的通用的可能性通用在技术上的表达就是单一产品的附加值变高了而且部署的编辑成本大大降低对吧其实两个痛点其实是我们过去看很多机器人产品都有的痛点一个产品能干的事
而且它部署的成本很高对所以关键的点还在于通用而回到通用的目标上来说我们看巨神智能要往未来发展我觉得是围绕两点去看第一个还是要保证它的通用性没有通用性这一波的商业化是没有可能性的第二个就是我们要有道理就是通用性跟道理
跟效率执行效率这两个就组成了这个产品的性价比就是巨神智能这种产品通用性和效率所以我们在看就是这个巨神智能体的产品化的这个过程里面其实在硬件上面在结构上面我们更关注的是怎么保证通用性和这个效率那么我们说人形人的这个构型里面有很多结构其实是有通用性上的优势的而这个通用性的优势
因為我們所生活的這個世界所從事生產的這個世界很多時候是和人有關的所以人的很多行是有通用性的優勢的
但是同时我们也要关注到人的很多构型里面它是有这个效率的劣势的比如什么是人形的优势什么是人形的劣势这个挺好我们站在人类角度自我复盘一下对吧什么是我们的优势什么是劣势我觉得我们再从一个更本质的一个点去尝试去思考一下这个事就是人为什么今天进化成这个样子是灵长类基因在大自然界强化学习的结果
经过了无数次的筛选进化然后 OK 这个样子是最好的所以那这样的构型最适合的是原始的大自然世界在大自然最原始的世界里面它的效率一定是很高最高的但是我们现在面临的大部分世界在经过人类改造的这个世界里面我们认为我们其实看一下把人的构型解构一下上之虚干下之简单来说是这样
上肢做的是高坐 躯干保持整个身体的重心的稳定性下肢做的是高坐和通坐其实是我们讲的话是这几个作用我们看到就是头肩结构加上上肢的双臂是通用性的一个保证然后头肩的这个结构嘛这是通用性的保证有很多现实世界的任务都是由这个结构来去做支撑的然后第二
就是驱干 驱干其实也很重要驱干它是保持我的重心的稳定性对吧 包括身上前后左右因为很多时候人在运动的过程当中做各种各样的任务我是需要保持我重心的稳定性没有驱干就做不到这个然后呢 那再看我们的这个下肢下肢是这个移动和通过嘛 对吧移动就是说平的地方那我们就走一走那通过是坑坑洼洼的我需要抬腿啊 迈步啊等等
其实我们看现在的大部分的我们所处的物理世界是只有一栋的通过的问题都没有但是它是一个大部分场景它不是最大的问题就是一个上下坡这样的会有但如果说上台阶下台阶过特别坑坑洼洼的石板路这是一定必要吗其实在很多地方它是不必要的而为了保证这一点的双足结构的效率其实在很多情况下
它的这个稳定性它的这个能源的这个效率其实都是要画一个问号的理解所以你其实说到这个就解读了这一点就是我们说巨神智能它本质上如果看到的机会是通用的机会
但在通用的层面下呢我们又不能只拿人类作为通用的极致的状态对吧我理解就是说这个世界已经因为人类的存在被改造了首先是这一点第二我觉得可能还有一个维度就为什么我们是两条腿这个事没准也跟这个人要控制多少个肢体这个我的总功耗对吧我的这方面可能没准有关系啊这个正好这个话题我觉得转到这个华哲这边啊
华智文对于是控制的专家其实当年开玩笑说为什么人不是八条腿你能八条腿你耗能也高很多你的控制算法要变得很复杂我开玩笑讲是这样但我其实倒不是去谈到这个我们是说这一波的巨神智能力肯定除了像刚才赵航说到的看到了对世界的理解就是他感知这个层面有进步
控制层面是不是也因此会有进步我相信一定是感知控制它要一起再放在一起来它才带来了这个通用能力的加强这个华智在帮我们解读解读从控制的角度最近有什么技术的值得关注的变化好嘞在这之前我倒是觉得上一个问题很有意思就是人为什么是两条腿这件事我其实挺
我之前想這些有的沒的所以我之前想人為什麼五根手指其實跟彭哥那個問題很像對吧人為什麼就手指來看我當時調研得到一個結論是我們最開始可能有十幾根手指
然后逐渐发现他们在一起操作东西并没有那么高效他就逐渐有一些不用他就没有了消失了变成我们一些手鼓然后最后就到五根的时候发现我们这个操作做起来比较灵巧而且也比较高效腿也很
没有可能是这样我们可能最开始四条腿并用对吧走着走着然后发现我要摘果子但是呢我又这个身体构型其实生物很难这个长出新的这种腿出来但是很容易就是没有用的东西消失掉对所以两条腿是可能是因为这个当然这不是一个科学的结论这只是我自己很喜欢瞎想而且也看了一遍
生物学的一些小故事对但至少说明了人类这个构型未必就是被设计的最完美的一种通用化的构型对吧对但是应该叫人类是从人类的随机种子开始演绎
演示强化学习出来的一种比较优的构型但是从所有的随机种子出来都是最优的构型对然后回到咱们这个言归正传回到咱们这个控制上面的这个进展我觉得最近这个主要还是基于学习的这种控制算法有了一些
进展比如说我们模仿学习模仿学习是一个老话题在 CMU 他们用 Alvin 最早做宗家史是模仿学习对吧然后包括来自日本他们做 learning from demonstration 是模仿学习但那阵子的模仿学习只能解决一些限定性的问题但最近模仿学习它可以跟什么结合跟很火的 transformer 跟很火的扩散模型对吧 diffusion model 去结合
这么一结合以后我们发现这模仿学习的表达能力上来了它效果非常好比你传统的用一个多层感知机的这个神经网络去直接预测一个动作能表达能完成任务又复杂很多原来可能就是抓一个小物块放到这儿现在我想大家可能在网上也看到很多可以简单炒个菜对吧然后可以把这个
笔杆怼到笔杆里等等更重要的是模仿学习它本质是一个监督学习那么这种监督学习的范式大家一定听起来非常熟悉像什么像 GBT 像大模型大模型就是数据驱动的一种监督学习只要你数据多了那
大模型就 work 了那我们很自然的类比到机器人是不是这种模仿学习可以重现大模型的这种成功当我们有很多这个数据的时候随着模仿学习表达能力越来越强能吃的数据越来越多是不是它的
也能产生巨大的成功这是我们一个基于学习的控制上的进展另一个就是赵航老师刚才提到的强化学习强化学习本质是什么呢大家应该都看过巴普洛夫的狗就是说你做的好了我就给你点好吃的你做的坏了我就揍你一顿当然我们不要揍人不过
不管怎么样就是不停的去奖励这个机器让他越来越懂得这个怎么样做正确的事这个事情最开始只能走一些格子走一些迷宫那种小玩具但现在他可以真正控制一个机器人让他做很复杂的事情包括什么翻跟头对吧包括跑酷等等等等那这样的强化学习手段给我们了一个信心就是
learning based 基于学习的控制器是可以落地的是可以商用的是可以放在最先进的机器人给我们带来真正的价值的我想这也是这波巨神智能从控制的角度来说一个很本质的
就是我们如果对比一下在这个强化学习这样的技术路径今天看到这个明确的落地希望之前那个时候的控制本质上是不是就是都是要人来帮他们编排很精准的那些动作其实本质上他是自己不具备这种所谓的跟真实世界交互中学习的能力我不知道这理解对不对
在最近基于学习的之前有两种一种是视觉引导的控制就是说我通过计算机视觉的手段去定位我要干什么事比如说大家都看过中介者对吧把这个东西扫描出来然后我让机械臂到这个地方然后把这个地方扫描出来然后把枪比如什么打在那个地方这是一种视觉引导的
另一种是基于优化的就我有一个目标函数我目标函数是我手上拿着一个小棍然后让它不倒然后让它保持平衡这件事就是传统的控制论会解决这样的任务而且做的效果非常好但它的问题是不能放话没有办法做多量的任务没有办法在开放世界做这样的任务
嗯就是这就造成了咱们说所谓为什么这一波的巨神智能核心的那个点是在通用上对吧就是这个东西才让大家觉得看到了很大的希望摩托车呢有点像之前上一波的 AI 1.0 我们
曾经看到 AI 超强的能力之后无比兴奋中国也诞生了很多这个 1.0 的 AI 的公司但后来发现这些这个 1.0 的公司 business 都做的挺苦的因为到最后呢它无法范化无法通用最后每一个可能都是个项目
然后大家最后在里边你收不到足够多的钱你不能把你的编辑的收益放大编辑成本降低对吧这个其实就造成了说虽然技术是有进步它有这个能力但它最终不能支撑一个足够繁荣的市场和足够有价值的商业模型所以这一波的决心智能看起来就是从技术到产品到它最后的商业模式看到了因为有通用的这种可能性带来的机会
所以这个我觉得算是我们把这个捋的比较清楚了那咱们再来聊聊这个全球这个整个在绝传智能领域里还是有一些巨头的公司在过去一段时间里有很多的进展咱们盘盘他们的进展吧我记得反正这里边你看这个 Google 啊包括 OpenAI 啊包括这个 Tesla 包括英伟达对吧
这几家从你们几位去看怎么分析分析他们有什么路径的不同吗他们的进展哪些东西是谁在哪个方面做的最棒的咱们来先盘盘这几大件我觉得都可以说一说啊这个先从这个季扬开始你觉得这几家里边你可以圈点一两家你觉得谁是谁我觉得做的特别棒他在哪个点你不一定每个都说啊你可以挑你觉得你最认可的你最关注的 OK
好的好的那我就说一下特斯拉和 Google 吧因为这两个可能就是最有代表性嘛对吧然后呢特斯拉其实是它掀起的人形机器人这一波浪潮嘛但事实上特斯拉可能跟所有其他的人形机器人公司都有一个很大的不同点这个我不知道大家有没有关注到就是它是在自动驾驶在智能汽车上面迭代出了相对完整的智能系统它有这个重要潜力
然后去做这个人形机器人对所以也就是说它其实是已经有了一个很不错的大脑了这个大脑能够很好的感知它的这套 FSD 对吧它的这个 Occupancy Network 然后同时它还能做很不错的移动控制当然它取杂的是这个 Local Motion 和上肢的这个 Manipulation 的这个能力对那这个
它要拓展的部分对但是这个是一个重要前提所以我觉得它会是一个跟可能所有其他的人形机器公司我们看到的都不一样的都很特殊的它有一个非常强的优势在这然后呢这个 Google 呢我觉得最近大家就关注到它的这个可能 RT 系列的这个工作对吧它可能更多的这个切入点就是说我怎么通过一个相对通用的巨神之声大脑然后去这个操控 RT 系列可能是做的这种
輪加幣的 可能也做過其他一些機械幣的工作那我覺得它的這個切入點更多的是從大腦的這個方式去切入的包括最近其實還有一家美國的公司剛剛創業就是這個 Physical Intelligence
提出说我做这个 one robot foundation modelcontrol all types of robot 就是它其实类似吧我觉得一脑多形就是一个巨神成大脑去控制多种类型的这个构型的这个身体对我觉得这两类企业都是这个蛮有意思的然后呢
很独特的人型机器人公司因为它有在自动驾驶上都迭代出了完整的智能的这个大脑然后呢这个 Google 它从这个大脑出发派从大脑出发然后去做一个这个机器人的这个 Foundation Model
对这两个路径不完全一样但是他们各自在那边都有对应的优势这点我觉得刚才这个姬阳讲的挺到位的那我再问问华哲你怎么 OpenAI 最近也在这方面有所进展跟那个 Figure 他们的
一起有一些让大家觉得还挺震惊的这种进展但是我们都是从外边看一个表象觉得很不错然后包括英里达其实刚刚 GTC 里边也把居神智能当成了非常重要的条件你想压轴到老黄弄一堆机器人他站在中间还来一句 About the same size 特别会玩人家特别能找出这个感觉不愧是科技圈美眉的感觉
你看英伟达 OpenAI 也都在给大家一些看到很震惊的进展你怎么看这两家他们的路径有什么不一样吗有什么值得圈点的东西吗好的对这两家其实也是非常了不起的公司了 OpenAI 其实做了一些很神奇的事情首先他从策略上面他投资了 1X 这家公司然后跟 Figure 这家公司合作
就是我头一家跟另一家合作而且他跟 Figure 合作的那一天 1X 的 Co-FounderEric Zhang 在推特上面发说真是伤心的一天不过也能看得出来 OpenAI 对机器人是非常有企图心的
或者说 OPI 最初就是从机器人起的家对吧他从强化学习打 DOTA 对吧然后机械手转模方只不过那个时候 AI 还不够成熟他想率先找到 skating law 所以他选择了数据最多的赛道就是语言对吧现在语言赛道他现在
應該可以叫做世界第一他現在要找影響力最大的在路賽道而不是因為他已經找到了他現在要把他規模化他很自然選擇到了機器人這樣一個賽道然後看 Figure Demo
我觉得这个 demo 其实细想技术没有那么难大模型去问他一些问题然后做一些视频理解让他输出出来然后手上这个动作当然他做的很丝滑很优质但是给我们未来感的冲击是特别大的让我们看到这个天然智能未来真的成为我们的家庭保姆家庭助理的这样的一个未来其实
是有可能改变我们这个未来社会的形态的对吧所以 OK 我觉得它更像是让我们见未来这种感觉但如果去看这个 NVIDIA 去看这个老黄这边的话老黄这边的话其实更像是一个传底座这种感觉它
他并没有说我要给你一个做出一个最好的那个未来这种感觉他联合所有的公司然后他在这个公司里面搞了一个计划叫做 GROOT 对吧 GROOT 这个名根对吧根计划那这个就像是这个一个我自己理解这个可能不一定对就像一个树的根它这个
所有的人形都是根上面的须子他希望通过这些根给巨神智能汲取养料然后集中到他 Groot 那他在 Groot 提供治理提供算力底座提供一个通用大脑就像我们今天聊的
巨神智能和一脑多行一样去把底盘做好我觉得一个是我觉得 OPR 还是偏向于冲上线这种感觉而老黄就像他做英伟达显卡他想要做一个最扎实最了不起的盘子这是我自己的感觉
总结的非常的形象啊让我觉得也是很像这两家公司的风格啊这个我觉得就是他们的定义不一样那这个正好我就转到这个赵航这儿啊刚才我们分析了这个四大家啊这个各有各的特点但如果我们从技术路线上去
去做一下分析或者说在他们的对应的路线里面未来你觉得这个最关键的那些点帮我们盘点盘点这几家他分别在这种技术的路线上有什么不同有什么相同然后这里面我们从他身上能看到未来的哪些确定性或者不确定性就基于这几大家在做的事情你会怎么分析这件事嗯
好的 我觉得这个问题非常有挑战首先我就大概盘点一下各家的技术路线首先谷歌我们看到的是但是我们其实没有非常看到确定性的看到谷歌在做哪一个居身智能的产品那么我们能看到的是它想基于谷歌谷歌想基于自己的大模型然后来做一些像 RT1 RT2 等等相关的一些
对 它那个 RT1 到 RT2 包括帕米等等这样的我们怎么看它这几个中间的这种变化这个里面体现了 Google 的什么思路啊
其實我覺得就是從這幾個工作我們還是可以看到首先當然我覺得這是一個技術性的探索那麼谷歌我覺得在全球這個範圍內如果論技術探索學術貢獻我覺得是最大的肯定是最大的企業它的貢獻遠高於 OpenAI 我覺得 OpenAI 更多是它是一家想要把技術產業化的中間的這麼一個轉化的
把最前沿技术挑出最有希望产业化的前沿技术并且将它规模化的这样的一个公司而谷歌的风格是进行基础的探索各种各样其实我们看到最近几年的新的技术
其实很多都是从谷歌出来的像 Transformer 最近视觉里比较火的像 Nerf 像这样的技术其实都是从谷歌出来的所以我觉得谷歌更多是一个百花齐放的这么一个探索型的一个公司那么其实对于它的挑战来说也就是大家都看到的最近 OpenAI 对它造成的威胁那么当它百花齐放的时候什么时候能够
收敛什么时候能够聚焦我觉得这个对于谷歌来说是一个比较大的挑战我自己我们也在谷歌 Alphabet 工作过这是一个还是挺深的体会也是对于谷歌的一个挑战然后刚才说到 OpenAI 是一个能从现有最前沿技术里选出
挑选出那最有希望规模化的比如说他挑选了尝试了很多方向是吧一开始包括机器人的那么他最后挑选出的是语言模型多摩泰达模型到最近的 SORA 算是一个基于 Diffusion 的生成模型他挑选出了这些最有希望的这些技术点然后将其规模化然后我觉得这是他的特点
然后英伟达刚才其实徐老师说的已经挺透彻的那么英伟达是希望通过它的算力优势来构建首先模型训练第二个仿真平台给大家提供这样的一个可以在上面各种玩耍的这么一个基座然后让
大家去充分发挥想象力去做一些创新那么然后再说到特斯拉然后这家是我自己觉得感触最深的公司因为我们之前在 VIMO 工作我和季扬都在 VIMO 工作然后大家要做对比的时候都是把 VIMO 和特斯拉进行对比
如果說你說今天有哪一家公司把巨聲智能做成了我覺得我的答案會是特斯拉那麼當然說的不是特斯拉還不是它的人形機器人而是說它的這個自動駕駛那麼什麼叫做成了呢我覺得它已經在往我們能很明確的看到它在往這個通用智能駕駛往真正我們想我們期待的這個 L3 L4 的方向進發了那它是怎麼做到的呢我覺得有兩個重要的這個時間節點
第一个节点是感知的通用化感知的通用化是什么意思呢对于其实我们上一波看到的很多计算机视觉的突破我们都是做二第视觉这个做一个人脸识别或者做一个人的姿态识别等等那么对于巨声智能来说什么是通用的感知通用的感知我觉得是两个方面一个方面叫做语意的感知另外一个方面叫做几何的感知啊
所以我们这双眼睛其实在看世界的时候我知道它这个东西是什么然后以及它的形状是什么样子这样子才服务了我们能够去绕开它像自动驾驶就是绕开它或者说操作我们就去移动它其实也就是实现这两个功能然后
在大概两年前的时间两年前左右的时间那么特斯拉提出的 Occupancy Network 其实不是他提出的而是他把这个做到他的自动驾驶的产品上我们看到了这个通用感知的这个希望嗯
这是我觉得第一个点我自己特别受震撼的然后第二个点也就是最近的 FSD12 大家看到的一些进展那么很多乘客说我坐上 FSD12 以后觉得特别的顺滑这个驾驶的感觉非常像人开的那么这是为什么呢这是它把后面的我们把自动驾驶分为感知问题和移动规划控制问题
那么它是把移动的规划控制问题也用我们 AI 的方法用神经网络的方法用神经网络化了然后它就从人的驾驶行为去学习所以最后能带来的结果就是大家在乘坐这个 FSDV12 的时候那么感受特别的顺滑和人驾驶的非常相像那么其实把这两段串接起来我觉得已经我们看到了这个最终实现嗯
所以说并且特斯拉在这个过程中并不是靠纯烧钱实现的它是通过卖它的新能源车收集到更多的数据构建超强的算力中心训练模型然后再部署给每一辆车主来使用然后它通过这样的方式一个不烧钱的方式把一个非常高的数据的设计
非常复杂的巨声智能问题我觉得自动驾驶是一个非常简单化的巨声智能问题在道路上比较简单并且我们不用操作物体我们只要避开它们就可以了在这个相对简单的巨声智能问题上我觉得已经初步达到了我们所想要实现的目标然后我觉得特斯拉对于我个人来说震撼是最大的
哎呀看得出来啊这个明显的确实是抓你这么一分析你看 Google 呢有很多的这个基础研究有突破很多今天的进展的根源都源自谷歌一看人家就是非常赚钱的一个优秀公司但是同时也在推动技术的进步对吧但他里面呢就是论文的价值给我们的震撼很多但是他大部分没有到产品这一次然后英伟达呢就是人家是在老黄是在布局
反正这条赛道如果要可以的话我这个最终那个根要汇到我这边来你听起来他在这方面这方面的思考是比较多的对吧然后 OpenAI 呢就是引领人类向前想象对吧然后解锁一些这种可能性然后这个我觉得他做的非常的到位非常的好然后但是反过来好像确实是 Tesla 是真正如果我们说巨神智能那在这个自动驾驶上不就是四个轮子的机器人
对吧然后在路上这个场景里边呢它的进展应该是整个全人类企业里边做的最到位发展的最好而且它是真正的有这个 grounding 的有完整的这个落地的所以某种程度上我觉得它在这条线上还是打了个很好的样也看到了这个这种
未来巨神智能进一步发展尤其是在进一步通用化去起作用的这个空间那说到这儿我觉得正好也转回来这个纪阳在这里面今天三位里面纪阳是一个已经投身到军事智能赛道的创业者我们 Founder Park 的直播间里经常有各种的创业者也有很多这个技术的这个优秀的人才包括我觉得未来可能今天在关注产品未来都有可能变成创业者的人
其实创业这个事儿也是挺有压力和风险的,这个激扬在这个时候虽然是一个很热的赛道,看起来也有很多的前沿会愿意支持,但我觉得你也得构想一个问题,就是你在这个赛道里,你看我们当时一说这四大家,对吧,那你一个创业公司,你怎么定义自己的空间和价值呢?
你用什么样的方式去发展呢对吧我们看完人家都觉得很棒但是你作为一个新生的创业公司你怎么定义自己的这条技术路线上什么东西是给你们这样的创业公司留的机会你肯定思考过能不能跟我们分享一下你的一些思考我觉得这里边核心的一个点呢就是这个做居身智能这个我们往前发展的这个核心路径应该是什么对吧这个问题说出来我觉得很多问题其实都有答案
巨神智能的核心在于数据,我们判断下如果只挑一个,那巨神智能就是要找到巨神智能的数据来源。对于一个公司来说,核心的壁垒也在于持续地从物理世界获取数据,并且高效的使用能力。
所以我觉得我们沿着这个往前说然后我们去想任何一个 AI 产品其实我们回顾过去很多 AI 产品它背后都是四个要素的循环商业价值数据的规模和质量智能程度产品力这四个要素因为我有产品力所以我能产生商业价值是因为我能产生商业价值所以我的数据的规模和质量变得更大了我的数据的规模和质量
然后变得更大了之后我的这个智能程度变得更高然后推升了我的产品力进一步提高对吧这四个要素其实我们看所有的这个 AI 的产品商业模式都是这四个要素那这四个要素谁赚起来了谁没赚起来这里边的关键点是什么我们看起来就是有两个成本必须要控制好就是第一个对
这个我们叫数据的获取成本第二个呢就是支销成本基本上就是过去所有成功的 AI 公司 AI 产品都是这两个成本很低
干的不那么好的公司或者是行业都是这两个成本没控制住都很高我们具体来解释一下什么叫产品的失效就是 AI 这个特性它一定不是工业自动化它一定有它失效的时候那它失效了之后给大家带来的麻烦不能太大简单来说就是我不能天天给我带来麻烦给我带来的好处还要多那你没有价值对吧所以
这里边其实这个很关键我们说这个产品有剩余就是它单次失效的成本要小于两次失效之间的收益这都能算出一个公式来是吧这是有一个标准公式可以计算的我们可以其实我们可以带这个思路去想一下嘛 CHIGBT 如果它失效了它给我们带来的损失是什么大概浪费了我可能 30 秒的时间我跟他说了一句话给我正确答案嘛这就是它的失效成本
然後我們再去看 L4 級別的 Robotex 它的失效成本它失效了可能賺一下可能少則是幾萬人民幣多則是幾十萬人民幣的規模如果我們去算它的經濟價值的話你看這兩個成本截然不同你為了這個失效成本能夠算得過來賬那我得在兩次失效之間它的收益足夠大
這個產品能夠產生正向價值的預值是不一樣的
這就是我們為什麼特別關注 AI 產品的失效成本你看現在 Source 的失效成本也很低你弄錯了給我渲染了一段錯誤的視頻可能 OK 啊沒關係我再渲染一個嘛或者是能火的音樂生成也是娛樂類的吧但是但凡涉及到物理世界的它這個失效成本一定都會變得更高所以我們特別關注這個失效成本第二個就是這個數據的獲取成本
获取成本如果高意味着我这个数据获取的过程当中的总成本高总成本高我的智能的总成本就高所以你看 GPT 它是从互联网数据出发的
大語言模型 從互聯網數據出發而且在這個轉整個數據閉環的過程裡面是和人對話這種數據獲取成本也很低我們看另外一個 Robotex 這個數據獲取成本就很高大家靠開採集車數據去採嘛對吧所以我們在這個過程裡邊就特別關注這兩個成本那麼
剛才說的這個核心的路徑以及這兩個成本如果我們想清楚了那下一個問題就是我們要在這個新的技術帶來的新的供需關係裡面我們去抓住一些機會然後先打得到這個
然后呢把我们的这个商业价值提供出来然后构建刚才说这四要素循环这个就是我们前进的这个道路其实这个物理世界机会我觉得是很多的不用去创造 PMF 因为遍地都是每一个蓝领工都是一个 PMF 对吧关键看我们能做哪个
能够在哪一个这个岗位上能够把这个通用性的价值提供出来能够把效率做上去能够把账算过来那我就能够去赚刚才这四个要素的循环所以机会我们
而这个机会掌握在那我们就要看这个机会背后的变量是什么这个变量来自于技术所以这个机会背后的这个变量掌握的这批人那么他们就是最有可能把这个事做成的那批人对所以所以我觉得整个这个推理下来这就是我觉得我们创意创意公司的机会嗯哎呀特别棒哎呀我觉得这个
新锐的年轻的创业者就是这么厉害你看这件事非常结构化刚才你们仔细听激昂给你们做拆解他其实已经非常清晰的定义了他们这群人要在什么方向上去发挥他的空间对吧咱们不管是 TeslaGoogle 他们有他们的套路英伟达有他的套路但是一个创业公司他要在一个技术潮流里怎么定义自己的东西
他这里边甚至都有一套公式来去衡量包括他说的这个叫一脑多行我就能理解了就是你一定会在这个脑上面去不断的随着你的脑的能力的提升去匹配对应的场景所以你看原来叫 PMF 现在其实是个 TMF
就 technology 和 market 的 feed 那你这个脑呢就是那个技术你只要能够去 feed 任何一个这个场景那你基本上就可以在巨神智能上创造对应的价值就这个东西就是控制你的这个所谓的失效成本
和同时看你的数据循环这个层面的这个能力这个我觉得就有了一个拆解我们怎么选择做什么东西用什么节奏做事的方法论这个我觉得听下来这个想的很透彻那我觉得说到这点也让人觉得很感兴趣你看这个去年到今年逐渐我们发现说这个大模型领域里
大家开始总结说大模型相关的技术公司啊往往里边得有人做过搜索的有比较强的工程能力的对吧就是能弄个什么万卡集群搭过的对吧然后还得有的是算法很强的人一般这个团队里得有这样的人组合在一起才是在这个大模型领域里能做出事的那我就很好奇啊咱们先从这个巨神智能这个技术战上去看
这个技术战上要想能在技术上就这个 technology 要能往前做的更好他需要哪些技术战需要哪些历史能力比如说刚才我们聊到说好像做个自动驾驶的看起来有点像当年说做过搜索的是那种感觉对吧就是哎哎那个在巨神智能上他有点类似于像来做过搜索的但但我我想听听两位啊这个华哲和赵航都可以帮我们分析分析华哲你怎么看就是如果要把这条巨神智能技术做好往往需要哪些
能力的人组合在一起能把这个技术往前做得更好我觉得要把巨神智能做好因为巨神智能是一个怎么说呢很广的一个概念对吧所以我们需要这个人工智能里面熟悉视觉对语言和机器人这三方面对吧或者叫做强化学习这些方面的人那这些方面的人可能当然像赵航老师
可能是直接就做多模态一个顶好几个但是如果我们不做多模态我们就得有懂视觉的人有懂语言的人有懂大模型的人然后一起来做智能的部分当然为了让机器人真的跑起来真的 work 我们还需要有懂机器人比如说我要有运动控制的人
比如说我要有懂 ROS 机器人的操作系统的人才能把这些传感器跟机器人本体跟底层连接起来让机器人动起来让机器人能做事然后 AI 这块的话我自己的体验是还需要有一个人是既懂 AI 又懂机器人经常 AI 之前在 AI 之前的发展经常是以计算机视觉为代表
经常是纯软件经常是在这个就是去调一个实体网络大家玩实体网络里面的这个加个 BatchNorm 加个 LeadNorm 加的特别特别溜但是你发现他一碰那个物理世界那个真机就玩不转了让他比如说这个地方可能要 3D 打印个小件或者那个地方可能要怎么就亮红灯了他怎么就不动了他就搞不定了而搞机器人的人一般这种事情能修的特别好修的特别特别特别快但是呢你让他
神经网络训格分类器他搞了一周可能也搞不出来现在我们需要就是既懂这块又懂这块二合一这样的人我觉得特别重要也是必须要有这种因为两个人合作其实有沟通成本如果一个人会两块这样的人我觉得也是非常宝贵的当然这不全面了赵航你这个多么太一个顶了几好几个的来了你给分析分析
我觉得学长老师说的还挺全面的但我补充一个我自己也是自己感受比较深刻的方面就是说怎么搞数据我们先不说这个数据的来源是什么就是说有了这个数据以后你该怎么用它
这个我觉得特别关键在我们看我们上一代 AI 的时候上一代 AI 浪潮的时候有了数据以后我们怎么办我们就找人标这个固一个画一个框多少钱点一个点多少钱然后就就把他们标上了但是我们现在遇到的问题是通用智能这个是
世界上的物体成千上万类然后比如说我的机器人要和人交互也有成百上千种交互方式就这么多各种各样的数据我该怎么样去标注它我该开发出一个什么样的方式然后让它和我的任务或者说广泛的要解决的任务它是匹配的我们该怎么样去定义出这一套
这个数据标注方法那么我觉得现在我们已经隐约看到了一个整体的范式这个范式叫做在线的叫做模型训练这个在线模型训练是我们冰山上的一角我们大家都看得到的就是说我有数据了我就去训那个 transformer 模型用不管是 next token prediction 还是 diffusion model 我就训它这是只是上面训练
训练的部分然后下面的就是我刚才说的到底该怎么样去构建这个数据集的标注啊这个标注我们已经不能像上一代一样因为我们的任务变得特别特别的复杂啊然后我们的数据的多样性也变得特别特别的复杂已经不太可能让一个人啊我就告诉他你去把这个
場景這個物體的方方面面全都標註過來我們該去怎麼樣構建一套自動標註系統嗯這個自動標註系統呢我說的我們看到的理想的情況是 99%是自動的 1%呢是人工介入的啊那麼他像一個飛輪一樣 99%的時間他在自己轉動但他出現了一些小小 bug 卡住了然後我我來一個修理工數據修理工然後來修一修然後讓他繼續轉下去
然后呢通过这种自动数据标注的方法我们能够把海量的我们收集到的我们假设我们能收集到海量的数据能够自动给标注好那么其实在大语言模型里我相信也有不少这样的工作但是它都在
我们刚才说都在水下大家可能都没有看到我有了这些互联网数据以后我到底该怎么清洗它怎么标注它让它变成我一个可用来模型训练的东西我觉得这个能力特别重要而且大家可能关注的也比较少
这个引发一个有意思的点你看这个其实本质上从去年大圆模型到今年我们看到 OpenAI 推出 SORA 大家都发现说 OpenAI 的 GPTCV 本质上其实在 SORA 的诞生里面起到了很大的作用因为它本质上其实在里面做了很多机器在做标注你就发现有点说大模型自己踩着自己在前进
对吧就是他往前倒一届台阶然后突然自己这手一拉把这只手拉上去了就是出现了这个未来机器人领域是不是也要面临这个问题就你说的这个对于数据的问题是不是本身
他考验的也包含了这个因为这次我们看到就是说语言模型的出现跟这个机器人相关领域的这个交集啊就带来了很多的变化嘛是不是未来也会出现这种情况就是说你刚才说的数据的标注对真实世界的理解这件事可能都会跟语言模型本身有交集所以他两个东西是融合在一起就是会不会这个也是一个重要的需要的能力
嗯 沒錯沒錯 我覺得這個問題非常好其實在過去我們看到的其實在上一代也有這樣的類型的公司比如說 Skill AI 他們希望通過一個半監督學習的方式我來採集更多數據當我採集到更多數據的時候進行一系列的自動標註也做過這個事情但是
其实半年都学习的能力的上限其实我们还是比较看得到的它的饱和我们比较容易看到到了这一波以后我们发现这个领域之间学科之间的交叉它变得越来越频繁以后我们可以这个
借其他家的力量然后能提升我家模型的能力就像您刚才说到的这个 Sora 是一个特别好的例子其实包括那个 Dali3 对应该是 Dali3 这个 reportDali3 这个 report 很有意思它没有讲它做了什么模型
他只讲了说用 GBT4 来做自动的他没有直接说 GBT4 但就是说类似于 GBT 这样的视觉语言模型来自动帮助进行图像生成纹身图进行数据标注然后标注出来标注和筛选
然後得到高質量的文本和圖像對然後我們生成這樣的數據集以後就能夠用來訓練出一個 DALI3 了然後他們發現他具體做的事情是比如說我們從互聯網上原本原始採集到的數據它都是有一張圖片是有的但是它下面的標註非常的稀疏或者非常亂混亂我到底該如何把這個標註從
一个非常短的质量非常低的数据给它自动标注成一个高质量的比如说每张图都有十句话来描述它里面每一个物体每一个物体的颜色特征和其他物体的关系等等就是如何把它这样的数据能自动标注了
这个是达里三我们看到纹身图领域看到的一个现象那么再回到我们讨论的巨声智能的问题巨声智能面临的问题特别难是吧就是每一个机器人他至少都有视觉那他拍到的不是一张图片他拍到是一个视频流
那么这个视频流里的这个信息量是海量的我们该如何去标注它就是假设我用语言去描述可能我一个短视频我都能够写上个一千字左右的描述把它里面看到的所有东西都用语言描述出来这种方法是不是一个高效的合理的自动标注方式那么我觉得这些问题都归属于我刚才说到的如何把这个数据的自动标注飞轮
给赚起来的能力我觉得有这种能力的团队在当前非常稀缺甚至我们都没有看到团队把这个作为它的核心竞争力的卖点来讲出来的团队我们都不太有见到但我自己觉得这个事情是我们特别关注的未来也是一个核心的竞争力
同意同意确实我刚才这个赵行帮着定义了这里面很重要的一点在数据维度的这个能力那我觉得再问问季阳因为刚才直播间也有人问说你这个一脑多行大家可能在关心说你是不是要做端到端对吧就是从端到端是指说你从脑到形体到最后的产品交付
还是说你就把脑造完了,OK。那如果要就造脑呢,就会出现一个问题,就是你这个脑子最后落到别人身上,人家的数据不给你怎么办?这些数据怎么去循环?所以我们也在尝试理解,就是你这个一脑多行,最终是不是这多行都得自己做,还是说你就把脑做好就行,你们会是怎么个思路?
对我觉得在这个里边这个问题特别关键也是其实现在很多创业公司我觉得大家选择路径上的一个不同的表达那这个事是这么思考的就是说巨神智能公司我们还是回到巨神智能公司的核心壁垒在哪就是从物理世界持续的获取数据且高效的使用数据的能力这是巨神智能公司
核心壁垒这也会是和大元模型公司有点不一样的地方因为啥呢大元模型公司
可能我百分之八九十的数据都是开源数据吧然后呢这个我稍微自己再搞一些但是对于巨型智能公司机器人公司未来大量的数据都是必源的对的自己搞所以这个也是我们之前做自动驾驶的一些经验就是有这个数据的自主权是构建数据飞轮的一个重要条件那我们的这个在第一个大的发展阶段一脑多行的第一个大的发展阶段我们一定要自动驾驶
我们一定要做
同时我们不仅做硬件做产品我们还要去有线下的这个渠道和运营能力因为没有这个能力你也扑不出去嘛对吧这个咱说跟大圆模型对比大圆模型是个线上的问题巨神智能是个物理世界的问题所以就是我觉得一切的一切回到说我们做巨神智能公司到底在做什么我们做的就是持续的获取数据而且高效的使用数据的能力那么围绕着
这个能力的构建我们拆解开来咱们刚才说到的就是 AI 的能力对吧这个徐老师都已经给了很清晰的一个描述那同时我们要有这个型的能力就是产品硬件同时我们还要有把这个脑和形构成的产品在物理世界铺出去的能力这三个
就构成了我们这个我觉得是一个公司的核心能力回到彭哥刚才的问题我们怎么对待型我觉得这个事我们第一个发展阶段就是自己做这个型那么随着我们的型越来越多随着我们在物理世界的这个终端越来越多我们的数据越来越多我们的智能程度越来越高这个时候脑会发生变化脑的部署编辑成本会越来越低也就是说
从 GPT1 到 2 到 3 到 4 的时候你看它有 GPT Store 了是吧这时候允许大家用很简单的方式很低成本的方式去构建自己的 agent 智能智能也会到那个阶段到那个时候才是把智能智能大脑作为一个开放平台开放出来说那你也可以用一下我也可以用一下但是没有前面的累积这公司是到那个阶段的有
有点意思啊本质上是一颗大脑但是通过不同形体分布式的成长有点像 MOE 对吧就是把它放到了不同的这个形态上但是它那些形态一定是适配特别的领域对吧然后再结合统一的大脑但
最终是整体的成长就是这个我觉得可能是巨神智能的一种有效的成长路径啊但是我觉得这对创业公司确实提出了一个比刚才咱们聊说只是谈技术更复杂的挑战技术里边设计包含这些但你要是个创业公司我觉得你还是有这个觉悟的啊是吧
咱不光是把技术做到他你最终东西还得卖出去这个价值还得能够正循环啊这个可能就是创业就得有这个觉悟他不是在一个大厂里有人养着你去做一个研究他最终是要自己能够循环着往前走的啊其实还是蛮蛮有挑战的一件事但其实可能这也是创业公司有意思的地方啊
那我们刚才聊到了这个巨神智能的我们怎么去理解拆解它这个巨神能力包含的能力对巨神智能的创业公司到底考验的是啥我觉得也有一点最近大家在聊说未来巨神智能会不会有一个 foundation model
对吧,未来是不是就是你像 OpenAI 就是他要推进 AGI 的到来,他是不屑于做某个垂直领域里面去做对应的优化,他就是要做那个最通用的那个东西。那这个巨神智能未来它会是一个什么样路径呢?就是他
这个所谓的一个 foundation 的 model 一个世界模型对吧就是最终它的出现然后就一下变成了一个智能的大脑就成熟了这个是会这么发生的还是它就是一步步的在不同的场景里边去解决一个一个的问题最终在汇聚在一起
所以会有一个什么这种随世界模型 Foundation Model 最后变成了一个智能操作系统这样的可能性吧我看也有一些公司就在做这样的这种思路啊我不知道你们各位怎么怎么评判要不这个华车可以先说说
好的机器人的这个 foundation model 其实是一个还颇具争议开放性的话题比如说前一阵子是有 RFM 对吧 Robot Foundation Model 我们也看到它有
有一定的能力可以去预测出一个很顺滑的轨迹然后可以去通过自我反省然后知道我这个地方该换我的末端执行器了我用吸盘吸不了的时候我换成甲爪等等等等这个 Fantastic Model 肯定是一个非常值得探索的道路但是目前来看的话有几个本质的
或者是本质的困难就是说在机器人这个领域数据到底怎么样融合在一起是一个非常难的问题比如说在自然语言无论我说的话腾哥你说的话或者是在座的各位老师说的话其实都是一样的我们说的都是中国话对吧都是可以迅在同一个模型里但是在机器人里面有一个特点就是数据是异构的我们这个世界上数据机器人和机器人之间是不同的每个
关节它的电机性能是不同的机器人长的样子是不同的有可能有些机器人是录的视频有些机器人看到的是点云对吧等等等等这样的异构数据如何能很好的融合在一个模型里让它迅起来这件事情
是非常有挑战的一旦这件事情如果有了突破有了解决那么我觉得机器人的 Frontier Model 应该就不远了但是就目前来看那个突破的点在哪还在不停的在各个小的路上在尝试中每个人都在做包括我们也在做包括前一阵子我看到 MIT 他们有一个小论文应该不叫小论文就是一篇正常的论文然后他们就在做就说
我如何把人类的数据和机器人数据然后等等这些数据全都融合在一起迅到一个模型里面这个说明不止我们发现这件事全世界很多脑袋都想到了这件事然后大家也都在解决这件事看起来是在玩数据其实本质是在推向能不能找到属于机器人的仿真式 model 有道理刚才咱们你看大家都会聊到数据相关的问题因为如果这个问题不解决它就不存在 scaling law 嘛
对吧就是他就没有办法这么去发展所以看起来咱们说巨神智能这个事还真不能上来就是看机器人就是其实数据现在是个比机器人还大的问题对吧就是如果想要看他快速的发展那赵航怎么看对我觉得
做一个 foundation model 端到端的解决就是从技术上端到端的去比如说视觉输入动作输出去解决一个具体的问题我觉得这个是应该是我们的终局但是刚才提到了薛老师提到说这个数据没有数据没有不是说单点的数据没有其实我们没有的数据是既有比如说刚才说到的 robot foundation model 它里面涉及到视觉语言动作
這麽幾個模態這三個模態都組合在一起的數據其實很少對吧就是說我去工廠收集很多這個機械幣操作的數據是 OK 的然後我在互聯網上去找人去標註一些圖文對的數據也是有的但是這三個組合在一起這樣的數據根本就沒有所以說我覺得有一種思路
就叫做对于端到端的任务技术任务我们做一个模块化的切分比如说当然我这个切分并不是说我们单独的去做而是说我们通过做合理的切分让每一个模块它的数据量都能够过得足够充分的数据量数据供给比如说我们感知和语言视觉和语言我们发现它们是能够一起训练的
然后那 3D 的视觉可能又和其他的三维传感器和下游的移动操作它可以是一起训练的那么再往后看可能控制模型控制它自己可以单独来单独训练做一个全身控制我们进行了一些合理的切分以后我们就发现这每一个字体
子 Foundation Model 子 Foundation Model 它是可以被很好的它有很多足够的数据供给能够被训练我觉得这是一个思路但说回来呢那就是说我们朝面向这个最终的 Foundation Model 机器人的 Foundation Model 我们该怎么做我觉得其实最重要的事情叫做神经网络化就是说
我们也不用指望着一口吃个胖子我现在做一个模型把事情都解决了但是我觉得这个关键的点就是我们要从现在开始就把这几个任务全都用神经网络在在解决因为当以后我们有了足够的数据以后数据是能把模型的表现去 scale 上去的如果我们现在没做好这个准备啊
那么就相当于就在走一条反 scaling law 的路线那么我们再也不可能走上正轨所以说我觉得当下如果你说我们面向这个中局 robot foundation model 我们该怎么做我觉得神经网络化在技术上是一个非常重要的起点
嗯听起来这个赵航还是相信终局是要有一个 formation model 去起作用的而且这个东西一定要最终用到 scaling law 要有这个 belief 即便今天在数据上还有很多的问题对吧但这些问题最终是有可能有办法解决因为否则你就站在了技术发展的对立面对吧我们因为今天的这个状态所以我们就不再一个呃
未来能够更高效发展的路上又在原地这个就来回修修补补其实最终人家一次跳跃就把你所有的努力都覆盖这个我觉得是一个非常重要的技术世界观就是我们去看到的说还是会同样的不管今天是不是还有这么多复杂的问题
所以在这个里边呃我觉得问问季阳啊就是呃因为一说到你这个一脑多行然后你他们做研究还好吗你这个他们可以发论文对吧你最终要变成产品产品就要在这个真实世界里面直接要去起作用要解决问题这个
真实的物理世界是非常复杂的我们看一个比如说我们看这个 figure 什么他们那种演示我也不知道他背后的拍了多少遍对吧就是你看了好多东西他是不是只体现了上限我也不知道他的底线怎么样而且这个世界这么复杂你看有的时候你你要拧个瓶盖有的东西要按一下再拧对吧
有的地方是比如像微波炉你那个门到最后的时候你要使一点劲才能关上我就想象说我作为一个人我们自己可以自适应但机器人你去未来要去面对的问题是非常复杂的就怎么解决这么如此复杂的物理世界的问题让机器人可以你又不能把每一个东西都给他写个程序对吧你未来实际上他要自己有这样的判断力作为一家创业公司你要去面对这么复杂的时候
你怎么面对呢因为很多的时候你各种形态都可以做但你怎么取舍你怎么去让它在今天变成一个创业公司给交付的东西嗯
对这个问题我觉得其实是每一个创业公司要思考的那个核心问题那个最关键的问题就是说场景的选择产品形态的设计以及对于现在技术就是人类的技术这个最前沿的一个把握人类的技术现在到底能做到什么对吧咱不能带着科学问题做假
所以我们在去选择场景选择产品形态的时候呢我觉得是兼顾要兼顾这么几条原则第一个呢就是咱们刚才说的这个场景的这个里面的产品的这个失效成本对吧第二个呢就是
的獲取成本第三個就是帶著科學的問題去做產品的設計因為現在在這個我們說巨神智能移動能力是一大塊操作能力是一大塊移動能力和操作能力裡面分別可能會有一些還是在科學探索的領域那 OK 那對這一部分的區域我們不能把它帶到產品的設計裡面來那這麼著就落不了地嘛然後還有一個原則就是
这个本体的这个成本硬件成本这块这相当于是 BOM 成本要在三年左右的时间进入到一个和人力合比的这么一个阶段对吧所以
我们带着所有的这些这个约束条件然后去做场景的扫描然后找到合适的这个场景去做所以在这个里面的话我觉得这个场景的选择产品的设计这就是我觉得军事生产业最难的那个问题而要把这个问题回答好需要我觉得首先对技术有两个
第二个对 AI 的规律有了解第三个必须要限地限物深入到产业里面去就一个一个看然后呢这个一个一个去扫描然后看到底哪一个场景是能做的哪些场景是能做的在这个过程里面先不说我们具体会做哪个场景啊但我觉得是说在选择场景的时候呢我们希望能够找到一种所谓的原场景原宇宙的这个原它的这个意思呢
这个场景不仅仅是说它可能出现在生产场景可能出现在生活上它是一个有几个基本元素构成的场景这个场景会在生活当中出现会在生产场景当中出现那为什么我们可以去做这个不同子场景下的这个原场景呢这是因为巨神之龙的通用性也正是这个通用性
带着原场景的假设去看这个我能做那个我能做但是这个原场景本身做了一些条件的限制对吧我们不能进入到那个科学领域里边那现在在这里边其实咱们说巨神智能的移动和操作操作里边其实现在还是有很多问题是科学问题的那么这个现在咱们没时间展开讲但一会儿如果有时间也可以去聊哪些是科学问题所以我觉得这是我们在去找场景找切入点的时候的大思路
你这个我觉得今天晚上这个季阳给我们相当于在巨神智能领域里面做了个创业的指导培训啊就是如何去定义在这个领域里面一个看起来很热的前沿的技术领域里你要做一家创业公司你有哪些 principle 哪些原则就要先确立
我特别赞我觉得就是说优秀的创业者都是这样就是他所谓的叫能够看穿一个领域有洞察他最终是能看到一些原则的其实你刚才说那个原场景给我很多启发我理解就是说你其实要先定义下线
对吧就是你要先定义下限你不能先定义上限然后你的下限又不能是一个不同用的这样的一个下限那这个东西就变成了没有意义了它还要基于它可以被扩展还可以叠加对吧它是在一层一层涨上去你不能是一个
不能是多左一下右一下东一下西一下所以这些东西可能都是一家公司在技术投入产品的选择赛道的选择上具体产品形态的选择上要考虑的东西啊这个我觉得确实是给了我们很多启发就是把一个很让人兴奋的前沿的科技领域最终落到一个创业公司还是要有很多的原则 principle 要想清楚的那这个正好都聊到了什么是科学问题什么是商业问题就是
应该远离哪些科学问题来你在具象说什么哪些问题如果现在我作为一个创业公司在琢磨可能这个事就有点不对了你会怎么定义明白我这个我觉得也是抛砖引玉因为进入到这个话题里边我觉得就是可能大家有各自的想法了首先我们是怎么看科学问题和工程问题的就是做产品设计的时候不要带着科学问题的假设但是我们要
去判断哪些是科学问题哪些是工程问题那第一个问题就是什么是工程问题什么是科学问题工程问题是前面前进的路径已经清晰了我就照着这个路径我一定能够我今天努力 12 个小时我就有 12 个小时的进展这个路径我就像农民种地一样我就往前走每天我都干然后科学问题是什么我现在面前有 5 条路径
路径能带我走向终局我不太清楚而且还可能有第六条路径在那这就属于科学
所以我觉得我们在这个阶段要去考虑的问题就是我们不要带着科学的问题去做那样的话其实不应该是一个公司在做的事有道理说到这儿我觉得我们再往技术的维度里边再稍微深浅一点因为我们刚才聊到了从感知控制决策各个机器人相关的领域里边我觉得先听你华哲就是比如像我们说到的这些领域里
因为你天天肯定是都在看最新的论文对吧你对于全球的技术进展你都会有判断你会觉得比如像感知啊控制决策呀这些记者的核心要素的领域里边接下来有什么让人觉得比较 promising 的
好的好的对我自己这可能更偏向于学术上面的一些思考
我觉得比较感兴趣可能三个点吧第一个叫做 scaling law 这个可能大家比较熟悉了就是说在模仿学习里面的 scaling law 到底存在到什么程度这东西大家都知道肯定存在但是那根线到底长成什么形状是每个人都想看到到底是我有了 100 条数据以后它就可以幻化了还是 1000 条还是 10000 条还是无论你给我多少我都能
仍然有難題也解決不了對吧就是這根線到底到哪那個東西開始起飛是沒有探索出來的而也是大家非常想探索的我想最近很多人也都在思考這件事然後
第二件事情是我自己在实验室一直思考的问题就是强化学习在物理环境中如何落地这件事其实是一个非常有趣的事情就是强化学习已经落地了落在哪儿阿发购大家已经在下围棋了对吧阿发购已经击败了李士实但是当我们谈到强化学习在机器人上的时候大家都是走了一条路叫做 sim to real 在仿真里面讯号
然后在现实中去把它部署下来但是如果我们反思我们自己我们每天都在做强化学习举个例子我最近在学网球那这个打网球赵老师应该也在学在打网球的这个过程中我们会发现我每回一盘我都在不停地调整我的这个击球的这个点位对吧击球的这个动作然后直到我可能打
百次一千次越打越好因为我每次比如对手接不到或者一个界内的球或者一个大力的球我就会觉得这个 reward 很大我就会调整往那个方向再调整这个过程对生物来说非常自然的但为什么在机器人上其实并没有真正落地大家都是在仿真里面先训但其实我想我们人类我们并不是说所有事情都是在脑子里面先想好然后在现实里面去执行对吧我们当然有
另一部分,现实中的直接强化学习怎么做,是我觉得很有意思的第三个我觉得很好玩的,叫做 real to seem to real 我始终觉得我们手动搓这个纺针是搓不完的我这个办公室大家可能看不到,但是如果你来的话会觉得非常混乱这有一本书,那有个水缸,然后那有个健身器材,这放了一个小礼品
就这个环境让十个工程师我估计他搞一个月才能把它搭建出来那可能到了赵老师办公室到了季阳办公室那可能就是对吧你不能说每个地儿我都搓一个月然后给搞出来对吧那这个世界这么大对吧永远也做不完那怎么办有没有可能把现实中的东西直接搬到仿真里面
然后再把仿真里面得到的东西再迁一回现实整个这个过程可能要结合比如 NERF 3DGS 等等这样的视觉手段去做是另一种利用现实数据的方式
这是我自己比较感兴趣的学术上比较好玩的事情对最近我也听到好多大模型领域里在探讨说应该说自适应就是这个模型的自适应它就在真实世界的
反馈里边自我就去成长而不是又回去回炉再练一次单然后做一次系统性的升级他应该跟着这个世界这个就是大家梦想着在未来要去实现的东西但今天可能还没有特别明确的路径刚才你其实讲那个练网球的例子就很像我们其实每打一次好球都在进步
对吧不是不是训练 100 次再进步一次升级一个百分点不是这个逻辑所以这个东西未来怎么去演进还挺值得关注的正好有个问题我问问那个赵航这个这个数据的收集应该怎么做很多公司是按照任务收集人类的 demo 的数据这会不会影响饭话如果不按照任务收集那根本
这个里边我不知道赵老师怎么看就是又聊到了数据相关的问题看起来这个领域里数据是个大问题赵老师有什么这方面的观点吗
OK 我先说一说我自己觉得数据的终局是怎么样子当然强烈借鉴了徐老师之前有一个讲座就是说这个数据最后应该会形成一个金字塔金字塔里面有一些有互联网的数据有仿真的数据
有真实世界采集的数据有我在线自己调整机器人实体去做的时候调整的数据最后应该是会形成像薛老师在一个 talk 里展现的这种数据的金字塔这样的一个形状那么对我觉得怎么样训练好一个好的有通用性的模型来说我们需要设计一条路径
这个 curriculum 就是说我到底在什么时候采集什么样的数据以及我多少依赖于仿真多少依赖于真实或者说我把真实的放到仿真器里做一个 randomization 或者叫 augmentation 这个叫数据的增强就是这些这条路径我觉得是一个技术问题
比如說我剛才有說到達里三這個論文達里三這個論文裡告訴我們他發現 95%是一個黃金比例 95%的意思是說他說我手動標 5%剩下 95%通過我這個數據飛輪自己去生成一些然後篩選一下再生成一些再篩選一下生成 95%的生成數據
这个 5%和 95%组合起来发现这是一个黄金比例 100%的真实数据我标不起没这么多钱然后这种 100%的生成 synthetic data 数据表现很差如果这个比例再变一遍发现也不是最好他最后发现有这么一个比例是最好
我觉得这个里面有很多技术性的也有经验性的东西组合在里面我觉得很难说用一句话回答但我觉得是需要找到一个好的数据路径去达到这个终局
我看直播间里又有一个评论这评论我都这已经都超过我的知识结构范围了提到的说去神智能的基础模型有没有可能类比 CVCNN 里面的 backbone 和 head 的形态
这个 backbone 的训练和代理任务有什么想法我不知道两位几位大家对这个有什么点评没有对我可能简单说一下其实这个方面也是首先我觉得是很有可能需要 backbone 加 head 的这种形式或者
我不知道理解问题我理解的对不对我理解的问题可能是我能不能有个 back home 然后去做一些基本的任务比如说预训练去预测比如说视频预测就是一种自监督的预训练或者是做一些这种自监督的 token prediction 这样子的事情
然后运行链之后它有一个比较好的表征后面接一个 head 然后这个 head 去做一个下游的任务比如说让机器人去给我倒一杯水这样子的事情我觉得这样首先有很多论文已经探索了这样的形态比如说 R3M 叫 R3M
然后还有 VC1 都是探索了这样的形态当然他们那些做出来有相当多的提升但是还不足以达到像 CV 里面那么好用的地步所以我觉得从我个人的视角是这个地方有做头而且未来也会持续被探索就是如何先运训练然后再做下游这样的事情
嗯啊那我我再这个把这个问题往产品层面去走一走啊呃我觉得正好问问季阳这个你看过去的机器人公司就真的就是机器人公司对吧那今天看起来要做巨神智能呢他又要有身体是个机器人公司他可能又要有脑那看起来是个模型的公司对吧所以是不是未来如果在巨神智能这个领域里边呃
你你真正能够创造价值的公司就是要端所谓的端到端的就是我又要有脑又要有有 body 然后这个东西最终还要落到场景里边变成一个可以 work 的这么一个一个商业闭环就是那以后还有那种专门的就是机器人我就是造 body 的公司吧还是说未来就是灵魂和肉体就得要融合才是未来的机器人公司你你怎么看呃
我觉得在这里面我们还是回到逻辑的起点就是巨神智能需要掌握数据为了掌握数据需要去能够有数据的自主权能够自主的去完成物理世界的终端的部署和运营对吧
然后为了去做到这一点我就要去有为了能够解决场景当中的问题我们一定是从场景的需求出发去看原场景的需求出发去看整机的设计然后整机的设计结合我们系统结合我们的一个算法形成一个能够解决问题的这么一个产品然后部署到场景当中去
在这个链条里面一个巨神智能公司应该控制的是什么就是这个算法部分那肯定毫无疑问这个得控制了对吧然后呢这个整机的设计部分是要控制住的因为整机设计是跟我们的场景原场景高度相关的
然后再到原厂你能够部署这个是我们要控制住的那么这几环我们认为在第一个大的阶段一个成功的巨神智能公司能够真正把产品部署出去的应该是都要掌握的那么随着这个
这个发展我觉得是未来一定会出现说因为整机的从设计到靠谱的这个量产生产制造对吧这里边其实又可以分成两环那么所以未来一定会在生产能力上面其实现在机器人行业也是这样嘛我们看到其实大量的机器人公司我只是做研发
研发是什么呢硬件的设计属于研发可是硬件的生产制造供应链管理这不是研发的一部分有专门的代工厂过去看扫地机器人其实有分工是存在的未来在这个巨神智能这个人形机器人其实也会存在这样的分工所以我觉得演进的过程大概会是这个样子嗯
正好这个大家也在去因为巨神智能这个领域比较热然后也有很多巨神智能公司在出现大家也会在去想它会带来什么样的连锁反应比如说看直播间里刚才有人就问嘛这个巨神智能的这个机器人的上面未来会不会催生新的计算架构的芯片呢因为我理解可能这个
他对于算力的要求功耗各个方面可能会提出一些新的要求对吧就是未必都是用现在的这样的这种架构因为前两天这个我那个安克的杨蒙还过来专门聊他的观点就是冯诺一般架构不适于未来终极的神经网络形态的这个这个这个新的计算需求啊未来存算一体是是未来比如他就他比较激进的有这样的这种观点啊我不知道从这个季扬你的视角来去看呃
站在你作为一个巨声智能的公司你其实周边还有哪些力量就是你对他们的发展是有诉求的就假定你未来会是一个快速发展的公司所以你有可能需要谁能陪着你快速发展帮你解决对的问题帮我们定义一下我们了解一下你的相关产业会是什么样的状况
这个我就是抛砖引玉咱们看到太高我觉得这个其实在巨神智能机器人的发展里面我们不能忽略的一股力量就是智能汽车它把供应链带起来的力量因为你看我们
汽车里面就是这一波把这个传感器传感器系统和算力系统其实是从无到有的给带起来了没有这种汽车就是这个高线数激光雷达能量产的对吧没有这种汽车咱们的这个终端上的这个大算力的芯片和预控制器也是没有的那这点
其实我们看都是巨神智能机器人能够从这个实验室走到量产走到产品的这个必要的这个所以我们其实还很关注
就是传感系统和算力系统的发展然后我们再从另外一个角度去看这个事就是说一个巨神智能产品它从硬件上到底需要哪几部分其实这些就是它相关的供应量是吧我们看的话除了刚才说的算力系统和传感系统还有就是动力电池结构
那这个动力是来自于什么呢现在主流的方案就是关节电机嘛对吧然后关节电机其实我们看最近也有很多的发展那关节电机在无框力矩电机减速器对吧电驱
这些东西我觉得这就是相关的这个产业那么这些其实相关产业呢我们看在过去这些年里边其实都有挺多的发展的所以我们我觉得作为一个巨深智能公司啊不是说做硬件不是把这些东西都搞而是站在这些巨人的肩膀上吧我们做整机的设计这一层是跟系统跟我们的算法跟我们的场景是高度相关的我觉得没有大家想象的那么大也没有这个壁垒没有那么高真正的壁垒还是在算法这块嗯嗯嗯
对你这个顺着顺着你刚才的分析我们已经把这个巨神智能概念股相关的这条线捋了一遍了啊就是哪些东西会在这条这条领域里面未来随着这个赛道的发展可能会值得关注对吧就是他们可能也会有技术的突破那正好我刚才看直播间里也有人在问啊这个问题可能又转到这个赵老师的这个
这个视角大家问说这个巨神智能跟自动驾驶领域在这个传感器啊和这个最终的这些数据上就是有什么样的一统就哪些东西是可以继承从这个自动驾驶领域过来有很大的帮助的然后又有哪些东西可能要超越它要去要有一些新的突破
这个赵老师可以帮我们分析分析因为听起来今天有做自动驾驶的经验在自觉神智能上就有点像大语言模型里边有人是做过搜索的是类似的对吧就是是能带来优势的但他又不能只是这么一个东西赵老师帮我们分析分析
好如果我们纯看技术的话自动驾驶和巨声智能它们重合的部分感知是重合的移动是重合的但是其实细看的话其实它俩都不一样感知我们刚才说到了路上其实就只有车和自行车行人然后我们就做一些框的检测物体框的检测就可以了但是你一到我们生活场景一到
開放的商業場景不管是工廠倉庫場景我們能看到的物體那就是千奇百怪比如說我一根充電線是吧那根充電線它是彎的我到底該怎麼樣去我用一個框去框住它嗎還是怎麼樣去表達它它是一個特殊的幾何形態的一個物體然後還有其他的物體比如說流體地上有一灘水等等這種東西該怎麼
感知该如何表达它我觉得其实问题和自动驾驶里还是有很大的巨大的鸿沟的然后再看移动移动自动驾驶里有一个有一个很简单的解决方案就是说我可以预定好我的行驶
行車路線 那麼制定一些簡單的規則比如說在高速上我們並不需要很複雜的規劃控制我們才能在高速上開車 其實是不需要的我寫一些規則 什麼時候變道什麼時候避讓 減速加速等等這些都可以提前定義好因為車道高精度地圖都是存在的但是我們一到巨神智能到我們開放世界以後不存在什麼地圖那該怎麼走 走哪兒
這些都可以自定義對於機器人來說可以自由度特別特別大所以說我覺得我們乍一看它有很大的相似度但是巨神智能機器人它比自動駕駛會複雜很多那麼為什麼我們又覺得自動駕駛
做过自动驾驶的人非常适合做局生智能呢我觉得因为核心的这个思路特别重要这核心的思路就是说应该要用数据闭环的方式去把局生智能做起来我们不能想着说
走捷径比如说机器人有一个动作没有做好那么我就说我要不就写一个兜底规则要不我就写一个简单的规则就把它给做了这个我觉得对做过自动驾驶做过尤其是做过量产的自动驾驶交付的人来说就知道这样的事情一旦做了一次再做第二次就会有再下一次最后我们的这个规则就会堆积如山
这套代码就再也无法维护了再也没有失去了所谓的通用性我觉得核心继承的就是这个思路以及对于 AI 的信念我觉得是你说的这点其实还真的挺关键的这也是一些 principle 和原则往往它是要给予在过去那个领域里边一些惨痛的教训然后最终我们去相信说你不能用这种方式去做一个短平快的这种方法我觉得还是要回到技术的底子
去做这件事这个其实是挺重要的因为如果没有经历过自动驾驶这么多年这么多钱这么多人的时间在里走过甚至犯过的很多错我觉得这些经验不沉淀下来他就不能在下一个阶段里释放驾驶
所以某种程度上说到这儿也真的是你看自动驾驶这个行业呢到今天也没有出现特别赚钱的做自动驾驶的公司对吧我们曾经认为这个领域里面是一帮蕴含着很多机会的也有很多自动驾驶的公司但我确实觉得有可能他们的下一阶就是要在居身智能里面去发挥更大的作用这一点还真的是有的时候人类的这个科技创新的进步就都不是在每一代里都诞生
特别庞大的伟大公司但它是一层一层叠加上来的真的有可能之前自动驾驶的那一大波的里面很多的人才很多的这个力量它的积累啊经验啊甚至一些信念和这个教训吧最终在巨神智能的领域里面在释放更大的这种价值这还真的是挺值得关注的啊
那我说到这儿后边我想再往前延展一点因为今天难得我们又有创业者又有两位技术专家在我们面向未来去有一些因为有的时候创业或者看未来很重要的就是一个叫时空尺度的判断比如说我们都相信通用的这个机器人它未来能够创造很大的价值甚至比如说我们也看到 Tesla 对吧这个它的自己的那个工业的机器人
两年前就说它有非常明确的量产的目标它有很大的这种量那我先问华哲就是如果从一个技术专家的角度你去判断假定能够有一个一年出货量能上千万台的这样的机器人就是具备了巨深智能的技术但是它最终能够要到千万台的量那就意味着这种场景肯定它不是一个特别垂直的场景
今天的技术条件下如果我们拿技术的角度去做一些判断
你认为是个一年内的事啊是个 18 个月内的事呢是个三年内的事还是五年内的事就是要能够在全球出货超过 1000 万奶就为什么我说这个数呢你看那个 VR 折腾了好多年才到 1000 万奶的量那这个机器人领域就是巨神智能这个概念落到具体的产品里它能够到千万奶有可能是个几年的这个技术发展路径这个虽然这事有点虚啊但我觉得你对技术是有判断的
你怎么看首先技术判断往往是错的这个我们不得不认这个大家都判断错过对吧就当时一个很经典的例子是如果没记错的话应该是
是 IBM 的当年的总裁说这个世界上一共只需要五台计算机他作为一个资深 IT 从业者在当年做出的对 PC 市场的判断当然了现在我们每个人都有一台了很显然技术判断都不止一台我们都不止一台了对吧对我们可能都有好几台所以技术判断
是超过人类的预想的包括不得不承认我不是一个很好的判断者比如说在 GPT 到来前的一年我并没有意识到 GPT 真的像这么快的到来对那个时候如果你问我我可能会回答五年或者十年因为我不是搞 NLP 的所以可能没有那么熟悉但是我相信你即使问很多 NLP 的工作者在 GPT-3 出现的前一年
很多人还会告诉你是十年所以这样的经验和教训我们可以 aggressive 一点我们可以重拳出击一点我们不如赌他三年就会产生这种
这种千万级的公司当然这也取决于季阳是否努力对你这个球已经踢给季阳了但你的下注是说如果让你今天下注你说下注三点对吧来我们再问问赵老师赵行因为你对 Tesla 也比较了解你其实也很推崇它
在巨神智能領域的這個實踐我們如果再具象一點說就是它的那個這個雙足的機器人在產線裡起作用你認為到什麼時候就因為之前聽起來它一開始預想的東西到現在是有些推遲的但它有可能在什麼時候真的能實現它一開始所說的那樣的目標一年比如說什麼多少萬臺多少十萬臺二十萬臺對吧然後我要進入到更多展現你覺得這個是一個幾年尺度的事嗯
我自己对于特斯拉所讲的就是人型机器人进工厂这个事情不是特别的认可因为工厂整体来说从我看来工厂是一个人为专门改造过的一个场景它为效率进行过优化所以说
双足机器人可能在这里面的效率并不是特别高那么其实我自己也参观过一些我们中国的工厂那里面的节奏效率都是非常高的那么其实对于双足机器人来说我倒是不觉得它能真正的大规模的推开应用尤其是说比如说我们做汽车生产假设这个双足机器人它摔倒了
等等失效了那它影响了生产的节奏然后那么我们明明有一个有一些更好的方案来给出一个更好的解然后我觉得双足机器人倒是没有那么的乐观在短期内然后我倒是觉得对于特斯拉来说它可以去走一些更加激进的路线比如说
去直接把双足机器人做到家庭把双足机器人做到一些像我们说去探索太空一些更加激进的目标我倒是觉得对于特斯拉来说更有从特斯拉的起点来说我觉得是更有希望的
然后如果说我觉得千万是一个还是比较激进的一个预测但我觉得这几十万台这个数量级我觉得它可以在其他的领域就不是进工厂可能在其他的领域它会有施展全角的空间在未来的一两年两三年我就两三年三年对 OK 好
好那个来我们再到激扬这边啊这个首先激扬我们说了一个很宏大的目标就是一千万都能到一千万的出货量的这种具备了巨神智能的技术的机器人你认为会在未来几年内在全球出现嗯我觉得首先咱们咱们这个探讨的是就是说是完成这一千万台还是说 OK 我们找到了这样的一个一个一个一个
一个机会对我觉得如果完成一千万台的话其实三年是一个很很很激进的一个时间吧你为了每年就可能找到就好就是能在那三年头让我们看到希望就行今天反正我一个希望都看不见了对吧能让我三天觉得这事有希望都行对吧嗯
对我觉得这里边呢其实我还是倾向于就是拆解这个事儿是吧就是这个东西到底什么决定它的速度我觉得很关键一点是我们去找到适合它的原场景的速度决定了巨神智能发展的速度因为我们能只有只要能找到合适的原场景才意味着我们能够这个这个批量的去完成机器人的部署批量的把数据收回来完成这个数据飞轮的滚动嗯
所以我覺得這是一個很關鍵的點而在這個裡邊我們再去做一個推理就是哪能有最豐富的場景給我們去找即使這件事是在中國
对吧因为中国有最广泛的这个用工场景对吧我们这个各种各样的这个工厂各种各样的电商的这个仓库各种各样的这个生活的这个场景所以其实这里边的话你看这里边又好像有一个相悖的点中国是最大的用工的这个场景但是也是人力最便宜的地方是吧或者相对来说最便宜的地方
所以它替代起来这个难度又变得更大所以我们其实目前看到了一些还不错的机会就是这个原厂景那么我觉得这个 1000 万台其实基于我们这个原厂景能够在多快的时间内去做这个扩大可能我会相对来说务实一点那么我觉得这个三年之内我们能够明确看到的是这个 10 万到百万这个级别的这个出货对
对如果要到千万那肯定应该是在 C 端场景里而不是在 B 端场景对吧如果要到千万这个量但十万到百万这个层面有可能是 B 端 C 端都能包含的这个其实在未来的三年内还是如果在三年内能看到有这个几十万到百万这个量级我就已经能够说明这个赛道在真正的开启了就这已经是在任何一个赛道里边它的节奏已经是算蛮快的
其实今天咱们聊了好多这个巨神智能这个相关的东西啊这个我们如果再往前这个想象一下刚才这个谁赵老师也在说说 Tesla 其实如果要近点真的把机器人变成一个在家庭服务的机器人可能这个双足啊这样的东西是更合适一点啊那咱们真的预想一下说也许再过个五年
真的每个家庭里都会有一个服务的机器人那这样的一个机器人首先第一它一定会是你们会认为它更大概率是双足这是第一第二就是说它有可能得是一个什么样的成本的机器人就是假定它已经成为了就像我们今天接受了每个家庭会有辆车
那我们未来如果接受了每个家庭会有一个机器人他有可能这个机器人的价格应该会在什么样因为这个也会反推他可运用的技术以及如果真的要做这一点目前在技术上最大的阻碍会是
还有哪些等待突破这是三个问题啊第一呢就是说一定在家庭的场景里如果每家都要未来有一个它一定会是双足嘛你们可以发表一下自己的观点第二呢可能会是个什么成本第三就是还有哪几个核心问题要解决
这个就是我们通向未来可能也是所有人都很感兴趣的对吧就是因为你如果真出现这么一个东西那就是另一个汽车产业那是几万亿的这样的一个庞大产业那真是让人很兴奋那我们大家可以都各自站在你们视角来看看这三个问题怎么看来我们还从华车开始我们面向未来的想象来帮我们带着你的专业角度来做一下判断好的我
自己的感觉是是否一定是双足呢我觉得是一定会有双足但不全是双足就人类对未来做过无数次的想法
像最经典的比如说这个星球大战里面有这个一个很经典的形象叫做 BB8 对吧就是那个球状的小机器人它也可以这个走来走去也可以跟这个人类互动我想我们并不希望我们的宠物是一个双足机器人因为我们要当宠物对吧
我们这个宠物因为是个机器人它可以帮我们做很多事情所以我觉得回到季阳最早的说法叫一脑多想
我觉得可以看看气氛
就是说早期可能九几年的时候是不是那个时候汽车还不是家家都有对吧可能是只有一些比如说从事在运输行业的或者是比较富有的家庭会看
但是
我们现在也知道这个某品牌就已经二十几万已经买一个对吧就是这个米食节对吧所以所以我觉得渐渐的它会下降下来可能就到这个十几万啊或者是几万块钱嗯嗯或者是啊
可能更低到一万两万这样子的一个量级那个时候是真正的机器人进到家里面的这样的一个进到每一个家里面的这样的一个量级我想最后一个就是要做到这一点你还得解决那几个核心问题好的好的对核心问题其实今天我们聊的都是要解决这个事情的核心问题嘛满眼都是问题对吧
然后算法上面是否有突破硬件上面价格是否能降得下来等等我觉得这些都是今天聊的所有的都是还有一个很重要的伦理问题对吧就是机器人真正的来到家庭中以后那个社会形态跟现在的社会形态是翻天覆地的变化我们跟他们关系到底是主仆关系朋友关系宠物关系
恋爱关系到底是什么样的这个关系其实没有人知道我们可能要等着这个出货量从十万到百万到千万那个过程中渐渐探索这些问题的答案好来我再听听赵老师赵老师你怎么看还是这几个问题你有什么样的不同的观点吗
对我们从第一个开始第一个问题是说一定是人形吗就是我自己觉得就是通用加人形这个组合其实就是不是特别的必要然后或者说其实我们从我们看到的生物世界来看那它就是我们的生物世界就是很多样化就是在大自然里是吧有会爬树的有会游泳的这些动物它们各自都有各自的能力就最后
一定是一个通用的人性机器人吗然后我觉得不一定会或者说大概率也不是这个我们要真的要分的话我觉得最好从它的功能来分吧当然我们刚才说到我们的目标是通用所以说功能它应该是一些大块的功能比如说情感陪伴机器人然后比如说这个跑腿机器人
比如说家庭卫生机器人就是扫地机的进化版对吧就是说分一些大块的方向来看我觉得会和我们现在的家电一样就是说我这个家电是干这个事的那个家电是干那个事的只不过这个
我们的机器人他变成机器人以后他的能力更全面他甚至连我们现在还要把衣服放进洗衣机以后他就自己放进自己肚子里就开始洗了然后洗好就自己晾上了对吧他就自己能够闭环整一个任务然后大幅减轻我们人的压力然后所以我会觉得以后的机器人的发展应该还是这种百花齐放的各种各样的形态在我们的身边然后依据它的功能
来进行一些分类然后我自己觉得像那个就我们看到那个小米的机器狗其实也就是蛮可爱的他没啥功能但是他能翻个 gundle 他能这个变色等等有这样的能力然后可能提供了一些情感陪伴的需求这可能会出现一种类型的陪伴型的机器人我觉得这种可能性是有的
对所以说我觉得到最后不一定是人形人形还是比较 creepy 的怎么样跨过那个恐恐怖谷那是一个挺挺挺挺有挑战的事情然后第二个说的是价格的问题然后我觉得价格的话啊
又和我刚才说的我觉得会和大家买家电一样早期的时候可能我们父母这一辈什么结婚或者说什么这种重大的事件的时候我们可以买一个家电可能我们付出的成本是多少然后我们可以对应的去对比一下比如说对现在对大家来说可能买几万块钱的东西是一个比较是一个大家电是一个需要决策的一个高科技的
那么可能会是在这个价格上是大家能被普遍接受的那我们如果这个事情会发生在五年后十年后那么可能也是这么一个类比的价格价格定义对然后再说
说到第三个的话还有哪些技术挑战这个我观点和徐老师基本是一样的我们今天讨论了非常非常多的挑战然后对对然后我觉得之后再往后看我觉得这个
我们该如何去构建一些大脑的中心然后一些数据的中心我觉得会是一个对机器人来说挺有意思的挑战因为机器人收集到的数据一旦进入到人的家庭里后它有一些隐私问题然后我们这些数据该去如何保存如何交易甚至我们其实已经看到包括我们国内大家已经开始做这个数据交易了
這個數據是可以被定價的它可以被交易那麼以後我們這些數據的怎麼樣確全怎麼樣說我是否可以把我的數據和你的數據交換讓我們大家的模型都變好了我覺得這個也是一個挺有意思的可以探討的問題
对我觉得你刚才这个赵老师总结的也挺到位啊就是刚才我们在这个华车那边我们会类比车你这边呢会类比家电而且呢也我觉得我也挺认同你们两位的观点啊就是是不是未来在家庭里一定得是个双足的人形其实我
你要让我挑我觉得一个 BBA 它其实比这个 R2D2 对吧或者说比那个人形的会更可爱一点在家里面也能帮着干很多的问题也解决很多的事对吧甚至刚才讲到说这个情感提供情绪价值其实我觉得本质上这个机器人在家庭里它解决一些功能这个是一个维度另一个呢就是它如何成为一个家庭的成员在这个家庭里有它的存在的意义
既有可能是因为情绪的价值也有可能因为功能的价值那这两条线都有存在的空间那如果是个情绪价值你说家里养个小宠物小猫小狗它并没有什么功能性对吧它就是个情绪价值那我们每个家庭里现在很多人都有那你未来会不会存在这个那个东西也许它的成本还真不用真就是个家电的成本
成本不是个汽车的成本还真的是有这种可能性啊所以反过来我觉得未来说这种千万台真的未必是一个家庭管家也许会存在着很多新的可能性所以这些讨论就最终赚到这个金阳这个啊我不知道你你是不是认同这两位的观点啊还是因为你本身自己在做这个领域吗你会对这件事怎么判断嗯
我觉得就是第一个问题呢是这个就是我我觉得我也是相信这个一脑多行的就是这个未来的这个巨神智能体的世界一定是多种形态的对这个我就不追溯了然后呢第二个这个定价的问题呢刚才有汽车的类比有这个家电的类比但我觉得在第一个阶段它会是一个资产
就是一个能够产生正向现金收益的一个资产我觉得这是它最合理的一个在 2B 这个阶段最合理的定价方式对吧你会先考虑在 2B 领域落地而不是先直接跑到家里去对 这个从落地的难度上来讲肯定是先 2B 然后 2B 的话就是你们算成本对吧你算回本
然后你这个资产的这个持有方肯定他要算这个这么一个机器对吧就像一个 GPU 一样他每天能够赚多少钱这些都决定了他的这个定价的这个方式所以 2C 的定价方式和 2B 的定价方式应该还是蛮不一样的 2B 的就是
考虑回本周期持有方考虑资产回报率所以我觉得第一个阶段的定价我们抛开成本我们现在先不讨论成本那么成本在到达一定预支之后可能会用一个资产的角度来
看待它嗯然后啊第三个问题是这个这个核心要解决的挑战吧我觉得核心要解决的挑战还是要能够去呃这个找到一个原场景在这个原场景里面我们完成第一批机器人的这个落地和部署然后把真实世界的这个呃
数据闭环给构建起来这样的话会是一个这个很好的一个起点事实上有了这个起点之后呢这个我们现在很有可能看到的很多技术上的一些挑战算法上的一些挑战因为数据出现了所以都会有这个不一样的答案对吧就像当年如果没有 EBITNET 的话这个不会有后面的所有的 LXNET VGNET 这一系列的进展对嗯
嗯啊这个我觉得三位把这个视角一拼起来我觉得可能大家对于巨神智能接下来的发展有了一个比较完整的了解啊今天这个特别感谢几位来到我们的直播间其实我觉得在这里边我们既看到了
很多让人兴奋的东西我觉得一个有意思的产业就是在于今天它有很多不确定如果这个产业在今天咱就把它一二三四五都排清楚了那咱其实这个没什么可聊的了最后一般都是最有钱的人最有钱的大公司的 game 正是因为它有很多的不确定所以还有很多的这种所谓的今天还不能克服的挑战才留给了很多创新者机会
也讓我們對未來保持想像其實讓人覺得很興奮所以今天我覺得在這個領域裡幾位可能都是不管是在創業實際在創業的實踐者還是在科研的最前沿去參與特別感謝今天你們來到這邊分享關鍵是他們講的東西我還都能聽懂對吧我作為一個外行我還都能