哈喽大家好 欢迎收听中间研究院的播客节目 我是主持人左璇璇我是玄多在本期节目中我们将深入探讨一个充满未来感而且正迅速成为现实的话题那就是巨神智能这不仅是人工智能领域的一次飞跃更是科技与实体世界融合的一个革命性进展
中金研究院与中金公司研究部关于 AI 的最新报告显示,巨深智能不仅仅是一个技术趋势,也代表了人工智能发展的新浪潮。随着技术的不断进步,巨深智能已经开始从实验室走向商业化。众多的国内外企业纷纷推出人形机器人新品,预示着一个全新的市场即将开启。
今天我们有幸邀请到了中金公司研究部科技硬件及半导体组研究员陈浩和中金研究院创新经济组组长周子鹏跟我们一起探讨有关巨声智能这一话题各位听众朋友大家好我是中金科技硬件组的陈浩主要研究方向包括人工智能包括整个 ICT 设备板块以及汽车智能化的产业链等等的
大家好,我是中金研究院创新经济组周子鹏也非常高兴今天有机会可以跟大家分享一下对巨神智能的一些看法那我们首先先从巨神智能的一个概念出发吧可以请二位老师为我们介绍一下究竟什么是巨神智能吗可能从我们行业角度的理解的话巨神智能其实就是全身都很智能
那什么是全身都是智能呢过去的机器人普遍是一种这个程序化的终端产品所以它是按照一定的流程设计来执行一定特定的任务那从我们的角度来看的话巨声智能其实就是一个没有特定的输入也没有特定的输出
但是它又很匹配我们人类的一个预期比如说我说我渴了它能给我拿来我想要的东西那这个就是一个从端到端的一个智能化因为我输入的是一个语音但它要做的话是一个执行就包括判断什么东西是可以喝的那同时呢它要找准这个物体在哪同时把这个物体准确地传递给我
所以这个过程我们觉得就是一个智能化的新的这么一个终端机器人的产品这个是我们对巨声智能大致的一个了解
我补充一下就是居身智能可能更多会强调智能跟环境的这样一个交互作用像离身智能包括我们理解的大语言模型更多可能是通过比如说一些预训练或者通过大量的语料数据然后培训获得一些智能但是它跟环境之间的交互作用就相对比较少
所以巨神智能往往因为它要跟环境进行交互所以它可能需要有一定的一个实体或者载体这个可能是跟离神智能比较大的一个区别
那我是不是可以理解为这个巨神智能除了它有一个自己的大脑然后它还有一个物理的实体有这样两部分构成我倾向于这样那现在呢这个巨神智能发展还是一个非常快的一个速度那推动这样的一个快速发展的一个背后的一个驱动力是什么样的呢我个人觉得主要几个点第一个核心原因还是从产业层面大家在找 AI 下游一个变现的市场
什么方向或者说什么行业能够做出增量来所以这是一个比较重要的驱动力对于微观层面来看的话比如说中国为什么在这个时间点发力这么迅猛我最觉得几个点第一个就是
从产业链上来讲过去中国在机器人产业整体上算是一个比较缺失的位置主要原因还是我们过去的机器人比较偏机械这个产业链那这个是需要长期积累的也需要长期的这个 know how 那我们知道机器人最早是在日本后来做的比较好的比如说上一代非常成功的产品就是波士顿动力整体上都是一个机械的逻辑
所以过去中国的整个产业在这个方向上其实是不太擅长的那么我们认为行业的变革点可能发生在可能还是特斯拉因为特斯拉证明了用电机或者说用一个电动车的产业链去驱动一个全新的机器人产业链是完全可行
我们知道过去 20 年其实中国在汽车领域的进步是非常明显的各位可能在各个渠道都已经了解到这相关信息我们现在已经是全球最大的汽车出口国了在整个产业链的培养过程中我们诞生了非常优质的上游供应链的供应商所以我们在这个中间
所以当头部的公司向特斯拉证明了这个方向可行那中国的这个研发力量开始逐步收敛也就是说从中油总装这个角色开始朝着特斯拉的这种架构在演进特斯拉的这个架构呢又带来了整个上游的供应链开始收敛好像有一些东西可能慢慢的就淡出了未来的主流发展方向
所以在凭借中国强大的工业能力以及比较大的规模市场优势成本下降的非常快所以我们现在看到的像我们草根调研下来的这个 BOMB 成本基本上已经看到了主部取代人类的成本上的临界点也就是说它的商用的意义就是这个账可以算得过来了所以在叠加我们知道从这个二二年年底 OpenAI 推出了化石代产品 XGPT
大模型的这种泛用性以及它带来的准确度的大幅提升它对于整个问题的理解和人的拟合度越来越高所以在很多场景下这个性能的提升也在快速的进步
所以几个因素相叠加一方面是成本的快速下降一方面是性能的快速提升同时在叠加大家都在为人工智能寻找下一个广阔的市场这就推动了整个行业可能在这两年有一个快速迅猛的发展补充一点主要是这一波巨神智能发展可能比较依赖于最大的一个核心因素可能是在算法的突破上
特别是在这种所谓深度学习强化学习这一类算法让大家看到了就巨声智能它所谓在通用性上面的这样一个潜力因为之前的话就像程浩老师讲的大量的这种比如工业机器人都是依靠所谓的预训练或者是预编程但是这一次大语言模型的突破让大家看到了说巨声智能
可能在一定程度上可以在通用能力上面获得突破但基础就是在底层的一些算法层面上可能是一个系统性的就是获得了一些大的进展刚才陈老师也提到了因为特斯拉它整合了上下游的产业然后我们可以看到人型机器人或者巨声智能这样一个发展的机会我也想问一下巨声智能它主要是由哪几个技术组成的部分呢
大体上我们还是把它拆成两个大的方向就是软件跟硬件软件就是刚刚子鹏老师讲的主要是以 AI 算法为核心当然这里面还有一些控制上的软件系统比如说做具体的执行比如说我要用双手去抓或者去推完成一个相对应的任务
那另外一方面比如说行走这个稳定性因为我们知道过去人行机器人最大的一个问题就是它容易摔跤所以我们也看到为什么在机器人展上很多这个人行机器人都是吊着的这也是一些控制上的算法所以整体上我们认为就是两大块一个是控制算法一个是智能上的算法这个主要是软件的部分那
硬件的部分的话其实跟汽车有点像它主要分成三个方向第一个就是数据的收集也就是刚刚子鹏老师一开始介绍它需要跟周围的环境互动所以跟我们人很像比如说它需要摄像头就像我们的眼睛一样它要去感知周围的环境可能还有一些比如说在算法上做一些补偿比如说我在测距上单纯靠视觉
可能不是很准那我就需要一些别的传感器比如说航波雷达激光雷达等等那还有一些别的传感性比如说我们人类有触觉有听觉那这个时候也需要机器人具备这样的传感器那总而言之呢就是作为数据收集这个环节那之后呢就需要数据传输再做数据处理那
数据传输我们人类就像神经网络对于机器人来讲的话它就是内部的一个通信传输网络需要把数据汇总到比如汇聚到大脑对于机器人来讲的话它需要训练它的模型训练模型一般需要借助比较多的数据也比较大的算力来支撑所以一般是在云端进行
那在云端训练好之后呢再通过 OTA 模式下载到端侧那端侧主要就是推理
也就是对应到我们人的话当我们遇到一个问题怎么去解决这个过程就是推理的过程这就是数据处理的环节最后就是执行层面就是当我要输出一个命令的时候我是要拿一杯水我还是要走到一个特定的位置这个时候我就要操控比如说操控我的双手做什么动作操控我的胳膊操控我的腿
这就是执行层面的那对应到呢可能是一些比较偏机械的这些部件像电机电控像这个减速器包括行星滚珠丝杠等等吧这个是整个巨神智能大体上的一个构成嗯 明白就讨论到现在我还是有一个概念上没有特别厘清的一个地方关于这个巨神智能人形机器人还有工业机器人它们三者的一个关系和区别分别是什么呢大
大体上的话巨神智能可能没有一个特定的这个
就是巨神智能可以是人形的也可以不是人形的就像刚刚一开始子鹏老师讲的主要是它和周围环境要有一些互动然后要根据一定的 input 然后做出特定的 output 它可以是客制狗也可以是别的形态人形机器人呢可以是智能的那也可能是不智能的就像我们看到的很多场景下
这个人形机器人可能更多的是比如迎宾甚至只能执行一些非常特定的任务它其实不具备一定的智能化就是人形机器人可能是巨神智能的也可能不是智能的
那工业机器人的话一般都是完成一个特定的任务我们现在讲的这个人形机器人一般都是人形那工业机器人的话可以是各种形态的比如说它就是一个单纯的机械手臂它只是完成比如说喷漆或者拧一个螺丝完成一个特定的任务那我们经常在酒店里见到的那种送快递的那种是属于什么机器人呢
其实一定程度上你也可以把它叫做聚酸智能因为说起说就像刚刚床浩讲的这个概念是一个不断发展的一个过程它的边界其实相对比较模糊的
因为你要从整个上个世纪 50 年代到现在大概有三次大的这种大家对智能的理解的一个飞跃吧第一个就是所谓的连接主义通过模仿生物脑后面开始通过了一个所谓的符号主义通过这种预编程或者是逻辑去模拟人的智能后面的话就是所谓的一个行为主义
就是认为我可以把一些应用场景变小让智能体可以跟环境进行交互然后做一些小范围的一些任务吧那这个三大主义其实各有自己的一些对智能的一些认知啊那到现在的话可能大家更多的是认为说连接主义又重新崛起比如说以大模型为代表吧大家觉得这种深度神经网络可以更好的去模拟人的智能
巨声智能其实在一定程度上是行为主义的一个体现他就认为我智能的话不是单纯的靠大家去为他数据或者为他的一些逻辑然后他本身就可以具备智能就一个智能他要真正的去改进或者是提升是需要他不断的跟外部的环境进行交互的
所以这又有了一个所谓巨生智能的一个这种定义吧就是这个概念形成的时间也比较长所以很单纯的讲说什么东西就一定是巨生智能其实这个相对而言好像又不是那么容易回答一个问题就但凡你一个智能体能够跟环境进行交互
然后又能够迭代它的这样一个智能很可能都叫做聚神智能那回到你刚刚讲的就是送餐机器人因为它没有办法去迭代它的智能它往往只是通过预编成根据不同的环境然后去做出一些特定的一些反应其实它在我们相对比较窄义的这个 AI 定义上可能甚至都不算所谓的一个人工智能
那我理解就是巨神智能这样的一个概念它其实很核心的一个定义的方式就是它要与环境有交互同时自己有学习能力这样构成了它是一个具有物理实体与环境进行交互同时呢又自己可以进行迭代的这样的一个特点人型机器人它主要是体现在它的物理形态是与人形一致的
但是它有可能是智能的也有可能不是智能的所以这个概念之间是存在一定交叉范围但是又不完全有一个归属关系的对 我可以稍微补充一点就是关于人形机器人你会发现巨神智能可能有多种形态但人形一定是其中必然会发生的形态而且是一个非常重要的形态
其实可以有三个角度去想这个问题第一个问题就是我们现在看到大圆模型基本上都是要通过学习各种不同样的信息然后去完成它的一个智能的实现那现在对于巨声智能而言的话其实我们知道现实世界当中最智能就是人
所以人的所有的一些动作包括表情包括其他的一些行为法则很可能背后就表现着一些所谓的逻辑就像语料库里面的语言包含了人那种思考逻辑一样所以在现实世界当中你会发现人影机器人很可能是最容易去复制或者学习人的行为的一种模式其他的模式相对比较困难因为现实当中没有这样的数据
第二个就是如果人形的话特别是人形机器人你会发现它跟人的交互是相对比较容易的人是理解比如说陌生人的一些手势或者表情或者动作背后所蕴含的一些含义但是对一些其他非人形态的一些机器你很可能很难理解它背后表示一些什么样的含义所以人形机器人在交互方面其实也是占优势的第三个其实就是从经济学的这样一个角度
因为大家觉得人形是一个共识所以很多企业都投入了大量的资金去做人形机器人的研发有可能在未来会形成一个所谓的锁定效应或者路径依赖大量的人会遵循之前的这样一个标准大规模的去生产人形机器人然后产生一个所谓的规模效应然后降低人形机器人的这样一个成本人形机器人是一个通用型的
你就会发现未来在不同产业当中的一些应用其实它的成本会随着规模效应的扩大它的成本是会下降的所以基本上有三个原因能导致说巨声智囊未来一定在某种程度人型机器人是它的一个必然形态
但也不排除其他形态这个其实我们之前看资料的时候也觉得很有意思因为有的人好像是持另外一派观点的就是像您的观点可能更倾向于这个人的形态是巨神智能的一个我只能说是一个必然会出现那样一个形态但不是说它只是唯一的形态就是还会有其他更多的形态很有可能
但是不是可以就是有一个内核就叫一脑多行的这样的一个发展趋势是不是它的一个发展目标也会是这样的呢对我自己觉得之所以要发展人心机器人一个很重要的点其实是因为在过去非常长的一段时间里就是我们人类的工具都是按照人体的这个形体来进行设计的
所以当我们一个简单的诉求比如说要用机器人去取代人或者说帮人去解决一些问题的话对于现有工具的一个最好的利用其实是一个可能是综合性价比更优的一个解决方案所以当如果成本是可控的话
那人形的好处就是我们不用再去为机器人再设计一些新的这个特定工具比如说我们看过很多场景就比如说那种老的那种比如说物流线它的很多这个工作的环境其实不太适用于其他的一些
比如说棍轮式的这种机器人等等因为它有很多的台阶或者说工作的一些工具都是基于人手的这个适用度来打造的
所以我们认为当成本可控的话如果说它的目标是服务于当下的人类的生产生活活动觉得人形其实还是有它的优势所在的另外一方面可能也会有很多新的场景或者说有很多的场景是过去在机器人诞生之前可能我们根本没有什么特别好的特定解决方法的
那这个时候可能可以基于机器人最优解比如说它就是用滚轮跑得更快甚至它飞起来可能是效果最好的这个可以做一些特定的设计这个是我们的一个大概的理解所以综合的话就是我们觉得未来可能没有最优解只有最适合的这个方案嗯
而且刚刚讲的就一脑多行我觉得这个可能是一个就是比较长期的一个结果就是当你的就所谓的 foundation model 或者他的大脑真的足够发达以后那确实你可以适应不同的形态甚至自主去学习不同的形态但我觉得这个是需要时间的就短期的话我们很难看到就是在算法层面上能这么快实现这么大的一个突破嗯
那我们可以看到现在其实各国各个国政府呢也都非常积极的在布局巨声智能或者人形机器人相关的领域那现在这个领域内的一些先发国家或者一些比较领先的企业有哪些呢就是我现在观察到的几家就是在企业方面比较领先的其实我个人感觉大概有三个地方吧
第一个就是中国第二个美国第三个欧洲但美国的话在人型机器人这个发展特别是所谓的以特斯拉为代表的 optimus 其实它是开创了一个里程碑式的这样一个新的发展吧然后之后的话中国啊欧洲啊都其实都投入了大量的资源在做这个事情
美国的话目前比如像特斯拉做的比较好像 Fig AI 然后中国的话其实就更多了像中国像银河语术待会儿成号可能会知道更多还有另外一家是挪威的他们在做所谓的 OneX
就这家公司名字然后他们现在最近出来的叫 Neo Beta 主要是它现在驱动这样一个人形机器人的它这样一个电机设备跟其他路径非常不一样它采取了所谓一种机械式的这种驱动螺丝所以它的动作可以更丝滑而且它的手部就是包括驱动脚部的方式跟人类的这种生物学特征更像所以它有一定的
特别是在林乔手方面我个人感觉这个很可能未来是一个比较大的一个路线因为上次我听特斯拉的 Elon Musk 的有一次访谈他们很可能也在首部的运动上面可能会采取比较接近的这样一个技术路线我自己觉得这一波的机器人的推动力其实还是主要来自于美国
就是完成了从 0 到 1 的架构的设计就跟上一轮的电动车很像整体上的进步我们觉得电动车的进步离不开新的意义架构的提出它带来了整个软硬件的结偶
所以对于整个产业来讲带来了一些讲的稍微重一点就是可能是带来一些革命性的东西因为软硬件完全结构之后我们会发现很多系统测的东西逐步被软硬件不同的厂家取代掉了也就是说为什么大家现在讲
智能汽车更像四个轮子的手机是因为它的产业链的逻辑越来越像了这一波的机器人很像所以从性能的角度来讲我们不觉得说中国真的是在全球能够独树一帜但是从产业发展趋势上来看我们看到一个强降本的逻辑以及未来技术迭代的逻辑这些都是我们看到中国非常擅长的方向
那未来的话我非常同意子凡老师的观点我们觉得中国可能会是机器人产业链里面非常领先的一股力量这个主要是机器人的未来的演进方向和我们现在所具备的一些资源禀赋的能力能看到的一些未来的结果另外我觉得还有一个国家也值得去关注一下就是日本最早的机器人其实就是日本发明出来的
但过去日本做得不太好的核心原因我们觉得还是没有把更多的精力放在这个成本的控制上那在叠加日本本身在软件算法的能力上可能和美国包括跟中国相比较还是有一些这个差距的所以过去日本虽然最早的诞生的机器人但机器人在日本更多的像一个摆设
不太能够具备实际的商用价值但是日本呢一方面是它本身在机器人的这个技术储备是非常丰厚的而且它有非常多的这个专利布局那另外一方面的话就是在产业链里面我们也看到有很多的优势比如说对于机器人人型机器人来讲啊传感器最贵的东西呢叫六维传感器主要是控制手和这个脚的
那这个产业链日本是有非常强的优势的那在机械部件里面最贵的东西呢叫行星滚柱四杠滚柱四杠呢是一个比较难的这个机械件主要对工艺水平要求比较高那日本在这个领域里面也是有它的一些独特的优势的那包括欧洲也是在传感器领域
在这个四杠因为过去四杠做最好的其实就是瑞士我们也知道瑞士啊德国啊这些地区对于这个比较难的或者说工艺比较复杂的这些机械件的加工能力在全球还是领先的所以从产业链上来看的话日本和欧洲也是有它一定的优势的
所以我们觉得这两个地区在机器人产业上面是值得重视的这两个所以我们也看到从政策层面这几个区域包括美国中国欧洲和日本其实这个扶持力度相较于全球其他地方来讲也更大因为大家都看到了这个广阔的市场空间也看到了自己的这个差异化的竞争优势也都希望在未来的这个产业格局里面能够有一个比较好的卡位优势吧然后公司层面的话
刚刚子鹏老师讲了几个美国公司像 Figure AI 目前应该是美国人心机器人最火的一家企业包括特斯拉自己包括前面讲到的波士顿动力其实现在也在往全新的电机这个方向的人心机器人在转国内的话像语术 智源 银河等等包括已经上市的优币选还有很多像什么开普勒 富利叶等等都是目前一级市场比较火的
人性机器人企业也是受上官度数比较高的
那其实我们已经聊到了这个它的产业端然后包括了一些竞争主体哈那我们下面就进入第三趴呃看一下就是从这个呃 AI 三要素的这个角度然后这些方面就从算法算力和数据能不能为我们简单的这个介绍一下巨神智能行业发展的方向呢呃我们研究 AI 的分析师呢基本上喜欢把 AI 产业链沿着算法算力跟数据这三个方向去做拆分呃
那算法的话整体上其实就是人工智能的这个比较偏软的这一部分那对于巨神智能的算法的话它有一些和传统的这个大模型有很多的通用性但它也有自己的一些特别比如说
它需要多模态因为对于和周围的环境感知因为我们知道巨声智能或者说具备人工智能的人形机器人它更多的是要模拟人的行为所以对于我们来讲的话我们的输入端信息收集
其实是多维度的一方面有听觉的一方面有视觉的另外一方面可能还有嗅觉还有触觉所以我们对于一个人心机器人来说的话也需要多种维度的信息输入所以它得具备一个多模态
另外一方面就是它得一定程度上需要轻量化因为它毕竟在端侧我们要考虑到它受尺寸限制所以它的芯片肯定不能特别大量也不能特别多受到成本的限制以及受到功耗的限制它不能太耗电等等所以我们对于模型又需要一定的轻量化但这个时候我们可能要去除掉一些不必要的
这些信息比如说一个通用的基于这个大语言的模型可能他天南海北的东西他都知道啊但是对于现阶段的这个人行机器人来讲的话更多的可能还是要有一个专用的场景来做一定的这个减法不然这个模型太重的话在端侧也不利于他的这个商业化的开展那
那同时呢他可能还得具备一定的可离线的这个能力比如说在一些特定场景下比如说 2B 甚至在一些应急的这个场景下很多时候比如说我们救灾啊或者在一些其他的场景下这个网络通信可能是不通畅的那他也能执行一些特定的任务所以跟通用的大模型来讲的话他还得具备一定的可离线的这个工作的能力
这个可能是它的一个算法的不同那算力端的话和通用大模型比起来的话因为通用大模型现阶段其实主要也是两个维度就是训练所需要的算力和推理所需要的算力那我们现在平时常可能接触到的这个通用大模型主要的这个算力都是在云端的
对于机器人来讲的话它的实质性要求更高它不像我们比如说跟它的 GPT 去聊天延时有个一秒两秒其实不是太打紧但是对于机器人来讲的话这个时间太长的话可能会影响到它最终执行的准确度甚至会影响到它最终是不是能够商业落地
所以对于实质性要求高也就意味着推理一定要本地化所以这个推理端的芯片一定要装在机器人里面那训练的话可能和传统的通用大模型没什么差也是需要具备这个高算力然后多颗核来并行解决这个模型训练的问题那最后的数据端可能和传统的大模型也不太一样
因为对于我们人来讲的话其实有很多非常有价值的数据是过去可能没有被收集到的比如说前面提到的触觉这些信息其实对于我们人来讲非常非常的重要比如说当然一个东西我们有灼烧感或者说有刺痛感
我们知道要远离它其实对于机器人来讲这些信息一样重要不然它可能就坏掉了所以这些信息是过去比如说我们通过互联网或者通过书本可能是收集不到的所以我们需要一些很多的一手数据来构建训练的数据库另外一方面可能我们也需要一些行业的 know-how 数据这个可能也是我们在互联网端拿不到的
所以巨神智能相较于我们现在看到的这些比如说以大语言模型为代表这一类大模型可能对于现场收集的数据的依赖程度会更高一些这个可能也是和大模型一个比较大的不同
因为刚才也提到了一个非常有趣的点就是这个人行机器人可能会在成本上已经跟这个劳动力的成本就是很快的就会达到了一个触及的一个点那我们在思考就是人行机器人是否会替代人的这样的一件事情上这是一个很远的一个展望的未来还是一个可能在三五年内就会发生的一件事情呢
从我们的调研来看的话我们觉得可能都用不了五年我们觉得可能就是两三年内就会逐步开始发生的从我们的草根调研的情况来看的话因为有很多的行业比如说我们去钢铁厂有些场景比如说倒钢水还是靠人来操作的
这个行业就像我们在建筑工地看到的现象很像基本上没有什么年轻人在从事对于这一类的行业来讲的话主观上来讲它就有一个替代的需求所以我们觉得对于这一类的行业来讲的话用人型机器人去取代人的工作就是这一两年会发生的事情在叠加我们现在看到的成本下降的曲线确实非常非常快
基于我们的草根调研的话一般可能不到 1 万台的这个规模出货量成本基本上已经可以降到 10 到 20 万甚至 10 万以内都是有可能的这个看具体的这个要解决的场景了这个水平在我们讲的这个高危行业里面其实跟一个人一年的收入水平已经差不多了当然机器人是报幕成本它还有一些别的成本叠加上去
我们觉得跟一个人一年的收入水平也差不多了那按照一个机器人保守来算三到五年的周休周期他已经有一定的这个商业价值所以我们觉得现在可能行业端已经进入到一个密集的这个场景落地验证的阶段了就是他能不能用可不可行是不是能满足我的要求已经进入到这个阶段了
那如果比如说在明后年得到一个肯定的答案的话我们觉得爆发可能是非常快能够到来的一个这个时机那子鹏老师您认为就是这样的一个快速的一个落地场景落地的一个可实现性会对于我们的经济增长和产业结构变化包括就业结构变化会产生什么影响呢就是像人型机器人的话它其实是可以实现不同的功能这也是我们对智能的定义但这儿的话我
一直是对人形机器人是一个非常乐观派但是我们也要知道就是人形机器人实现不同的功能其实它是有时间的这样一个先后的比如说人形机器人可能在实现一些所谓力量型的任务或者是空间移动型这些任务相对比较容易因为这个在技术层面上就是比较成熟了
但是人形机器人在实现一些比如说灵巧手或者是一些相对复杂的一些需要推理能力或者社交能力的这样一些功能其实它是可能需要比较久的时间才能掌握这样的一个能力
所以人形机器人对劳动力的影响其实它也是一个有点极面的过程未来在两三年之内的话我们有可能会看到人形机器人在一些处理相对比较简单的这样一个功能方面可能是出现一个大范围的替代
但是这部分涉及到的就业其实是我个人感觉是相对有限的就人型机器人或者说巨声智能甚至是整体 AI 的一个发展如果真正要开始对人人社会产生一个比较大的劳动力就是生产效率的影响可能会需要 20 到 30 年左右这样一个时间
所以说我们有足够多的这样一个时间窗口让劳动力市场进行调整比如说像 100 年前的就业跟现在的就业其实已经是非常不一样了 100 年前的就业大量的就业是属于所谓的这种体力型的劳动但是人类基本上已经让机器替代了这部分的工作目前更多的是从事一些白领或者是甚至其他更复杂的一些研究类的一些工作
所以未来的话我认为人型机器人可能对劳动力市场的影响也是类似最开始可能替代的就是那部分人型机器人最容易完成的那些工作我们在 AI 经济学当中其实对各个产业结构的变化也做了一定的影响就人型机器人怎么样融入到产业结构其实是取决于两个因素第一个就是人型机器人完成特定任务的它的成本高还是低
另外一个就是本产业当中人去完成
类似任务它的这样一个成本高和低所以产业要去引用人型机器人它其实是有一个所谓的成本收益比较我们的一个结论是什么呢就是在 2030 年左右我们觉得采矿医疗资源加工信息服务租赁和商业服务这几个板块有可能是受到人型机器人或者巨声智能冲击相对比较大的板块
那感觉我们还是在未来的几年时间内将会见到这个人型机器人一个非常快的一个在现实中的一个场景落地的这对于我们的生活的影响也是非常巨大的我看到那个程浩老师这个行业报告里面他有提到一点就是这个传统的这个巨声智能算法其实是缺乏这个泛用性的
我就是想到在我们 AI 经济学当中也提到过其实如果把它规划成这个原任务的话它是不是其实也有一些这个泛用性我就想问一下两位老师怎么看这个问题
我们这个泛用性可能主要针对的是一些可商业化过程中面临的比如肠胃问题,比如说如果我的这个环境很干净的话,我执行任务可能是很好的,比如说我这个环境突然出现了一些过去我没有遇到的,比如说我这个抓手部分可能脏了,他可能就找不着我要抓哪了。
这种常委问题过去其实是困扰机器人能不能够大规模商用的一个很重要的一个点就是因为常委问题它是需要不断的进行信息收集而有一些问题可能是我们工作比如说一两年才能遇到一次的那这个中断就导致我的整个商业进展推进会非常缓慢
那大模型的好处就是这种泛用性啊比如说对于环境的这个污染啊这个把手脏了我也知道我是应该抓在这个位置的等等吧啊我觉得这个是很重要的然后另外一个就是您提到的这个原任务啊我们觉得泛用性也很重要就是用什么样的比如说是拉它啊还是推它这个其实是在这个模型处理过程中一个非常好的这个泛用性啊比如说
我训练它去开门当我拉不开的时候我就知道去推它我不需要再根据每一个门来训练它也可以带来它的这个就是学习成本的快速下降整个商用化的节奏的快速推进这个都是大模型的泛用性可以带来的这个明显的一个性能的提升
那我补充一下就是关于原任务和所谓的这种专业性和通用性的这样一个关系其实在 AI 经济学当中我们之所以提出就是人类的所有的工作可以划分为 16 类这样一个原任务其实这个原任务背后涵盖的就是一个所谓一个通用或者泛化的这样一个概念
什么意思呢就是我们其实可以区分一下就之前的工业机器人跟我们当前的这种 AI 最大的一个区别在什么地方最大区别就是工业机器人更多是通过预编程去完成某种工作当中的一个任务序列那这个任务呢有可能会随着不同的这种应用场景的变化那我们对它的一个编程其实是要发生改变的那这是在
所谓的自动化或者机器自动化时代我们常见的一个所谓的智能的一个体现但是以 Transformer 为代表的大语言模型出现之后就人们对这种 AI 的要求可能提出了一个更高的一个标准就希望我不需要根据不同的应用场景我去重新编程我希望这个 AI 可以在不同的场景当中都可以完成特定的任务比如说语言
像之前我们做人机交互的时候很可能会有不同的这种应用平台不同的应用场景我可能会采取不同的这种编译语言但是大语言模型出来以后你会发现人机交互突然变得容易了人类可以通过自然语言这种方式可以跟不同类型的这种 AI 进行交互那其实背后意味着什么就是 AI 在特定的这样一个原任务上它
它掌握了就所谓语言的这样一个功能那这就是我们对语言任务的一个定义就是语言任务其实就是某一种功能这种通用的功能是不会随着应用场景的变化而变化的
所以我有 16 个原任务的意思就是人类不同的工作我可以由 16 个最基础的按功能区分的原任务来完成 AI 未来如果要想去替代人的工作的时候其实它就是要去模仿这 16 个最通用的原任务如果 16 个最通用的原任务它都可以完成了基本上任何一个复查的一个
工作流程在不同的这种生产环境或者场景当中他这个工作都可以自主的完成
所以原任务概念其实它就是一个通用的一个概念但就是说可能这个人形机器人它的适用的一些原任务可能不太一样对就是原任务为什么会不同的原任务呢其实说句实话原任务对应的也是大家对智能的一个理解我们现在想象当中的智能认为智能是包罗万象的其实在实践当中你会发现就是不同的智能其实是可以分类的
举个例子我们有所谓的视觉方面的一些智能语言方面的一些智能音乐的智能数学的智能运动的智能其实这不同的智能背后对应的都是在不同的这种信息的情况下对某种真实事件的这种一种反应
这种反应如果是一个符合世界客观规律或者我们所谓世界真理的那就说明这个智能体在这个方面是比较有智能的所以当然最好的就是所谓的一个多模态的我可以记忆有语言动作视觉混合在一起那我对这个世界的反应可能是越真实的但是在实现难度上你会发现它可能是分阶段的
有些是相对比较容易实现数据可得性算法的难易程度或者是在实体载体的这种成熟度上面它天然会有一些限制 16 个原任务它也不是说每个原任务可以在同一个时间都同步完成可能在当前的话体力型的原任务是最容易实现的
那我们就是个人比较感兴趣一点就是像这种生活服务类家政类这种人型机器人的出现它是不是还是相对来说会时间更久一点它好像需要的这种原任务的涉及到的原任务是不是会种类比较多一点
我可以先回答一下大伙长浩可能有不同的意见因为这个问题其实对应着现在大家比较火的一个议题就是比如说巨神智能或人形机器人是最早在工厂里使用还是最早在家庭里使用其实无非就三种一个是工厂最先第二个就是家庭最先第三个是工厂跟家庭是同步的其实我个人而言的话是我更倾向于人形机器人可能在工厂里面的
失用可能是早于在家庭里的使用它背后的逻辑是什么呢就是在家庭使用跟在工厂使用它对原任务的要求是不一样的在工厂里边使用的时候更多个体型的一些原任务要求度是比较高的但在家庭内部的话很多时候它可能会涉及到一些跟社会属性相关的原任务
但是从原任务的这样一个训练的角度来讲的话你会发现个体型的原任务它的数据的获得性然后在算法的成熟度上面是相对比较容易实现的所以从时间的先后顺序而言很可能在工厂里边的这部分人形机器人它的功能是最早
达到就所谓的这种应用场景所需要的这样一个成熟度但在家庭它的要求相对比较高可能短期就是离实现可能还有一定的距离但也可能会出现一些突破但目前的话我可能更倾向于就是从实现原任务的难易程度而言人形机器人可能最早是在工厂里面进行布置
对我完全赞同没有不同观点我们认为其实核心还是目前的这个算法层面吧或者说对于整个人心机器人的性能层面来讲的话还是无法支撑这种多步骤逻辑比较复杂的这种问题的
所以工厂的好处我们知道过去工厂为了提升生产效率这么多年的持续性演进也就是说他比较偏这种流水线的逻辑对于一个个体来讲的话他做的工作其实是比较有限的
比如说它只需要拧一个特定型号的螺丝而且就在一个特定的位置上它不需要关心别的位置的螺丝选什么型号的或者应该拧在哪那对于这种场景的话用机器人去取代其实这个难易程度上是更经济一些的就是它不需要做这种复杂的处理
我只需要知道我在这个工作上替代的这个人他是从事什么行业的比如说我前面举的这个例子倒缸水那如果我让他把整个炼钢的流程都做一遍的话目前的机器人是肯定做不到的但是如果只是做其中的一步的话这个我们觉得从目前的这个智能化的水平和现在的这个性能情况来看的话其实是可以做部分的这个替代了
但是在家庭场景下这个就很难了就是我只买一个机器人让他只做一件事情比如说我想炖锅肉我买这个机器人他只能切肉那这个对我来讲就没有任何这个
商业价值可言就是没有必要我没有这个需求我可能需要凑齐七八个机器人才能炖熟一锅肉我们家也放不下这么多机器人所以在家庭场景下我们觉得比较慢核心原因就是我们很难找到一种场景它有非常高的价值而且又非常简单的步骤去靠一个机器人来完成这个在家庭场景下是比较稀缺的所以我们觉得是场景决定了可能人形机器人在家庭
进展可能会相对比较慢一些那还是在这个工厂这个场景下可能相对来说更加专用一点然后这个步骤也比较固定一点它可能这个机器人的这个成熟度达到这样的一个场景的成熟度的这个要求会相对低一点然后可能会更容易实现一些然后家庭场景呢可能我们对它的通用性要求会比较
高一点然后要求他既能运东西然后又能做饭然后可能还能提供一些情感支持有各种类型的这种原任务的要求那可能在短时间内这样的一个应用场景的渗透可能还是没有那么快的那我们对这样的一个就是后者这样一个家庭场景的一个渗透有没有一个预期呢就是未来看它大概会是什么样的一个进程或者有什么样的一些核心的突破点把这个实现之后可能就会有一个很快的提升
我觉得还是两个方面第一个就是从成本端来看因为目前的我们刚刚讲这个 BOMB 成本是按照 1 万台规模出货机器人来测算的再考虑到比如软的比如前期的一些研发成本比如说一些人力的投入等等我们觉得目前的机器人如果要有一个商业闭环就是说卖机器人也能赚钱
在家庭场景下还是一个偏贵的产品所以我们觉得还是需要等到工业端进一步的放量来摊低全行业的成本之后才有可能在成本端去比较匹配这个家庭的这么一个购买力那另外一方面就是从性能上来看那性能上来看的话前面讲到因为对于端侧来讲它对于整个这个模型
其实还是有一些要求的你不能太重了只要模型不能太重的话一定会影响到它整体的准确度也就是说它的性能可能会牺牲掉一部分
所以在性能端如何进一步去提升啊包括一方面可能通过工程调优的手段去进一步提升这个端侧的模型的性能那另外一方面可能也是有没有可能进一步去提升这个硬件的性能啊让我用更重的模型来让它具备更复杂的逻辑处理能力啊这个都有可能会决定未来机器人的性能提升的节奏啊
从这几个维度来看的话我们认为可能家用场景没有个 5 到 10 年的话很难有一个大规模的应用
我也比较认同但是我稍微提供一个不一样的点不一样的点是什么就是人型机器人进入家庭它究竟可以做什么其实你可以大致分成两类一个是做娱乐用就像我们去购买一个机器狗我只是觉得机械方面是很有意思的这部分可能会稍微快一点因为它并不能完成所谓对家务的一些支持
那当刚刚程浩讲的成本下降到一定程度的时候我相信会有一些就是喜欢创新的或长线的家庭是愿意购买这样一类型机器人
然后另外一部分就是真正的进入普通家庭这个时间可能就会相对比较迟如果按照以前的不管是电力或者是计算机这样一个维度去看的话当他从计算机发明到真正进入普通大众家庭可能中间也是 20 到 30 年左右这样一个时间维度所以我在想真正的当包括从原任务这个角度来讲我们可能也认为这个时间
可能会在 20 年左右能够进入到就普通的这种家庭
我再补充一个就是关于市场空间的一个预测关于市场空间的跳动的话其实我们在 AI 经济学当中提出的这个原任务模型其实是给了我们一个非常好的去估算比如人形机器人它的这个潜在的市场空间有多大它一个基准的一个预测逻辑就是我们去看当前的 GDP 当中比如说 90%以上的各个
这些产业当中有哪些人工进行的原任务在未来比如说到 2030 年是可以被人形机器人所完成的那这样呢就给了我们一个大致的大概的对这种人形机器人商业空间的这样一个需求的一个测算那我可以给一些数字啊
我们假设不考虑对家庭或者娱乐行业这种新生产业因为这个未来新生产业是一种什么形态说句实话我们没有办法特别的确定我们对现在已有的这些产业形态当中到 2030 年这种人型机器人的这样一个市场需求大概可能在 6.4 万亿人民币这样一个水平到 2035 年的话这样一个市场空间大概会在 8.1 万亿人民币这样一个空间
其实说句实话我觉得有一个问题还挺重要的就是人行机器人的这个发展其实有点像新能源车在比如说十年前因为十年前的话甚至十几年前新能源车它的技术路线还没有收敛当时还有氢能源车新能源还有混合动力各种包括生物能源
但现在基本上还是电池这种锂电池人形机器人未来的这种技术路径我相信未来五六年之内很可能就已经非常快速的收年我不知道程浩现在对这个方面有没有什么看法子墨老师提的这个其实挺重要的一开始我可能泛泛地谈了一些
这个跟过去的智能汽车确实很像智能汽车为什么我们知道在早几年前的时候或者说电动汽车的成本其实是非常高的即便在政府补贴下我买一个差不多的汽车比如说 B 级车 C 级车的初级款其实是比燃油车还要贵的即便是在政府补贴下还是要贵的而且在这种背景下我们看到还是大量的电动车都不赚钱
所以这个产业的变革其实就是我们讲的头部公司带来的就是有一个明确的眼睛方向了
那这个眼镜方向其实就是汽车的这个全新的一一架构啊等等还有一些比较 detail 的技术啊比如说一体化压柱等等啊这个都是降本路线上面的一环但核心其实是架构的眼镜架构眼镜的好处就是中有公司开始收敛就大家发现这个是未来降本最好的一个方向所以大家都往这个方向走
当大家都往这个方向走的时候上游的供应链开始收敛因为其他的方向就没有人用了那企业端肯定会朝着我能活下去这条方向在做未来的产品规划所以当上游也开始收敛的时候我们看到产能就开始扩张就带来成本的开始大幅下探所以我们看到的这一轮的机器人很像过去的路线是比较发散的
但是特斯拉带来的一个理念性的颠覆它其实是用 14 个线性执行器加 14 个旋转执行器
就构成了我们整个人的一个架构比如说我们人也是一样一些关节它就是做旋转的比如说肘关节肩关节胯关节它就用旋转的执行器还有一些就是做这种力量驱动的比如说我的小臂我的大臂我的腿它就用这种线性的执行器再加一双手再加一个脑袋有的还有一双脚
那就构成了整个智能机器人的架构那这样做的好处就是整个上游或者说整个结构模块化之后整个上游开始收敛因为 14 个线性执行器用的东西全是一样的它虽然是不同的部位那 14 个旋转执行器用的零部件也是一样的所以它从一个机器人开始就已经开始有规模效应了比如说一个东西乘以 14 那立刻大家就觉得这个时长值得去做一下
那上游开始收敛所以成本快速下降这个是我们两年跟踪下来人心进行这个产业最大的一个变化我们觉得就是整个的发展方向开始收敛带来了成本端的快速下降那成本端的快速下降带来了就是我们讲的那个逻辑很多商用场景从过去的这个算不过来账到现在觉得完全可以去取代人了就是很便宜了机器人已经很便宜了
这个是我们觉得过去一个比较大的变化对于未来来讲的话我们承认现在这套架构它还有各种各样的问题比如说它的执行的精度还是不够高甚至反应的灵敏度也不够但我们觉得从目前的行业趋势上来看尤其是世界上最强的工业国家中美开始
我们觉得有比较明确的倾向性就是站对赛道的发展方向了所以未来就像前面讲到的限动运气车过去可能还有轻包括我们知道很长一段时间日本还一直坚持轻但为什么路线就是没有发展起来呢我们觉得跟规模效应其实是息息相关的所以如果没有庞大的市场
来支撑这个产业往这个方向走的话很有可能未来会因为比如说成本端或者说因为它的这个迭代技术迭代变放缓很有可能会被逐步取代掉所以从当下发展方向去看的话我们觉得至少三五年内吧中美的这个技术路线会进一步的收敛
我们前面讨论了非常多关于巨神智能或者说人型机器人可能会给算法算力和数据带来的一些新的要求和新的挑战那您觉得可能从社会层面而言人型机器人可能还会存在哪些在未来发展中遇到的一些风险与挑战呢我们觉得最后一个问题蛮值得去探讨的就是这里面可能带来的一些新的比如关于安全的问题关于社会伦理的问题
前面子凡老师也提到了关于失业可能短期还不是大家去顾虑的一个点而且随着生产效率的提升从历史上来看都会创造很多新的职位的比如说随便说比如说这些职业的体育明星们其实就是生产效率提升带来的因为如果没有生产效率提升的话大家是没有这种空闲的时间去欣赏一场比赛的
那就不会去养这么多的这个职业体育人所以可能随着未来社会生产效率的进一步提升会有新的岗位创造出来那短期的话我们觉得可能更多的还是从我们国家的角度去看工业化走到现在这一步城市化进程走到现在这一步其实很多的岗位因为它
有一些比如说不安全或者很枯燥乏味就像前面讲的流水线的每个工人他每天干的事都是一样的甚至几十年如一日都干同样的事情他会因为人有情绪所以这种岗位我们觉得被机器人取代其实是挺符合人的发展品性的让他去干更适合他的职业另外一方面关于到隐私这个问题的话
我们知道尤其是在家庭场景下这也稍微挨扣一下前面那个问题就是家庭场景为什么这么慢我们觉得可能还需要很多的政策包括法规层面来配合因为在家庭层面它一定涉及到数据的收集那就涉及到数据的所有权问题我用这个家庭的数据去训练我的通用大模型那它到底所有权是谁的那这个价值如何分配包括
可能对于这个模型或者说对于机器人公司来讲可能一定会牵扯到这个隐私相关的问题因为它是在一个家庭下那对于工厂来讲也是一样的比如说
都是生产这个加热电器的工厂但它是隶属于不同品牌但对机器人公司来讲的话可能是同一家那这个数据的所有权问题所以我们觉得在今后可能监管层面也好这个法律层面也好可能还是有挺多工作是需要进一步去推动的吧
那非常感谢两位老师我们今天的这期节目就到此结束了如果大家对巨神智能或者相关的研究内容感兴趣的话欢迎大家关注中心研究院和中心点睛的公众号本期节目到此为止谢谢大家