嗨,请就坐,我们今天的 AI 课代表即将登场,它将为您带来当下最新鲜的 AI 知识点,您准备好了吗?
哈喽,欢迎收听 AI 课代表,我是主播娜达。
上一期节目呢,我们借着苹果最新的 AI 发布,和手机厂商 OPPO 聊了语音 AI 和大模型在手机上的应用。
那其实除了手机之外,这一波生成式 AI 的创业热潮下,还涌现出了非常多新奇好玩的智能硬件,像 AI、 PIN、 Rabbit, 它们都非常小巧,甚至没有屏幕,也都高度依赖语音的交互。
所以这期节目呢,我们就请到了深圳北科瑞生的创始人刘毅博士,他的身份很特别,曾在清华、北大任教过,是 AI 语音行业的资深专家,同时也可以说是智能硬件产业的一个新人,那当他进入这个热火朝天的市场,会有哪些新的发现呢?
我们一起来听听刘博的分享。
刘波你好你好主持人好。
首先我想大家都会非常感兴趣啊,嗯,技术上现在的虽然有了大模型,有了生成式 AI, 嗯,但是其实在语音的这一块还是有很多的技术难点是尚未解决的,比如说我们最简单的这个中英文夹杂时候去说的时候,可能他就听不懂,无法分辨,或者说有多人对话的时候,他其实还是很难去判断说诶,我什么时候可以插话进去?
嗯,然后包括有一些语音复杂的这个口音的问题,对对,还有环境音的问题,嗯,因为您是这方面的专家嘛,您觉得这些问题大模型进来之后有得到多大程度的改善?
然后未来如果想彻底解决的话,可能还需要多长时间?
实际上大模型的出现,甚至包括神经网络的出现,端到端的,呃,这种技术的出现,已经让语音识别技术是突飞猛进了。
我当博士的时候做的那个毕业论文,我 spontennis speech recognition 比我们这种可能还 flexible, 就这种的,当时是只能做到 60% 多准确率,但是现在你看可以做到 90% 多以上。
所以说从这个角度上面来说的话呢,如果仅仅纯粹是识别的话,它应该是进步是巨大的。
呃,像你刚才说的,实际上最难的语音,它就是这种环境的影响最大啊,环境的影响,你像这种,它只要是非人说话声,现在都不是问题,但是如果我们是混在一起的, overlap 的这种语音,你要识别这个也还是很难。
为什么现在很难?
就是因为我们现在还没有办法充分地理解人是怎么做,包括生源定位啊,就这个他的人的这种听觉感知的这种机理,那这个还是缩发,到现在还是不清楚的。
我说白了,我们现在是技术层面并不有多大的这么一个突破,只是我们现在算力很强了,我们可以用很多的这些数据去端到端地去处理了。
但是我们人发生的这种机理啊,比如说我们发生可能就知道就一个 Vocal track 的,但实际上它的生理的特征啊,怎么能去弄?
我们现在只是用滤波器来模拟嘛,但是这个也并不是很清楚的。
第二点,实际上你说到的语音识别也好, TTS 也好,甚至包括说话人分离也好,实际上现在机器已经超过人了,它摩斯分就是我们专业的哈都能达到 4.2 以上甚至更高,这个摩斯分指的是就是你人听觉感知它的自然度这些,它它有一套评分的,这个 Benchmark 的就是它已经超过人了啊,而且他那些情感你很难去判断的。
第二个的话呢,就是我们语音识别的正常情况下的这些准确率也超过人,你可能那个感觉不到,实际上我们人的话呢,你听这种,当然我们也有口音了,那口音不太重,这种的话机器可以做到呃 9798,我们人也就是做到这个 level, 在后面你比如说混杂一些口音啊,什么四川话,虽然都是讲普通话哈,嗯,比如说广普啊这些,诶,我们你如果没有经历过的,你的这个识别率会急剧下降的,但是如果机器那里面它处理过的话呢,它还是比人厉害的啊,确实对,但是机器它的欠缺在哪了呢?
就说到大模型,我们人类的联想和感知的这些能力,这个是机器短期之内很难去匹配的。
还有一个就是实际上你在识别,你在处理的时候,很多时候是有歧义的,你有上下文的环境的。
比如说刘备大败曹操,到底是输了还是赢了?
还有我们自然语言里面经常讲的最典型的一个,南京市长江大桥,他可以是南京市长江大桥,也可以是是南京市长江大桥,对吧?
它不同的断句它就有不同的意思。
就您举了一个中文语境里面很容易有歧义,或者它因为有多音字,容易机器容易理解错误的,那是不是说明中文在这一块是特别难的?
就怎么定义这个难度?
就是我们经常讲中文很简洁,的确简洁,人家不是说了嘛,联合国宪章对吧,用英文写要多少,什么样最后发现中文很简洁,但是从另外一个角度上面来说的话呢,中文它太难了,这个我们从小受教育,你都得一个字一个字地学它,虽然是有规律,这点它就不如我们叫那个 western language, 就是我们中文可能碰到的挑战,你比如说我们有语调啊,或者说就后面你有理解他们,就没有天然的这种分词啊,这个,那英文或者西方语言可能没有啊,但是人家有的那些挑战,那我们中文可能没有,你像今天中午还在讨论那个阿拉伯文,那也是世界上可以说是最难的那个语言,他那些 Diline, 他他写的这些什么东西他都不一样,所以他说他每个语言的他的挑战,他实际上是不一样的。
但是在大模型情况下的话呢,我们可能就比如说你像千问也好,他现在也开始在去做,就是针对不同的语种嘛,都需要去生成,就是我们可以实际用的大模型。
最早您其实在港科大还有清华北大都任教过,对,但是您后来还是选择这个投身产业,嗯,去做创业,我其实蛮好奇的啊,就是这一波大模型生成式 AI 出来之后,嗯,您在学界的朋友和产业界的朋友,嗯,大家的反应有没有什么不一样?
他看问题的角度是不一样的。
你比如说我以前当老师的时候,最开心的事情就是带的学生很厉害,还有一个发了高质量的论文,有一些这些国家级的这些项目你能够去承担,这个可能是你体现你价值的这么一个因素。
但是在产业界的话呢,那可能就不一样了,往往很多时候你算法很厉害,但是你工程化你就是不行,学校里面现在就是这样,这是第一点。
第二点,在现在大模型的时代,你可以发现这些大模型很少就完全从学校里面出来的啊,因为我以前在清华,现在大模型出来的那些像智普啊,什么我们以前都是一个国家实验室的这样,那他们实际上是有很好的方法也好,算法也好,但是他一定要跟产业界的这些结合啊,他才能够去做出来这些东西。
说实在的,我觉得再往后的发展,核心技术的突破,或者说产业应用的这种突破,包括大模型的这种不断地迭代更新,我更相信应该是出现在工业界。
学术界的话呢,在现在这种对算力、对数据要求越来越高,越来越大的情况下,你架不住这种投入。
其实我听说您在一开始 GP 出来的时候,你也想过是自研大模型的,对吗?
对,考虑过。
但是的话呢,一个基本的判断做不了,第一个就是你完全没有这个能力,就当时你可能攒不攒吧,或者是干嘛,可能会有,但是的话呢,你你一定跟不上他的这种迭代或者发展,那你大厂的算力,投入的这种能力,你不是一般的你能够跟得上的啊。
所以说你现在可以看到,去年大模型开始火热,到现在也就一年多的时间,再到下半年,我想我们都能够看到,那很多的可能就淘汰了。
是我之前跟一个招聘公司的一个 AI 负责人聊了,他甚至说现在可能做 SFT 他们都做得少了,因为他发现做完 s FT 之后,下一代的这个激模出来可能比它更强。
对对对,是的,你说的这个很对。
第一个就是 SFT 它不是在应用层所有的都该去做的一件事情,我觉得这个可能要分一下,你看现在千问他会提供从上千亿一直到 10 亿,甚至再低一点的寂寞,他已经足够能够 cover 到你一个,提供你子弹,提供你一个基本的嘛,因为它有大量的你想摆炼或者是干嘛这种工具,而且它的开发周期也会越来越短,所以说你自己折腾半天买了很多数据去弄的,你可能还没有它也有一个新版本,你就啊 out 了。
嗯嗯,但是换一个角度上面来说的话呢,有的行业或者说有的领域,你可能你在这个里面深耕,你有你自己独特的你这些数据,独特的知识图谱,知识库啊,因为现在大模型很多,你回归行业,你真的要避免幻觉,或者是真正的要让他给出来的结果比较精准,你可能还是要嫁接一些知识库,甚至增强搜索这种方式,这个我觉得可能是对于用户层面的更有价值一些吧,而不是说你想着把他的寂寞你只是发一通一下,或者是这个 supervised 的 fatal 一下,不是一个终极的这么一个目标吧。
您刚讲到这个细分行业啊,我觉得这是一个很有意思的问题,嗯,首先就是我知道咱们的团队一开始其实也做的是比较多这个细分领域的一些语音 AI, 比如说像这个交通、医疗、政务对吧?
嗯嗯嗯,那我们过去积累下来的这些在细分垂直领域的这些 AI 的能力,嗯,现在和大模型结合的话,在工程上是怎么做的?
第一点的话呢,比较复杂的就是你要去调用你,比如说千万啊,这个后面他就比如说几百亿的, 70B 的 SaaS 啊, 14B 的这些,这个我觉得现在对于我们这种 level 的公司,你是没有必要去做这件事的,这是第一个。
第二个的话呢,啊就今天谈到的就是在端侧,可以发现它一定是一个巨大的一个市场,那在端侧究竟应该是怎么样的去做这么一个端侧,就今天在会上分享的时候我也讲的,就不同的人可能对这个端侧或者终端它的理解是不一样的。
对。
要先澄清一下。
比如说有的你像我们叫 undevice application, 有的叫 edge site, 那对于我们语音来说的话呢,它是一个我们是叫在线 online, 一个是叫离线 Offline, online 的话呢,就是你可以上网,你可能会调云的这些东西,那 Offline 的呢,就全部在你本机那这个,那对于绝大多数的非专业呢,那挑战就会很大了,很少能够做到真正的 offline 呢,在本机的能够应用的 ASR, TTS, 还有包括它的后处理啊,说话人分离啊这些工作。
这样应该来说到下半年软硬一体,云端结合,甚至云边端鞭策的,可能它都会有一针对不同的行业吧,它都会有不同的应用或者解决方案。
您刚其实也屡次地提到了硬件啊,嗯,咱们现在也是在做一些硬件方面的一些。
呃,我们自己可能不太会直接做硬件,但是的话呢,我们会把我们的这种能力跟硬件结合起来,因为我们最早也是做软件,纯软的,嗯,但是纯软的在中国很难,不管是各个 level 吧,都认为软件不值钱。
还有一个就是你纯软的,你现在随着大模型和这种人机交互新范式的出现,你光是做纯软的,你没有入口,你很难的。
嗯,所以我们现在你比如说做了那个微鼠啊鼠标,还有在医疗里面,我们也做了那种很 portal 的这种即时通信终端,然后在手表上面,那都是为了你这个信息,你要有一个入口,才能够去跟后端的这些东西,你才能够结合起来。
你否则的话,你光有通信也好,后端也好,你没有这个入口,实际上我觉得它应该不是一个很好的一个 total solution。
对,这个又回到乔布斯说的,就如果你是一个软件的信仰者,那你必须要做一款硬件,对,没错,证明你这个软件真的是最好用的,对把,为了 iOS 做一个 iPhone。
所以说这块的话,应该来说是一个趋势吧,特别在深圳这个地方,它本身的这个基因和土壤,你包括它做算法,或者说做这种大模型的这些东西,可能跟北京差得很多,但是的话呢,你要讲硬件或者软硬一体化,我觉得深圳它有它天然的这么一个产业链的优势特点。
实际上大模型或者说这种 AI 也好,就是很多人就把它比喻成水,嗯,就是说它不是一个独立的一个产业啊,你比如说我们可以说制造业、机器人,或者说什么, anyway 就是这些。
但是大模型它不是,它一定要有载体,它要跟这些行业要赋能结合起来,他可能才能够产生新的应用价值。
那像您这样一个老兵,开始踏入到智能硬件新的领域的时候,您有什么比较有趣的发现吗?
您觉得有点挑战的地方?
挑战还是挺大的,实际上也不能说完全是智能硬件吧,我们应该是软硬一体化啊,就比如说我们现在因为第一个我们自己不做硬件啊,不做硬件啊,第二个的话呢,就是那里面的那些东西,我们因为深圳产业链很很完善嘛,我们可能也都是 all source 出去,或者跟别人合作。
但是的话呢,你比如说核心的把我们语音预训练好的这个神经网络,你把它抛到芯片里面去,嗯,你原来你可能你在云端,或者说你在这种 GPU, 在这种环境下面,你根本都不需要考虑算力,不需要考虑这些的情况下,那你回过头来你又要关注这些,但是你在做的过程当中,你不断地 pooling 或者不断地优化,你又会发现你的这个准确率啊,或者效率又会降低,所以说这是一个不断的一个探索和研发的这么一个过程吧。
嗯,就是一旦端侧之后就要寻找一个平衡,这个平衡吹燥。
对对啊,一个 balance, 是的是的。
一个你需要性能,你需要反应的这个快速反应,同时你又功耗,功耗,能耗,对,你不能一一打开,我这马上没电了对吧?
你比如说唤醒,哈,还有一个处理的这些东西,它后台它可能呃,你如果不考虑耗电,它就一直开着,对啊对吧,然后就监听你,它的思维,你要进行调整。
还有一些你,比如说像以前你可能会有那些库函数,你都把它调用或者干嘛就好了,但是很多在受限的这种环境下面,你可能就不能这样,你可能你得把它预先算好了,做一个那个表啊,然后你再把它放进去,然后再查表,这样子来降低它的功耗,还是有很多的挑战的,在更低的这种功耗下面,那挑战更大。
你举个简单的例子,像一般这种手表,嗯,阿托斯的这种手表,你就是把语音给它送进去都很难,因为它算力很低,嗯啊,就是你送进去,你要传统的你,你就即使做了优化,你可能都要四五秒啊啊,你再把语音送进去,你还要再到云南传啊,然后你再回来,然后 TTS 你还要再播出来,所以你这个就没法用了嘛。
那在这里面,那你可能就要牵涉到很多的这些技术,你要做一些工程化的处理了。
你比如说你要想办法把它弄到一秒之内,人的话,正常的话你超过 3 秒你就不耐烦了嘛。
对像 GPD FO 是一个差不多两三百毫秒,这个是一个什么水平啊?
这个达到人类的水平了,它是 250 到 320 毫秒。
我们人的话呢,年轻人快一些嘛,200 毫秒,中老年人的话就 250-300 毫秒。
但是它背后的话,因为它是一个 demo 嘛,而且因为它那里面用了太多的,你,正常人看来你可能觉得都是很简单的,但是从我们技术的角度来分析的话呢,实际上是非常复杂的这个大模型和计算,所以它背后它一定是用了非常 powerful 的非常大的这么一个 GPU 集群去做的 Demo, 可以做得很 amazing。
但是距离产业化的话呢,应该还有距离,因为还有成本的问题嘛。
我们再回到这个语音 AI 的这个领域去聊一聊啊,嗯,就原来的时候,我们其实看到你也说,呃,那个时候的一些智能硬件,在传统的这个语音 AI, 嗯,尤其是基于这个识别跟生成的这一块啊,比较多,我们看到可能智能音箱对吧,录音笔,嗯,啊,我直接一个录音笔,它可能就转成文字了。
嗯,那现在您觉得会有更多哪些有想象力的硬件会出现?
嗯,哪些场景可能是过去实现不了的,现在可以实现。
说实在的,很难想象出来,就是说一个好的产品,乔布斯说很难是你规划出来的,对,它一定是你大浪淘沙,人类追求的这种需求出来的。
你就比如说像现在我们这个手机也是一样,一部分人可能认为就是这个手机越往后它越智能啊,我越喜欢用,这是一类,嗯,还有一类的话呢,可能就是想把他这个手机就是极简,嗯啊,就极简化,我可能就是一个助手啊,大模型,什么 all in one, 在那他就是一个极简版的,这是两个他不同的这些思路。
还有的话呢,就是随着硬件技术的这些发展,虽然商业化不是很成功啊,就是在这种那个兔子,嗯,对吧,它就相当于是一个没有平的这么一个手机卖得很贵,当然后面的话它市场化做得不好,但是它也推出了一种新的概念,新的理念,就智能化的这种终端设备,它一定会往越小型,我们叫受限显示,像手表也是,它的这个屏幕很小,它是受限的,嗯啊,你触控啊,你这些什么东西都不方便,所以在这时候肯定是用语音来来进行。
是就在这种特别轻巧的硬件里边。
这个一定是一个趋势,包括手表啊,手环啊,嗯。
所以未来很有可能,其实最好的硬件跟大模型相适配的,或者最好的我们随身携带的 AI 硬件并不是手机,因为它太大。
它不一定是替代手机啊,就是它可能是对你不同的这种应用,你比如说我们现在就很习惯带一个手表,你跑步的时候或者锻炼的时候,你可能就不带手机。
还有一个,今天你像我们展示的就是在手表上面,我们采用端运营的架构,能够实现快速的这种实时翻译。
嗯啊,手机里面是有很多翻译对吧?
很多,但是的话呢,你想你去吃饭,你到外国的时候,你要把它拿出来,你要把它划拉开,你再找这个设备,然后再一个一个再去弄,你很麻烦,如果在手表上有,你一按一讲就出来了。
还有一个,你像那个翻译耳机,很多人用,你比如说做外贸的,虽然它不是很准确,但是的话呢,它能够解决你大部分的这种交流障碍,就是它一定是一个不同的这种场景,你去有具体的需求。
可能未来就不是一个大而全的东西,对,就好像我们现在 APP 也是有非常多的,是的,硬件也是一样。
最后还是想再聊一下您现在在做的这些事情啊。
OK, 实际上我从我的角度理解的话呢,第一件事的话就是跟头部的大厂合作,能够把这些不同的基座,你叫这种模型,能够跟我们的行业,因为前期我们做了很久的这种行业的应用,能够生成面向行业真正好用的这么一个大模型,垂直领域的大模型,比如说我们现在弄的求医问药,还有交通等等,在这个点里面,它不仅仅是一个做一个叫防疫痛啊,从产品应用的角度来说,我们还需要开发类似一个黑盒子一样的东西,因为这些东西你把它完了以后,它还有新的数据来了,你必须要有快速的自学习的、增量学习的一个能力。
但是对于绝大部分 user 来说的话,他不会去弄这些事的,提供基座的他也不会去做,我们这边交付了以后肯定也不会去做。
那这里面就要有一个我们叫支撑软件,它有了它新的数据来可以很快地能够通过这个支撑软件能够形成可以对大模型的参数进行发一通,进行增量学习的这么一个工具。
这个是我们现在在做的其中一件事。
第二件事就是端侧啊,因为公有云我觉得没得去做了,因为这些都已经做得很强大了,但是在端侧还是有很多的机会和应用,就刚才我们一直说的,你真正能够把呃, ASR、 TTS、 说话人分离或者干嘛,完全做到 offline, 还是有很大挑战的,做得好的也还是不多,很难的啊。
第三个就是我说的就是软硬一体化,你一定要有硬件的入口啊,就以智能手表,我们现在出货还有智能鼠标,呃为例,那头部的可能就是苹果和华为,但是有大量的话呢,它是在中间地带,那这些它一定是需要啊,大模型也好,人工智能也好,它要去给它赋能的,提升它的这些价值的这些。
嗯,因为我觉得这个应该是深圳企业吧,或者是我们一个在未来半年、一年甚至两年一个非常重要的方向。
嗯,好的。
嗯,今天非常感谢刘博跟我们分享了这么多,从他自己个人的研究经历、创业经历,到他个人的转型,包括他对于语音 AI 的一个技术趋势的判断。
非常感谢刘博的时间,也感谢大家收听这一期的 AI 课代表,我们下期再见。
好的!
谢谢主持人。
嗯,再见。
好了,以上就是今天的节目,感谢您的收听。
如果您喜欢我们的节目,可以在 Polcast、 小宇宙、喜马拉雅、网易云音乐等平台搜索 AI 课代表,成为我们的订阅用户。
如果您对我们的节目有什么建议和意见,或者您也是一位 AI 时代的弄潮儿,欢迎给我们写邮件,成为我们的下一位课代表。
邮箱地址可以在节目后面的收弄里找到。