在深圳,大模型掀起的AI硬件创业潮正席卷大厂、初创公司和一些中等规模的软件企业。
这些新玩家们相信,大模型带来了全新的人机交互体验,而一个完整的交互解决方案,一定是软、硬一体的。
刘轶就是其中的一位。在对谈中,他引用了一个巧妙比喻:大模型是水,本身无形,需要载体——这是他决定投身硬件产业的重要原因。
另一部分原因,则来自一个语音AI行业老兵的经验之谈。
刘轶的背景横跨学界、产业界。他是港科大首位智能语音语言领域的博士,国家重大人才计划特聘专家。在清华任教期间,他所在的国家实验室后来走出了炙手可热的大模型公司智谱。
2014年刘轶博士决定离开高校,在深圳创立了北科瑞声,为行业提供语音AI的系统与服务,并很快在医疗、政务、交通等领域找到了垂直细分市场的机会,但也仍然面临企服市场定制化程度高、软件付费意愿不强等问题。
十年后,带着在垂直领域积累下的行业优势,刘轶决定在大模型时代再次出发。手机之外,高度依赖语音交互、“受限显示”的口袋式硬件,被寄予厚望。
不过,如何在这样一个小小的终端上平衡性能、算力和功耗三者的关系,是摆在每个新玩家面前的共同挑战。刘轶认为,这也恰恰说明在端侧仍大有可为。
【本期课代表】
刘轶,北科瑞声创始人、董事长,国家重大人才计划特聘专家
【课代表观点】
01:05,语音AI技术的进展和局限
04:54,中文和阿拉伯语的识别理解,哪个更难?
06:30,更好的大模型一定出现在工业界
08:51,微调(SFT)不是每个人都该去做的
12:13,大模型是水,一定要有载体
14:06,做硬件就是一个权衡的过程
16:37,GPT-4o离产业化还有一段路
17:20,受限显示的小硬件是个趋势
【补充知识点】
ASR自动语音识别(Automatic Speech Recognition) 基于深度学习技术,将音频中的语音转成文字。可用于识别多种音频编码格式、多种场景和不同长短的语音。广泛应用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。TTS语音合成(Text-To-Speech)是一种将文本信息转化为自然语音输出的技术。通过TTS技术,我们可以让机器像人类一样开口说话,从而实现人机交互的语音输出。常见的应用有车载导航、电子书阅读、智能语音助手等。
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在喜马拉雅、小宇宙、苹果podcast等平台上线。每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
【制作团队】
策划:nada、大帅、Sue
后期:Jack 、迪卡