cover of episode 02.为什么说下一个智能硬件可能没有屏幕?

02.为什么说下一个智能硬件可能没有屏幕?

2024/6/19
logo of podcast AI课代表

AI课代表

AI Deep Dive AI Chapters Transcript
People
刘轶
Topics
刘轶博士在访谈中深入探讨了语音AI技术当前的瓶颈与未来发展趋势。他指出,虽然大模型的出现极大促进了语音识别技术的进步,准确率已大幅提升,但仍面临诸多挑战,例如中英文夹杂、多人对话、复杂口音及环境噪声的干扰等。这些挑战源于对人类听觉感知机制理解的不足,目前的技术进步主要依赖于强大的算力和海量数据,而非对人类听觉机制的根本性突破。尽管如此,在语音识别、语音合成和说话人分离等方面,机器的性能已经超越了人类,但在联想、感知和处理歧义等方面,机器仍逊色于人类。刘轶博士认为,未来的核心技术突破和产业应用突破将更多地发生在工业界,而非学术界。他认为,中小公司难以独立自研大模型,应专注于垂直领域,结合自身数据和知识库,对现有模型进行微调,以提升模型在特定领域的精准度和实用性。他同时强调,并非所有应用场景都需要进行SFT,选择合适的模型规模至关重要。 刘轶博士还分享了他将自身在语音AI领域的积累与大模型结合的经验,以及他对于未来智能硬件发展趋势的预测。他认为,纯软件公司在中国难以生存,必须结合硬件才能获得市场入口。他将大模型比作水,需要载体才能发挥其应用价值,因此他选择进军智能硬件领域。他指出,端侧应用需要在性能、算力与功耗之间取得平衡,这是一个巨大的挑战。他认为,小型化、受限显示的智能硬件,例如手表、手环等,将成为未来趋势,语音交互将扮演重要角色。他预测,未来最佳的AI硬件可能并非手机,而是更小巧的设备,以满足不同场景下的特定需求。 最后,刘轶博士总结了他目前的工作重点:一是与头部大厂合作,开发面向行业的垂直大模型;二是专注于端侧应用,突破离线语音识别和合成的技术瓶颈;三是推进软硬一体化,结合硬件入口,为更多智能硬件赋能。他认为,这将是深圳企业未来重要的发展方向。 娜达作为主持人,引导刘轶博士分享了他对语音AI技术、大模型应用以及智能硬件发展趋势的独到见解,并就相关问题进行了深入探讨。

Deep Dive

Chapters

Shownotes Transcript

在深圳,大模型掀起的AI硬件创业潮正席卷大厂、初创公司和一些中等规模的软件企业。

这些新玩家们相信,大模型带来了全新的人机交互体验,而一个完整的交互解决方案,一定是软、硬一体的。

刘轶就是其中的一位。在对谈中,他引用了一个巧妙比喻:大模型是水,本身无形,需要载体——这是他决定投身硬件产业的重要原因。

另一部分原因,则来自一个语音AI行业老兵的经验之谈。

刘轶的背景横跨学界、产业界。他是港科大首位智能语音语言领域的博士,国家重大人才计划特聘专家。在清华任教期间,他所在的国家实验室后来走出了炙手可热的大模型公司智谱。

2014年刘轶博士决定离开高校,在深圳创立了北科瑞声,为行业提供语音AI的系统与服务,并很快在医疗、政务、交通等领域找到了垂直细分市场的机会,但也仍然面临企服市场定制化程度高、软件付费意愿不强等问题。

十年后,带着在垂直领域积累下的行业优势,刘轶决定在大模型时代再次出发。手机之外,高度依赖语音交互、“受限显示”的口袋式硬件,被寄予厚望。

不过,如何在这样一个小小的终端上平衡性能、算力和功耗三者的关系,是摆在每个新玩家面前的共同挑战。刘轶认为,这也恰恰说明在端侧仍大有可为。

【本期课代表】

刘轶,北科瑞声创始人、董事长,国家重大人才计划特聘专家

【课代表观点】

01:05,语音AI技术的进展和局限

04:54,中文和阿拉伯语的识别理解,哪个更难?

06:30,更好的大模型一定出现在工业界

08:51,微调(SFT)不是每个人都该去做的

12:13,大模型是水,一定要有载体

14:06,做硬件就是一个权衡的过程

16:37,GPT-4o离产业化还有一段路

17:20,受限显示的小硬件是个趋势

【补充知识点】

ASR自动语音识别(Automatic Speech Recognition) 基于深度学习技术,将音频中的语音转成文字。可用于识别多种音频编码格式、多种场景和不同长短的语音。广泛应用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。TTS语音合成(Text-To-Speech)是一种将文本信息转化为自然语音输出的技术。通过TTS技术,我们可以让机器像人类一样开口说话,从而实现人机交互的语音输出。常见的应用有车载导航、电子书阅读、智能语音助手等。

【关于AI课代表】

「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在喜马拉雅、小宇宙、苹果podcast等平台上线。每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。

邮箱:[email protected]

【制作团队】

策划:nada、大帅、Sue

后期:Jack 、迪卡