cover of episode Vol.134 产业观察22|AI硬件、智能耳机与潜艇反声纳:对话声智科技陈孝良

Vol.134 产业观察22|AI硬件、智能耳机与潜艇反声纳:对话声智科技陈孝良

2024/9/20
logo of podcast 高能量

高能量

AI Deep Dive AI Chapters Transcript
People
李峰
陈孝良
Topics
陈孝良:声学技术发展历程,从国防军工到消费电子,经历了从信号处理到深度学习的转变。深度学习提高了语音识别的准确率,但仍需解决复杂场景下的精确性问题。麦克风阵列技术通过利用多个麦克风的相位信息来提高拾音精度,并结合深度学习算法,解决了智能音箱在复杂环境下的语音识别难题。智能音箱的出现为声学技术提供了新的载体,推动了声学技术在消费电子领域的应用。 声智科技在智能音箱领域取得的成果包括:解决了复杂场景下的拾音问题,搭建了完整的声学处理架构,并控制了延迟。通过将算法移植到ARM芯片,大幅降低了智能音箱成本。 未来,声纹识别和分辨技术将是智能语音技术发展的重点,以实现更精准的自然对话。AI耳机将成为AI技术落地的重要载体,并结合翻译、转写等功能,满足用户需求。助听器市场存在巨大潜力,但需解决外观设计和功耗等问题。 李峰:移动互联网巨头的兴起,一部分源于交互形态的改变(如输入法从键盘到触屏),另一部分源于新硬件带来的新数据(如摄像头、GPS)。下一代交互将基于声音,但目前底层技术尚未成熟到商业阶段。 智能音箱的热潮解决了声学部分的问题,但自然语言处理能力和输入输出方式仍有挑战。GPT-4的发布,使语言大模型能够处理多种语言,并提高了速度和质量,为AI硬件的发展带来了新的机遇。 AI硬件的发展方向包括AI眼镜、AI耳机和AI陪伴设备等。AI耳机的爆款,得益于其抓住了用户对AI翻译和转写等功能的需求,并通过优良的做工和亲民的价格提升了用户体验。中国新型消费电子产品存在一个神奇的市场定律:200元以下的产品,消费者更愿意为其新奇性买单,并能容忍其一定的缺陷。

Deep Dive

Chapters
讨论声学技术在国防军工中的关键应用,特别是声呐探测在潜艇和鱼雷中的作用,以及声音在水中传输的优势。
  • 声学技术主要服务于国防军工,如声呐探测在潜艇和鱼雷中的应用。
  • 声音在水中传输不快速衰减,具有不可替代的作用。
  • 传声器和扬声器是声学的典型器件,广泛应用于消费电子产品中。

Shownotes Transcript

【本期课题】

AI硬件与声学发展。

【栏目介绍】

在《产业观察》这档专栏里,我们会为你厘清不同产业的历史沿革,希望能够从中找到一些底层的规律。虽然当下变化迭起,但是所有新风口都有迹可循,不同产业的发展其实也有很多相似之处。

【免责声明】

本节目的所有内容并非旨在提供任何形式的建议,包括但不限于投资、税收、会计或者法律上的建议。

【本期嘉宾】

陈孝良,声智科技创始人、董事长兼CEO。

【内容索引】

02:02 声学技术主要服务于国防军工,比如声呐探测是军工领域中声学的关键应用之一,相比于光和电磁波,声音可以在水中进行长距离传输且不快速衰减,具有不可替代的作用。

03:01 传声器(俗称麦克风)、扬声器等是声学的典型器件。Walkman、CD、MP3等是声学在空气声中的典型产品。

04:49 在每个科技关口,声学都是关键点之一。AI时代的兴起由声音开始,2010年苹果发布会将Siri带入大众视野,声学算法得到一次非常大的升级。

05:44 移动互联网巨头的发展共性:一类是交互形态的改变,输入法从PC端有键盘到手机端键盘地消失;另一类是新装的硬件产生了新数据,比如新装了摄像头,就产生了跟图片和视频相关的应用。

10:05 全球对未来的一个基本共识是:下一代的交互是基于声音的交互。我们还没有过渡到这个时代,是因为底层技术还未达到成熟的商业阶段。

11:26 声学从信号处理走向深度学习,最早应用于手机语音识别场景,但单纯依靠深度学习无法解决声学复杂场景要求的精确性问题,2011年亚马逊开始尝试利用新载体——智能音箱来进行探索和研究。

15:30 从麦克风阵列和声学的角度,如何看待和解决理想环境或非理想环境下的拾声问题?

18:18 唱歌时听到的自己的声音与回放时听到的声音有所不同,这是因为前者包含了空气传导(气导)和骨骼传导(骨导)的声音,而后者仅是通过空气传导录制的声音。

23:38 智能音箱爆火期间,声智科技实现了哪些结果和目标?

29:47 大家对语言处理的最大印象来自于GPT-4o的发布,如何看待GPT-4o?

30:52 智能语音技术接下来需要重点解决的是声纹的识别与分辨。

35:21 今天声智在用的语言模型是什么样的?在GPT-4o带来的IO转变下,声智做了哪些事情?

38:25 声智的AI耳机短时间内成为抖音爆款的主要原因是什么?

43:19 AirPods耳机VS骨传导耳机VS耳夹式耳机

45:53 中国新型消费电子产品的神奇市场定律:价格在200元以下的产品大家接受度较高,会愿意为了它的新奇而付费,同时可接受它具有一定的缺陷。

49:58 最顶级的航空耳机为何那么贵?

52:01 偏大众化的耳机在AI上能更多地承载什么类型的功能?

56:04 相较于耳机,助听器的技术难点是什么?

58:01 现在的“新老年人”,最不喜欢的就是戴上具有老年人标志的物品,所以只要把助听器做得像耳机,并且看起来时尚,肯定会得到老年人的青睐。

59:08 如何看待创业这8年的经历?

1:01:12 AI最终的应用落地肯定在消费,像是美国已经率先发布了AI手机,他们的商业落地已经非常清晰了,我们在这方面还需要继续打磨和验证。

1:03:12 从人类发展习惯来看,语言模型演进后,使得语音变成一个新的输入和输出形态,这个我是100%相信的。

【本期相关】

  • 麦克风阵列,由一定数目的声学传感器组成,用来对声场的空间特性进行采用并处理的系统。进入“声控时代”,此项技术重要性尤为凸显,可以用来解决噪声抑制、鸡尾酒会效应等实际问题。
  • GPT-4o,OpenAI为聊天机器人ChatGPT发布的语言模型,可以实时对音频、视觉和文本进行推理,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量,可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。
  • 语音端点检测,即从连续的语音流中检测出有效的语音段,包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。
  • I/O(Input/Output),指的是计算机与外部世界的通信方式。它涉及数据在计算机内部与外部设备之间的输入和输出。

【相关文章】

文字版内容请在峰瑞资本公众号查看。

【本期福利】

你最期待哪一种AI硬件产品?欢迎大家在评论区留言,我们将为留言最走心的三位用户送上声智科技的AI耳机各一份(评论截至2024年10月8日下午17点)。

【制作团队】

主理人:李翔 、李丰

制作及统筹:张英海  (13514156656)、峰小瑞([email protected]

如果你喜欢我们的节目,欢迎你分享到更多的地方,也欢迎你在我们的评论区留言交流。