欢迎 大家 来到 脑 放 电波, 一档 关注 科技前沿 的 节目, 帮助 你 在现代 社会 小幅 自我 迭代。 刚才 大家 听到 的 是 我们 请 出的 GPT 帮 我们 念 的 一段 我们 节目 的 开场白, 不知道 大家 听 了 感受 如何? 是的, 没错。 这 一期 我们 要 聊 的 就是 语音。 我们 知道 GPT4O 在 发布 的 时候 大概是 5月17号 前后, 对 吧? 它的 语音 的 超低 的 延时 和 它 在 视频 上 多 模态 的 这种 能力, 确实 让 所有人 都 非常 的 震惊。 直到 上 个 礼拜 GPT4O 终于 少数 的 灰度 的 放出 了 它的 原生 多 模态 的 语音 能力。
我们在 ChatGPT 的 APP 里面 可以 看到 一个 这样的 开关, 叫 高级 语音 模式, 即将 对 plus 用户 开放。 它 现在 有一个 这样的 一个 按钮, 现在 少数 的 plus 用户 收到 了 推送, 他们 得到了 一个 几乎 可以 实时 跟 你 对话, 并且 他的 声音 饱含 情感 的 这样的 一个 对话 的 能力。 在 这 段时间, 我 跟 ny kon 我们 自己 也 尝试 着 用 现在 的 ChatGPT。 大家 知道 刚才 说的是 那个 高级 版 的 GPT foo 的 语音, 但 实际上 现在 的 GPT4 的 版本, 你 也可以 跟 他用 语音 来 交互。 其实 大家 应该 在 网上 看过 各种各样 的 录屏, 或者 自己 也都 试 过。 那 是一个 男生 或者 女生, 非常 有 磁性, 有点像 A B C 的 那种 口音, 然后 可以 跟 你 完成 一些 对话。 其实 我们 跟 他 这样 对话 的 感觉 也 已经 觉得 很棒 了。 尼克斯 你可以 分享 一下 你 最近 的 体会。
当我 晚上 一个人 加班 的 时候, 我 把 他的 那个 语音 的 对话 一直 开 着, 我 突然 想 起来 有 个 什么 问题, 或者 是 说 我在 看 一篇 文章, 文章 里面 有一个 关键词 我不懂 的 时候, 这个 时候 我不需要 切换 网页, 我 就 直接 已经 把 那个 ChatGPT 唤起。 我 就 边 看 文章 边 问 他 那个 概念。 这种 随叫随到 来 帮 我 去 调研 一些 这个 东西 的 这种 感觉 确实 是 非常 好是 的。
我 最近 一次 尝试 是 我在 开车 的 时候, 我 挂 着 耳机, 然后 跟 他 有一搭没一搭 的 聊, 我 首先 是 问 了 他 有关 有一个 集团 叫 陆逊 迪卡, 他 跟 依视路 前段时间 合并 之后 叫 依视路 陆逊 迪卡。 大家 也 知道 这个 集团 现在 是 meta 和 谷歌 都在 争抢 的 一个 演进 的 集团。 但是 它 具体 有 哪 一些 品牌, 它的 历史 是 怎样 的, 其实我 并 不清楚。 我 跟 他在 开车 的这 20分钟 里面, 通过 对话 的 方式, 他 就 给我 关于 这个 集团 的 所有的 故事。 包括 他是 什么时候 收购 了 谁, 他们 有 什么样 的 品牌, 娓娓道来。 这个 过程 就 好像 一个 很 懂 这 一方面 的 一个 朋友 在 跟你聊 天 的 感觉。 包括 你 问 他 这 里面 到底 包含 了 哪些 品牌, 它的 历史 是 怎么样 的, 有没有 能 跟 他 相提并论 的 眼镜 集团, 他 甚至 告诉我 了 他的 这个 竞争对手 有 哪些, 包括 他的 股票 最近 走势 如何。 我 都 已经 就 所有的 维度 我想 了解 的 事情 他 都 可以 告诉我。
后面 我 又 跟 他 聊 了 聊 多 模态 学习 是 怎么回事。 就是 大 模型 现在 多 模态 是一个 热门 的 话题。 那 到底 这些 语料 是 通过 什么样 的 方式 结合 跟 训练 的, 也有 很多 的 问题。 我 发现 他 其实 也能 很 好的 跟 你 结构化 的 把 你的 问题 讲 出来。
然后 这个 版本 的 GPT4 的 语音, 其实 没有 太多 的 情感 包含 在 里面。 但是 他 已经 在 模仿 一个 正常 的 人类 说话的 时候 的 一些 状态 了。 它 听起来 不是 一个 冷冰冰 的 一个 机器 的 声音, 它是 一个 A B C 的 口音, 它 有 口音, 这是 第一点。 第二点, 它 会有 这种 停顿, 其实 完全 是 没有 必要 的。 你 做 一个 机器人, 机器人 是 不用 喘气 儿 的, 它 不像 人类。 但是 它 会 在 一些 关键 的 时间点 做 一些 这种 语气词 的 辅助, 去 让 他的 这种 对白 非常 拟人。 当然 我们 今天 大概 问 出 一个 问题, 包括 网络 的 问题, 包括 他的 响应 时间, 我们 可能 需要 等 个 2秒到3秒 的 样子, 甚至 更 久。 这个 可能 是 我们 现在 在 体验 上 相比 GP4O 的 语音 有所 差距 的 地方。
对, 是的。 其实 如果 部分 听众 你 可能 平时 不用 GPT 哈那 你 在 国内 的 一些 大 模型 APP 上, 其实 现在 也可以 用到 一个 相对 机械, 但是 还 挺 聪明 的 一个 语音 模式。 比如说 海螺 问问 豆包, 或者 是 百度 的 文心 一言 之类 的 A P P。 其实 你们 都 可以 找到 一个 打电话 的 按钮, 然后 你 就可以 开始 用 这种 实时 语音 的 方式 跟 他 去 对话。 是的。
如果说 刚才 我们 提到 的 这些 语音 的 交互 让 我们 觉得 蛮 惊喜 的话, 那 接下来 我们 给 大家 展示 一下 GPT4O 因为 一个 礼拜 前 已经 有了 这样的 一些 灰度 的 测试, 所以 我们在 网上 也 找到了 很多 段 的 这种 测 是的 录音。 我 觉得 你听 完 之后 会 非常 的 惊讶。 我们 来 一起来 先 听 一下 第一段 这个 音频 的 展示。
刚才 托马斯 提到 现在 的 GPT 其实 会 通过 N R 的 方式 来去 拟人, 对 吧? 接下来 我们 放 一些 更 拟人 的 东西。 比如说 拟人 第一个 要素 就是 他 会 去 喘气, 这是 一段 GPT 在 数数。
的 音频, 大家 可以 听 一下。 What .
happened?
Well, even superman can stumble sometimes OK.
这 段 有 几个 要素。 第一个 就是 这个 机器人 在数 数数 的 时候, 它 中间 有一个 很 明显 的 喘气 的 声音。 我不知道 大家 有没有。
注意到 对他 喘气, 而且 它 数 到 一半 突然 停 了。 这个 人类 就 问 他 你怎么了? 然后 他说 即使 是 超人 也会 有 被 绊倒 的 时候, 然后 他 又 接着 继续 往 下 数, 数 的 非常 的 快。 说实话 这种 交互 让 你 觉得 首先 它是 没有 延迟 的。 第二 它 可以 很 幽默 的 回答 你的 一些 质疑。 并且 在 这个 过程中, 尽管 他 熟 的 很快, 但是 他 还是 像 人类 一样 换气。 在你看来 他 就是 一个 口齿 非常 伶俐 的 一个 人类 而已, 你 很难 去 发现 他是 一个 机器人。
然后 接下来 我们 来 模拟 一些 人类 更 特殊 的 情况。 比如说 如果 一个人 在 看 一个 体育比赛, 如果 是 让 GPT 来 解说 这个 比赛, 他 现在 能 解说 到 什么 程度? IT should .
absolutely unbelievable strike.
a crowd goes wild as the home team takes the lead in spectacular fashion. What a moment. Oh, what a moment, 对 吧? 虽然 一开始 的 那个 讲 suit 的那 一段 中间 还是 有 一点点 机 卸, 但是 后面 的 整个 的 讲解 就 很 流畅。
对 这 一段 其实 是 非常 震撼 的。 就是 如果 大家 听 过 其他 的 机器人 语音, 你 就会 发现 机器人 的 情感 的 波动 是 从来 没有 达到 过 这种 强度 的。 我们在 刚才 听到 的这 段 进球 的 体育 评论员 的 这个 音轨 的 感觉, 它的 这个 强度 是 非常 强 的。 就是 它 可以 表达 一个 非常 激烈 的 情感。 这种 情感 说实话 我们 作为 人类 在 我们的 博客 里 都 很难 有 这种 激烈 的 情感 表达。 但是 机器人 竟然 可以 模拟出 一个 八九不离十 来, 这个 其实 还是 非常 令人 震撼 的。 因为 它 可以 表达 如此 强烈 的 感情 的话, 我们 其实 想象 他 能够 做 的 事情 就 非常 的 多了。
我们在 讲 人类 表达 感情 的 时候, 其实 我们 一般 会 讲说 人类 有 抑扬顿挫, 对 吧? 对, 但是 事实上 我 现在 看到 了 GPT 在 表达 感情 的 时候, 它 有 一些 更 高级 的 玩法。 人类 在 表达 感情 的 时候 其实 不止 有 抑扬顿挫, 人类 还 会有 一些 更 特殊 的 东西。 我们 来 听听 这 一段 音频。 I was open that you could sing me the birthday on, of course. They work day T, V U, happy birth day T, V, everyday to your job.
lord happy bird to jorden 88888。 我们 可以 明显 的 听到, 首先 他的 情感 仍然 非常 的 充沛, 一个女生 非常 兴奋 地 清了清 嗓子, 然后 开始 唱 生日歌。 注意 他 竟然 清了清 嗓子, 一个 机器人 完全 没有 这个 必要, 对不对? 然后 清 到 最后 他 还 用 声音 模拟 了 鼓掌 的 声音, 他说 巴拉 巴拉巴拉 巴拉巴拉。
我 觉得 这是 非常 有意思 的 一个点。 就是 人类 表达 感情 其实 不 只有 抑扬顿挫, 人类 还有 各种 拟声词 以及 一些 配合 的 自己 喉咙 里 的 各种 声音, 对 吧? 所以 这 一段 让 我 觉得 非常 好玩。
在 这个 地方 比如说 巴拉巴拉 以及 他 清嗓子 这种 动作, 包括 它的 这种 所谓 的 语调 语气, 是一个 传统 的 语言 模型。 如果 是 通过 音频 转成 文字, 再从 文字 转成 音频 输出 是 不可能 做到 的对。
事实上 就是 用 音频 来 表达 抑扬顿挫 这件 事情, 其实 是 已经 有 好几年 历史 了。 然后 像 我 原来 就 做 过 那种 项目, 就是 给 一个 小朋友 读 那个 古诗词, 读出 那种 古人 的 韵味。 但是 你 今天 想象 就是说 如果 有了 这种 像 GPT4O 这样的 模型, 可能 他 就会 把 那个 老先生 的 那种 清嗓子 的 这种 感觉, 或者 是 你们 语文老师 开始 讲课 之前 刻板 印象 的 不是 要 带着 一杯 茶水 上 讲台, 对 吧? 就 他 嘬 茶水 里 的 那个 茶叶 的 那个 声音, 就是 他 给你 模拟 出来, 你可以 想象 还原 度 会有 多 高。 在 播放 demo 的 最后, 我们 再 给 大家 整个 活, 这个 是 也是 GPT 整 的 活。
Add more b boxing.
我们 听到 了 一段 b box.
在 b box 之前 其实 是 一段 关于 生日歌 的 一段 说唱 的 rap, 对不对? 所以 非常 有意思。
我们在 刚才 大家 听到 的 这些 音频 里面, 这些 都是 GPT4O 的 高级 语义 模式。 它 明显 在 所谓 的 文字 内容 以外, 它 生成 了 非常 多 的 东西。 包括 刚才 提到 的 情绪 的 输入, 通过 语音 语调 来 实现, 包括 这种 拟声词 的 这种 输入, 包括 清嗓子, 甚至 是 b box 这种。 如果你 把 它 转成 想象, 我们 用 这个 语音识别 的 这种 过去 的 范式 把 它 转成 文字, 你是 转 不 出来 的这 段 文字 会 是 一段 乱码 或者 是 空白, 甚至 是一个 错误 的 识别。 但是 今天 GPT 竟然 把 它 实现 出来 了, 这就 代表 着 GPT4O 的 音频 的 训练 模式 跟 过去 的 所有 我们 用过 的 大 模型 应该 都是 完全不同 的 处理方式。
虽然 说 截止 录制 节目 的 时候, 我 和 托马斯 都 没有用 上 四 欧 的 原生 的 语音。 但是 事实上 我们 两个 用了 一个 星期 纯 语音 的 这个 功能, 其实 我们 就 已经 被 震撼 的 不行了。 我们 一直 以为 说, 接下来 AI 大家 应该 去 选 好 这种 视觉 模态 了, 应该 去 搞好 一些 更 高级 的 东西 了。 但是 作为 一个 普通人, 真的 就是 第一次 用上 语音 模式 的 时候, 哪怕 是 这个 语音 是 有 机械 感 的, 我们 其实 就 已经 发现 他在 我们的生活 里面 能够 扮演 非常 惊艳 的 角色。 这里 也 非常 再次 推荐 大家, 就是 你可以 随便 下载 一个 大 模型 的 A P P, 其实 你 很 容易 找到 这样的 功能。 今天我 听 一个 朋友 跟 我 介绍, 就是说 他 现在 看 奥运会 的 那个 直播, 他 就会 把 语音 打开, 然后 就 去 问 那个 语音 说 中国队 截止 目前 拿了 多少 枚 金牌? 这 两位 运动员 之前 有 对战 过 他们的 战绩 是 怎么样 之类 的 一些 信息。
一个 全能 的 助理。
对对对, 我 就 感觉 一定程度 上 已经 是一个 随时 生活在 我身边的 一个人 了。
是的, 我 觉得 过去 我们 可能 低估 了 一个 新增 的 模态 能够 带来 的 改变。 过去 我们 可能 醉心于 多 模态, 一个 一个 往 上 加, 对 吧? 有了 音频 OK, 因为 音频 其实 大家 也不 陌生, 小爱 同学 可能 在 二零一几年 甚至 0几年 它 就 已经 存在 了。 所以 一个 模拟 成 女生 的 或者 男生 的 声音 从 你的 机器 里面 传 出来, 你 可能 已经 没有 什么 震撼 的 感觉 了。 但是 当 它 产生 量变 到 质变 的 时候, 你 还是会 被 震撼 到。 你 会 发现 它的 这个 使用 体验 是 远远 超出 你 想象 的 这种 级别 可能 不需要 去 做什么 声 阶 这种。
我 从 只有 文字 变成 了 两维 文字 加 语言。 然后 我们 就 醉心于 我们 是不是 把 视频 或者 图片 接进来, 变成 三维 甚至 四维。 但 其实 我们的 第二 维 做到 足够 极致 的 时候, 它 能 带来 的 生产力 或者 是 生活方式 的 改变 已经 是 非常 巨大 的。
我们 甚至 可以 去做 个 类比, 就是 大家 知道 图灵测试 是 很多年 前 就 被 用来 标志着 人工智能 是不是 达到 某 一个 通用 的 级别 的 一个 概念, 对 吧? 传统 的 图灵测试 指的 其实 是在 对话框 里面 打字 的 方式, 跟 他 聊天 来 判断 对面 是人 还是 机器人。 今天我 的 感觉 GPT4O 其实 完全 能够 通过 语音 的 图灵测试 了。 因为 它 从 回复 的 速度, 它的 反应, 它 展现 出来 这种 情绪化 的 表达能力, 完全 可以 模拟 一个 表达 非常丰富 的 人, 甚至 还是 一个 艺人, 还 不是 爱人。
是的, 接下来 我们 围绕 着 原生 多 模态 的 语音 这件 事情 来 去做 一些 分析。 我们 认为 接下来 可能 会 跟 我们的生活, 甚至 是 给 商业 带来 哪些 改变? 刚才 托马斯 你 提到 一个 很 重要 的 一个 概念, 我 觉得 在这里 需要 解释一下。 就 刚才 你 提到 说 原来是 把 语音 转变成 文字。 然后 的话 你 也 提到 刚才 说 其实 从 GPT4O 开始, 意味着 我们在 语音 处理 和 语音 生成 上 的 我们的 一些 范式 发生 了 一个 转变。 你 能 给 大家 介绍 一下 原来的 旧 范式 和 新 范式 分别。
是什么 样子 吗? OK 我们 之前 所有 用到 的 这种 跟 大 模型 通过 语音 交互 的 方式, 其实 是 通过 三个 技术。 第一个 叫 A S R, A S R 的 全称 就是 automatic speech recognition, 其实 就是 把 你的 语音 转变 为 文字 的 一个 识别方法。 然后 这些 文字 会 被 输入 到 我们 现在 很 流行 的 LLM, 就是 大 语言 模型 里面 去。
大家 知道 大 语言 模型 有着 很 好的 语义 理解 能。 所以 当 你说 了 话, 它 从 语音 变成 了 文字。 文字 输入 到大 语言 模型 里面, 大 语言 模型 就可以 根据 这个 文字 的 上下文 来 给出 合适 的 回答。 这个 时候 大 语言 模型 输出 的 仍然 是 文本, 那 这个 文本 为什么 会 变成 声音 呢? 这个 时候 就 需要 第二个 技术 叫 T T S test to speech。 基于 这样的 技术, 它 可以 把 一段话 变成 一段 语音, 变成 一个人 说 的话。 根据 技术 的 高低, 可以 从 一个 非常 机械 的 单音节 的 一个 机器人 的 声音, 到 一个 情感 相对 比较丰富 的的 一个 女声 或者 男声, 或者 是 童声 的 声音 输出, 这个 都是 能 做到 的这 就是 我们 目前 能 体会到 的。 国内 的 几乎 都 说是 大 模型, 以及 我们 跟 小爱 同学 跟 siri 沟通 的 时候, 他们 跟 我们 交互 的 方式 就是 通过 这样的 两个 技术, 把 语音 变成 文字, 再 把 文字 转成 语音 输出, 完成 了 输出 跟 输入 的 这个 过程。 但是 GPT4O 是用 完全不同 的 方法, 它 简单 的 说 是一个 完全 端 到 端的 语音 模型, 端 到 端 是一个 很 热门 的 技术, 我们 可能 会 在 之后 的 节目 里 详细 的 讨论 端 到 端的 意义 和 价值。
简单 的 说, 它是 一个 直接 从 语音输入 到 语音 输出 的 这样的 一个 模型。 这个 中间 没有 经过 一两次 的 转换。 也就是说 大 模型 在 理解 你说的 这 句 话 的 时候, 他 不是 把 你 这 句 话 翻译成 文字 来 理解 的。 而是 他 直接 通过 大量 的 语言 的 对话 的 学习, 他 理解 了 你 这 段 音频。 请 注意 这 段 音频 就 包括 了 我 作为 一个 人类, 我会 清嗓子 对 吧? 我 有 环境 噪音, 我 跟 你 对话 的 时候, 我的 停顿、 我的 喘气, 我说 一句话 的 长度。 我 这个 时候 当我 遇到 情绪 变化 的 时候, 我 所有的 情感 的 反应 都会 在 这 段 音频 里 呈现。 因为 音频 跟 文字 其实 在在 维度 上, 在 信息量 上 是 差异 巨大 的那 过去 的 大 模型 其实 学习 的 是 文字, 它 有点 像是 脱水 以后 的 音频, 它 其实 是 非常 干 的。
所以 作为 一个 端 到 端的 语音 模型, GPT4O 它 学习 的 是 我们 整个 音频, 他 输出 的 也是 根据 他 学习 到 的 这些 人类 对话 的 历史 精华, 输出 了 一段 模拟 人类 历史上 说话的 方式 的 这样的 一个 输出。 所以 我们 今天 才能 听到 刚才 听到 的 大家 听到 的 所有 东西, 清嗓子、 停顿、 喘气 非常 高昂 的 进球 后 的 这种 兴奋 的 这种 情绪 的 表达, 以及 祝贺 生日 的 时候 唱歌, 以及 甚至 是 模拟 这个 唱歌 后 的 鼓掌 的 这些 非常 多 的 细节, 甚至 是 b box。 我们 只要 把 足够 的 多 的 b box 的 语料 输入 到 G P C O 里, 那 它 就会 掌握 这样的 技能。 甚至 如果我们 把 中国历史 上 所有的 相声 的 这种 视频, 这种 音频 输入 到 模型 中, 做 这种 端 到 端的 学习 跟 输出。 我们 将 得到 一个 全能 的 相声 演员。
电子 郭德纲 和 电子 马 3立同台.
是的, 而且 他们 可以 做到 非常完美 的 输出。 其实 这个 就是 我们 刚才 讲 的 非常 巨大 的。 就是 我们 看起来 它 在 输出 的 质量 上 有着 质变, 其实 它 背后 的 原理 也是 完全不同。
的那 既然 说到 质变, 其实我 觉得 可以 理 一理 语音 的 这个 变化, 它 到底 体现 在 哪几个 点 上。 首先 我 先 讲 一下, 就是 前面 提到 的 语音 转成 文字 之后 的 这种 识别 方式, 它 可能 有 一些 比较 明显 的 问题。 对, 最 明显 的 一个 问题 就是 什么 呢? 就是 中间 总是 存在 这个 歧义。 我自己 最近 的 一个 例子, 就是我 在 用 一个 语音输入 法 的 时候, 我 跟 他说 的 是 这个 眼镜。 但是 可能 我 这个 南方 口音 不太好, 他 就 一直 给我 识别 成 最近 会有 这样的 一个 奇异 的 一个 事情。 但是 这里 其实我 也 去 查 了 一下 数据, 我们 很多人 被 宣传 了 很多年, 就是 某某 公司 的 语音识别 算法 已经 准确率 已经达到 98% 点 几几, 对 吧? OK 我 今天 认真学习 了 一下, 才发现 那些 语音识别 算法 98% 之类 的, 它 都 是在 录音室 的 一些 标准 语料 在 下面 跑 出来 的。
是 现在 世界上 有一个 叫做 tim 的 一个 主打 真实世界 高难度 的 一个 语音 竞赛。 截止 目前 它 应该 是 每 一两年 会办 一次 比赛。 截止 在 GPT4O 之前 的 语音 模型, 它的 错误率 即便 是 得到 冠军 的 这种 模型, 它 也是 20% 到 40% 以上。
原因 是什么 呢? 原因 是因为 说 在 真实的 世界 里, 你的 背景 里面 有 大量 的 噪音。 就 有点 类似 于 我 经常 遇到 的 那个 问题。 就是 有时候 我在 用 语音输入 法 跟 另外 一个人 打 字儿, 有可能 边上 的 这个 外卖 小哥 突然 冲 你 吼 了 一 嗓子, 说 让一让。 那 可能 那个 让一让 就 跑 进去 了, 或者 就是说 你 周围 有 什么人 在 说话, 那个 字 可能 就 它 就 可能 影响 你 那个 字 的 准确率 了。 所以 就是 真实的 世界 语音识别 就会 存在 这样的 一个 情况。
而且 话 就是 原来的 A S R 的 这个 逻辑 的话, 它 还 会有 一个 问题。 就是说 因为 你的 环节 更多, 就 是从 A S R A S 本身 内部 可能 还 会有 几个 环节, 然后 你 再 转到 这个 文字, 然后 再 让 文字 给你 转成 这个 T T S 输入。 所以 才会 存在 一个 问题, 就是说 某 一个 环节 出问题 的 时候, 会 导致 下一个 环节 的 输入 就 不对。 步骤 越多, 逻辑 上 来说 某个 步骤 出问题, 你 后面 的 效果 就 越来越 不好。
在 这种 原生 的 语音 模态 下面 的话, 你的 一些 不太 标准 的 一些 发音, 包括 就是说 你 在 特定 情境 下面 的 一些 发音。 可能 就会 被 优化。 比如说 刚才 提到 的 就是 背景 存在 噪音 的 这种 情况。 你是 一个 男生, 突然 麦克风 里 冒出来 一个女生 的 声音。 那 如果 我是一个 大 模型 的话, 逻辑 上 来说 我 最 理想 的 情况 是我 只 处理 这个 男生 的 声音 就 好了。 包括 一些 方言, 比如说 北京话 里面 经常 用 的 那个 西红柿 炒鸡蛋, 对 吧? 那 有可能 传统 的 北京人 会 把 它 缩 念 为 西红柿 炒鸡蛋。
胸 式 的 胸。
是 炒鸡蛋。 对, 西红柿 炒鸡蛋 这种 案例 就会 表现 的 更好。 所以说 我 觉得 第一个 最大 的 点, 其实 就是 你的 很多 歧义 就会 被 控制 掉。
对, 这个 其实 很好 理解。 在 过去 的 传统 方法 中, 因为 它 每一步 都 是一种 提纯, 或者 是一种 把 水分 的 榨干, 对 吧? 那 其实 他 就在 第一步 就 可能 就 把 所有的 这个 背景 噪音, 把 你的 环境 音 就 被 去掉 了。 对 刚才 提到 的 这些 方言 或者 是非 标准 的 口音, 也会 被 A S R 要么 去掉, 要么 就 把 错误 的 信息 记录下来。 而 这个 信息 又 传递 给 这个 大 语言 模型, 它 作为 语料 学习, 其实 刚才 提到 的 这个 错误 积累 其实 在这里。
第二, 对于 一个 端 到 端的 这个 audio in and out 这样的 一个 模型, 我 输入 的 本身 就是 带着 大量 的 噪音 跟 背景 信息 的 这样的 一段 音频。 这 段 音频 当我 足够 多 的 时候, 其实 大 模型 就可以 识别 出 到底 我在 听 谁 说话。 我们 作为 人类 大家 都 很好 理解, 不管 在 多 嘈杂 的 这种 环境 里, 哪怕 是一个 放学 了的 教室, 大家 知道 无数 的 人 在 同时 说话, 但是 其实 你 还是 很 清楚 的 能够 跟 你 说话的 这个人, 你们俩 的 对话, 其实 你的 大脑 是 会 聚焦 在 他的 那个 声音 的 频率 上 的。 这个 时候 旁边 的 外卖 小哥 过来 喊 了 一 嗓子, 其实 这一 嗓子 是 不会 进 到 你的 主主 处理 流 里 的, 你知道 他 不是一个人。
我们 人类 其实 有 基础 的 所谓 声纹 的 处理 能力。 而 现在 其实 机器 也有 类似的 能力。 它 在 处理 的 时候, 它 其实 如果 你是 把 整个 语音 模型, 把 整个 语料, 把 这个 音频 的 语料 输入 进去 的话, 其实 它 同样 是 有 这种 能力 去 分辨 到底 我 今天 要 跟 里面 的 谁 来 交互 的。 尤其是 当 这种 语料 的 量级 是 海量 的 时候。 就是 我们的 自己 学 语言 其实 是 一样的, 就是 我们的 母语, 哪怕 是一个 非常 嘈杂 的 环境, 我们 只 听到 了 只言片语, 我们 也能 通过 上下文。 这个 跟 大 模型 很 像, 我们 人类 也 一样 是 通过 上下文 来 判断 你到底 说 了 什么。 哪怕 是在 非常 嘈杂 的 环境 里, 我也 不会 把 眼镜 和 最近 搞混。
因为我 知道 在 这个 语境 下, 你说的 一定 是 眼睛, 而 不是 最近。 可能 一两个 非常 小的 比特, 我 听到 了 我 就能 识别。 如果 是 我们 刚刚 学 了 一个 新 语言, 比如说 我们 刚刚 学英语 的 时候, 那个 听力 考试 的 那个 收音机, 只要 稍微 浑浊 一点, 我们 听起来 就 很 费劲 了。 因为 这个 言 我们 其实 还没有 完全 掌握。 一旦 他 稍微 浑浊 一点, 我们 听起来 就会 很 费劲。 作为 这个 大 语言 模型, 如果 他 学 了 足够 多 的这 一种 语言 的 时候, 他 其实 对 这种 语言 的 掌握 度 甚至 会 超过 人类。 因为 人类 的 听力 其实 大家 也 知道, 频响 的 这个 接受 范围 其实 很窄 的。 我们 能 听到 的 东西 远远 小于 我们 用 一个 高级 的 麦克风 记录下来 的 这个 wave 文件。
因为 我们 还没有 实际 拿到 demo, 但是 我们 想象 中的 这个 audio in and l 的 这个 大 模型, 语音 的 模型, 它是 能够 非常 好的 处理 掉 噪音 的。 因为 其实 现在 一些 单独 的 模型, 专门 用来 做 通话 降噪 的 模型, 已经 能 做得 非常 优秀 了。 它 能 识别 主 通话 人的 这个 声纹, 在 声纹 外 的 声音, 它 会 把 它 非常 好的 压 掉。 我们 也 用了 很多 的 播客 音频 的 降噪 软件, 我们 也 拿到 了 很 好的 效果。 所以 我们 相信 在 基于 这样的 能力 之上, GPT4O 或者 是 未来 更好 的 这种 端 到 端的 语音 模型。 它是 可以在 这种 歧义 控制 的 维度, 在 这种 语音 的 基础 体验 的 维度 做到 非常 好的。
接着 说 基础 体验 的话, 我 觉得 还有 一个点 是 四有 表现出来 非常 好的 一个 特性。 叫做 他在 说到 一半 的 时候, 你是 随时 可以 打断 的。 我 觉得 更多 的 是 对人 心理 上 的 一个 层面 上 的 一个 影响, 当你 跟 现在 传统 的 这个 语音 机器人 对话 的 时候, 你 需要 听 完 他 一 整句话 然后 才能 回复。 其实 我们 人和 人 说话 和 互动, 比如 是 这样的, 尤其是 如果 两个人 说话 是 很 有 共鸣 的话, 其实 你 会 发现 会 出现 那种 说 抢话。 对对对, 突然 插话 抢话, 甚至 是 说 现在 你 就能 听到 说 我在 说话的 时候, 其实 托马斯 在 背景 里面 其实 是 有 一些 N R 的 之类 的 一些 声音。 所以 这个 其实 是 能够 很大程度 的 提升 你 人的 程度, 以及 降低 我们 和 这个 语音 机器人 对话 的 一个 心理 门槛。
的对 他的 这种 打断 跟 他的 这个 端 到 端的 能力 也有 相关性, 我们 当然 以上 基于 我们的 猜测, 它 对 这个 音频 流 的 处理 是 原生 的, 它 不需要 等 它 整句 变成 文字 之后 再 处理。 所以 当 它 说到 一半 的 时候, 你 再 输入 一个 信息, 它 可以 实时 的 做 这种 输入输出 的 交互。 它 本身 在 这个 处理速度 上 跟 这种 中断 的 能力 上 就有 这样的 技术 的 基础。 所以 他 能够 接受 打断。 而 刚才 其实 尼克森 也 提到 了, 人与人之间 的 交流 打断 是 非常重要 的。 因为 打断 代表 了 一个 正常 的 人与人之间 交流 的 方式。
对, 打断 代表 我 对 这个 东西 有 共鸣? 或者 有 想法。
当然 也 可能 是我 觉得 你说的 不对, 但 不管 怎么样, 你 要 拟人 或者说 要 通过 我们 刚才 所谓 的 语音 图灵测试, 那就 必须 能够 被 打断。
最后一个 我 觉得 就是 基础 的 体验 会 变得 非常 好的 点, 就是 他 可以 了解 我 所在 的 情境 是什么, 然后 来决定 他在 这个 情境 当中 要 回应 哪些 声音。 我 上周 周末 去 参加 一个 活动, 因为我 那个 车上 一直 在 跟 GPT 互动, 所以 我 到 那个地方 的 时候, 我只是 把 手机 揣 兜里 了。 我 其实 就 没有 把 ChatGPT 退出, 我 就在 前台 去 签到。 在 前台 去 签到 的 时候, 他 就会 把 周围 的 人的 声音 说, 什么 先生 你 要 往 这边 走, 这边 按 电梯上 5楼之类 的 一些 话 也都 收进去。 我 那一刻 我 就说, 我在 过去 20分钟 里面 一直 把 你 当做 是我 个人 的 助理, 对 吧? 然后 你 回答 了 我 很多 问题, 但是 现在 一下子 就 把 我 拉回 现实, 说 OK 你 并 不能 清晰 的 识别 我是我 你 并 不能 清晰 的 识别 自己 是我的 助理, 你 也 回答 了 别的 人 的话, 甚至 还 干扰 了 我 正常 收听 别人 的 说话。
你说的 是 现在 版本 的 体验, 对不对?
对对对, 现在 版本 的 体验, 所以 我 就 觉得 这个 点 是 很 重要。 如果 这个 4O的 功能 上来 的话, 我会 非常 期待 就是 他 能够 知道 我 身边 都 有谁, 知道 自己 该 说什么 不该 说什么。 有了 这些 体验 的 提升 之后, 我们 可以 期待 接下来 会 出现 的 一些 大 模型 的 一些 功能。 比如说 更好 的 语音 翻译。 因为 刚才 我们 提到 说 对比 传统 的 A S R 显然 是 会有 非常 好的 表现 的。 原来 很多人 用 那种 所谓 的 翻译 软件。 其实 大家 都 知道 说 翻译 软件 其实 只能 谈 一些 很 机械化 的, 很 简单 的 事情, 比如说 点 个 菜 之类 的那 未来 的 翻译 软件 是不是 能够 支持 你说 我 跟 一个 说 不同 语言 的 人, 针对 一些 相对 抽象 的 深入 的 话题 展开 探讨 和 交流, 那 我 觉得 这个 是 有 机会。
的对 一个 更好 的 翻译 软件, 其实 需要解决 它 最 基础 的 技术 体验 的 问题, 就是 收音 的 问题。 如果说 在 硬件 设备 保持 现状 的 情况下, 因为 它 有 更强 的对 这种 复杂 噪音 的 分解 能力 跟 提取 这些 关键 信息 的 能力 的话, 这 才是 一个 真正 好用 的 一个 翻译 软件。 因为 在 很多 场景 下, 一定 是在 很 嘈杂 的 环境 下去 做 这种 翻译 的 需求 的。 它 能够 准确 的 识别 他 要 翻译 的 对象 是谁, 以及 这个 对象 的 哪些 内容 跟 上下文 的 关联, 给出 正确 的 翻译。 这一点 是 大部分 的 目前 的 翻译 软件 做不到 的这 是 第一点。
第二点, 如果 是 那种 更加 复杂 的 环境, 比如说 是 多 语言 的 环境, 我是一个 说 中文 加 英文 的 人我 在 跟 一个 说 粤语 加 英文 的 人 沟通 的 同时, 还有一个 印度 口音 的 只 说 英语 的 老外 和 一个 法国人 在 说 法语。 在 这样 一个 嘈杂 环境 中, 如果 他 能够 做到 非常 好的 多 语言 的 翻译, 那 我 觉得 这个 也是 一个 非常 棒 的 一个 翻译 体验。 因为 现在 应该 没有 哪 一家 的, 即便 是 接入 大 模型 能力 的 这种 A I 翻译 的 软件, 我 也没有 看到 有 这样 强 适应性 多 语言 的 这种 沟通能力 的 翻译 软件。 它 就 好像 带 了 一个 全能 的 翻译官 在你身边 一样。
对 第一 就是说 我 觉得 接下来 我们 能够 生成 很多 更好 的 音频 内容。 自从 微信 上了 一个 功能 叫做 听 一听, 好像 是在 那个 下拉, 然后 右上角 就能 看到 听 一听。 然后 我 就 发现 很多人 其实 是 会 用 耳朵 去 听 文章 的。 但是 微信 的 语音 转 文字, 其实 现在 还是 传统 的 方法, 就 相当于 比较 机械。 如果 以后 你 想 经常 的 有 那种 深度 的 一两万 字 的 那种 文章, 如果 那种 采访稿, 他 能把 它 变成 两个人 的 这种 对 谈。 把 对 你的 这种 氛围 感, 甚至 是 两个人 对 谈 采访 当中 的 一些 情绪 和 一些 这种 互动 都 给 呈现 出来, 那 我 觉得 会 非常 有意思。
对, 因为 现在 要 模拟 一个人 的 声音 是 很 简单 的。 我们在 互联网 上 看到 了 很多 各种各样 的 抖 音 上, 各种各样 的 这种 名人 的 声音 包, 对 吧? 你可以 很 容易 的 就。 发出 这种 陈建斌 的 声音, 比如说 孙悟空 的 声音, 但 你可以 很 容易 地 模仿。
我们 想象 一个 未来, 就是 这些 文字 创作者, 他 可以 把 自己的 声纹 或者 是 自己的 声音 特征 简单 的 提取 或者 提供 给 微信。 然后 你 再 把 你的 这个 文章 发 过去, 它 就可以 非常 智能 的 把 你的 一期 公众 号 的 文章 转变成 一期 播客。 比如说 你的 一个 对 谈, 或者 是你 自己的 一个 独白, 它 结合 你的 声纹 信息, 甚至 它 不光是 在读 一篇 文章, 这个 我 觉得 也 不难, 这个 叫 转写 rewrite, 苹果 其实 提供了 这种 功能, 几乎 所有的 大 模型 都有 这样的 功能。 的那 我 就 简单 的 把 你 这个 公众 号 的 文章 按照 播客 的 需求 重新 写 一遍, 然后 再 让 这个 结合 了 作者 声纹 的 这个 声音, 带着 情绪 念 出来。
我 觉得 这个 对于 播客 的 制作 成本 是一个 暴 降 的 一个 状态。 当然 它 不是 我们 传统 的 这些 播客 主播 的 工作流。 但是 对于 一些 以前 写 公众 号 写 得很 好的 人, 我们 知道 很多 这样的 人, 他的 口条 未必 很好, 但是 他用 这种 方式 转 出来 的 播客, 听起来 的 听 感 搞不好 会 很 好啊。 这种 播客 我不知道 在 未来 的 市场 里 会 是一个 什么样 的 受欢迎 的 程度, 到底 听众 会 发现 吗? 以及 他们 能不能够 接受 吗? 这个 其实 对于 我们 现在 的 这些 播客 的 主播 来说, 其实 确实 是一个 蛮 大 的 挑战。
对, 是的。 其实 现在 在 一些 音频 平台 上, 它 有 一些 批量 通过 这种 文字转语音 的 方式, 就 T T S 的 技术 转 出来 的。 但是 我自己 是 听我 一下, 我 确实 是 听 不了, 我 确实 是 比较 期待 这一次 能够 迈过 这个 门槛, 因为 那 里面 还是 有 很多 很 优质 的 内容。 毕竟 纯粹 录音 的, 纯粹 像 我们 这样 通过 音频 来 创作 的 人, 其实 还是 相对 少数, 对 吧? 是的, 更 优质 的 内容 还是 在 文字 世界 里。
然后 还有一个 功能 是我 很 期待 的, 这是我 无意 之间 发现 的, 是 有一天 晚上 我 挂 着 GPT 的 语音, 在 那个 时候 我在 哼歌, 然后 我 就 发现 他 突然 回 了 我 一句话, 说 你听 起来 很高兴。 然后 我说 你怎么知道 我 很高兴? 他说 因为我 在 哼 的 那个 歌曲 的 旋律 也有 哒 哒哒 哒哒, 就是我 没有 歌词, 我 就在 哼 那个 旋律, 哒 哒哒 哒哒 的 一个 旋律, 他 就 通过 我 定 的 那个 词儿 是 哒 哒哒 哒哒 就 识别 出来 了。 但是 如果我 想 依照 旋律 跟 他 做 更多 的 互动, 比如说 我 哼 一个 超级马里奥 的 那个 曲子, 就是 任天堂 的 曲子, 那 可能 就 跟 他 探讨 一下 游戏 的 一些 事情。 我 就 发现 他 其实 因为 现在 他 没有 识别 旋律 的 能力, 所以 他 就 没有 这个 没有 办法, 他 只能 通过 哒 哒哒 来 识别 我的 这个 东西。
通过 这个 旋律 背后 我想说 的 是什么 呢? 就是 人 开始 哼歌, 其实 是一个 很 明确 的 情绪 的 一个 表达, 某种 情感 的 表达。 所以 它 能 识别 旋律, 其实 某种程度 上 就 意味着 说 它 未来 是 能够 识别 我的 情绪 的。 如果 能够 识别 情绪, 那 我 觉得 就 很棒 了。 他 未来 就会 是一个 有 机会 去做 情感 陪伴 的 一个 东西 了。
现在 的 情感 陪伴 还是 主要靠 打字, 这个 说实话 在 维度 上 比 声音 还是 差 了 很多。 如果 有 机会 用 声音 来做 情感 陪伴, 但 其实 这条 赛道 是 目前 其实 A I 蛮 火热 的 一条 赛道。 但是 我们 能 看到, 也许 当 这个 情感 的 声音 出现 的 时候, 它 会 更加 的 惊人。
对, 是的。 然后 我在 ChatGPT 里面 有 两个 小 功能, 我 觉得 还 挺 惊艳 的。 一个 是 就是现在 的 ChatGPT, 你 跟 他 互动 一段时间 之后, 如果 你老 跟 他 提 一个 概念, 或者 是 你老 表达 某种 习惯, 它是 会给 你 有一个 记忆 的, 它 叫做 memory。
这是 最近 上线 的 一个 新的 功能。
对对对, 我的 那个 ChatGPT 它 就会 是 说 这个人 他 就会 记下 来说 这个人 对于 智能 设备 很感兴趣。 因为我 老 跟 他 问 各种 智能 设备 的 一些 历史, 这 一些 参数, 一些 东西 之类 的。 这个 memory 是 它 自动 添加 的, 所以 我 觉得 这个 非常 厉害。 当然 你 也可以 自己 添加 一些 记忆, 或者说 添加 一些 你 对 它的 输出 的 一些 要求。 我 觉得 这 是一个 相关。 但 我 觉得 如果 未来 能够 结合 语音 会更好的 一个 功能。
然后 另外一个 功能 就是 其实 今天 的 那个 ChatGPT, 如果你 用 语音 跟 他 对话, 你 对话 完 之后, 如果 中间 你 要 发现 说 你 这个 事儿 纯 靠 语音 说不清楚。 你 想 拍 个 照片, 其实 你是 可以 把 那个 语音 对话框 给 擦掉。 然后 你 会 发现 你 刚才 用 语音 跟 他说 的话 已经 转变成 了 文字 躺在 对话框 里。 然后 接下来 你可以 接着 说, 你可以 接着 说, 比如说 你 发现 这个 事儿, 你 要 问 他 这个 事儿 你 说不清楚, 那 就可以 拍 张 照片 过去。 所以 现在 就 发现 说有 一些 周边 的 模态。 比如说 这种 图片 这样的 模态, 文字 这样的 模态, 它 就能 结合 语音 使用。
那 我 就 想说, 如果 未来 是一个 结合 大 语言 模型 的 客服 机器人, 那 它 未来 有可能 跟 你的 互动 方式。 比如说 他 发现 某个 操作, 指导 你 做 某个 操作 说不清楚。 通话 的 时候 你 跟 我 共享 一下 屏幕, 或者 拍 个 照片 给我 看看。 那 这样的话, 通话 的 时候 你可以 把 它 切换 成 视频模式, 那 这样的话 你们的 沟通 的 效率 就会 高 很多。
这个 其实 就是 对于 多 模态 的 这种 场景 的。 大家 为什么 这 两年 多 模态 变成 了 一个 最 热 的 A I 的 一个 概念 呢? 就是 因为 它 确实 呈现 了 一个 更加 完整 的 机器人 助理 的 形态。 因为 它的 重要 度, 如果 能 做到 这样的 一个 交互, 就 把 视频 加 语音 加 文字 多 模态 的 交流。 其实 它 能 真的 能 提供 非常 强 的 这种 交流 的 能力。 我们在 这次 苹果 的 W W D C 里面, 其实 他 提到 了 一个 非常 关键 的 概念 叫 on screen awareness, 就是 它 能够 读懂 你的 屏幕。 其实 这件 事情 如果 继续 往后 发展, 我们 就 想象 它是 一个 always on screen awareness 的 一个 数字 助理 的话, 那 其实 他 能够 一直 在 跟 你 陪伴, 通过 多 模态 的 方式, 不光 看 你的 屏幕, 还能 跟 你 做 语音 的 交流, 文字 的 交流, 甚至 是 让 你 打开 摄像头 跟 你 做 直接 的 交流。 这 里面 我 觉得 不光是 一个 情感 陪伴 的 问题 了, 它 可能 就会 解决 非常 多 实际 的 生产力 的 问题。
所以 就是 讲完 了 它 能够 实现 什么 功能, 其实 小结 一下 就是 语音 的 角色。 其实 随着 语音 的 优化, 它 已经 发生 了 质变。 它 原来是 叫 对话机器人。 其实 接下来 的 下一步 就是 他是 一个 私人 的 陪伴 或者 是 私人 的 助理。 然后 我们在 准备 这 期 节目 的 时候, 其实 已经 看到 很多 这样的 公司。 它 还没有 进入 到 所谓 的 原生 多 模态 的 语音。 它 纯粹 是 依靠 这个 大 模型 加持 的 这个 语音, 它 就 已经 获得 了 很 好的 商业 成果。
我们 也可以 来 讲一讲, 比如说 一些 记录 领域, 就是 一些 做 记录 的, 做 笔记 的, 其实 现在 就 已经 做得 非常 好。 我 其实 在 三四年 前, 我是 高频 的 用过 当时 的 所谓 的 语音 转 文字 的 一些 笔记 软件。 但是 跟 前面 说 的 一样, 就是 真实世界 里 的 音频 用 这种 传统 的 方法, 它 一定 就是 错误率 30% 或者 40%。
所以 这 很 糟糕, 就 没 后来 就 没有 再 用 下去 了。 那 现在 就 会有 公司, 怎么做 呢? 有 公司 就是说 既然 真实世界 宽泛 的 这种 场景 我 解决不了, 那 就有 公司 解决 一些 垂直 的 场景。
比如说 一家 叫做 free 的 A I 的 一家 公司, 它是 专门 做 这个 医生 的 笔记 的, 他 就是 相当于 说 医生 在 问诊 的 时候, 医生 简单 的 把 这个 信息 记录 在 录音笔 里面 就 好了。 然后 我 今天 刷 到 一个 视频, 我没有 找到 是 国内 哪家 医院。 我在 那个 视频 上 看到 的 信息 是 国内 的 一家 牙科医院。 那个 牙科医生 他在 给 病人 看病 的 时候, 他 就 用 通过 这种 语音 转 文字 的 方式, 他 就 做了 完整 的 病例。 他 就是 边看边说, 这个 后 槽牙 有 一点点 什么 问题, 然后 就 很快 的 记录 在 里面 了。 这家 公司 现在 作为 一家 初创 公司, 已经 一年 能够 赚 上 千万美元。 它 核心 的 解决 的 痛点 就是 帮 医生 解决 了 你 要 写 病历 报告 的 那个 事件。 所以 就是 这种 环境 相对 可控。
你 要 记录 的 一些 专业名词 和 一些 内容 也 比较 清晰 的 一些 场景 下面, 其实 现在已经 有 一些 很 好的 公司 了, 以及 A I 的 语音 的话, 其实 现在 我们 每个人 A I 语音 接触 最多 的 应该 是 每天 来 的那 几个 骚扰电话, 对 吧? 虽然 我们 很 讨厌 这些 骚扰电话, 但是 如果我们 站在 商业 的 角度, 如果我 是要 做 电销 的 那个人, 那 其实 你 也可以 想象 说 所谓 的 营销 外呼 的 这个 场景。 过往 他 很 笨, 如果你说 了 一个 完全 不着调 的 事情, 他 就 完全 接 不住。 那 接下来 你可以 想象, 就是说 如果 对面 的 那个 电话 销售 是 能够 接住 你的 胡言乱语 的。 从 营销 的 角度 来说, 你 肯定 有 更高 的 营销 效果, 对 吧? 对, 但是 从 消费者 的 角度, 可能 我们 要 去 想一想, 未来 怎么 去 解决 这些 更 聪明 一个 level 的 A I 电话。
这 里面 的 关键 是 我们 是否 还能 识别 它是 一个人 还是 一个 机器 了。 因为 过去 我们 那种 电子 音 的 数字 助理, 我们 不愿意 跟 他 聊天, 因为 知道 他 接 不住 我们 的话。 那 后面 开始 有 一些 骚扰电话, 他是 用人 来 录制 的。 但是 他 有 明确 的 这个 回答 链。 不管 你 回答 什么 链条 yes or no, 它 就会 往 下 按照 剧本 往下走。 我也 知道 他 接 不住 我们的 任何 出圈 的 稀奇古怪 的 问题。 直到 当我们 不知道 他是 人 还是 机器 的 时候, 或者说 作为 一个 客服 电话, 骚扰电话 我们 先 放 一边。 作为 一个 客服 电话, 当 他 接 起来 我不知道 他是 人 还是 机器 的 时候, 但是 我知道 它 能够 响应 并且 回答我 的 问题 的 时候, 我相信 我是 愿意 跟 他 交流 的。 而在 现在 这个 阶段, 我 觉得 还没有 跨过 那个 鸿沟, 就是 让 我愿意 跟 一个电话 里 的 客服 A I 去 聊天。
因为 现在 的 客服 说实话 没有 广泛 的 接入, 哪怕 是 目前 大 语言 模型, 现在 我们 接入 的 还是 那种 冷冰冰 的。 比如说 我们 打 给 电信 或者 移动, 他 会说 请说出 你的 问题, 我 除非 说 一些 关键字, 否则 他 给出 的 回答 永远都是 不是我 想要的, 而且 会 非常 的 缓慢。 所以 我 有一个 小 tips, 就是我 都是 跟 他说 投诉, 然后 他 就会 很快 的 接入 一个 人工 来 响应 我的 一个 很 基础 的 问题。 我们 也 期待 非常 聪明 的 机器人, 因为 说实话 有的 时候 聪明 的 机器人 会 比 初级 的 客服 还要 有效。
他的 理解 你 意图 的 能力 搞不好 要 更好。 还有 就是 语音 陪伴, 其实 刚才 前面 也 提到 了, 语音 陪伴 其实 是 这 一轮 大 语言 模型 出来, 大家 认为 非常 有 商业价值 的 一个 方向。 其实 不光是 国外 的, 有一个 叫 character 点 A I, 其实 我们 多次 在 节目 中 也 提到 了。 当然 最近 的 新闻 是 他 刚刚 被 谷歌 算 收购 了, 然后 把 他的 核心 的 人 直接 拿到 谷歌 去了。 这个 其实 也是 对 这样的 一个 语音 陪伴 方向 的 一个 巨头 的 一个 肯定。
其实 我们 看 了 一些 国内 的 创业 公司, 有 一家 公司 它是 专门 给 这种 布偶, 给 这种 玩偶 做 这种 声音 陪伴。 他是 跟 小朋友 做 交互 的, 就是 小朋友 拿到 一个 布娃娃, 这个 布娃娃 可以 跟 他 对话, 还能 上知天文下知地理。 其实 这个 在 我们小时候 应该 是 很想 有 这样 一个 像 机器猫 一样的 存在。 那 现在 的 小朋友 他 就 很 容易 就可以 拥有 一台 这样的 设备。 像 类似 这样的 创业, 其实 我们 也 看到 了 很多 类似的 方向。 但是 确实 我 现在 听 他们的 语音 还是 那种 相对 比较 僵化 的, 比较 死板 的 这种 声音。 在 GPT4O 正式 全面 商用, 甚至 是 开放 A P I 之后, 我相信 我们会 看到 大量 涌现 这 样子 能力 的 产品 出现。 但 这 是一个 非常 确定性 的 一个 商业机会。
OK 截止 目前 其实 我们 把 体验 然后 能 实现 哪些 功能, 甚至 是 说 对 哪些 公司 有 影响 都 已经 聊 惯了。 下 一部分 希望 把 我们在 这几天 更 深层 学到 的 一些 东西 跟 大家 讲一讲。 我 重点 想 讲一讲 技术 方面 的 一些 东西。 但是 事实上 如果你 去 怀古 的话, 你 会 发现 说 语音 的 识别 和 生成 这件 事情, 其实 它的 历史 是 非常 蛮 悠久 的。 最早 能 追溯到 1984年 乔布斯 的 macintosh 的 发布会, 在 当时 就 实现 了 一个 语音 的 生成。 要不 我们 简单 来 听 一下。
Get that bag, but at first, come, as I am too public beating, I D like to share with you A X and I thought of the first. 我们 能 听到 现场 的 人的 反应, 就是 1984年 可能 大家 可能 还是 第一次 听到 类似 这样的 电子 音 的 声音 出来, 对 吧? 那 即便 是 把 一段 文字 变成 了 这样的 一个 非常简单 的, 谈不上 有 任何 情感 因素 在 里面 的 一段 音频, 大家 都能 非常 好的 get 到 他的 笑点 并且 笑 出声, 对 吧? 就 代表 了 这种 声音 跟 文字 在 底层 上 它的 信息量 的 巨大 不同。 就是 如此 简陋 的 语音, 它的 信息量 也 远远超过 字符。 这一点 其实 我们 做 播客 做了 一年 多, 直到 最近 才 真的 意识到 它的 这种 声音、 对 情感、 对 信息 的 承载能力 的 这种 差异。
过去 我们 确实 觉得 说 博客 是一种 比较 水 的, 或者说 信息 密度 不够 好的 媒介, 他 只是 可能 有点 陪伴 的 作用, 仅此而已。 可能 大家 真的 想 学学 什么东西, 或者 是真的 想 掌握 什么 知识, 应该 要 去 读 论文 或者 怎么样。 但是 现在 我们 也 在, 我 我自己 在 逐渐 的 改变 这种 观点。 因为 我们 看到 了 声音 作为 一种 媒介, 它 承载 的 信息量 其实 也 可能 是 超过 我们 想象。
的那 我说 回来, 从 当年 乔布斯 但是 那个 T T S 其实 是 怎么讲 呢? 你可以 理解 他 就是 把 这个 英文 的 文字 背后 的 这个 音标 单独 给 它 机械化 的 拼 在 了 一起。 其实 我们 熟悉 的 另外 一位 著名 的 企业家 李开复 老师, 当年 也 在 miki talk 上 实现 过 语音识别。 但 那段 视频 我 就 不 放了我 把 它 放在 文稿 里面。 有 兴趣 的话 你们 可以 去 看一下, 就 当年 李开复 就在 苹果电脑 上 做 的 语音识别 是什么 样子。 但是 这里 我 要说 的 是什么 呢? 就 是从 80年代 开始 的 技术, 一直 到 今天。 其实 现在 的 情况 是 我们在 语音 上 应该 是 迎来 第二轮 大 的, 就是 托马斯 说 的 所谓 这种 范式 的 这种 转换。 在 语音 技术 上 最早 的 所谓 的 T T S 和 语音识别, 他们 都是 基于 一些 非常简单 的 一些 规则。 这种 简单 的 规则 和 算法 下, 我们的 声音 生成 的 比较 僵硬, 然后 我们的 语音识别 的 错误率 会 比较高。
我们 知道 2013年 之后, 其实 世界上 出现了 深度 学习 这样的 东西。 所以 其实 从 原来的 基础 的 语音识别, 它是 依赖 大量 的 数学方法 把 音频处理 成了 数字信号, 然后 再来 做 处理, 做成 识别。 深度 学习 出现 之后, 为什么 语音 的 识别 和 生成 出现了 很大 的 进步? 就是 因为 深度 学习 其实 把 原来的 传统 的 语音 的 识别 和 生成 里面 的 很多 环节。 比如说 这个 环节 你是不是 要 按照 某个 公式 来 处理 一下 这个 数字信号, 就 把 很多 这样的 环节, 把 它 一体化 的 收缩到 了 不同 层数 的 这个 神经网络 里面 去。 所以 其实 这个 也是 一个 所谓 就是说 你的 一个 系统, 当 你的 环节 越少 的 时候, 你 上 一个 环节 往 下一个 环节 的 你的 错误率 就 更 低。 所以说 这是 第一轮 的 范式 转换。
今天 我们 看到 的 是 第二轮 范式 转换, 就是 基于 这个 多 模态 大 模型 的。 其实 它的 这个 范式 转换, 它的 一个 基础 就 叫做 它 在 模型 架构 上 出现了 变化。 关于 这种 模型 架构 出现 的 变化, 在 学术界 看到 4到5种 常见 的 模型 架构。
这些 不同 的 模型 架构 来说 的话, 总体 来说 的话, 它们 都 会有 一个 特点, 就是说 他们 能 同时 处理 不同 模态 的 数据 的 好处 就是说 刚才 我们 不是 提到 说 现在 的 语音 处理, 是 把 语音 转换 出来 的 文字, 然后 再去 处理 那个 文字。 但是 如果 直接 处理 语音 的话, 它 就会 直接 省掉 一个 部分, 就是 转换 的 部分。 这样的 转换 的 部分 它 一方面 会 体现 成说 我在 给 人类 做 应答 的 时候, 我的 那个 延时 就 高, 对 吧? 因为 有 转换 的 这个 动作。 另外 的话 就是我 把 这个 信息量 的 所谓 的 折损 和 开销 就 降低 了。 我 了解 人的 意图 和 我 生成 的 这个 信息 就 更 准确。
所以 总体 来说 在 模型 架构 上 的 这样的 一个 变化, 就是 一个 模型 里面 它 会有 多种 模态 的 信息 的。 他们 专业名词 叫做 应该 叫做 解码器。 一个 模型 里面 有 多种 解码器, 能够 按照 需求 去 调用, 然后 每一次 我 只要 调用 一部分, 比如说 我 输出 给你的 是 音频, 那 我 就 调用 音频 相关 的 这个 模块。 所以 的话 它 就 实现 了 这种 同时 处理 多 模态 的 同时 我 还 能够 低 延时, 我 还 能够 对我 的 意图 判断 很 准确 的 这样的 一个 效果。 所以说 这是 我想要 在这里 去 讲 的 一个点, 就是 模型 架构 变了。
不过 目前 因为 GT4O 的 整个 架构, 实际上 包括 它的 这个 训练 模型 的 方式, 它 并没有 完整 的 披露。 OpenAI 其实 也没有 那么 open, 现在 有点 封闭。 所以 其实 以上 都是 一些 大家 根据 他的 目前 的 能力 做 的 一些 推测。
除了 模型 的 架构 变化 了 之外, 我也想 说 一下, 就是 模型 的 架构 变化 的 之后, 它 还 集成 了 很多 语音 小 模型 的 一些 功能, 这些 语音 小 模型 的 功能 原来 可能 是 一家 单独 的 产品 或者 创业 公司, 最 显著 的 一个 就是 可以 打断 这件 事情。 其实 在 语音 技术 上 是 有一个 一 一个 专门 的 技术 叫做 V A D, 叫做 voice activity dictation, 用来 识别 我 什么时候 应该 插话, 应该 发言 的。 第二类 模型 是 叫做 emotion engine, 叫做 情感 引擎。
今天 可以 找到 一些 类似 相似 的 一些 产品, 其实我 在这里 播放 一段 demo 可以 让 大家 来 听 一下。 Today is my first day to school, so you are my teacher. Please introduce me with my classmates.
You should show very, very happy. Well, well, look who's here. Good morning, everyone, for just overflowing with excitement to introduce our news students, please give a very warm welcome to your new classmate. Why don't you come on up?
以及 最后 就是 能够 看到 4欧版 非常 高质量 的 T T S, 就是 文字转语音 也 集成 在 里面 了。 我们 可以 听 一段 来自于 eleven labs, 目前 应该 是 全世界 最好的 T T S 公司 的 一段 demo。 这 是个 七 患有 充满 智慧 的 生物, 所有 知道 它 存在 的 人都 对它 肃然起敬。 普遍 欧美 公司 来做 中文 的 T T S 都 有点 港台腔。
对, 不知道为什么。
但 已经 是一个 港台 播音员 的 水平 了。
我 特别 好奇 他们 到底 用 的 是什么 语料, 为什么 出来 都是 这种 口音?
最后的话, 从技术上 想来 分析 的 其实 是 延时 的 一个 变化。 因为 如果 在 GPT4O 之前, 如果 大家 用 这个 ChatGPT 的 语音 对话 的话, 大家 经常 能 发现 就是说 延时 其实 是要 在 2秒到5秒左右。 但是 这一次 Chat GPT4O 它 这个 高级 语音 模式, 它的 平均 的 延时 是在 300毫秒。 对 它的 响应 时间 在 300毫秒, 其实 已经 意味着 说 它 已经 是一个 反应 不 那么 快 的 正常人 了。
我 觉得 反应 蛮 快 的 了。 320毫秒 差不多 就是 3分之1 秒, 已经 非常 厉害 了。
我 查阅 了 一些 第三类 分析, 其实 也 能够 包括 GPT 自己的 一些 技术 报告。 其实 也能 看到 就是说 GPT 是 怎么 实现 这样的 一个 延时 的 一个 降低 呢? 首先 的话 就是 它的 整个 tok ize 分词器 的 效率 会有 显著 的 提升。 就是 比如说 他 这次 技术 报告 里 写 出来, 他 原来 处理 同样 的 一个 中文, 他的 那个 token 就 减少 了 1.4倍。 或者 是 处理 相同 的 英文, 它的 token 也 减少 了 1.1倍。
这个 token 的 概念, 其实 之前 我们 没有 解释 过。 Token 其实 就是 把 输入 的 原始数据, 把 它 拆 分为 模型 为 处理 的 最小 单位。 原来 很多人 会 误以为 说 token 的 概念 就是指 你 输入 的 那个 文字 有 多长, 对 吧? 其实 不是 那个 概念。 其实 token 的 意思 比如说 像 一个 英文单词 unconditional, 它 虽然 是一个 单词, 但 它 有可能 在 tok nize 的 时候, 它 会 处理 成 三个 单词。 因为 它 里 显然 是 有 4到4个 音节。 它 可能 会 把 前面 的 on 处理 成 一个 poking, 然后 的话 condition 又 处理 成 另外一个。
Token GPT 的 官方 报告 里 非常 明确 的 说到 这种 token ized 的 能力, 压缩 能力。 不仅 是 我在 处理 文字 的 时候, 我在 处理 语音 和 处理 视觉 信息 的 时候, 也都 处理 到了 这样的 一些 信息。 我们 能够 看到 的 一些 比较 专业 的 第三方 分析 也会 提到 说, 其实 他 这一次 能够 实现 了 这种 语音 的 很短 的 延时 的 反馈。 很 重要 的 一个点 是在 跟 GPT 说话的 时候, 其实 你 还没有 说完, 其实 GPT 就 已经 在 进行 处理 了。 这个 和 原来 我们 说完 了 一句话, 然后 GPT 要 完整 的 转成 文字, 然后 再 处理, 其实 是 有 显著 的 区别 的。 而且 他在 预处理 的 过程 当中, 他 能够 提取 到 一些 关键 的 特征。 他 大概 知道 你 想要 说 的 意思 是什么 了。
还是 回到 我们 之 前提 过 的 一个 例子, 就 西红柿 炒鸡蛋。 如果你 是一个 在 听 一个 北京人 在 说话, 而且 你 可能 知道 他是 在 描述 一种 菜名, 那 有可能 你 听到 凶事, 对 吧? 凶事 你 听到 这 几个字, 你 大概 就 知道 后面 是要 接 炒鸡蛋, 你 就可以 给出 更快 的 反馈。
所以 总结 一下, 就 是从 工程 上 来说, 其实 我们 能够 看到 从 模型 架构 以及 延时 优化 两个 方面 的 一些 东西。 截止 我们 现在 在 录制 的 时候, 其实 我们 能够 看到 国内 的 一些 创业 公司。 有 一两家 创业 公司 也都 开始 官 宣 自己的 原生 语音 多 模态 这种 大 模型 即将 开始 试用 或者 是 上线。 我 觉得 这也是 一个 很 明确 的 一个 信号。 它 呈现 出来 的 效果 其实 现在 越来越 依赖 更多 的 工程 优化。
因为 其实 更多 的 是从 第三方 的 推测 来 判断 它 在 工程 上 有 哪些 优化。 不 代表 open I 真实的 采用 了 这些 方法。 其实 里面 有 很多 具体 的 呈现 的 结果, 可能 都是 我们 通过 他的 黑箱 倒推 出来 的那 很 可能 到 最后 也许 他 有 其他 更加 优雅 的 解决方案 也 说不定。 我 觉得 经过 这 段时间 对 现状 的 适用, 以及 我们 看到 GPT4O 的 这些 非常 可怕 的 能力, 这种 完全 拟人化 的 输出 语音 的 能力 跟 交互 的 能力。 其实 我们 可以 下一个 论断, 就是 大 模型 的 下 一轮 升级, 其实 就是 在 语音 这个 维度 上 会 发生。
因为 我们在 过去 的 从 GPT3.5 开始, ChatGPT 上线 以后, 我们 看到 了 这 一轮 A I 的 革命。 其实 对于 普通人 来讲, 大部分 的 普通人 我就是 跟 一个 chatbot 在 网上 做 这种 聊天 的 交互。 大部分 人 其实 没有 用到 自己的 所谓 工作流、 生活方式 或者 是 生产力 工具 中。 大部分 人 只是 在 很小 范围 的 应用 这种 语言 跟 语言 交互 的 这种 方式。 但是 我们 从 现在 看到 的 这种 非常 震惊 的 这种 音频 的 交互 体验 上, 我们 先 不说 技术 上 会有 什么样 的 迭代, 我们 就 基于 现在 GPT4O 展现 出来 的 技术。 我们会 看到 一个 非常 商业化, 就是 这种 落地 的 应用 的 一个 爆炸式 出现 的 一个 阶段。 就 可能 在 整个 A I 的 渗透率 上, 我们会 看到 语音版 的 A I 会有 一 非常 爆炸性 的 提升。
因为 语言 相对于 文字, 其实 刚才 我们 提 过 它的 这个 信息量 看似 是 少 的, 对不对? 它的 效率 是 低 的。 如果说 我们 一定要 去 比较 这种 信息 传递 的 效率, 我们 用 这种 提存 化 的 概念 去 看 这件 事情, 语言 的 效率 是 不如 文字 的。 但是 语言 的 门槛 是 极 低 的, 它的 渗透率 是 极高 的。
所以 我们 有 理由 相信, 一个 有着 全能 对话 能力, 不说 全能, 就是 完全 接近 人类 的 对话 能力, 通过 语音 图灵测试 的 这么 一个 A I 的 能力 的 机器人, 它 将 渗透到 我们 未来 工作 的 方方面面。 我们 尽可能 相比 之前 更 快速 的 面对 更 越来越多 的 机器人。 不管 是 我们的 个人 助理 也好, 它是 一个 客服 也好, 或者 它是 一个 whatever 的 一个 形态 呈现。 因为 我们 现在 可能 我们 也 无法 完全 穷尽 它的 可能性, 因为 这种 技术 虽然 提供了, 但 它的 想象 空间 仍然 足够 大。 我们 认为 它 会 是一个 相比 文字 真的 声 阶 爆发式 的 一个 增长。
我 觉得 现在 在 结尾 我们 可以 给出 这样的 一个 暴 论, 就是 我们 先 忘掉 视频 跟 图像。 我们 觉得 下一代 的 A I 的 应用 会 在 语音 这个 模块 上 爆发。 我 觉得 这是 我们 可以 看到 的 未来。 甚至于 我们 今天 发现 我们 过去 聊 了 很多 A I 硬件。 我们 今天 发现 我们 可能 现在 短期内 不需要 聊 那么 多 A I 硬件 了。 因为 在 always on 的 麦克风 这件 事情 上, 我们 今天 的 O W S 耳机 就 已经 可以 胜任。 我们 只要 挂 着 它, 通过 手机 保持 跟 蓝牙 的 连接。
我们在 手机 上 有一个 后台 的 应用, 就像 我们 现在 体验 Chat GPT1样, 去 跟 他 做 这种 对话。 然后 他 又能 实现 我们 刚才 畅想 的 那些 能力, 包括 情绪化 的 对话, 包括 对 环境 的 理解, 对 噪音 的 识别, 对你 这个 语境 跟 你 想要 收到 的 信息 的的 这种 交流 能力。 其实 一个 麦克风 加 一个 APP, 在 我的 手机 里面 它 就 已经 能 实现 了。 我 一个 全能 的 助理 在 后台, 如果 他 还能 帮 我 定 个 日程, 定 个 夜宵, 或者 做 一些 action 的 动作, 那 他 甚至 可以 完成 我们 对 A I agent 的 这种 诉求。
一方面 我们 很 期待 未来 这种 爆炸式 的 A I 的 这种 体验, 基于 语音 这样的 一个 模态 的 呈现。 另一方面 我们 也 为 现在 的 A I 硬件 捏一把汗。 因为 如果 是 这样, 其实我 不再 需要 一个 额外 的 硬件。 我 用 现在 的 手机 生态 就 已经 完成 了 对 A I agent 和 大 模型, 甚至 是 通用性 人工智能 的 初级 版本 的 这些 诉求 了。 所以 我 觉得 这个 还是 一个 蛮 重要 的 一件 事情。
在 我 刚才 托马斯 提到 就是 把 应用 挂 在 后台 这件 事情, 是因为 ChatGPT 现在 有一个 功能 叫做 后台 语音。 对, 就 相当于 你 在 前台 可以 正常 的 回 微信 看 东西, 然后 他的 那个 应用 挂 在 后台, 然后 麦克风 就是 一直 开 着, 然后 说到 的 任何 话, 那个 应用 是 听 得到 的。 这个 功能 特别 厉害, 能够 让 我 这几天 随便 一 用 ChatGPT 就是 超过 40分钟 的 一个 很 重要 的 一个 原因, 就是 因为 它 不 干扰 我 做 其他 任何 事情。
我 觉得 这个 能力 恰恰 是 手机 作为 现在 的 中心 设备, 它 可能 在 未来 仍然 享有 统治 地位 的 一个 重要 的 可能性。 就是 我们 可以 用 这种 简单 的 方式 去 接入 一个 超强 的 模型, 去 帮你 完成 这些 沟通 的 工作。 但是 我们 想象, 如果 今天 我们 挂 在 后台 的 不是 ChatGPT, 而是 siri 这个 语音助理 可以 全程 跟 你 互动 交流, 听你说 说听 甚至 见 你 所见。 而 它 还 可以 做 action, 它 其实 是 有 系统 级 的 权限 的, 它 可以在 你的 手机 里面, 像 苹果 它 可以 做到 这种 跨 应用 的 执行, 对 吧?
我们 看到 的 华为, 包括 国产 的 手机 厂商 也都 在 迈入 这个 赛道, 就是 这种 A I agent 的 赛道。 它 其实我 觉得 手机 厂商 在 这个 里面 是 占有 了 这种 A I 时代 的 入口 的。 因为 其实 当我们 用 这种 声音 或者说 用 这种 语音 的 方式 去 交互 的 时候, 语音 就 变成 了 一个 最 重要 的 入。 而 谁 掌握 了 入口, 谁 就 掌握 了 话语权。 这 可能 是 未来 我们 能 看到 的 手机 行业 下 一轮 竞赛 的 核心 的 一个 部分 了。
最后 我希望 大家 可以 亲自 去 体验 一下 这种 跟 机器 交互 的 感觉, 不需要 盯 着 屏幕。 因为 那个 时候 你 过于 的 重 了, 你 可能 一时间 想不起来 要 问 他 什么 问题, 对 吧? 可能 试 两下 就 没有了。 你可以 尝试 把 它 挂 在 后台, 然后 再做 一件 专注 的 事情 的 时候, 跟 他 做 一些 简单 的 交互。 或者 当你 有一个 什么 疑问 的 时候, 去 刨根问底 一下。 你 会 发现 语言 真的 比 文字 有的 时候 更有 价值。
或者 今晚 看 巴黎 奥运会 的 时候, 你 把 你 那个 大 模型 A P P 的 语音 模式 打开, 我相信你 就能 发现 很多 惊喜, 好吧?
好的, 也 感谢 大家 听到 这里, 我们 下次 再见。
感谢 收听 老 放 电波, 欢迎 在 苹果 播客、 小宇宙、 喜马拉雅 等 播客 客户端 搜索 脑 放 电波, 找到 并 关注 我们。 如果你 觉得 这 期 内容 对你 有所 帮助, 欢迎 你 在 评论 区 留下 反馈, 这 对 我们 非常重要。