cover of episode Suno 与 AI 重塑音乐的想象 | 对谈快音创始人李岩

Suno 与 AI 重塑音乐的想象 | 对谈快音创始人李岩

2024/4/6
logo of podcast 42章经

42章经

AI Deep Dive AI Chapters Transcript
People
曲凯
专注于推动AI应用创业领域的发展和分享行业见解的“42章经”创始人。
李岩
Topics
曲凯认为,AI出现之前,音乐平台的核心竞争力在于版权,版权竞争导致行业集中化,付费用户数量增长,但盈利模式受限于高额版权费用。短视频平台改变了音乐传播方式,使得音乐传播更加分散,头部效应减弱,但每首歌的时长降低。AI可以改变音乐创作流程,延长歌曲长度,生成不同版本,但AI模型的局限性在于难以修改已生成内容。AI对音乐从业者的影响:头部音乐人不会失业,中部音乐人面临冲击,底部音乐人会有更多机会。AI带来的音乐供给增加会改变音乐的供需匹配,可能导致音乐价格下降,但也会带来新的音乐消费体验。 李岩认为,音乐是一个独特的商业模式,歌曲价值会随着时间推移而增加。AI可以简化音乐制作流程,降低成本,但同时也存在一些局限性,例如难以修改已生成内容。AI音乐可以解锁许多新的应用场景,例如电影解说、营销等。AI生成音乐是被低估的,其成熟度已经很高,并且它是一种新的表达形式。未来,音乐可能会取代部分语言表达场景,成为一种新的表达方式,类似于表情包。AI可能会对音乐行业带来剧烈变化,尤其是在音乐创作和传播方面。

Deep Dive

Chapters
讨论了AI出现之前音乐行业的核心是版权竞争,以及音乐作为一种商业模式的独特性。
  • 音乐行业的核心是版权竞争
  • 音乐是最妙的商业模式,一首歌越老越值钱
  • 音乐与其他内容形式不同,具有重复消费的价值

Shownotes Transcript

From the darkest corners of the take for team comes a podcast show, for the point needs forty two, check a wisdom, and inside found this and investor. 大家 刚刚 听到 的这。

首 片头曲, 是 我们 用 苏宁 以 42章经 为 主题 做 的, 我们在 苏宁 上 试 了 大概 近百 首歌, 有 各种 风格 的, 然后 最后 选中 了 这 首。 我相信 如果 不说 的话, 其实 大家 已经 很难 分辨 它 到底 是人 做 的 还是 苏诺 做 的 了。 所以 我们 这 期 就 请来 了 快 音 的 创始人 李妍, 来 聊 一 聊 A I 加 音乐 这个 话题。 李岩, 我记得你 比较 重要 的 几段 职业 经历 里面, 其实 最 核心 一段 是在 字节。 你 先 给 大家 介绍 一下 你 在 自己 要 做 的 事情。

我在 字节 主要 做 增长, 最 开始 的 时候 我在 负责 一些 投放 的 工作。 后面 的话 主要 就 负责 各个 业务 线 的, 像 增长, 然后 像 一些 策略 产品 的、 算法 的, 还有 一些 中海 业务, 然后 包括 孵化 一些 新的 优先。

你 当时 是 整个 增长 策略 的 负责人 是 吧? 我记得 是对 对, 这是 哪 年 到 哪 年 的 时候。

我是 15年 7 8月份 去 的, 第二年 开始 负责 这个 团队, 差不多 一直 到 18年底。

因为你 经历 了 蛮 多 段 这种 大 用户 量级 的 增长 的 过程, 你 从 自己 走了 以后 就 开始 做 快 音。 对, 快 音 本身 其实 是一个 腰部 的 一个 音乐播放 平台, 对 吧? 但 你们 也有 几百万 日 活, 几百万 日 活 也 只能 叫 腰部。

因为 大 特别 大。 其实 这个 行业 最大 的 可能 就像 酷狗、 网易 云, 包括 Q Q 音乐, 他们 非常 大, 在 这 里面 是 有 极大 的 断层 的。

正好 可以 聊 一下, 就 第一 梯队 那些 家 现在 活 的 怎么样。 就是 他 有 经历 过 一段 说 买 版权 对 吧? 然后 大家 都能 听, 然后 有 版权 竞争 对 吧? 就是 这么 一 整个 流程。 对。

我 觉得 其实 第一个 月活 的 还 不错呀, 包括 你看 Q Q 音乐 财报, 其实 他们的 付费 用户数 是 很高。 他们 现在 付费 的 用户 已经 破 亿 了。

因为 不 付费 很多歌 听 不了。

我也是 付费 用户。 对, 然后 还有 就是 其实 中国 和 海外 不一样。 其实 海外 像 spotify 包括 youtube music, 他们 主要靠 付费 来做 收入。 但 他们 要把 付费 收入 的 70%到80% 都要 当做 版权 费用 支给 他们 公司, 所以 这个 非常 痛 的。 所以 你看 像 sport f 虽然 它 大概 有 30% 多 的 用户 都是 它的 付费 用户, 而且 他 收费 并不 便宜, 但是 他 依然 无法 盈利, 他 去年 应该 还 亏损 了 几千 万美金。 但是 在 国内, 因为 大家 会 比较 偏 运营, 所以 大家 可以 做 直播。 其实 在 QQ 音乐 里面, 在 天 蜜 里面, 其实 秀场 占 比是 很高 的。

这个 是 国情 决定 的。 对对对, 但 国内 如果 把 这块 刨 开 的话, 其他 的 也 一样 是要 给 版权 方 交 非常 高 的对。

这个 要 看 你的 谈判 权。 其实我 理解 像 腾讯 音乐 是要 交 很多 北京 费用, 但是 他们 会给 头部 艺人 交, 比如说 像 周杰伦 这种。 但是 中央 部人 其实 他们 现在 是 先 被 骑车 上市, 自己 来 买 公司。 就 他们 把 软件 放到 公司, 整个 给 收下来, 然后 他们 甚至 想 把 这些 公司 来 整合 起来 上市。

所以 我 能不能 也 在 A I 出现 之前 的 音乐 平台, 它 其实 就是 拼 版权。

对对对, 而且 它 越来越 集中化。

其实 对我 这里 插 一个 我 觉得 音乐, 我想 了 很多年, 我 觉得 音乐 是 最妙 的 一个 商业模式。 因为你 就 一首歌, 对, 越老越 值钱。 对对对, 好像 其他 的 领域 都 不是。 你看 什么 小说 电影 对 吧? 什么东西 你 很难 重复 的 去 看 无数次, 而且 肯定 也 不是 越老越 值钱。 但 电影 里面 可能 会 有些 I P 你 到老 的 演员 出来 是 值钱 的对 对, 但 音乐 真的 是 你就是 一首歌 一直 唱。

而且 越来越 赚。 坦白讲 我 其实 电影 和 小说 也是 重复 的。 虽然 说 现在 小说 比如 像 番茄, 比如说 像 七 猫, 它的 内容 很多。 但 其实我 之前 跟 番茄 聊过, 他们 最 原始 的 动机 其实 是因为 番茄 可以 基于 一本 小说, 百万 小说, 比如说 阅 文的 小说 可以 无限 重置。

无限 重置 是 指的 用 A I 不, 当年 是 人人 很 便宜。 我 觉得 这个 就 比较 有意思。 就是 你说 小说 什么, 他 肯定 都是 有一个 框架 或者 所谓 的 套路, 就是 一个 套路。 那 我 通过 套路 不断 的 生产, 但 大家 仍然 会 再去 看。 但 音乐 我 觉得 有一个 不同 的 是, 最后 大家 听 的 到底 百分之 多少 是 自己 歌单 里面 就是 那么 多 首歌。 对 这个 我 还想 再补 一个 问题, 中间 我 觉得 还有一个 很 重要 的 变化, 就是 短 视频 平台 对 音乐 带来 的 变化, 对 吧? 我不知道 你 因为你 又 经历 了 抖 音, 你 又 在 做 快 音。

我 觉得 抖 音 的 之前 的 情况下, 其实 他 所有的 宣发 都 是在 电视台 手里, 所以 大家 的 爱好 是 全民 的。 比如说 像 稻香 为什么 会 大火? 是因为 当年 所有的 宣传 资源, 最后 流量 都会 在 这个 时段 都 给他 给他 火。

是是是 之前 好 推, 而且 之前 更 头部 效应 集中。

对对对, 比如说 像 当年 风 传奇 为什么 火? 是因为 当年 的 蔡琳 所有 台湾 都是 放 传奇, 所以 他 火 了。 但是 慢慢 到 互联网 之后, 其实 没有 一个 集团 可以 垄断 选法, 包括 就业 的 变迁 距离 会 更加 分散。 所以 你 现在 越来越 难 看到 一个 全民族 的 歌曲。 就是 之前 有一个 统计, 比如说 中国 to p 3500 首歌 能 占 到 总 播放量 的 80% 多, 包括 apple 统计 的 他 中国区 播放量 最多 的 一百 首歌, 大概 有 五六十 首歌 是 周杰伦 的。 但是 我 觉得 越往后 来 走 分散度 越高。 因为 23流的 甚至 是 更 低 线 的 歌手, 他 也可以 去 掌握 一定 的 宣发 资源。

对 但是 会不会 后面 大家 就 越来越 不 care 到底 这首歌 是谁 唱 的? 昨天 本来就 已经 不 care 了, 我的 感觉 是 可能 越来越 至少 从 我自己 的 体验 来讲, 可能 就是 抖 音 的 背景音乐 的那 几句 可能 就 十几秒。 对, 30秒对, 然后 你 也 不知道 是谁 唱 的, 他 相当于 把 整个 音乐 解构 了。 我的 理解, 你 之前 可能 你 要 推 火 一首歌, 这首歌 一定 是你 要 听 个 四分钟 五分钟 的 那个 长度 的对 对 吧? 那 现在 你 其实 也 不用 听 那么 多了, 那 它的 频次 就会 更高, 因为 每天 可能 都有 比较 火 的 背景音乐, 所以 你 总的 曲 量 可能 是 增加 的, 但 每首歌 的 时长 是 降低 了。

我 觉得 这个 很 合理。 其实 之前 我 也有 这么 一个 判断, 包括 我们 自己 去 测试, 我们 发现 一首歌 的 长度 在 一分 到 一分 半 其实 是 最 合理 的。 就是 有一个 很 有趣 的 问题, 就是 为什么 一首歌 的 长度 一定要 3到4分钟。 它 单纯 是因为 我们 刚 制作 唱片 的 时候, 唱片 他是 用 转动 那个 机器 来 播 的。 是 那 当时 一个 盘 大概 的 长度 就 四分钟。

是 我们 四川人 其实 好多年 前 写 过 一篇 文章 跟 音乐 相关 的。 当时 大概 的 一个点 也是 唱片 的 结构。 一开始 的 时候 那个 磁盘 可能 只能 放 四分钟 一首歌。 然后 后来 那个 磁盘 变成 说 它 能 放 十首歌, 或者说 像 磁带 能 变 怎么 录制, 所以 变 出来 一个 概念, 就是我 一发 一定要 发 一个 专辑。 但 再 往后 到 互联网 时代, 其实 就 没 必要 发 专辑 了, 对 吧? 所以 就 必然 发 单曲。 那 在 未来 是不是 我就是 发 一个 抖 音 的 背景音乐 还是 怎么样。

我 觉得 还是 要 长 一点。 为什么 出了 个? 是因为 你 搭配 的 视频。 其实 这 里面 音乐 只是 一个 背景 音, 单纯 让 用户 去 听 长度 我们 看过 至少 要 到 一分 以上。

理论 来说 A I 是不是 也可以 续写? 是的, 对 吧? 在 文生 图 里面 他们 有 说 那个 就是 图生 图, 对 吧? 我 不断 的 拉长, 然后 那个 图 它 自动 生成 更多 的 背景。 理论 来说 我喜欢 稻香, 我可以 把 稻香 这样 A I 帮 我 自动 生成 成 一个 1小时 甚至 24小时 的 版本。

然后 讲到 A I 音乐 的话, 半年前 我 估计 其实 A I 音乐 最早 火 起来 那 一波 是 B 站上 那个 孙燕姿 对 吧? 他 其实 是 先 从 模拟 明星 的 声音 开始, 我 理解 那个 其实 是 最简单 的 一步 了 对 吧? 对对对, 就是 变声。 所以 你们 给 大家 介绍 整个 的 音乐 工程 现在 大概 分 哪 几步, 然后 其中 A I 是 怎么 起作用 的。

A I 的 工程 和 传统 的 那个 工程 还 不太 一样。 就是 传统 的 音乐 流程 它 先 有 词 和曲, 如果你 想 把 这个 歌 录 出来 的话, 你 就会 找 个 录音室。 如果 是一个 标准 流程, 那你 应该 是 分轨 录制。 就 比如说 你 要把 人声 伴奏, 包括 一些 各种各样 的 古典 什么的, 都是 分开 录 的, 后期 把 它 再 合 到 一起。 但是 这个 问题 就是说 他的 对于 节奏, 包括 配合 要求 比较高。 所以 后面 大家 很多人 会 简化 到, 我 就 直接 拉 一帮人 到 我的 这个 录音棚 这 录。

所以 midi 到底 是 啥? 我记得 大概 十年 前, 其实 就 有人说 A I 音乐 怎么样 用 海量 的 数据, 然后 去 让 电脑 帮 辅助 生成 音乐。 我记得 当时 讲 的 最 核 现在 问题 好像 就是 medi 形式 的 音乐 的 数量 是 不足 的, 我 隐约 记得 有 这么个 点。

Medi 你可以 理解 为是 一个 音乐 的 工程 文件, 就是 音频 本身 是一个 波段, 因为 你可以 理解 为 它 就是 对 波段 的 描述。 如果 你是 分轨 的话, 那些 就是 比如说 有 各种各样 的 分轨 的 谜底。

它 有点像 一个 photoshop 系列 格式 的。

对, 图层 概念 是 是 它 叫 图层 是的, 所以 你 分 图层 来来 编辑。 哼 但是 如果你 比较 懒 的话, 其实 你 一开始 你 把 所有 东西 放在 一起, 那你 没有 储存 干净, 所以 编辑 时候 比较 麻烦。

所以 对 A I 来讲 就是 给他 鼓 训练 鼓 对对对 吧? 主旋律 训练 主 旋。 但 为什么 不能 混 在一起? 你看 之前 的 那些 大 模型, 就 大家 讲 的 都是 把 所有 东西 都 兑 给他, 对他 就 自然而然 的 生成 出来 的 东西 了。

现在 主流 的 模型 还是会 这么 做, 这个 事情 就是 一种 悖论。 就是 你到底 是要 做 端 到 端, 还是 想要 去做 这种 分轨 训练 的这 里面 都有 有好有坏。 因为 如果 是 通话 端 的话, 其实 很难 让 你的 模型 来去 修改。

这个 就 有点像 图片 什么 生成 一致性 的 问题。 对, 就是你 要 改 你 就 只能 重新 生成。 对你 就 不能说 你 帮 我每 一块 旋律 改 一下。

你可以 去 尝试 给他, 但是 他 现在 不太 支持, 或者说 这个 跟 传统 的 音乐家 的 融合 就 很差。 因为 音乐家 明确 知道 你就是 第二 小节 第二句 话。

我 觉得 当下 是 这样。 对, 但 长期 来看, 比如 三五年 后, 你 觉得 三五年 音乐人 会 失业 吗?

我 觉得 会有 一部分人 会 失业, 我 觉得 是 这样的, 头部 音乐 人是 永远 不会 失业 的, 因为 I P 存在。 那 不管 怎么着, 会 有人 跟 他说, 你我 能不能 使用 你的 音色, 我 能不能 使用 你 原本 这首歌 的 版权。 我 觉得 中国 音乐人 他 会 比较 难受。 如果你 没有 灵感, 如果你 不能 大量 的 去 制作 更好 听 的 内容, 我 觉得 他 会 比较 难受。 我也 反而 中 腰部 或者说 底部 的 音乐 人我 觉得 会 活 的, 他 有 更多 的 工作 可以 给他 做。 因为 不管 是 给 内容 做 标注, 因为 学习会 非常 需要。

第二种 是 说 其实 音乐会 被 真的 固定化 出来。 比如说 现在 歌 都 是要 收费 的, 但是 为什么 我不 能够 把 它 变化 出来? 因为 人 足够 便宜, 我 完全 请 一个人, 我 一天 可以 制作 二首歌, 那 100个人 一天 可以 做 两千 首歌。

但 一个人 能 听的歌 是 有限 的, 对 吧? 所以 你 供给 变 到 那么 大 的话, 最后 在 供需 的 匹配 上 会 发生 一个 什么样 的 变化?

这个 会 巨大变化, 类似 于 你是 廉价 供给, 人家 给你 带来 的 问题 就是 你的 力量 大 管饱, 对 吧? 比如说 你 全天 稻香, 我 现在 有 1000个稻香 给你。 而且 你听 周杰伦 听 吐 了 要 掏钱, 亲吻 版本 掏钱 更 少, 为什么 不会 听 呢?

我们 主要 举 一个 对比, 还是 说 番茄, 它 其实 基本上 没有 头部 的 一些 小说, 但是 它 里面 有 无数个 变种 小说。 那 带来 的 结果 就是 对 用户 来说 他 也 觉得 很爽。 因为 用户 是 免费小说, 但是 对 用户 来说 这 事情 并 不很 舒服。

是 但 最终 你 觉得 岳 文 跟 番茄 这种 它是 会 并存 吗?

还是 我 觉得 会 长期 并存。 岳 文 其实 代表 就是 老式 艺术家, 他 这个 I P 很 牛逼, 这 框架 很 牛逼, 所以 还会 有人 去 追求。 喜欢 听 孙燕姿 他 就会 去 语文 里面 去 看 这些 内容。 然后 他 只要 把 这个 内容管理 好, 不要 对外 扩散。

番茄 再 牛逼, 它 依然 是 没有 的, 只 做 仿版。 但是 这 里面 有一个 长期 问题 来说, 以 更长 的 时间 储 速度 来看, 老的 I P 它的 生命周期 是 多久, 或者说 是不是 会 出现 新的 题材。 这 题材 我 觉得 和 语文 是 关系 就 不大 了。 就 比如说 最近 有一个 叫 克苏鲁 的 一个 题材, 这个 题材 其实 我们 现在 来看, 番茄 的 数量 远远超过 越 晚。

这个 就 带来 了 一个 问题, 就是 因为 老式 音乐 的 人 效 不高, 或者说 数量 有限, 多样性 也 受限。 那 这个 时代 我 觉得 翻 唱机 的 优势 可能 会 大 非常 多。 那 回到 音乐 上 来说, 就是 假设 我们 未来 出了 一首 比较 好 听的歌, 那 A I 的 宣发 的 流程 可能 变成 了 说 不管 怎么着, 我 先 用 1000个音色 先唱 一千遍, 那 我 肯定 会 出现 一些 更好 版本 的对 吧? 这个 时候 我 可能 挑 其中 100个比较 好的 声音, 我 再 生成 一些 不同 版本, 比如说 吉他 版、 钢琴 版、 摇滚 版, 比如说 再 结合 甄嬛传, 结合 比如说 亮剑, 刚才 可能 它 就 变成 一个 内容 矩阵 了。 那 这个 时候 他的 宣发 力量 会 远远 大于 之前 的 宣发 力量。

但 你 这里 涉及到 说 你 制作 一一 首歌曲 的 成本 到底 是 怎么样 的, 对 吧? 对, 传统 的 可能 要 几万块 钱, 对, 就 完全 制作 出来 一个 东西 对 吧?

A I 的那 我们 现在 基本上 一个人 一天 可以 做 一首歌。

所以 成本 基本上 就 这个 人的 工资。 你的 算 力 和 推理 是 那些 成本。

这 里面 的 算 力 其实 就 跟 用 token 一样。 如果 量 大 一点 是 可以 忽略不计 的, 如果 量 小 的话, 其实 成本 可能 就 几块钱。

所以 这个 也是 很 便宜 的, 最 主要是 人力 成本。

对对对, 因为 刚才 说 的 就 更多 的 模型 是后 端的, 所以 比如说 你 觉得 这个 的 取 不 合适, 你 要 去 改, 那 这个人 就 需要 去 手工 去 改。 但 我们 现在 我们 想要 用 训练 一个 的 模型, 如果你 会 觉得 第二句 话 不好听, 就是 可以 用 模型 直接 给 它 生成 300个第二句 话。

但 你 这 你我 我 刚才 其实 就 想 问 你 怎么 定义 更好? 听歌曲 是一个 更 主观 的。

我 觉得 这 主观 就可以 了。 我 觉得 这个。

事情 这样 是谁 的 主管 呢?

肯定 是 这个 人的 主管。 OK 就是 我们 现在 本身 是 有 模型 来 评价 一首歌 的 一致性, 或者说 好不好 听 的 问题, 但 我 觉得 这个 只能 是 解决 底线, 因为 好听 的 标准 非常 多, 这个 事情 我 就 很难 被 当前 的 模型 所 蛊惑 到。 那你 就 只能 是 说 先 找一个人 听吧, 而且 如果 他 这个 还有一个 音乐 素养 的 时候, 其他 的 感觉 往往 是 准的。

Sono 现在 的 大概 的 情况 你 了解 吗? 就是 他们是 什么 方案 在 训, 他们 各种 成本 什么 怎么样?

Sono 他们 其实 很多 内容 不太 对外 公开, 我们 现在 推测 他的 方案, 其实 他 做 的 是一个 纯 玻尿酸 的 方案。

OK 就是 全都 灌进去。

对对对, 所以 他的 整个 的 训练 集 其实 比较 好 去做 的 这个 事情 就 回到 了 一个 sk in law 问题 了。 就是你 有 更大 的 算 力, 你 有 更大 的 训练 期, 你 就 效果 就 更好。

但 你们是 分轨 的 方案。

我们 其实 两个 都 做 O K 我 因为 我们 有一个 很强 诉求, 我们 想要 去 改革, 就 我们 想要 自己 去做 版权 的 曲库, 我们 希望能够 把 它 做成 一个 工作流, 或者 把 它 当做 一个 助手 来 看待。 那你 就 需要 有 一些 本 轨 或 这种 方案 出来。

就是 需要 可以 编辑。

对对对, 甚至 说 我希望 这个 编辑 可以 变得 更 自动化。 这样 我的人 效 比如说 已经 可以 先 做出来 三首、 四首 或者 五 首歌, 那 这个 时候 我 单个 成本 也会 做得 足够 低, 甚至 我可以 把 这个 能力 开放 给 用户。 对。

就是 传统 音乐 时代, 最后 也是 版权 商 赚 了 最多 的 钱。

基本上 所有 赚。

所有 钱 基本上 所有 钱。 对, 所以 你们 现在 觉得 说 A I 时代 其实 也会 有一个 版权 上。

我 觉得 S 的 版权 上 可能 跟 传统 版权 上 不太 一样。 我 觉得 当你 有 大量 的 自我 能力 之后, 你 赚钱 的 道路 不一定 是 通过 版权 许可。 你 最后 可能 通过 流媒体 的 播放, 甚至 说 你 去做 一些 这种 内容 运营 来 获利。 我 这个 模式 会 不太 一样。

OK 我们 刚才 讲 的 基本 还是 在 传统 的 音乐 范畴 里面, 对 吧? 对, 但 A I 音乐 其实 现在已经 效果 非常 好了, 所以 它 能 解锁 非常 多 的 新的 场景 想象 空间。 比如说 我 最近 有 一些 开始 火 起来, 就是说 用 一些 什么 rap 或者 各种 音乐 形式 做 电影 解说。 这个 里面 可能 已经 有 一些 就是 用 A I 在 做 的 了。 相当于 说 他 把 他的 那个 解说 的 文案 放到 A I 里面, 然后 帮 他 生成 一首 歌曲 了。 对我 就 我 就 看 经常 有 评论 说 现在已经 这么 卷 了 吗? 是的, 除了 这些, 你 觉得 未来 A I 音乐 结束 以后 还会 产生 的 一些 场景?

以 我们 现在 的 状况 来看, 短期 来看 其实 营销 是 大头。 比如说 各个 宣传 的 部门, 然后 包括 一些 各种各样 的 品牌 方。 比如说 你 要 自己 卖 车, 甚至 比如说 你 在 企业 街上 去 卖 烤串, 你 都会 尝试 用 新的 形式。 比如说 用 音乐 来 宣传 他。

对 这里 其实 涉及到 是 到底 怎么 理解 音乐, 就是 它是 一个 更 抓 人 眼球 或者 抓 人 耳朵 的 一种 沟通 的 方式。

对 吧? 对, 短 视频 为什么 存在? 它 其实 就是 画面 加 BGM, 因为 它 确实 是 比 传统 的, 比如说 我们 两个人 来 谈话, 但 如果 我们俩 谈话 信 量 非常 大我 觉得 也没有 必要。 但 如果我们 两个人 宣传 某 东西, 那你 加上 BGM 可能 会好 非常 多。 以后 没有 差异 非常 大。

其实 百老汇 里面 有 非常 多 的 类似 这种 吧? 就是我 其实 完全 写 的 是 剧本, 但是 我 给 的 歌曲 吧? 比如说 那个 汉密尔顿, 对对对, 是的, 对它 其实 就是 典型 的 音乐 的 加 叙事。 所以 后面 是不是 更多 的 我们 能 看到 的 叙事 场景, 它 就会 变成 音乐 了。 包括 你 刚才 一直 听到 好 几次 番茄 小说? 那 现在 里面 是 有什么 各种 男生女生 去 给你 朗读? 后面 是不是 会有 一种 说 你 音乐 版 小说? 对。

音乐 版 的 小说 这个 是我 很 认可 的。 因为我 已经 看到 有人 在 用 音乐 来做 电视连续剧。 他 并 不是说 我 来做 一个 单点 事情, 也就是说 他 把 一个 电视剧 从 第一集 解说 到 最后 一集, 然后 我们 全都 是用 音乐 来 解说。 其实 音乐会 比 单纯 的 音频 或者说 单纯 的 文字, 它是 一个 更好 的 一个 附属 载体。

对, 我还记得 之前 有人说 哪个 什么 化学 老师 特别 厉害, 用 音乐 编 了 一首 化学元素 的 元素 作曲 表, 然后 大家 确实 更容易 记忆 下来。 对, 以后 这种 场景 也 可能 很多。

对对对, 其实 儿歌 就是 一种。 喜欢 朋友, 就是 交好 朋友, 要 讲礼貌, 有 知识, 就是 儿歌 敷衍 会 我 觉得 会越来越 多。

但 这个 东西 我在 想 它 后面 它 会 是一种 玩法, 还是 说 大家 慢慢的 可能 就会 习惯。 比如说 我 微信 发 一条 语音, 它 自动 就会 帮 我 转成 一个 带 节奏。

带 渠道 的 通。 我 觉得 是 这样的, 还是 分 短期 长期。 我 觉得 短期 其实 在 营销 上面 大家 会 更 习惯, 因为 营销 的 需求 更 明确。 还有 一种 是 这种 祝福, 他 就 很很 合理。 比如说 我 送 一首歌 来 祝你生日快乐, 我 祝你 谈 对象。

但是 我 觉得 这 只是 一个 初期 阶段, 因为 新闻 出来 之后, 大家 是 有 适应期 的。 越往后 其实 它的 可能性 的 空间 会 越 大我 觉得 短期 我们 可能 会 高估 它的 影响, 但是 长期 我们是 低估 的。 因为 本身 音乐 其实 它 作为 一个 内容 载体, 它 在 我们 生活 中的 占占 比是 非常低 的。 可能 现在 看 你的 朋友圈, 可能 只有 1% 是用 音频 或 音乐 来 表达 的。 但 你 可能 有 80% 都是 带 图 的, 可能 10% 10几 带有 视频。 但是 我的 音乐 应该 是 介于 图片 和 视频 中间 的 载体, 因为 它的 制作 难度 比 视频 要 低。

对我 我 觉得 A I 生成 音乐, 我 感觉到 目前为止 在 所有的 这些 A I 生成 的 类别 里面 肯定 是 最 被 低估 的。 它的 成熟度 完善 度 已经 非常 好了, 而且 它 其实 就是 音乐 本身, 它 也是 一种 表达形式。 对对对, 而且 它是 跟 文字 能强 挂钩 的对 对。

比如说 唐诗宋词, 其实 旧 音乐 还有 乐理 的。 只是 说 我们 这 代人 的 能力 所限, 导致 我们 无法 使用 这个 艺术。 变成 一个 你的 可用 工具 之后, 其实我 觉得 它的 占 比 会 比 现在 可能 要 高 非常 多。

这个 还是 挺 有意思 的, 可能 后面 会 改变 非常 多 的 事情。 我们 现在 其实 自己 团队 里面 已经 每天 在 玩儿, 对, 生成 各种各样 有意思 的 东西, 确实 挺 好听 的。 而且 这个 有点像。

当年 的 手机 摄像头 的 概念。 在 一开始 有没有 说 相机 的 时候, 其实 能够 拍照 的 人 很少。 大家 要 转换 照片, 其实 你 要 去 摄像 馆 花 就 几十块 钱, 你 可能 一年 拍 几张。 有了 手机 之后, 就算 我 可能 不爱 拍照, 但 我 一年 我 发现 我手机 上 可能 也会 拍 个 几百张。 所以 我 觉得 现在 的 A I 的 部分, 最后 他 还是 有点像 一个 像素 摄像头。 他的 这个 阶段 很 早期, 所以 当 他 后面 你 叠加 了 各种 像 face UB612 的 这些 瘦脸 美白。

各种 P S 的对 对。 然后 我在 想 未来 人们 听歌, 一个 音乐 平台 他 完全 可以 自己 定制 自己的 所有的 东西。 他 也没有 各种 玩法 对 吧? 我 比如说 我想要 一个 周杰伦 风格 的 美声 的, 给我 讲 语文课 的对 对, 一个 什么 摇滚 的。 是的, 对。

然后 我们 也可以 做 各种各样 新的 尝试。 比如 我们 这里 后期 其实 可以 插 一首 古诗 作 的 歌曲, 我 觉得 还是会 蛮有意思 的。

可以。

千山鸟飞绝万径人踪灭。 孤舟蓑笠翁, 独钓寒江雪。

当 我知道你 喜欢 林志玲 的 时候, 完全 可以 用 林志玲 的 声音 给你。 因为你 现在 像 地图 里面, 比如说 像 郭德纲, 联系 导航 是 非常 多 的, 完全 可以 用 他们 来 给你 定制。

是 之前 不是 火 过 一次, 他们 把 包括 郭德纲 用 英语 说 相声。 对, 是的, 对, 你可以 完全 让 郭德纲 用 唱歌 的 方式 说 相声, 对不对? 然后 以及 说 我 还是 觉得 你 刚才 讲 的 很多, 其实 他 就上 一代 还是 搜索 对 吧? 现在 其实 很多 是 包括 快 音 很多 都 推荐 完了 下一代。 如果 是 纯 生成, 这 里面 其实 就 还是 我想 讲 它是 一个 无线 曲库 的 概念, 对 吧? 它 不是 一个 从 0到1 生成 的。

而且 它 有 更强 的 交互 定制。 因为你 生成 之后, 其实 你可以 跟 自己的 状况 做 演绎。 比如说 你 现在 你 有 一些 情感 需要 触发, 你 完全 可以 直接 跟 一些 你想要的 旋律 做 融合。

我 突然 想到 一个 更 极端 的 事情。 我 觉得 未来 如果 是 端 测 模型 来了, 我 是不是 可以 有 个 设备 不用 联网, 我 就有 无线 的 曲库 了? 可以, 我 就 设备 上 生成 的。

我 觉得 这个 点 是 很 对的。 而且 音乐 模型 的 参数 集 就 少。 如果你 想要 运行 语言 大 模型, 你 可能 需要 现在 可能 至少 7B参数 是一个 最低 的。 那 这样的 模型 会 比较 傻。 但是 一个 P B 式 的 一个 面膜 型, 其实 它的 质量 已经 可以 了。

对, 反正 就是 有一天 你 不需要 搜索 对 吧? 也 不需要 别人 推荐, 也 不需要 联网。 对, 就是 有 无线。

但是 我 觉得 还是 不 联网。 我 觉得 未来 的 音乐, 其实 这 里面 有一个 很大 的 节点, 其实 是 来自于 音色 和 创意。 因为 我们 所 描绘 的 这些 人, 大家 是 比较 有 自己 想法 的, 但是 大部分 人 其实 是 盲从 的 很多 比如说 像 fo GPT 需要 有人 教, 包括 现在 像 M G 虽然 说 已经 非常 好, 但是 真的 会 用 media 人我 觉得 是 远远低于 现在 会 浏览 media 做 的 游戏 的 人。 对, 所以 我 觉得 一定 是 他们是 一个 技术 工具, 但是 需要 有 一堆 的 创意 或者说 灵感 和 音色。

这 是一个 网络, 所以 会有 一个 新的 社区 的 机会 吗? 这个 里面 也有 很多 的 创作者, 然后 也 又有 大量 的 消费者。

我 觉得很有 可能 会有。 还是 回答 说 我们 要 有一个 基础 判断, 就是 一个 有 音乐知识 的 人, 他 所 制作 的 内容 是不是 会 比 一般人 做 的 内容 好, 这个 内容 质量 要好 多少? 如果 大家 会 认为 他 要好 百分之五六十 是 好 一倍, 那 一定 需要 一个 社区。 因为 对 用户 来说, 我 觉得 个性化 是一种 需求, 但是 个性化 的 前提 是 质量 足够 OK。 所以 如果 是一个 80分和 90分的 区别, 那 我 觉得 大家 一定 会 选择 90分的。

我 现在 听 下, 我 觉得 sono 很多歌 已经 非常 OK 了。 是的, 就是 他 现在 到 V 3, 对 吧? 对, 大家 觉得 他 大概 对 标 GDPT3.5, 对 吧? 对, 没错。 对, 那 再到 下一个 版本, 我 觉得 已经 不需要 人 了, 对我 来讲 至少 是 可听 的 了。 我也 已经 想不到 说 人 还能不能 再 改成 什么样。

做 V 3的版本 质量 是 不错 的, 但是 我 觉得 你 把 它 和 你 现在 在 里面 做 这种 对比, 我 觉得 这个 差异 是 很 明显 的。 其实 你 对 A I 是 有 优待, 因为你 觉得 它 超乎 大家 对 它的 期待 比较 低, 它 超过 你的 预期 了。 对, 但是 我 觉得 最后的 实质 是 要 与 同样 一个 情况下 看待。

明白。 就是现在 大家 做 的 可能 像是 比如 11个1两个 人的 工作室 搞 出来 的 一个 小制作, 对 吧? 大家 听起来 觉得 有点意思, 挺 好听 的。 但 你 就 觉得 说 还是 要把 它 封装 成 一个 像 现代城。 对, 所以 你 觉得 最终 五年 后、 十年后 整个 的 音乐 行业 会 变成 什么 样子? 我 就 包括 两 部分。 第一 部分 是 目前 已有 的, 我们 定义 的 就是 当下 典型 的 这个 所谓 的 音乐 行业, 对 吧? 另外 就是 A I 带来 的 一些 额外 的, 我们 刚才 讲 各种 突破性 的 一些 场景 空间。

钢琴 的 行业 我 觉得 而是 未来 它 应该 是一个 极大 的 ugc 或者 AIGC 的 音乐, 我 觉得 会 重新 出来。 所以 他的 作品 质量 会 被 用户 卷 起来, 内容 质量 会 远远超过 当前 的 量级。 所以 未来 的 机会 应该 是 用户 和 A I 来 共创。 然后 当然 A I 可能 比例 会越来越 高, 但是 用户 的 一些 灵感、 创意 想法, 他 也会 有 更大 的 发挥。 这个 就像 比如说 你 摄像头 变得 更 清晰、 更 高清, 但是 你 无法替代 谁 来决定 我要 拍 哪 一个角。 所以 我 觉得 这个 内容 通过 量 可能 会 非常 多。 所以 他 会 多 到 以至于 传统 的 音乐 平台, 传统 的 I P 音乐 的 占 比 会 被 大大 压缩 掉。

而且 这些 内容 他 会 跟 社交 媒体 做 非常 深 的 融合。 因为 用户 会 对于 他 自己 内容 会有 更大 的真 适合 宣 推。 你知道 你 会 发 朋友圈 发抖 音? 所以 知道 媒体 上 我的 内容 占 比 会 非常 高。 所以 它 就 变成 了 一个 U E C 的 一个 制作 平台 加 内容 分发 平台, 然后 再加 用户 可以 基于 内容 做 更多 的 创。

尤其是 人的 审美, 我 觉得 审美 是 非常 多样 的这 也是 我 最近 发现 问题, 就是我 觉得 模型 它 现在 有一个地方 是 它 非常容易 过 拟合。 比如说 我 最近 跟 我的朋友 聊, 我 觉得 喊 麦 是一个 我 觉得 非常 好的 场景。 但是 所有 音乐 模型 都 没有人 去 进入 喊 麦, 包括 我们 自己的 模型 也没有 喊 麦。 有 所以 我们我们 有 语音库, 但 我 发现 他们 把 喊 麦 丛 宇 遥控 给 剃 掉了。 我 这 是一个 非常 离谱 的 事情, 所以 我 现在 带 他们 重新 去做 一个 航班 模型。

对我 就 从 某个 角度 来讲, 我 刚才 想 就是 所有的 说话的 场景, 对 所有的 语言表达 的 场景, 可能 都会 被 音乐 去 慢慢的 吃掉 其中 的 一部分。 对对对, 比如 我不知道 可能 是 5%, 可能 是 10%。

对, 这 就像 表情包 的 概念。

对。

然后 我 觉得 这个 其实 是 C 的 场景, 苏 C 我 觉得 这 是一个 完全 新的 机会。 然后 第二个 部分 我 觉得 它 有 存在 to b 可能性。 假设 你是 一个 夜店, 你 想要 定制 你 这个 夜店 的 风格, 那你 大 概率 不会 是 老板 自己 来做。 你 大 概率 也是 我 花 5000块钱, 我 找 几个 小的 音乐 的, 你 给我 定制 就可以 了。

对, 以后 每个 线下 场景 也都 有 自己的歌 单, 而且 它是 真 自己的歌 单 都是 完全 自己 生成 的。

对对对, 制作 的 过程 他 可能 会 自己 动 一部分, 他 大部分 的 工作 他 可能 还是 会有 一些 to b 的 服务 出来。

所以 我 整体 听起来, 我 觉得 在 AI 生成 的 这么 多 类型 里面, 你说 图片、 文字、 视频 等等, 好像 都 不会 特别 快 的 取代 非常 多 的 人, 或者 给 行业 带来 特别 彻底 的 变化。 但是 音乐 领域 我 现在 听起来 好像 会 是 变化 很 剧烈 的 一个 行业。

对对对, 因为 有的 音乐 确实 它 不管 是 内容 的 深度, 还是 说 它 内容 的 多样性, 在 当前 都 没有 特别 好。 但是 AI 又 能够 赋予 更多 多样性。

好, 我们 就 一起来 期待 一下 今年 A I 音乐 后面 的 变化。 然后 最后 再 给 大家 放 一个 小 彩蛋, 就是 我们 用 快 音 的 采集 了 一下 我自己 的 声音, 然后 用 快 音 写歌 帮 我 生成 一段 片尾曲。 也 正好 宣传 一下 我们的 博客 跟 我们的 活动, 大家 可以 再 听 下 感受一下。

欢迎光临 的 A I 是 东 关于 上周末 日 的 深圳 有 一场 活动, 欢迎 大家 订阅 转发 支持 我们的 博客。