Home
cover of episode Suno 与 AI 重塑音乐的想象 | 对谈快音创始人李岩

Suno 与 AI 重塑音乐的想象 | 对谈快音创始人李岩

2024/4/6
logo of podcast 42章经

42章经

Chapters

This chapter discusses the impact of AI on music creation and consumption. It covers topics such as AI-generated music's indistinguishability from human-created music, the role of AI in music platforms like Suno, and the evolution of music consumption from full songs to shorter clips used in short-form videos. It also touches upon the history of music platforms and the changing landscape of music copyright.

Shownotes Transcript

from the garcus corners of a tech for team comes a part cash show for the pioneers。

大家刚刚听到的这首片头曲呢,是我们用苏诺以 42 章经为主题做的。

我们在苏诺上试了大概近百首歌吧,有各种风格的,然后最后选中了这首。

我相信如果不说的话,其实大家已经很难分辨他到底是人做的还是苏诺做的了。

所以呢,我们这期呢,就请来了快音的创始人李岩来聊一聊 AI 加音乐这个话题。

李岩我记得你比较重要的几段职业经历里面,其实最核心一段是在字节嘛。

你先给大家介绍一下你在字节做的事情。

我在字节主要做增长,最开始的时候我在负责一些投放的工作,后面的话主要就负责各个业务线的,像增长啦,然后像一些策略、产品的、算法的,还有一些中海业务吧,然后包括孵化一些新的业务线。

你当时是整个增长策略的负责人是吧?

我记得是。

对对,这是哪年到哪年的时候?

我是 15 年 七八月份去的吧。

啊,第二年开始负责这个团队,就差不多一直到 18 年 底吧。

因为你经历了蛮多段这种大用户量级的增长的过程。

你从字节走了以后就开始做快音嘛?

嗯,对,是快音本身其实是一个腰部的一个音乐播放平台。

嗯,对对吧。

但你们也有几百万日活嘛。

几百万日活也只能叫腰部啊。

因为大,特别大。

其实这个行业最大的可能就像酷狗、网易云,包括 QQ 音乐,他们非常大。

嗯,在这里面是有极大的断层的。

嗯。

你正好可以聊一下,就第一梯队那些家现在活得怎么样?

就是他们有经历过一段,说买版权,嗯,对吧,然后大家都能听,然后有版权竞争,对对吧,就是这么一整个的流程。

对啊。

哦,我觉得其实第一个月活得还不错呀,包括你看 QQ 音乐财报,其实他们的付费用户数是很高,他们现在在付费的用户已经破亿了。

因为不付费很多歌听不了啊,我也是付费用户。

对对,然后还有就是其实中国和海外不一样,其实海外像 spolify, 包括 YouTube music, 他们主要靠付费来做收入,就他们要把付费收入的 70% - 80% 都要当做版权费用,置费他们公司,所以这个是非常痛的,所以你看像 specify, 虽然他大概有 30% 多的用户都是他的付费用户,嗯,而且他收费并不便宜,但他依然无法盈利,他去年应该还亏损了几千美金吧。

但是在国内,因为大家费用比较偏运营嘛,所以大家可以做直播,其实在 q 音乐里面,在 TMI 里面,其实秀场占比是很高的,嗯。

这个是国情决定。

对对对,但国内就是如果把这块刨开的话,其他的也一样是要给版权方交非常高的。

所以这个要看你的谈判权。

嗯,其实我理解像腾讯音乐是要交很多北京费用,但是他们会给头部艺人交,比如说像周杰伦这种,嗯,但是中央部艺人,其实他们现在是 CMI, 其实上上市自己来买,公司就他们把软件方的公司整个给收下来,嗯,然后他们甚至想把这些公司来整合起来相识嗯。

所以我能不能也在 AI 出现之前的音乐平台,它其实就是拼版权。

对对对,而且它越来越集中化。

其实啊对,我这里拆一个,我觉得音乐我想了很多年,我觉得音乐是最妙的一个商业模式,嗯,因为你就一首歌,对,越老越值钱。

对对对对对啊,好像其他的领域都不是真,你看什么小说电影对吧?

什么东西你很难重复地去看无数次,而且肯定也不是越老越值钱。

嗯,但电影里面可能会有些 IP, 你到老的演员出来这之前对对对对,但音乐真的是你就是一首歌一直唱,而且越来越专。

坦白讲,我其实觉得电影和小说也是重复的,虽然说现在小说,嗯,比如像番茄,比如说像七猫,它的内容很多,但其实我之前跟番茄聊过,它们最原始的动机其实是因为番茄可以基于一本小说,本人小说,比如说阅文的小说可以无限重置。

无限重置是指的用 AI?

嗯不,当前是人人很便宜哦。

我觉这个你就比较有意思啊,就是你说小说什么,它肯定都是有一个框架或者所谓的套路吧,对吧,是一个套路啊,我通过套路不断地生产啊,但大家还仍然会爱去看。

但音乐我觉得有一个不同的是,最后大家听的到底百分之多少是自己歌单里面就是,那么是多少歌?

对,记得我还想再补一个问题,中间我觉得还有个很重要的变化,就是短视频平台对音乐带来的变化,对吧?

我不知道你,因为你又经历了抖音,你又在做快音。

我觉得抖音的之前的情况下,其实它所有的宣发都是在电视台手里,所以大家的爱好是全民的。

比如说像稻香为什么会大火,是因为当年所有的宣传资源,所以我流量都会在这个时时段都给他呃。

给他火,是是是,之之前好推嘛,而且之前更头部效能集中。

对对对。

比如说像当年凤凰传奇为什么火,是因为当年的蔡玲收台都是放泛期,所以他火了。

但是慢慢到互联网之后,其实没有一个集团可以垄断宣发,包括助力的变迁,用户助力会更加分散,所以你现在越来越难看到一个全民的歌曲,就是之前有一个统计,比如说中国 TOP3500 首歌能占到总部放量的 80% 多。

嗯。

包括 apple 统计的,它中国曲播放量最多的 100 首歌,大概有五六十首歌是周伟伦的。

但是我觉得越往后来走分散度会越高,因为二三流的甚至是更低线的歌手,他也可以去掌握一定的宣发资源。

对,但是会不会后面大家就越来越不 care 到底这首歌是谁唱的?

昨天本来就已经不 care 了。

我的感觉是可能越来越,至少从我自己的体验来讲,可能就是抖音的背景音乐的那几句,可能就十几秒,对对对,30 秒,对啊,然后你也不知道是谁唱的,它相当于把整个音乐解构了,我理解是对吧,你之前可能你要推火一首歌,这首歌一定是你要听个 4 分钟 5 分钟的,嗯,那么长度的,对对吧?

但现在呢,你其实不用听那么多了啊,嗯,它的频次就会更高,因为每天可能都有比较火的背景音乐,所以你总的取量可能是增加的,但每首歌的时长是降低了。

嗯,我觉得这个很合理。

其实之前我也有这么一个判断,包括我们自己去测试,我们发现这首歌的长度在一分一分半其实是最合理的。

就是有一个很有意思的问题,就是为什么一首歌的长度一定要 3 到 4 分钟,它单纯是因为我们刚制作唱片的时候,唱片嗯,它是用那个转动那个机器来播的嘛,是,那当时一个盘大概的长度就 4 分钟。

是我们四川人,其实好多年前也写过一篇文章,跟音乐相关的,当时大概的一个点也是唱片的解构,一开始的时候那个磁盘可能只能放 4 分钟一首歌,然后后来呢,那个磁盘变成说它能放 10 首歌,对,或者说像磁带能变怎么录制,所以变出来一个概念就是我一发一定要发一个专辑。

那再往后到互联网时代,其实就没必要发专辑了,对对对,必然发单曲。

那在未来是不是我就是发一个抖音的背景音乐还是怎么样?

我觉得还是要长一点。

为什么舒淼可以,是因为你搭配的视频,其实这里面音乐只是一个背景音,单纯让用户去听,长度我们看过至少要到 1 分以上。

理论来说 AI 是不是也可以续写?

是的,对吧,在文生图里面,他们有说那个就是图生图对吧?

我不断地拉长,然后那个图它自动生成更多的背景。

那理论来说,我喜欢稻香,我可以把稻香这样, AI 帮我自动生成成一个一小时甚至 24 小时的版本。

然后讲到 AI 音乐的话,半年前我估计其实 AI 乐最早火起来那波是 b 站上那个孙燕姿对吧?

对,她其实是先从模拟明星的声音开始。

那我理解那个其实是最简单的一步了,对吧?

对对对,就是变声嘛。

所以你们给大家介绍整个的音乐工程现在大概分哪几步,然后其中 AI 是怎么起作用。

AI 的工程和传统的那个工程还不太一样。

嗯,就是传统的音乐流程,它先有词和曲,如果你想把这个歌录出来的话,你就会找个录音室。

如果是一个标准流程,那你应该是分轨录制,就比如说你要把人声伴奏,包括一些各种各样的鼓点什么的都是分开录的,后期把它再合到一起。

但是这个问题是说它的对于节奏啦包括配合要求比较高。

嗯,所以后面大家很多人会简化到我就直接拉一帮人到我的这个录音旁直接录完。

对。

所以 MIDI 到底是啥?

我记得大概 10 年 前吧,嗯,其实就有人说 AI 音乐怎么样用海量的数据对对,然后去让电脑对辅助生成音对。

但我记得当时讲的最核心的问题好事就是 MIDI 形式的音乐的那个数量是不足的啊。

我隐约记得有这么个点。

MIDI 你可以理解为是一个音乐的工程文件,嗯,就是音频本身是一个波段嘛,那你可以理解为它就是对波段的描述,嗯,如果你是分轨的话,那其实就是比如说有各种各样的分轨的 media 啊。

它有点像一个 Photoshop 型格式的呃,对对。

图层概念是是,它叫图层是是的,所以你分出来来编辑嗯,但是如果你比较懒的话,其实你一开始你把所有东西画一起,那你没有没有图文概念,嗯,所以编辑时候比较麻烦。

所以对 AI 来讲就是给它鼓训点鼓对对对对对,主权内训的主权对诶,但为什么不能混在一起?

你看之前的那些大模型,其实大家讲的都是把所有东西都怼给他对,他就自然而然地生成出来的东西了。

现在主流的模型还是会这么做。

这个事情就是就是一种悖论啊。

嗯,就是你到底是要做端到端,还是想要去做这种分轨训练的,这里面都有,有好有坏。

因为如果是通话端的话,其实很难让你的模型来去修改。

这个就有点像图片什么生成一致性的问题。

对,就是你要改,你就只能重新生成。

对,你就不能说你帮我哪一块旋律改一下。

你可以去尝试给他,但是他现在不太支持。

或者说这个跟传统的音乐家的融合就很差,因为音乐家明确知道你就是第二小节第二句话。

呃,我觉得当下是这样。

对,但长期来看呢?

比如三五年后,你觉三五年音乐人会失业吗?

我觉得会有一部分人会失业,我觉得是这样的,就头部音乐人是永远不会失业的,因为 IP 存在。

那不管怎么着,会有人跟他说你,我能不能使用你的音色,嗯,我能不能使用你原本这首歌的版权。

我觉得中部音乐人他会比较难受,如果你没有灵感,如果你不能大量地去制作更好听的内容,我觉得他会比较难受。

嗯,我也反而中腰部或者说底部的音乐人,我觉得会活得他有更多的工作可以给他做,嗯,因为不管是给内容做标注,因为学习会非常需要。

第二种是说其实音乐会被真的固定化出来,比如说现在歌都不需要收费的嘛,但是为什么我不能够把它变化出来,因为人足够便宜啊,我完全请一个人,我一天可以制作 20 首歌吧,那 100 个人一天可以做 2000 首歌。

嗯嗯,但一个人能听的歌是有限的嘛,对吧?

对啊对啊,你供给变到那么大的话,最后在供需的匹配上会发生一个什么样的变化?

这个会巨大变化,类似于是你是廉价供给,廉价供给带来的问题就是你的量大,环保,嗯吧,比如说你首先稻香,我现在有 1000 个稻香给你,嗯,而且你听周悦伦听吐了,要掏钱,听我版本掏钱更少,为什么不会听呢?

我们只有举一个对比,就还是说番茄吧,他其实嗯基本上没有头部的那些小说,嗯,但是它里面有无数个变种小说,嗯,那带来的结果就是,对用户来说,他也觉得很爽,因为用户是免费小说,但是对于用户来说,这事情并不很舒服。

是,但最终你觉得阅文跟番茄这种它是会并存吗?

还是我觉得会长期并存?

阅文其实代表的就是老式艺术家,它这个 IP 很牛逼,这框架很牛逼,所以还会有人去追求,喜欢听孙燕姿,她就会去英文里面去看这些内容。

嗯,然后她只要把这个内容管理好,不要对外扩散,那番茄再牛逼,她依然是没有的,只能做仿版。

但是这里面有一个长期问题在于说以更长的时间尺度来看,那老的 IP 它的生命周期是是多久,或者说是不是会出现新的题材。

新的题材那就我觉得和玉文是关系就不大了,就比如说最近有一个叫课速度的一个题材,这个题材其实我们现在来看,番茄的数量远远超过阅文,嗯,这个就带来了一个问题,就是因为老师攻略的人效不高,或者说数量有限,多样性也是有限,那这个时代我觉得发生起来优势可能会大非常多。

嗯哼,那回到音乐上来说,就是假设我们未来出了一首比较好听的歌,那 AI 宣发的流程可能变成了说不管怎么着,我先用 1000 个音色先唱 1000 遍,那我肯定会出现一些更好版本的对吧?

然后呢,这个时候我可能挑其中 100 个比较比较好的声音,那我再生成一些不同版本,比如说吉他版、钢琴版,嗯,摇滚版,比如说再结合甄嬛传结合比如说亮剑跟,那可能它就会成为一个内容矩阵了嘛,那这个时候它的宣发力量会远远大于之前的宣发力量。

嗯嗯,诶,但你这里涉及到说你制作一首歌曲的成本到底是怎么样的嘛,对吧?

对,传统的可能要几万块钱,对,就完全制作出来一个东西对对吧,在 AI 的。

但我们现在基本上一个人一天可以做一首歌,所以成本基本上就这个人的工资。

你的算力啊推点是那些成本?

这里面的算力其实就跟调用 TOKEN 一样,如果量大一点是可以忽略不计的,如果量小的话,其实成本可能就几块钱。

所以这个也是很便宜的。

对,主要是人力成本。

对对对。

因为刚才说就更多的模型是后端的嘛,所以比如说你你觉得这个的取不合适,你要去改,那这个人就需要去手工去改,但我们现在我们想要用训练一个具体的模型,说我用户觉得第二句话不好听,就可以用模型直接给它生成 300 个第二句话。

但你这里我我刚才其实就想问对怎么定义更好听歌曲是一个更主观的。

我觉得这主观就可以啊。

嗯。

我觉得这个事情暂时是谁的主观呢?

肯定是这个人的主管。

OK, 就是我们现在本身是有模型来评价一首歌的一致性或者说搞不好听的问题,但我觉得这个只能是解决底线,因为好听的标准非常多,这个事情我就很难被当前的模型所捕获到。

那你就只能是说先找一个再清嘛,因为如果他这个还有一个音乐素养的时候,其他的感觉往往是准的。

Sono 现在的大概的情况你了解吗?

就是他们是什么方案在训他们,各种成本?

什么怎么样 solo, 他们其实很多内容不太对外公开。

嗯我们现在推特他的方案,其实他做的是一个纯中小端的方案。

OK?

就是全都灌进去嘛。

对对对对对对对然后嗯所以他的整个的训练集其实比较好去做的。

这个事情就回到了一个 scaling law 问题了,就是你有更大的算力,你有更大的训练期,你就效果就更好。

嗯但你们是分轨的方案啊。

我们其实两个都做 OK?

我因为我们有一个很强诉求,我们想要做改革,就我们想要自己去做版权的曲库,我们希望能够把它做成一个工作流,或者把它当做一个助手来看待,嗯,那你就需要有一些崩溃啦或这种方案出来,嗯。

就是需要可以编辑。

对对对对对,甚至说我希望这个编辑可以变得更自动化,这样我的人效,比如说已经可以先做出来 30 首,40 首或者 5 首歌,嗯,那这个时候我单个成本也会出现足够低,甚至我可以把这个能力开放给用户。

嗯,对,就是传统音乐时代,最后也是版权商赚了最多的钱啊。

基本上说赚所有钱,对。

基本上都有钱,对,所以你你们现在觉得说 AI 时代其实也会有一个版权上。

我觉得 AI 时代的版权商可能跟传统版权商不太一样,我觉得当你有大量的制作能力之后,你赚钱的道路不一定是通过版权许可,你最后可能通过点媒体的播放,甚至说你去做一些这种内容运营来获利。

嗯,或者这个模式会不不太一样。

OK, 我们刚才讲的基本还是在传统的音乐范畴里面对吧?

对,但 AI 音乐其实现在已经效果非常好啊,然后所以它能解锁非常多的新的场景,对,想象空间。

比如说我最近有一些开始火起来的,是说用一些什么 rap 呀,或者各种音乐形式做电影解说,这个里面可能已经有一些就是用 AI 在做的,相当于说他把他的那个解说的文案放到 AI 里面,然后帮他生成一首歌曲了。

对,我就我就看经常有评论说现在已经这么卷了嘛。

是的是的,除了这些的,你觉得未来,嗯, AI 音乐结束以后还会产生的一些场景。

嗯,以我们现在的状况来看,短期来看,其实营销是大头,比如说各个宣传的部门,然后包括一些各种各样的品牌方,比如说你你要自己卖车,甚至比如说你在直接接上去卖烤串,你都会尝试用新的形式,比如说用用音乐来宣发它。

对,这里其实涉及到是到底怎么理解音乐,嗯,对吧,就是它是一个更抓人眼球或者抓人耳朵的一种对沟通的方式嘛,对对嗯。

就是短视频为什么存在,它其实就是画面加 BGM, 嗯,因为它确实是比传统的,比如说我们两个人来谈话,但如果我们俩谈话信量非常大,我觉得你也没有必要,但如果我们两个人宣传某东西,那你加上 BGM 可能会好非常多。

嗯,以后以后没有,差别非常大。

其实百海汇里面有非常多的类似这种对吧,就是我其实完全写的是剧本,但是我给的博曲对对对吧,比如说对海米尔顿啊对对对,是的是的是的对,它其实就是典型的音乐的嗯。

加叙事嘛。

对对对,后面是不是更多的我们能看到的叙事场景它就会变成音乐了?

对,包括你刚才一直 cue 到好几次番茄小说对吧?

那现在里面是有什么各种男生女生去给你朗读对吧?

后面是不是会有一种说你音乐版小说?

对,音乐版的小说。

这个是我很认可的,因为我已经看到有人在用音乐来做电视连续剧。

嗯,他并不是说我来做一个单点事情,而是说他把一个电视电视剧从第一集结合到最后一集,然后我们全都是用音乐来去解说。

嗯,其实音乐会比单纯的音频,或者说单纯的文字,它是一个更好的一个附属载体。

对对,我还记得之前有人说哪个什么滑雪老师特别厉害,用音乐编了一首滑雪元素的元素多学表,然后大家确实更容易记忆下来。

对对,以后这种场景也可能很多。

对对对,就是儿歌,就是一种很典型的场景。

嗯,就是交好朋友要讲礼貌有知识啦,就是儿歌。

敷衍会,我觉得会越来越多。

但这个东西我在想,它后面它会是一种玩法,还是说大家慢慢的就可能就会习惯?

比如说我微信发一条语音,它自动就会帮我转成一个带节奏带嗯,他带渠道的。

同。

我觉得是这样。

就还是分短期长期,我觉得短期其实在营销上面大家会更习惯,因为营销的视觉更明确。

还有一种是这种祝福嘛,他就很很很合理,比如说呃,我送一首歌来祝你生日快乐,我祝你谈对象。

但是我觉得这只是一个初期阶段,因为新事物出来之后大家是有适应期的嘛,越往后其实它的可能性的空间会越大。

我觉得短期我们可能会高估它的影响,但是长期我们是低估的,因为本身音乐其实它作为一个内容载体啊,它在我们生活中的占占比是非常非常低的。

可能现在发现你的朋友圈可能只有 1% 是用音频或音乐来表达的,但你可能有 80% 都是带图的,可能百分之十十几带有视频,但是我理解音乐应该是介于图片和视频中间的载体,因为它的制作难度比视频要低。

对。

我我觉得 AI 生成音乐,我感觉到目前为止在所有的这些 AI 生成的类别里面肯定是最被低估的,它的成熟度完善度已经非常好了,而且它其实就是音乐本身,它也是一种表达形式。

对对对对,而且它是跟文字能强挂钩的。

对对,比如说躺诗宋词其实就有音乐。

嗯,它有乐理的嘛,只是说我们这代人的能力所限而导致我们无法使用这个艺术。

变成一个你的可用工具之后,其实我觉得它的占比会比现在可能要高非常多。

这个还是挺有意思的,可能我后面会改变非常多的事情诶,我们现在其实自己团队里面已经每天在玩,在生成各种各样有意思的东西,确实挺好听的而且嗯。

这个有点像当年的手机摄像头的概念,在一开始有没有摄像机的时候,其实能够拍到人很少,大家要搞完照片,其实你要去摄像馆花十几块钱,你可能一年拍几张,有了手机之后,就算我可能不爱拍照,但我一年我发现我手机上可能也会拍了几百张。

所以我觉得现在的 AI 的部分,最后它还是有点像一个 100 万向缩摄像头,那它的这个阶段很早期,所以当它后面你叠加了各种像 Faceu, B612 跟这些瘦脸美白各种 PS 类的。

对对,然后我在想未来有什么听歌,一个音乐平台,它完全可以自己定制自己的所有的东西,就是它也没有各种玩法对吧,我可以说我想要一个周杰伦风格的每一生的给我讲语文课的对对,一个什么摇滚的是的是的是的对然后我们也可以做各种各样新的尝试,比如我们这里后期其实可以插一首古诗做的歌曲,我觉得还是会蛮有意思的可以啊!

就是当我知道你喜欢李志玲的时候,完全可以用李志玲的声音给你,因为你现在现在像地图里面,比如说像郭德纲啦,玲琪导航是非常多的嘛,我现在可以用他们来给你定制啊是。

之前不是火过一次,他们把包括郭德纲用英语说相声啊对对对,是的对,你可以完全让郭德纲用唱歌的方式说相声,嗯,对对对嗯。

然后以及说,我还是觉得你刚才讲的很多呢,其实它就上一代还是搜索对对吧,现在其实很多是,包括快影,很多做推荐是吧?

那下一代如果是纯生成,这里面其实就还是我想讲它是一个无限曲库的概念对吧,它不是一个从 0 到 1 生成的。

而且而且它有更强的交互定制,因为你生成之后,其实你可以跟自己的状况做演绎,比如说你现在你有一些情感需要触发,你完全可以直接跟一些你想要的旋律做融合。

诶。

我突然想到一个更极端的事情,我觉得未来如果是端侧模型起来了啊,我是不是可以有个设备不用联网,我就有无限的曲库了,可以啊,我就设备上生成。

就我觉得这个点是很对的,而且音乐模型的参数集就少,如果你想要运行语言大模型,你可能需要现在可能至少 7B 参数是一个最最低的吧。

嗯,那这样的明星会比较比较下,但是一个 7B 式的一个页模型,其实它的质量已经可以了。

嗯嗯。

对,反正就是有一天你不需要搜索对吧,也不需要别人推荐,也不需要联网,对,就是有无限。

但是我觉得还有不联网。

我觉得未来的音乐,其实这里面有一个很大的连接点啊,其实是来自于音色和创意。

嗯,因为我们所描绘的这些人,大家是比较有自己想法的人,但是大部分人其实是盲从的,嗯,很多,比如说像 fo, GBT, 需要有人教嘛?

嗯,包括现在像 MG, 虽然说已经非常好,但是真的会用 m media 的人,我觉得是远远低于现在会浏览 media 做的游戏的人。

嗯,对吧?

所以我觉得一定是他们是一个基础工具嘛,但是需要有一堆的创意,或者说灵感和音色。

这是一个网络。

所以会有一个新的社区的机会吗?

这个里面就是也有很多的创作者,然后也有大量的消费者。

我觉得很有可能会有。

还是回答说,我们要有一个基础判断,就是一个有音乐知识的人,他所制作的内容是不是会比一般人做内容好?

这个内容质量要好,要好多少?

如果大家会认为他要好百分之五六十,甚至好一倍,那一定需要这个时区。

嗯,因为对用户来说,我觉得个性化是一种需求啊,但是个性化的前提是质量足够 OK。

嗯,所以如果是一个 80 分和 90 分的区别,那我觉得大家一定会选 90 分的。

我现在听一下,我觉得苏诺很多歌已经非常 OK 了。

嗯,是的是的,就是他。

现在到 V3 嘛,对吧?

对,大家觉得他大概对标 GDP 第 3.5 嘛,对吧?

对,没错。

对。

那再到下一个版本,我觉得已经不需要人了,就就对我来讲至少是可听的了,我已经想不到说人还能把它再改成什么样做。

V3 的版本质量是不错的,但是我觉得你把它和你现在表里面做成对比,我觉得这个差异是很明显的。

其实你对 AI 是有优待。

因为你觉得它超大家对它的期待比较低。

它超过一下预期了,嗯,对对对对。

但是我觉得最后的实质是,呃,要与同样一个情况下看待明白。

就是现在 AI 做的可能像是比如一一个一两个人的工作室,对,搞出来的一个小制作,对对吧,大家听起来觉得诶,有点意思,挺好听的啊,但你你是觉得说还是要把它封装成一个像现代城?

对,所以你觉得最终,嗯,5 年后,10 年后,整个的音乐行业会变成什么样子?

我就包括两部分啊。

第一部分是目前已有的,我们定义的就是当下典型的这个所谓的音乐行业,嗯,对吧。

另外就是 AI 带来的一些额外,我们刚才讲各种突破性的一些场景空间版。

当前的行业我觉得是未来它应该是一个极大的 UGC 或者 AI, GC 的音乐我觉得会重新出来,所以它的作品质量会被用户卷起来,内容质量会远远超过当前的量级。

所以未来的机会应该是用户和 AI 来共创,然后但 AI 可能比例会越来越高。

嗯,但是用过的一些灵感啊创意想法,它也会有更大的发挥。

这个就像比如说你摄像头变得更清晰、更高清,但是你无法期待谁来决定我要拍哪一个角,所以我觉得这个内容内容的通过量可能会非常非常多,所以它会多到以至于传统的音乐平台,传统的 IP 音乐的占比会被加大压缩掉。

嗯。

对,而且这些内容它会跟社交媒体做非常深的融合,因为用户会对于他自己内容会会有更大的珍视和宣宣推你,至少你会发朋友圈发抖音吧,嗯,那所以就这样,媒体上我觉这个内容占比会非常非常高,嗯,对,所以它就变成了一个 UGC 的一个制作平台加内容分发平台,然后再加用户可以基于内容做更多的创。

尤其是人的审美,我觉得审美是非常多样的,这也是我最近发现问题,就是我觉得模型发现在有一个地方是它非常容易过拟合,比如说我最近跟我们同学聊,我觉得喊麦,嗯,是一个我觉得非常好的场景,嗯,但是所有音乐模型都没有人去进入喊麦,包括我们字节模型也没有,喊麦有时候没,我们有语摇库,但我发现他们把喊麦从语摇库给剔掉了。

嗯,我这是一个非常离谱的事情,就我现在带他们重新去做一个喊麦模型。

嗯,对。

我就从某个角度来讲,我我刚才想就是所有的说话的场景,对,所有的语言表达的场景,可能都会被音乐去慢慢地吃掉其中的一部分。

对对对,啊,比如我不知道,可能是 5%, 可能是 10%, 对。

这就像表情包的概念啊。

对。

然后我觉得这个其实是 c 的场景粗黑,我觉得这是一个完全新的机会。

然后第二个部分,我觉得它有存在 ToB 可能性。

假设你是一个夜店,你想要定制你这个夜店唱歌,那你大概率不会是老板自己来做,你大概率也是我花 5000 块钱,我找几个小的音乐人,你给我定制就可以了。

嗯,对,以后就是每个线下场景也都有自己的歌单,而且他是真自己的歌单,都是完全自己生成的。

对对对对对。

制作的过程他可能会自己动一部分,嗯,他大部分的工作,他可能还是会有一些 ToB 的服务出来。

嗯,对。

所以我整体听起来,我觉得在 AI 生成的这么多类型里面,对吧,你说图片、文字、视频等等,嗯,好像都不会特别快的取代非常多的人,或者给行业带来特别彻底的变化,嗯,但是音乐领域,我现在听起来好像会是变化很剧烈的一个行业。

对对对,因为觉得音乐确实它主管是内容的深度,还是说它内容的多样性,在当前都没有特别好,嗯,但是 AI 又能够赋予更多的多样性。

好,那我们就一起来期待一下今年 AI 音乐后面的变化。

然后最后呢,再给大家放一个小彩蛋,就是我们用快音的采集了一下我自己的声音,然后用快音写歌,帮我生成一段片尾曲,也正好宣传一下我们的播客跟我们的活动,大家可以再听下感受一下。

欢帮我的 AI 自动外音叫做魔者的神针,有一场活动外音大家听一下,转发支持我们的播客哦!