MP3格式通过有损压缩技术,大幅减少了音频文件的体积,使得音乐能够更高效地通过网络传输和存储,从而彻底改变了音乐的传播方式和消费模式。
MP3利用心理声学原理,识别并丢弃人耳难以察觉的音频信息,特别是在高频和低频部分,以及在特定时间点被其他声音掩蔽的部分,从而在不显著影响听觉体验的前提下减少数据量。
CD格式是无损音频,忠实记录和重现声音;而MP3是有损压缩,通过丢弃部分音频数据来减少文件大小,尽管这种丢弃是基于人耳听觉特性的。
心理声学研究人类听觉系统对声音的感知特性,MP3压缩技术利用这些研究成果,如等响曲线和掩蔽效应,来决定哪些音频信息可以被安全地丢弃,从而实现高效压缩。
MP3格式使得音乐文件体积大幅缩小,便于通过网络快速传输和在便携设备上存储,极大地促进了数字音乐的普及和音乐消费的便捷性。
MP3的声音特点是由其压缩算法决定的,这种特点并非源自物理介质的自然老化,而是人为设计的结果,因此难以唤起传统意义上的怀旧情感。
关键突破包括利用心理声学的掩蔽效应来丢弃不重要的音频信息,以及通过大量的听觉测试来优化压缩算法,确保在不同码率下仍能保持良好的听觉体验。
MP3格式使得音乐制作人需要考虑如何在压缩后仍保持音乐的完整性和表现力,同时也推动了数字音频工作站和音频编辑软件的发展,以适应新的音频格式。
所以陈旧的声音是什么样的呢就像泛黄的老照片或者被风雨侵蚀的台阶任何东西都有旧的样子那声音呢这个问题特别直接的指向人类整个音乐史或者说听觉史我们可以看乐器的变化呀麦克风和录音设备的变化
声音生产的方式和传输的方式都值得讨论但是最直接的一个考察的角度是观察我们的存储介质和回放的设备比方说电话和广播尽管广播可以播放任何音乐但我们始终能够在脑海中锁定一种绝对属于广播的声音就是那个声音特别的直觉比如说它比其他的介质要暗淡然后它的低频是缺乏的
然后在信号不稳定的时候它会混杂着一种嘶嘶沙沙的噪音再比如黑胶黑胶是一种密纹唱片就是细密的纹路里一圈一圈的凹凸不平
在这个槽里面有凹凸的变化带动了苍针传导到喇叭然后在喇叭里形成了振动这毫无疑问就是我们所谓的类比叫 analog 这个过程因为它不涉及任何的数字所以没有什么二进制没有芯片没有处理器仅仅是在物理世界中将一种变化传导为另外一种变化就是将凹凸转化成了喇叭的带动空气的振动
这让黑胶具备了一种非常特定的陈旧感就像广播的声音它不可避免的受到信号的影响一样就比如如果黑胶唱片它瓢了就是这个唱盘它不平了弯曲了的话它会导致一种轻微的周期性跑调的声音对吗因为这个转速是均匀的可是你这曲面让这个唱针跑的一会快一会慢速度就不均匀了
再比如如果唱片的纹理中夹杂了一些灰尘的颗粒从微观来看,唱针会特别突兀的蹦过去就好像被灰尘的颗粒绊了一跟头一样会形成一种任何听黑胶的朋友都会非常非常熟悉的油炸或者蹦豆子的声音而磁带的原理则非常不同
就是在录音的时候音频让电流通过磁头的缝隙产生强弱和方向不停的变化的磁场带动磁带上的磁粉被磁化形成了一个个的极性和磁性的强弱都不一样的微型的磁铁但是是连贯的被记录在带子上而磁粉的分布在低频和高频的位置总是不太准确
这个是磁带的物理的特点就是在磁通量很大的时候所有的磁粉会出现那种所有磁粉都被极化然后导致信号就没区别了你比如说 1 米 5 以上的身高全算 1 米 5 这时候你就发现一溜的 1 米 5 就是 1 米 5 以上的人的身高差别都被抹平了就是信号过载了会出现一种叫做 saturation 也就是饱和的特点很多人心心念念的所谓的温暖的声音其实本质上是一种时针
是一种特定的时针然后再加上磁带转速不稳定又形成一种颤音的效果最后同样的音乐进到磁带里会变成这个样子事情到了 MD 和 CD 的时代发生了非常非常大的变化
就我们没有办法想象出 CD 的任何特点因此 CD 也没法变得陈旧就从听觉上来说因为 CD 是一种无损音频一种无损数字音频它这个数字说的就是跟刚才我们讲的模拟是相对的因为它的本质就是 0 和 1 然后你使用它需要通过编码和解码的芯片或者软件来记录声音或者是在线这个声音
回放这个声音它通过记录 44100 赫兹 16 比特的音频数据理论上它完美的保存和复现了的声音当然这个说法绝对是不对的一会我们会谈到至少在人耳能分辨的频率里它是不可能被污染或者篡改的损坏了的 CD 只会卡顿到直接无法播放比如说这打口打太深了这个 CD 就没法播放了它不会体现为声音的任何特点
就是它没有一个陈旧的状态没有这个概念是不可能的但是 MP3 又再一次颠倒这个逻辑它是数字格式的但是它确实具备了一种特殊的听觉特点只不过我们完全没有办法把这个特点跟陈旧联系在一起
MP3 是一种有损压缩的音频格式它跟 CD 的区别就在于它为了压缩数据量实质性的舍弃了一些声音今天我们要来较真一下 MP3 这个格式到底对音乐做了什么最直观的方法我们去观察 MP3 所谓的损耗是什么就是 MP3 到底丢失了什么压缩前后的区别是什么我们可以这么干就是把同一首歌的
MP3 压缩文件和原始文件并列在两个轨道里时间是对齐的然后我们对这个 MP3 的版本做反向的处理并且叠加播放这样如果二者的声音是一模一样的因为有一轨是反向了我们就会得到一个完全抵消而形成的纯粹的静音对吧但是我们这里得到的是这样一个声音但即使是听了这个我们还是不能直接的感觉到二者的区别就是就算我们把谜底
看了我们再回过头来看谜面我们还是区分不出来 MP3 的压缩到底有什么区别你能区分我此时此刻正在怎样用旋钮不停的在这个歌的 MP3 版本和无损音频版本直接来回的切换和渐变吗对吧你是区分不出来的这就是 MP3 压缩的神奇之处它的压缩并不是在数学或者数字层面的它是在听觉层面的它不是客观的而是主观的
当我们明白这件事的时候我会感觉自己整个世界观都动摇了因为这个事和密码学编码学计算机科学关系其实不是特别大但是跟人本身关系巨大我先来解释一下什么叫不是数字层面的压缩这是一个我自己胡说八道的一个说法我是觉得这样说是最贴切的因为数字音频的本质就是我们刚才说了零和一组成的数据它怎么可能存在一种叫不是数字层面的压缩呢
我们从古典意义上的压缩来说起通常我们所谓理解数据的压缩它在干这么一个事就是最粗俗的例子
比如说我们有这么一串数据 77777 0000 215 8888 8888 这总共是 22 个字符我们可以把它记成这样我们这么记就记 5 乘以 7 就是 5 星号 7 0 星号 4 215 8 星号 9 这样我们把 22 个字符压缩成了 12 个
因为这里面有一些信号然后我们告诉解码器就是说你遇着信号你就把前面的数字按照后面数字去重复那么多遍就可以了所以信息没有变但是它被压缩成了更短的字符串另外一个例子就是说假设有一段文字有一个文章里面频繁的出现大笨蛋这个词特别多大笨蛋我们就在压缩文件的开头就声明把大笨蛋统一记为 A 然后所有的大笨蛋都写成 A
然后大笨蛋这三个汉字所形成的一长串的字符就可以只被记录一次然后里边有一堆 a 然后到时候解码的时候把 a 都替换成大笨蛋就得了请原谅我这种非常弱智的举例因为我对压缩算法一无所知我只是想给你临时建立一个对于常规意义上压缩大概是什么样子一个大概感觉然后我们再来聊后面这些区别
这就是我所谓的数字层面的压缩就是它不损失任何数据它只是让记录更加紧凑从而占用更小的存储和带宽但是信息是没有损耗的事实上 MP3 的编码的最后一步也是这个过程它使用了一种叫做 Huffman encoding 的算法如果我们只应用这个过程就是光用这个 Huffman encoding 的话
其实这个声音文件从 CD 的数据量压缩成所谓的 MP3 的比例压缩比例依然是很小的基本跟没压缩一样这个事是不成立的如果你只用 Huffman encoding 的话如果我们把上述压缩过程考虑成是对信息的浓缩的话我们会意识到说它本质上是通过让数据变得咋说呢就是更加厚实或者说是更加紧凑和复杂来让它变小的对吗
就这个复杂和简单的对照指向的不是多和少而是无序的程度就是这个信息论里面的核心概念 entropy 也就是商在这个信息论里叫做信息商音频这种已然就非常非常之无序信息商非常非常高的数据它就基本没有办法直接用上面提到的这个所谓让数据更紧凑的方式来显著的缩小文件体积那既然无损压缩能做的事很有限我们就得考虑
丢掉一部分的信息对吧这就好比是我们房间太乱然后我们就想办法去整理它我们把所有东西整理的特别紧凑把整理术发挥到极致我们能够节省的空间依然是有限的就是毕竟东西太多了不能因为说你特别勤劳或者特别会整理你就能把一 90 平的房子给整理成 120 平米所以接下来我们要考虑就是断舍离我们要往外扔东西 CD 的编码叫做 PCMPCM 非常非常的直接它是这样的就是
忠实的按照固定的频率每 44100 分之 1 秒它记录一个静态的数字对应的是这个瞬间的声音就是沿着时间这个 X 轴在振动这个 Y 轴上的位置就是我们可以非常粗略的这么来对应啊就是咱们这音箱的纸盆不是音箱的这个纸盆或者你耳机的这个振膜它不是在来回的振动吗就前后振动吗
对吧时间是一个轴 X 轴这个振动它总是有一个比如说从 0 到 6 万或者是从负 5 到正 5 就随便你怎么来定义它总有一个振动的范围我们把它放在 Y 轴上所以这个声音就是一个来回蹦来蹦去的曲线就沿着 X 轴横着往右画的这么一条线然后 CD 就是每 44100 分之 1 秒记录一个这个振动的截图就在那个瞬间它在 Y 轴的哪个位置上
所以虽然说是无损但是他也已经很果断的做了两个维度上的数据的舍弃这就是声音从模拟信号转化为数字信号的第一次大精简就是频率和比特深度频率相当于图片的分辨率就是越高它的文件体积就越大我们都知道比如说一平方厘米的像素的个数会影响到整个画面的清晰度就是这个照片洗出来有多大
那么每秒钟的采样点的数量就相当于音频的分辨率人耳的听觉范围是 20 到 2 万赫兹就是根据奈奎瑟相农采样定律如果我们想要保持 2 万赫兹以下的频率的信息能够得到 100%准确的重现的话因为这就是我们想干的事我们想把声音给
临时的保存成一堆数字然后又把这堆数字在恰当的时候又变回成声音就是一个重现的过程那么编码和解码的频率根据信息论的要求它必须要在 4 万赫兹以上就根据这个定理
所以对于人耳来说 CD 确实是无损的因为它有 44000 赫兹的数据所以在 2.2 万赫兹以下的信息是能够准确的被保存的而 2.2 万赫兹以上的信息确实已经被舍弃掉了但我们听不到所以我们就不在乎当然了就是我们所说的被舍弃掉并不意味着它上方没有信号啊
就是你拨一个 CD 出来的时候它在 22000 赫兹以上的位置绝对是有信号的只不过那些信号不是当初的那些信号就是此听不见和比听不见是不能画等号的现在此听不见是一些错误的随机的噪音但因为我们确实听不见所以我们根本就不在意刚才说的这个是频率就是 X 轴也就是时间维度上的颗粒度那么比特深度就类似于 Y 轴上的颗粒度
它大概指的是从完全静音到最大音量中间切了多少份就它影响了单个采样点所需要的这个字节数从而影响这个音频文件体积的大小它类似于什么呢类似于图片里的色彩深度就所谓的 HDRHDR 就是把这个色彩深度又提升了就是从最黑到最白中间到底有多少个级别的中间状态物理世界中这个 Y 轴它永远是可以无限细分的对吗
但是在数字世界里它总得有个限度在数字世界里就没有任何东西是无限的它就必须是一个有限的表述而这个限度就是我们所谓的动态范围
比如说 CD16 比特的深度意味着一个采样点有 16 位二进制的 0 和 1 的记录然后这样就意味着它动态范围里包含了 2 的 16 次方我们就粗略理解为音量就是音量有 65536 个台阶就这么多个台阶最小是 0 最大是 6536 比这个台阶更小的
我的意思是说介于相邻的两个台阶中间的本来在物理世界中显然存在着的某一个状态在这个数字音频中就被舍弃掉了就是你相邻的两台阶中间就不能再有台阶了它就是把连续变成离散对吧好那么想要压缩这个音频数据最直接的想法是在刚才说的这两个刚性的指标上缩水
就是在 X 轴上扔数据和在 Y 轴上扔数据但是 CD 它设置在 44.1K16 比特是有原因的因为更低我们就会很明显的察觉到这个东西不对劲了如果我们把 44.1K 的采样率逐渐降低我们会听到这样的声音这个崩坏的声音就明显是我们不能接受的了
如果我们保持 44.1k 的频率降低这个比特深度呢这声音是这样的这种降采样的处理方式同样是很崩坏的但值得一提的是就是很多时候它成为了一种音乐创作者非常喜闻乐见的一种失真效果的来源就比如说我们让一个鼓的声音降低比特会形成一个非常粗利强烈的一个打击感
总之就是在采样点的数量和单个采样的信息量这两个维度上做手脚的压缩也是不可行的就是 CD 已经把该扔的东西都扔完了所以这样来看我们的音频压缩已经走到死路胡同了就是到头了现在我们就像坐在热气球上就是为了让这个热气球飞得再高我们把该扔的东西都扔了再扔就是生活必需品就再扔就活不下去了
那么 MP3 到底是用了什么奇特的方式让我们能在这个基础上就是在 CD 这个已经比较精简的基础上作为参照点能够再把文件体积缩小到它的 1/12 呢就还有什么可以扔的呢
当初 Karl Heinz Brandenburg 他跟随他的导师 Dieter Seitzer 做他博士论文的时候万万没有想到他的导师给他的胡逼的任务会引导他发明出改造人类世界的音频压缩技术 Dieter Seitzer 是一个心理生学专家他俩都是德国人然后在 80 年代初期 Dieter 有一个非常封逼的想法就是他想发明一种技术把音乐存放在集中的服务器上
然后让大家在自己家里打电话给这个服务器或者是用网线去连接这个服务器然后用 ISDN 的网线来点播听歌他给这个东西起了个名字叫 Spotify 不对叫 Digital Jukebox 就是数字的点唱机然后他也没想具体怎么做然后就跑到专利局去申请专利当然就被无情的拒绝了因为专利审核员就说
这是不可能的就是拒绝的原因就是这是不可能的就专利审核员觉得这人是不是无赖因为你要想干这个事的话前提条件是 ISDN 的带宽得能够支持传输每秒钟的 CD 的数据量这个事想要做到的话专利得包含一种算法能够把数据量降低到对应到当时的网速要降低到 CD 的 1/12
所以这个不负责任的导师就是管啥不管埋他就负责想的美然后把 12 比 1 的实际的关键课题丢给了他老实巴交的一个博士生去做就相当于什么就相当于一个老师嫌自己批改作业太慢了然后就找一个朋友说你给我发明一下光学识别和人工智能行吗这样我就不用批卷子了就这种感觉卡尔汉斯本人也觉得很扯他最开始想的就是我这个魂球导师让我做这么一个
就是胡来的选题那我就做几年时间我来证明一下这个幻想它是幻想是不可行的就得了我把这个写成论文我也能混一博士学位美滋滋结果没想到呢他钻研了一下这个心理生学的研究成果就是前人的这些研究然后他意识到说随着 80 年代的这个电脑处理处理器的这个速度提升以及他们就是对后来的这个速度继续的展望他们会觉得说
也许这个压缩也不是完全不可能的这 MP3 诞生是一个耗时十多年就是几十人上百人的人类顶尖头脑的浩浩荡荡艰苦卓绝的你要往大了说是几代人接力的往小了说也是这么一群最顶尖的人类头脑的齐心协力研究的一个伟大的过程这个成果它摧毁并且再造了人类音乐产业和整个听觉世界
在他飞入寻常百姓家的这个过程中他也不可避免的遭遇了各种令人精疲力竭的政治争夺经济争夺等等等等脏事也不少但是所有的这些老生常谈的话题包括他对什么音乐产业盗版的影响等等我们今天都不谈我们这期节目就只会讨论这个算法它中间最重要的一个模块的核心从这里我们可以窥见一些关于赛博世界和人类自身的关系
MP3 的压缩算法的核心是这个 perceptual coding 所以这个表述相当令人困惑就是感官编码就这个说法就对实际上它是从心理升学发展出来的这个学科完全不在大众视野中是一个非常非常边缘的学科它是物理学和心理学的交叉学科
它从属于心理物理学就是 Psychophysics 下面的分支 PsychoacousticsPsycho 就是心理听起来就像是研究九阴真经或者龟派气功的但实际不是它是一个非常严肃的领域它研究的是人的感官世界和客观世界之间的关系特别是定量的关系而不是什么哲学或者神学的研究
就我这里说的不是主观而是感官是因为心理生学的研究并不涉及比如说我们音乐博客经常聊的什么音乐审美啊等等审美这种事儿就属于太高层次的问题
这个学科就研究特别低层次甚至是最底层的问题就是比这个再底层就不能说是心理了就只能说是生理了他研究的是心理和生理挨着的交界的事第一个让我感到认知冲击的学科的研究成果就是关于我们人类对于想度感知的不平均性有这么一个曲线叫 Fletcher-Manson curve 就是弗莱彻·曼森曲线也叫等响曲线感兴趣的朋友可以在 show notes 里看到相关介绍
这个凹下去的图形揭示了一个事儿就是这门学科心理生学存在的合理性就是我们人类感官和客观世界中间有一鸿沟我们知道声音的本质是振动振动就是空气在压缩和膨胀就是压缩和释放就是以一个不同的频率在干这个事儿然后呢
震动的空气又带动了耳膜震动传导到耳窝里耳窝里有很多卷曲的毛那毛里的细胞把这个震动转化成电信号然后通过神经传导给我们的大脑那这个曲线讲了啥呢它的横轴是频率就是低频中频高频就是从这个暗淡到明亮到尖锐的这个声音重轴是声压级然后曲线上的点呢在人的感觉里是相同的就是它是
它是无数根曲线但是它们基本上你可以理解为类似于平行的或者是这么一个足的曲线每一根曲线上的每一个点
就是在人的感觉里是相同的用不负责任大白话说就是说我们对于不同频率的声音的大小的感知差异太过于巨大以至于这个曲线是一个这么挖兜的形状低频需要特别巨大的能量才能和中频非常非常小的能量形成的声音大小在我们的感觉上相等就比如说一个 50 赫兹或者 80 赫兹的声音想要听起来和
你轻轻的在 3000 赫兹的位置跟我哼哼的声音一样大它需要比你哼哼的那个能量大可能几十倍上百倍所以客观的声音呢它是用声压级来衡量就是所谓的 Sound Pressure Level SPL 然后它的单位叫做 db 然后呢对人对声音大小的感知这就是主观了或者叫感官了那就用这个响度来衡量就是我们觉得这事有多响这个单位叫 sonphon
那这个曲线呢有很多会让我们觉得很困惑的事就是迎刃而解水落石出就比如说最简单的就是为什么低音炮那么沉那么大而全品的音箱那么小
因为你觉得低音炮其实只发低频那一点点声音但为什么它需要比正常的那一对立体声的全频的喇叭要大特别多呢再比如说乐手都会想这个问题就是说为什么贝斯的音箱比吉他大巨多而且它的功率是吉他的好几倍其实音量听起来感觉吉他那声更大等响曲线它是一个向上翘的位置对如果我们拿高频来说也是一样的
我们说人类的听觉上限是 2 万赫兹这句话翻译过来就是用这个曲线来表述就是在 2 万赫兹的位置我们需要这个能量大到能刺破我们耳膜了的程度才勉强能够跟 3000 赫兹的位置轻微到不能再轻微的震动听上去一样大这就是等向曲线给我们揭示的这个现实这个曲线中最低的一条就是再低就变负数了就不成立了
最低的一条就是我们人类能听到的最小声音的灯箱曲线它是几位科学家当年干了一些脏活累活所得到的就很简单他们就是大量的测试让一个人坐在这儿然后听不同频率上播放音量大小不同的纯粹的就是单纯的正弦波你只要听到你就按按钮这样的话我就记录下来如果你没听到你就别按
这样收集了大量的数据之后这些数据点拟合成了一条曲线这就是最早的灯箱曲线居然是用一种调查的方式来获得的然后在最低的灯箱曲线上就是在它上方非常多还有一个风险曲线就是这声压级大到什么程度人类会感觉痛苦甚至会对听觉有损伤所以这两条曲线就把本来广阔无边的声音的分布中间圈出了一个封闭的区域
这区域其实跟整个区域相比并不大就是我们人类听觉的区域或者说是音乐的区域音乐就存在在这个区域里面的一部分的中间一部分所有的音乐就困在这里
然后人说话的声音又困在这个空间里更小的多的一个子集里有了这个等响曲线之后感官世界跟客观世界就取得了一个可靠的联系因为我们有了一个基本的换算规律沿着这个方向科学家们发现一些更加神奇的事情让我们意识到就是我们的感官和客观世界的差距到底有多么巨大这个事情叫做 masking 眼闭
1958 年有一个在美国马萨诸塞州建桥市的一个人叫做 JCR Licklider 他突发奇想拿了一个噪音发声器去牙医的诊所听上去像是一个冷笑话翻译过来就是脱裤子放屁因为牙医本身就已经是一个噪音发声器了他看牙就是拿钻头去钻别人的牙这就是一个噪音发声器
雷克莱德本人是一个心理生学的研究者他这么做是想做一个不规范的实验就是他觉得自己拔牙的这个时候可以用巨大的噪音来替代麻醉剂就是他自己的一个猜想就是只要能他听着巨大的噪音他可以不打麻药然后直接让这个牙医来处理他一颗躯齿钻开然后给他这个填好结果他成功了就是他听着带着耳机听着嘰哩呱啦的巨大的噪音然后他的牙被钻开填不好整个这个过程他什么也没有感觉到
后来他们又找了一个人就是这个牙医的秘书这个女士她一直极端恐惧补牙的疼痛永远都是要打剂量很大的麻药但是这次她也成功的用噪音消除掉了自己补牙的任何的感觉这个女人戴着耳机的补牙的照片后来还上了报纸成了一个很大的新闻但是这个事最后也没有一个定论就是有的研究者说这事是骗局还有很多牙医说这确实有用
但是这个技术至于它为什么没有成为主流这不是我们这个节目要讨论的我们要讨论的是这里面的这个掩蔽现象说掩蔽我们要先说噪音噪音在频率的世界里大概就是一个平均的水位线就是它在任何频率都有能量
正因为这样所以它听起来才没有音调可言就是它听起来没有任何调我们说它不是乐音是噪音恰恰是因为它里面充满了调因为在任何一个调一个调就是频率在任何一个频率的位置上它都有均等的能量所以它听起来就是什么都不是刚刚我们听到的白噪音就是比较线性的能够抬升我们的等响曲线当我们听到一点白噪音的时候我们耳朵的等响曲线就要跟着它往上抬一些
用大白话说就是在嘈杂的环境里你想要听见相对单纯的声音比如人跟你说话或者听歌旋律或者是什么东西任何鲜明的声音你就得让它相应的提升音量否则的话就会被嘈杂的环境所掩盖我们每个人都有生活经验这就是所谓的 masking 掩蔽
如果我们想要掩蔽一个 1000 赫兹的声音我们其实并不需要完整的全频率的白噪音我们只需要围绕在 1000 赫兹附近的白噪音就可以了我们可以做这么一个实验就是我们用带宽比较窄的白噪音慢慢提升频率用这样一个声音我们慢慢让它升高然后让它经过一个缓慢经过一个单纯的正弦音我们可以清楚的体会到人类听觉的局限
就是那个音在噪音经过它的频率的时候它就会消失这样的话你可以理解为那个等响曲线因为噪音的存在被扭曲了它在特定的频率上鼓了一个包而这个包下面本来咱们能听见的声音咱们听不见了这个就是 MP3 发明者找到的秘密就是它把每一个鼓包的瞬间被淹没的那些声音都扔掉了上面我描述的这个是频率的演弊
还有另外一种掩蔽叫 temporal maskingtemporal 就是这个词就是信条那个电影里所谓前行攻击的那个词时间这个掩蔽效应它不发生在频率发生在时间里因为我们说频率是一个垂直于时间的另外一个维度如果说是时间里的掩蔽这个事对我们来说更直观的多就是跟频率没关系就纯粹是时间我们先说这个 forward masking 就是当我们听到一个噪音加燃而止的时候
在它结束之后会有一个长达 200 毫秒的逐渐减弱的掩蔽效果也就是说在它停止之后完全停止之后的 200 毫秒里还有一些比它小的声音被它掩蔽掉导致咱们完全听不见就仿佛是这个噪音直接把我们的耳朵给打晕了我们耳朵麻痹了一样就需要 200 毫秒时间才能恢复这个知觉就好像是这样的一个效果
另外一种 Temporal Masking 反过来叫 Backward Masking 这个事就非常非常的反直觉它跟我们刚刚说的 Forward 是相反的 Forward Masking 说是噪音掩蔽了它之后的声音但同样的噪音还能掩蔽它之前的声音虽然只有 50 毫秒而且曲线很陡峭也就是说只有紧紧贴着噪音开头之前的声音才有可能被它掩蔽但仍然让我感觉到这事不可思议就是因为
这意味着什么呢这意味着我们头脑中有一个缓冲时间就是我们头脑类似于电脑屏幕或者是鼠标键盘的延迟我们神经系统显然要缓冲一段时间才能报告到我们的意识里而不是立刻就把这些信息传达到位而且这个缓冲的周期居然有 50 毫秒这也太长了好吧接下来你要听到的这个极其不规律的这个短促的声音会被整齐的紧贴着他们的噪音给掩蔽掉
如果你不信邪的话你可以用心记录一下你觉得哪个位置有声音哪个位置没有声音然后我会在小宇宙的评论区给出这个谜底但是你就会发现你自己的都是一些心理作用实际上你是听不见的因为它都被掩蔽掉了这个时候你可能想说说音乐里其实并没有这么难听的噪音但其实乐音和噪音并不是一个非黑即白的分野就这世界上没有完全的乐音
也没有绝对意义上的完美而纯粹的噪音一切声音都在乐音和噪音的中间我们说纯粹的乐音就是正弦波就是那个最纯粹的声音我们让一个小提琴家在小提琴上去拉一个中央 C 这个声音里面也不全是乐音它还是有很多噪音在里面如果我们把白噪音去过一个非常非常窄的带同律波器的话
你会听见它这个噪音其实也可以被分解或者被理解为一堆乐音的叠加所以在实际的音乐里各种乐音组合在一起就又形成了磁器笔幅的类似于就是忽然出现又消失的窄带噪音的声音瞬间这些声音瞬间就是 MP3 音频压缩算法下手的地方
MP3 做的事就是利用一个精心迭代了很多年的听觉模型把音乐里的每一个瞬间对应在 MP3 文件格式里叫做 frame 就数据块一个 frame 的数据块检查这个数据块里上述两类掩蔽作用所发生的频率和时间段然后把这个频率里的信息给扔掉
本来这个频率也可以是无限细分的嘛 对吧 在现实世界中但是在 MP3 的听觉模型里 它被简化成了有限个的滤波器组就只有 32 段 就比如我们现在听到的音乐可以表示为 32 份就听起来差不多的声音 但是它们有的是明亮 有的是暗淡这就是那所谓的 32 份的这个滤波器组叠加在一起
这个精心设计的完全不是平均分布的不是在频率世界里平均分布的 32 段的 filterbank 也是来自于心理生学的另外一个研究成果人类在频率的差距缩小到一定程度之后我们就没有办法再分清楚两个频率的差别了我们的头脑会把挨的特别特别近的音高理解为同一个音高这个问题可以引申到另外一个很复杂的问题为啥一个八度里只有 12 个半音呢为啥不是 8 个半音呢
为啥不是 20 个半音呢当然这个问题也比较复杂了就不是这一期咱们能讨论的大家可以考虑一下我这里要再啰嗦一句我这里说的"扔"并不是说声音变少了声音不存在变少的概念除非这声音完全静音了就没声了我们说的"扔"就仅仅是它的伤降低了就是它的无序性降低了因此它变得更加容易被压缩了所以说到这我们要再回到节目最开头讨论的话题
就是声音媒介的特征它到了 MP3 这个时代它变成什么呢高码率的 MP3 你听不到任何区别虽然它确实有区别但随着码率逐渐降低你听到的不是什么灰尘在黑胶缝隙里的那种暴斗的声音也不是磁带那种磁粉磁粉集化造成饱和的声音都不是它是所谓的 artifact 这种 artifact 就是
当我们要求的码率低到一定程度的时候那个编码器会被迫舍弃了很多其实我们本来可以我们应该能察觉到的声音也都被它铤而走险的给舍弃掉了它舍弃的声音太多了从而形成了一种声音的不连贯一种断裂
然而尴尬的是黑胶磁带广播这些媒介跟它相比啊
就是我们刚刚对 MP3 声音特点的这个描述既不精确也没法被人理解就啥叫舍弃啥叫不连贯啥叫断裂因为它并不是物理世界形成的一种必然的与物体本身和振动本身的性质密不可分的物理现象它是一种经济现象
人类在这个时间点需要让声音钻过一个狭窄的带宽所以这里的 artifact 不仅是人为的人造的它甚至是完全是被设计所决定的
在当时 MP3 的规范制定的过程中海量的测试人员就不停的听这段你觉得像不像这段你觉得有没有区别这种测试人员要对每一个他们听到的测试声音做一个评级就有四个选项第一个选项叫听不出区别第二个档次叫有一点区别第三档和第四档特别离谱叫有点难听和非常难听
也就是说这个压缩算法的发明和设计是自制中把人类某种就是生物底层的耗物或者说我不知道这能不能叫美学判断至少是一种非常原始的感官判断作为考量的目标
它是没区别有点区别有点难听和非常难听大家可以考虑一下这个选项意味着什么所以整个 MP3 的压缩算法当然我们不能说它是主观的了但是它绝对不是客观的它的发明和迭代伴随着无穷无尽的痛苦的人肉测试和你以为的那种所谓数学家跟工程师联手发明了一个横空出世的天才黑箱算法这种想象
相差十万八千里完全不是那样而 MPAC 协会就是这个行业协会选择的这个实手用来测试就是因为有很多的来参赛就希望能够成为下一代的音频压缩的压缩算法的标准他们来给就是各位代表队参赛来评价的这十首歌就如同开卷考试的题目一样就成了所有的音频压缩算法经年累月想方设法去
完美的压缩它的目标就这十首歌就是就跟音频压缩算法的高考一样所以这十首歌它当然被完美的压缩了或者说是尽量完美的压缩了可是这个完美性它断然不是在人类所有音乐和音频中平均等价的实现的我不知道这么说能不能说明白这个意思就是这种完美性这个完美的程度
在所有的音乐中它不可能是平均的就是它的被设计的过程中已经决定了这一点这十首歌里包括什么 Tracy Chapman 包括一些比如说贝斯和一些个别乐器的独奏
Ornette Coleman 海顿就是有古典音乐的等等的东西所以不同的配器不同的音色都有考虑但这十首歌是非常非常 arbitrary 的有一个非常浪漫的插曲发生在 MP3 诞生的初期我不确定这里边有多少是 Karl Heinz 本人迎合媒体因为他这人是一个特别老好人的感觉可能是他迎合媒体讲述故事有点美化了的成分但是确实非常有意思
大概就是说他有一天去附近唱片店老板问他想听什么歌因为他其实就想买一些音乐回来做测试他本人是一个对音乐完全不咋感兴趣的人他说给我来一些比较全面的有代表性的音乐然后老板肯定就觉得他是精神病但是还是给他找了一些比如说找了一张交响乐一张爵士乐一张流行音乐就是在听觉上完全不同的一些唱片
其中有一张就是苏珊维加的带有这么一首歌的唱片叫 Tom's DinerI am sitting in the morning at the diner on the cornerI am waiting at the counter for the man to pour the coffeeAnd he fills it only halfwayAnd before I even argueHe is looking out the window at somebody coming in
这歌是一个纯粹的清唱没有伴奏听起来非常非常简单但这却成了这个压缩算法要越过的一个巨大的鸿沟因为这个时候这群德国人已经非常自信的就是认为他们已经处理好了绝大多数音乐的压缩因为在双盲测试中都大部分的音乐都可以取得很好的效果但是他们就始终过不了 Tom Steiner 这首歌的这一关
就是这首歌压出来听大概会是这个样子这首歌伴随了他们一年多的时间 Carl Hines 怀疑自己可能至少听了 3000 遍这首歌就是被压缩的很糟糕的版本
最后为了满足这首歌他们优化了很多东西包括它的立体声相关的逻辑还有它最关键的滤波七组的频率分割点等等最终他们是顺利的把这个歌也给压缩成功了算是过关了这个事情过了之后很多年他有一天在一个音乐会上终于见到了苏赞本人并且听到了苏赞维嘎本人这首歌的现场的清唱
事后回忆他说虽然这歌他已经听了无数遍但是现场听到他演唱的时候依然还是觉得很好听最后我们还是想说回到陈旧这件事这些低码率的 MP3 的声音特点当然是存在的但是他们没有办法被怀旧这不仅仅是因为我们没有足够长久的声音体验来形成某种文化训练
实际上今天年轻人并不需要真的听过很多很多的磁带很多很多的黑胶才能够感受到那种声音的陈旧那种陈旧是固有的或者用我我本人比较警惕的一个说法就是叫是很自然的而 MP3 的声音是人类进入数字世界所付出的一个代价这个代价不是对不上焦的照片或者是消了磁的磁带它是人类针对自身感官的一种经济治理
它是一种精巧的偷工减料而这种偷和减恰恰是来自于人类对自身感官的把握从而进行对自己的 hacking,一种 self hacking 这事和新旧没有关系它是非常聪明的,非常武断的,甚至有点偶然的所以我们没有办法对它唤起任何乡愁式的情绪 MP3 的算法让我意识到我们今天生活于其中的赛博世界的大厦根基
还真就不是零和一不是数学不是我们对物理世界、客观世界的把握而是我们的感官就是它最底层的算法是在面向我们耳窝里细长的绒毛和我们到今天也知之甚少的脑神经等等科学对生产力的解放在客观世界里可以是一日千里抖转星移直到它推进到我们人机交互界面这一层
它又只能回到缓慢的爬行想到这些如果你再跟我谈论意识的上载和保存什么之类的话题我就会觉得非常非常的困惑我不知道这句话里的意识是什么了你明白吗正如我没法想象离开肉身的音乐是什么就我没法想象纯粹的音乐是什么数字技术的发展就直到时间的尽头它能超越我们肉身的鸿沟吗我在想
他能超越吗如果能的话他那个时候到底是一种什么存在在观察和聆听呢那个时候的我们到底是什么呢
因为我们的数字音频早已经不是对物理世界空气振动的一个保存或者说是这种保存和再现它在经历一个非常精巧而武断的无法越过的人类滤镜今天我们建设这个赛博世界我们在干的事就是一砖一瓦的倒转客观和感官我们在把地面和角对齐所以如果黑客帝国真的发生的话它确实应该是一个湿漉漉的脏兮兮的感官帝国
而赛博世界的来临比你以为的要早 1995 年 7 月 14 号,Karl Heinz Brandenburg 和他在爱尔兰根的研究所的同事们一起决定把他们呕心沥血研发了很多年的这种音频压缩算法的文件扩展名根据他们这个行业标准的全称,MP3 命名为.mp3
感谢收听不在场你可以通过泛用型播客客户端订阅收听如果你喜欢这些节目希望你可以分享给你的朋友也欢迎你为本节目捐款增加它存续下去的概率一次性捐款不低于 300 元的朋友请在支付宝 复言或者对话框中留下你的电子邮箱你可能会收到我不定期的邮件
捐款二维码本期节目的歌单包括所有提及的链接 show notes 以及这个电台的一切请访问它的网站不在场.xyz 不在场.xyz 我们下期再见
好