让我们先来做一道听写题。放心,中文的那种!仔细听,默写出该古诗:诗歌音频00:11来自中科院物理所什么?刚听完的你肯定是满头雾水,确定没放错碟?碟是没放错,我只是动了点手脚。看图说话,你就应该明白我动了什么手脚。原始波形更改波形猜出来了吗?没错!我仅仅是把原片段的波形完全反向播放了,听起来中文朗诵的古诗变成了一段奇怪的声音。那么,我们原来的古诗是什么呢?没想到吧!如此熟悉的一段古诗,经过小小的操作之后,竟然变成了我们完全不熟悉的味道,与此类似的我们还可以将原声音反相操作,即声音的波形上下颠倒。反相波形什么?听起来和原始的竟没有什么差别。事情开始变得有点意思了,为了搞清楚声音这个淘气鬼,我们得先了解一下声音波形。我们都知道声音的产生是由于发声体振动,带动周围介质振动形成的机械波,在气体和液体中它以纵波的形式存在,而在固体中伴随有横波的出现。对于我们日常接触到的,自然就是空气中的声波,它导致空气形成疏密相间的排列,如果对某一点进行压力测量,就可以得到时间为横轴,压力为纵轴的一维图像。空气疏密相间的排列声波的一维图像采样率和位深:自然界的声波是模拟信号,对于连续变化的波形,计算机记录的时候必须时间上间隔采样,每个采样点计算机将压力信号转化为电信号,进行数模转化后,用于记录振幅的二进制比特位数叫做位深。较高的位深度可提供更多可能的振幅值,产生更大的动态范围、更低的噪声基准和更高的保真度。高采样率更好重现原始波形采样率则表示每秒的数字采样的数目。可以想见,采样率越高,数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。为了重现给定频率,采样率必须至少是该频率的两倍。例如,CD的采样率为每秒44,个采样,因此可重现最高为22,Hz的频率,此频率刚好超过人类的听力极限20,Hz。声音频谱:世界上声音如此美妙复杂,就是因为它们不是同一频率、振幅的重复,而是不同频率、振幅,甚至相位的叠加,我们以上讨论的波形图表达的是声音在时间(振幅)上的特性,有没有方法能让我们看到声音的频率特性呢?你一定想到了一个人的名字——傅里叶。傅里叶变换正是将时间域的分布,转化为频率域的分布,即我们看到的复杂波形可以看做是无穷多不同频率、振幅的简谐波的合成结果。声音的帧:想要得到声音的频谱,我们首先要对音频切片,通过傅里叶变换对一小段时间内声波的分析,这是有效并且有意义的。这就是声音的帧的概念,它一般是ms级别的片段。语音识别领域,语音的基本单位是音素,它表示语音的基本发声单元,在汉语里可以理解成声母韵母。音素是由数帧组成的,不同音素进而组成单词,完成识别。所以对帧的声音模型分析,就至关重要。已编码的音频文件,帧的大小一般规定为个采样点的时间间隔,对于44Hz的采样文件,它的时间长度为:*0/44ms,大约为23.2ms。如果我们把一整段音频的帧的频谱按照横轴展开,就可以得到语谱图(spectrogram),它可以叫做声音的时频谱。它的横轴代表时间,纵轴代表频率大小,亮暗代表振幅大小。贝多芬的《致爱丽丝》的某一帧的频谱和时频谱。在我们解决开头的问题前,我们还是得先明确一件事情,那就是一段音频听上去一样意味着什么?直觉告诉我们如果两段音频的波形相近,那它们听起来应该是接近的。很幸运我们的直觉是对的,对一段波形上下颠倒的反相,没有改变这段声音。这基于自然产生的声音波形一个很有趣的特点,那就是大尺度上,声音的波形是对称分布的,这是声音起源于物体往复振动的结果。然而,对于波形不一致的声音,它们也有可能听起来一样。波形并不能作为判断声音一致的黄金法则。(关于这一点可以参考资料3)声音波形大尺度上对称波形不靠谱,看来我们得从频谱上想想点子。我们已经提到了帧的概念,想一想两段声音听起来一致,它应该意味着,每一帧的听感是一致的,并且帧的排列顺序是一致的。对于每一帧来说,频谱有振幅和相位,参考3告诉我们人耳对相位是不敏感的,在满足相位不敏感的情况下,决定一致与否的就是每一帧的振幅频率谱和帧的排列顺序,哎,这不就是语谱图嘛。看来语谱图的一致和听感一致有着很大的关系。对于声音的反向和反相操作,我们可以试着去解释。对过程感兴趣的可以阅读附言,这里给出结论:声波反向操作后,对应的语谱图也是反向的。听起来自然会奇怪。声波反相操作后,对应的频谱整体相位移动了度,并未改变语谱图。人耳对于这度相移是不敏感的,所以听起来是一致的。对声音采样和频谱有了简单了解后,我们甚至可以做一些语音加密的小伎俩。比如对于双通道的音频文件,除去文件头信息,它按左右左右顺序存入的是波形采样值,如果我们对原采样值进行变换(不能超过位深),这就是一种简单的加密编码。当然,倒放模仿也许是一种更轻松愉快的游戏,录制一段音频,然后反向它。邀请别人去模仿反向后的音频,二次反向后,不妨看他能不能猜出原始语音呢?不说了,我要去捉弄别人了!参考:1.部分图片来源于网络2.Adobe用户指南3.
本文编辑:佚名
转载请注明出地址
http://www.sitidianan.com/xlsczy/11714.html