新闻动态

“声”临其境的奥秘 | 空间音频简介
2021年03月10日
摘要:
近几年来,,,空间音频技术的应用越来越广。。无论是今年春晚的“三维声”技术,,还是AirPods Max上面的“空间音频”功能,,,,或者是各个音乐APP上提供的虚拟空间算法都是空间音频技术的应用。。关于这些功能的实现,,,我们需要知道的知识有:

近几年来,,,空间音频技术的应用越来越广。。。。无论是今年春晚的“三维声”技术,,还是AirPods Max上面的“空间音频”功能,,或者是各个音乐APP上提供的虚拟空间算法都是空间音频技术的应用。。。关于这些功能的实现,,我们需要知道的知识有:
1.人类如何感知声音
2.如何处理声音以骗过耳朵,,,,使人似声临其境。。。。‍

1、、有关人类分辨声音方位

有关人类分辨声音方位‍

人耳对于单声源的定位主要依赖于两个重要参数,,,双耳时间差(ITD)及双耳强度差(ILD)。。。。人耳接收单声源声音的示意图如下:


图片



根据上图,,,,由上示意图易得双耳时间差的表达式为:

图片.png

其中c是声速,,,,r为头的半径。。。。人耳通过这个时间差来计算声波的相位差来定位声源的方向。。。根据ITD的表达式可计算相位差为:
图片.png
又由于当相位差接近和大于π的时候,,,,基于双耳相位差判断方向的方法开始出现不确定性,,,,带入φ=π,,有ITD判断的频率上限为:
图片.png
可见ITD更加适合判断低频声音,,,,而且ITD与每个人的身体特性,,如头的宽度等,,,,也有关系。。。

之后讨论双耳强度差,,双耳强度差除了受到与声源的距离影响之外,,,,还受到头部掩蔽现象的影响。。。。

由声学知识,,,我们可以认为当物体的尺寸为声波波长的1/3左右时才开始发生散射。。这样的话,,可以得到基于ILD的声源定位的频率下限:
图片.png
其中d是头部宽度,,,c是声速。。而且由于高频的指向性更强,,,,所以双耳强度差(ILD)更适合高频声音的定位。。。。

结合这上面的分析以及一些心理声学的效应,,我们可以知道人类的听觉系统如何对ITD与ILD进行综合的权衡以判断方位,,,,如下图所示:

图片
出自:David M. Howard / Jamie Angus. Acoustics and Psychoacoustics

2、、有关人类判断声源距离


比起对方位的判断,,,,人类对于距离的判断能力更差,,且影响判断的因素更复杂。。主要影响因素有主观响度感觉、、、、高频的衰减、、头部对声音的影响、、、反射声等。。。以下分别做简单的解释。。。。

主观响度感觉理解起来比较直观。。。由于功率恒定的点声源产生的声压与距离成反比,,所以响度和距离存在一定对应关系。。。但是值得注意的是,,只有在自由场情况下,,,,这个反比关系才能做到完全符合;其次这个判据还与声源自身特性和听者听音经验有关,,,所以不能单独作为判断依据。。

空气对于高频的衰减作用在声源和接收者距离较大的时候才得以体现;头部对于声波的散射作用带来的距离判断则对应于声源和接收者较近的情况。。

反射声对于人对声音的感知有很多影响。。。首先当反射声和直达声不满足优先效应的时候,,,房间反射声会对声音的定位产生干扰;其次室内反射声对于人耳对距离的判断有着较大的影响,,,可以参考公式直达混相声能密度的比值:
图片.png
其中Ds是声源的指向性因素;r是声源到接收点的距离;s为总的吸声面积;α为平均吸声系数。。。

从式子中可以看出在理想条件下直达混响的声能比是和距离成反比的,,,这也可以作为一个距离的判据。。此外室内反射声也是“空间感”(Spatial Impression)的重要来源,,,室内反射声可以反应出房间的尺度和性质等等,,,是影响主观听感的一个重要因素。。。

3、、、、头部运动和头中效应


根据上一节的分析我们不难发现,,当我们完全正对和背对声源的时候,,,仅凭ITD和ILD两个参数是无法区分这两种情况的,,这时候就需要头部的运动来区分。。形象理解可看图示:
 


图片



在我们聆听耳机的时候,,,,往往会觉得声源在人头内部,,,,这就是头中效应。。很多研究认为这是由于声重放在双耳产生错误的空间信息而引起的。。。。听觉系统判断方位其实就是利用以前听音的经验和接收到的声音信号进行对比,,,而当声重放无法提供正确的信息的时候,,听觉系统就会产生一种声音在头中的错觉。。。头中效应可以通过HRTF对原始信号进行处理解决,,也可以使用添加虚拟的反射声进行处理。。但是后者有时候会造成方向定位错误的问题。。。。

4、、、有关信号处理


在现实的听觉环境中,,,,声源发出的声波经过直达和环境反射的两个途径到达倾听者,,并且经过头、、、耳等等生理结构的作用后到达双耳。。此外倾听者的运动,,对于耳机而言主要是头部运动,,,对于音频效果也十分重要。。。而虚拟听觉信号处理即模拟不同物理条件下声源到双耳的传输过程。。。。由此可知,,如果想要把普通的音频信号处理为可以“欺骗”人类耳朵的信号,,就要处理上面提到的这几个环节。。。处理的流图如下:


图片



这里对流程图中的双耳声信号和头部追踪进行介绍。。

如果我们有环绕声讯源,,,想通过耳机播放,,,,就可以通过虚拟声像的方法使用耳机获得环绕声的效果,,,,原理示意图如下:


图片



可以看出该方法的处理过程为:将原先的声源信号通过对应的传输函数进行处理之后叠加,,,之后计算出双耳处的等效声压,,以达到“以假乱真”的目的,,,左边扬声器声压的数学表达式为:图片.png
需要注意的是,,,上文说到的方法需要讯源信号即为多通道录制的声音,,,这样才能保证信号有完整的环绕声信息,,是“真环绕声”。。。而目前一些“虚拟环绕声”算法做的只是将立体声信号经过各种处理给人一种“环绕声”的感觉。。。这种讨好耳朵的做法是不可以改善声像的重放定位的,,但是可以给听者一种主观上更好的空间感与包围感。。这种“虚拟环绕声”技术主要基于HRTF和虚拟反射声来实现。。。。

头部跟踪则是重放的另一个重点,,,而且由于新发布的AirPods Max搭载了这个功能,,,所以也是最近的热点。。在虚拟听觉环境中采用头部追踪和动态信号处理可以改善改善声响定位和增加主观真实感。。。这两点在笔者试听AirPods Max的时候得到印证,,,,尤其是增加主观真实感。。。。

使用AirPods Max的试听流行歌曲时候可以明显感受到:在头部运动的时候,,,主唱的绝对位置是固定不变的。。在这一点上,,,,根据头部运动动态计算音频信号的耳机可以给听者一种更接近音箱的听感。。。。

完整的头部转动模型有三个自由度,,,,包括左右、、、前后和上下(可以形象化理解为摇头、、、、伸头、、、、点头)。。。根据三维模型,,可以建立三维坐标系A(r,θ),,头部传感器可以实时获取坐标系的三个参数,,同时HRTF也是(r,θ)的连续函数,,这样的话就将头部运动和HRTF参数对应起来了。。。。另外,,,,在考虑环境反射声的情况下,,,听者的运动不仅改变了声源和倾听者之间的几何关系,,,还改变了反射界面和倾听者之间的几何关系,,所以我们需要将HRTF变为BRIR进行处理。。。。

(本文转自《21DB 声学人》微信公众号,,,如有侵权,,,,请联系小编!!!)


参考文献:

1.谢菠荪. 头相关传输函数与虚拟听觉
2.Brian C.J. Moore. An Introduction to the Psychology of Hearing
3.David M. Howard / Jamie Angus. Acoustics and Psychoacoustics
站点地图