与物体本身发出的声音相比,我们真正感知的声音其实是受到了很多方面的影响的;而从音箱发出的声音信号也会再一次受到听者自身身体结构的影响。如何在VR中还原这些“真实”,是一个大问题。
这个网站从2014年成立以来,就有不少内容和话题关注了虚拟现实(VR)中的音响效果,希辰本人也谈到,“随着VR设备的普及和佩戴耳机的必要性,这些技术将会得到更为全面和广泛的运用”。关于VR,一般我们可能更主要地还是关注了它在视觉方面的种种突破性,而忽视了它在声音方面的设计和革新。为此,希辰就发布了一系列关于“科普:影视/游戏领域的虚拟现实音频技术”的文章,到目前为止一共有3篇内容了。触乐最近联系到了希辰,并获得授权将这3篇内容整合,转载如下:
SounDoer 一直以来都在关注与虚拟现实(Virtual Reality,以下简称为 VR)相关的音频技术,转载并编译了一些视频和文档。希望这些内容对各位从事音频工作的同行以及声音爱好者们有所帮助。
声音在很多媒介中都处于一种从属性的地位,特别是在影视和游戏等娱乐媒体中,声音通常需要服从和配合画面的表现;最近在与一些从事 VR 相关开发的团队接触后,发现大家对于声音在 VR 这个新媒体中的作用还不是很了解,或者是不太清楚该如何进行有关 VR 的声音设计制作。所以借此机会,SounDoer 计划写一个名为The Introduction of Virtual Reality Audio for Films and Games(科普:影视/游戏领域的虚拟现实音频技术)的系列文章,消化一下之前吸收的内容。先来纸上谈兵地聊一聊有关应用于影视和游戏领域的虚拟现实音频技术(Virtual Reality Audio,以下简称为 VR Audio)。
大家对于3D电影、3D游戏等此类视觉效果上区别于传统 2D 的媒体形式都非常熟悉。严格来说,3D电影和3D游戏中所指的3D(Three Dimensional)概念是有所不同的:3D电影的特别之处在重放效果,观众戴着特制的眼镜在平面的银幕上看出了3D效果,实际上是荧幕欺骗了你的眼睛;而3D游戏则是特别在其构建的空间环境中,游戏中的人物视角可以全方位的变化,但其呈现方式依然只是平面屏幕,因为你用的还是传统的显示器。而目前采用HMD(Head-Mounted Display,头戴式显示设备)方式的VR技术,则感觉像是3D电影和3D游戏的技术结合。
总之,3D是一个大概念,很多东西都可以往里面装;比如3D Audio就是一个装了很多东西、常常让人搞不太清楚的概念。那么,在说VR Audio之前,我们先来聊一聊3D Audio是什么。
顺着上面提到的电影与游戏两大媒体的特点,我是这么来理解3D Audio的:
就电影声音的重放效果而言,广义上来说,任何能够提供多个方向性声源信息的重放系统都可以称为是某种程度上的“3D”。举个例子,如果以最常见的双声道立体声(Stereo)为基础,那么5.1环绕声的效果就要比双声道立体声更加“3D”,而7.1环绕声就要比5.1环绕声更加“3D”,以此类推。随着音箱数目的增加,环绕声系统的声音定位效果就会越来越好(当然实际情况是不允许无限制地增加音箱数目的,而且也有实验论证存在上限值)。但无论如何,从狭义上来理解,5.1、7.1等环绕声系统的音箱位置都是在同一高度的,即听到的声音都只能从同一平面传来,所以它们都是不符合3D Audio中的三维定义的。
大家去杜比全景声(Dolby Atmos)影厅看电影的时候可以留意一下,影厅天花板上也安装了成对的音箱,这样的话观众就能听到来自头顶的声音了,比如飞机掠过的声音。所以说,Dolby Atmos技术在重放效果而言,可以说是3D Audio的,但还是属于“增加音箱数量”的环绕声系统设计思路。(Dolby Atmos在制作手段上是有革新的,在现有Channel-Based的基础上结合了Object-Based的方式,后续文章中可能会详细解释。)
说完了电影声音的重放效果,我们再从游戏空间环境的角度来讨论一下。以典型的FPS(第一人称视角射击)游戏为例,游戏内的世界是一个真正的3D空间环境。与现实生活中一样,游戏中的声音也是从声源处传出的:比如,游戏中你的头顶上有一架飞机飞过,飞机引擎的声音就是从飞机处传到你游戏中所在的位置的;再比如,当有敌人从背后朝你开枪时,那么枪声就是从你身后传到你所处的位置的。所以,单就从游戏内空间环境的角度而言,目前的游戏音频制作手段可以说是3D Audio的,游戏内的声音也几乎是基于三维空间位置的音效(3D Positioning Sound)。
但是,为什么你打游戏的时候听不出飞机从头顶掠过的效果?为什么你没法听到敌人在你背后“突突突”?——这就要说到游戏的声音重放了。以游戏主机端(PS4/Xbox ONE)的作品为例,目前大多数游戏的声音输出采用的是环绕声系统,即上面提到过的5.1环绕声系统,声音也都只能在同一平面上传播。所以,即使你用环绕声系统的家庭影院来打游戏,你也没法听到头顶上飞机的效果。并且实际情况是,大多数玩家用的是一对普通的立体声音箱,或者一副耳机,甚至只是电视机上的小喇叭,那就更不用想能听到来自头顶和身后的声音效果了。所以,从游戏声音重放效果的角度而言,目前的游戏音频其实并没有那么的“3D”。在下面,我们也会结合一些运用在VR设备上录音技术来说明这一点。
以上就是从电影和游戏两个角度出发,对于3D Audio的一些理解。
相较而言,其实还有其他比3D Audio更恰当的词,可以用来表述上面提到的声音系统的特点:比如Spatial Audio/Sound(空间音效)、Immersive Audio/Sound(沉浸式音效)等。从最开始的单声道发展到现在像杜比这样的环绕声系统,目的就是为了追求更好的沉浸体验。而更加逼真的沉浸式体验,其实也是VR技术的追求目标,所以Spatial Audio和Immersive Audio有时也会被用来形容与VR相关的声音技术。(不过,在这个系列文章里讨论的VR Audio,将会有更加明确的定义。)
那么 VR Audio 指什么?简单描述一下就是,通过耳机重放的方式(或者音箱),结合头部追踪(Head Tracking)等技术,让用户在做转动头部等动作时能够听到来自各个方向的声音(及其变化),并配合头戴式显示设备来获得更好的沉浸式体验。
双耳录音
双耳录音(Binaural Recording),通常也叫做人工头录音,是一种与普通立体声拾音不太相同的录音方式。
与物体本身发出的声音(或者说声源处的声音)相比,我们真正感知的声音其实是受到了很多方面的影响的。比如,躯干、头部、耳廓、耳道等身体结构就是一个很重要的影响因素,也是我们辨别声源方向的生理基础。所以双耳录音的思路就是,在声音采集阶段去还原由身体结构(主要是头部结构)对原始声音产生的影响:制作一个人头模型(Dummy Head),把话筒(拾音振膜)分别置于左/右人工耳道中,以这样的方式录制得到模拟左/右耳听到的声音,并最终通过耳机重放。
在这里不能用音箱重放的原因是:从音箱发出的声音信号会再一次受到听者自身身体结构的影响,听起来就会很奇怪。
有关双耳录音的研究早在二十世纪六七十年代就已开始,Neumann公司在当时也推出过成熟的人工头录音产品(比如Neumann Ku 80/81);YouTube等网站上也有很多双耳录音的视频,比如非常有名的Virtual Barber Shop。
在我们现在讨论的VR游戏和影视的制作中,双耳录音的作用是很有限的;因为以这种方式录制下来的声音是“固定”的,即它只记录了当时特定地点、特定方向的声音信号,无法满足VR内容中根据用户运动而产生变化的需求。
HRTF(Head Related Transfer Functions)
HRTF,可直译为“头部相关传输/传递/转换函数”。基于上述对双耳录音的解释,HRTF可以简单地理解为是“原始声音与人耳实际接收到的声音之间的差异”;而在实际运用中,HRTF可以想象成是一个滤波器,对原始声音进行频段上的调整,使其接近人耳接收到的听感效果。
我们再从另一个大家可能有所了解的角度来描述一下HRTF:卷积混响(Convolution Reverb),或者叫采样混响中使用的冲激响应(Impulse Response),这里的采样是在实际的特定空间中录制得到的;比较常见的方法有瞬态脉冲(气球爆炸或发令枪声等)和扫频(用音箱播放一个从低频到高频的全频段正弦波声音信号),通过录制得到的整个空间对于这些瞬态脉冲信号或扫频信号的混响反应,再经过处理之后就可以以卷积的方式应用到其他声音上去。
而我们获取HRTF数据的方式就与之类似:在消声室(尽量减少空间环境的影响)中架设一个人工头麦克风,从人工头的各个不同方向播放冲激响应信号,并录制下人工头采集到的声音,这样就得到了与卷积混响中IR采样概念类似的数据,可以叫做HRIR(Head Related Impulse Response);将其与原始的IR信号进行对比,经过处理之后就可以得到HRTF了。
Ambisonics
Ambisonics(目前好像还没有通用的中文翻译),是一种球形(Full-sphere)的环绕声技术,研发于二十世纪七十年代。可以试着从两个层面来理解:一是录音制式,二是编解码算法。
就从录音制式来看,Ambisonics可以理解为是M/S立体声录音制式的三维扩展,以一定方式组合的四个振膜阵列记录了具有高度和深度信息的四轨声音信号。
从编解码方式来看,采用 Ambisonics 方式录制得到的声音信号可以通过计算变换后,以双声道立体声、5.1、7.1,甚至是11.1、22.2等各种多声道环绕声格式来输出,即它不是基于频道(Channel-based)的。
Ambisonics技术在VR领域的用处在于,可以作为一种音频文件格式用于保存和流通;YouTube在年初推出的支持全景视频的音频格式就采用了Ambisonics技术。
Omni-Binaural Microphones / Ambisonic Microphones
在声音素材采集方面,除了传统的单声道和立体声麦克风之外,还有两种较为特别的话筒可以用于VR内容制作。
一是上面已经提到过的Ambisonics话筒,比如CoreSound的TetraMic、TSL的SoundField SPS200等;还有更进阶的产品,如Eigenmike Microphone这样的球形话筒。
二是Omni-Binaural话筒,可以看做是人工头麦克风的升级版本,比较典型的产品是3Dio的Omni Binaural Microphone。
综上,其实目前用于VR音频制作的软硬件技术早已出现,只不过在此之前基于环绕声系统(Surround Sound System)的各种技术、产品和制作流程太过成功,使得像双耳录音和Ambisonics这样的技术少有用武之地。而现在随着VR的兴起,老技术借助自身特点焕发了第二春。
通常,我们把影视称为是“线性媒体(Linear Media)”,而游戏则是“非线性媒体(Non-linear Media)”或“交互媒体(Interactive Media)”;两者各自的特性也决定了声音设计思路和手段上的不同。
VR影视
线性可以简单地理解为是“基于时间线”的,即几时几分几秒影片的画面和声音内容都是确定的;从空间角度来看,在某一时刻里画面展示的空间中,各个声源与镜头之间的关系(或者说是与观众之间的关系)都是确定且唯一的。所以,在DAW中对影片进行声音制作时,几乎所有的参数(响度、频率和混响等)调整和变化都是且只是基于时间的。
那么,VR影视与现有的传统线性媒体相比,最大的区别是什么?虽然时间仍是线性的,但观众能够在以摄像机为中心的位置上自主地选择观看的方向;实际的效果类似于博物馆里的球形屏幕,只不过VR是通过头戴式显示设备(HMD)的方式来呈现。
如果是球形屏幕加上扬声器的观看方式,画面内容与扬声器(对观众来说就是实际的声源)之间的相对关系是确定的,那么声音制作其实就跟平面显示的影片没有区别,都可以称为是基于频道(Channel-based)的方式。但如果是头戴式显示设备加耳机重放的方式,声音的制作看上去就有点复杂了:如何在只有双声道立体声输出的耳机上听到来自各个方向的声音呢?
我们把这个问题拆分成两部分:一是解决在制作时声像位置怎么放,二是解决在重放时双声道耳机怎么听。
先说声像(Panning):在制作双声道立体声内容时,声像位置只能安排在两只音箱之间的连线上,再加上可以通过对响度、频率和混响等进行调整而营造出的距离感,因此实际的听感是,声音只能从由两只音箱所夹范围的平面区域内传出;类似地,5.1环绕声系统比双声道立体声多了中置音箱(C)和后置的左右音箱(Ls、Rs)(5.1低音扬声器不用考虑),因此可以说,声音能从五只音箱所决定的一整个平面区域内传出。
而为 VR 影视制作声音时,为了能够听到来自更多方向的声音,其实就是在以听者为中心的整个球形区域内来安排声音的声像位置;在确定某一方向基准后,画面内容与位于球形区域中心的听者之间的相对关系也是确定的,这就跟上述的双声道立体声、环绕声定位方式差不多了,只不过多了声音的在垂直方向上的高度信息。理论上,通过水平转动(Pan)和垂直转动(Tilt)两个参数,就能控制视角在360度球形范围的朝向;同样地,这两个参数也能用到对声音的控制上,这样就能让声音配合视角的朝向来做出相应的变化。
再说如何用耳机重放,运用到的是HRTF技术:当听者朝向某一方向,来自各个方向的声音与听者头部之间的关系是确定的,利用HRTF就能计算并模拟出声音从某一方向传来以及移动变化时的效果,并通过耳机来回放。
综上,为VR影视制作声音内容时,还需要多考虑用于控制视角方向的水平转动(Pan)和垂直转动(Tilt)这两个参数;不过对于声音设计师来说,只要理解“在以听者为中心的整个球形区域内来安排声音的声像位置”这一点,就可以利用现成的插件工具来完成工作。(说不定以后Ambisonics声像定位就会成为DAW中的一种可选设置?)
VR游戏
游戏被认为是“第九艺术”,可以看作是由许多自成体系的学科有机结合而成的;而游戏音频作为其中一个重要的组成部分,依据游戏系统的架构,其本身就包含了许多的子系统,比如 Voice、Music、UI、Ambiences、Foley、Weapons、Vehicle、Animals等。
3D游戏构建的世界可以说是一个真正的3D空间环境:经过空间定位(Spatialization)后的声源在3D空间中都是有各自的位置坐标信息的,由此可以算出声源到听者(Listener/Camera)之间的距离,进而控制声音衰减,来模拟声音在传播过程中的行为。从这一点来看,“在3D空间内安排声音信息”这一概念对游戏声音设计师来说并不陌生。其实可以说,VR只是换了一种方式来显示和操控游戏内构建的3D世界而已,用转头的动作来代替鼠标对镜头视角的控制,这并没有影响到游戏的制作思路和主要流程。
而VR Audio带来的改变主要体现在重放方式上。与影视媒体一样,目前游戏的声音重放方式主要是耳机和音箱(双声道立体声和5.1环绕声)。对于音箱重放的局限,本文上半部分已经有过讨论;而对于耳机重放,利用HRTF技术就可以实现全方位的声音效果。
其实,与HRTF相关的技术早在游戏《反恐精英》时就已经被运用了(A3D,Aureal 3-Dimensional),但为何现在的主流游戏里该技术的运用还是非常有限?原因可能有以下两点:
一,实时的HRTF算法耗费计算资源,即使计算机运算速度在不断提高,但对于消费级的计算机来说,有限的运算资源总是会先满足图像计算的需求,毕竟看比听来得更重要一些。(《反恐精英》(CS)当时使用的A3D技术是由Aureal Vortex硬件声卡来进行运算的。)
二,由于HRTF技术本身的特点,其声音定位的准确度还有待提高;有些时候,实际效果可能还是环绕声定位方式更好一些。
结束上面有关HRTF讨论,其实VR有一个核心的追求就是“更加真实”,这对如何利用现有的技术和制作流程来创造出更加逼真的游戏声音体验提出了更高的要求。举两个例子:
一,以环境声为例,常见的做法是用一个四声道声音作为环境声铺底,四条音轨分别映射到L、R、Ls、Rs四条声道上;同时,加上在一定范围内随机位置触发的随机音响效果来体现环境声的方位感。在此基础上,可以通过添加点、线状的单声道声源的方式,来增加头部转头时环境声变化的丰富程度。
二,以动物为例,游戏里一只狗的脚步声和叫声其实都是从该模型上的同一个点(声源)发出的。若想要声源位置更加精确,特别是对于大型动物(或巨型怪物)来说,就应该把脚步声的声源绑定在四只脚上,而叫声的声源则绑定在嘴上。(这样做的代价是计算量成倍地增加了。)
总的来说,较之以前,声音的设计需要更加精细和精确。
(*文中图片部分来自作者原本插入的图片,部分由触乐选择加入。)