MobileMobile | Continue
       
Nibiru VR Development Other Tools Audio for VR

Audio for VR

Irving Post time 2016-6-3 21:20 | Show all posts |!read_mode! [Copy URL]
0 662
  据相关报道的数据显示,就去年一年内基于虚拟现实(Virtual Reality,VR)产生的内容量已经超过了之前二十年的总和,这得归功于诸如 the Oculus Rift、Sony’s Project Morpheus 等其他虚拟现实设备的出现。许多革新正在视觉领域里发生,比如全新的游戏可玩性、叙事结构和视觉设计。那么,在音频领域又会发生什么呢?
网上已有关于虚拟现实音频技术的讨论,但大多数都是基于双耳或3D定位音频技术(Binaural/3D Positional Audio),过去几十年也有不少关于听觉接口(Auditory Interfaces)的学术研究。在 Google Scholar(谷歌学术搜索)上可以找到很多值得一读的材料。
就目前而言我的经验是,某些之前在非VR应用中想当然的技巧在VR设计时不怎么管用了,特别是对于双耳音频(Binaural Audio)。这篇文章,就是从声音设计师的角度出发,总结了我在解决类似技术问题时学到的经验。
这篇文章当然不是面面俱到的。我的希望是能有更多的声音设计师在这一领域做更多的尝试。我希望能在之后的工作中不断更新完善(使用Wiki可以促进交流)。最近我在做一个小的游戏项目,其中就展示了某些下文中讨论的问题,等游戏完成时我会奉上链接。
试验是新兴技术和新媒体的关键。如果某个领域没有所谓的“食谱”,那么就早一些踏入研究并去定义它们。不断失败,不断尝试。
2D还是3D音频?
大多数游戏和游戏声音引擎都允许你在2D或者3D声音之间做选择。2D声音不会依据相对于游戏世界中的定位参数进行变化,比如说2D声音不会随着玩家与声源间相对位置的改变而在声像上做自动调整。另一方面,3D声音则会根据相对位置和距离,自动地进行声像和响度的调整。大多数声音引擎都有一个基于振幅的立体声声像算法(An Amplitude Based Stereo Panning Algorithm)来处理定位问题。如果声音是来自听者背后的,部分引擎还会对该声源增加一个低通滤波器来增强真实效果。这样的声音处理方式,并加上视觉信息的支持,在过去几十年中一直非常奏效。但是现在应对VR项目时,这样的做法就有了局限。
建立第一人称视角虚拟现实世界的目的就是为了让体验尽可能的真实可信。这意味着视听体验的各个方面都要为这一目标服务。当处理VR和头部跟踪(Head Tracking)设备时,特别是同时处理水平和垂直平面,双耳声音模式与传统的立体声声像模式有很大的不同。当你看到一个物体飞过头顶同时还能听到声音擦着头皮而过的时候,这种体验真的是非常棒。大多数VR体验都是个人化的,而且需要配合使用耳机来让实时双耳音频更加适用。
单声道还是立体声?
显然,双耳音频引擎和声像定位需要单声道声源。那如果是立体声音频素材呢?所以我倾向于使用MS制式来录制声音,这样就可以在后期设计时有选择余地。我使用以下方法来对已录制好的或者是合成的立体声素材进行处理:
选择单一声道:对于那些录制时声音平均扩散到左右声道的素材来说(比如近距离立体声录制),可以直接舍弃一个声道。
缩混至单声道:如果左右声道各自都有重要的内容,那么建议把这条立体声素材缩混成单声道。当然这取决于内容需要,还有一定要注意相位问题。
两个双耳音频素材:依据视觉中物体的大小,你可以创建两条音频素材并为每一个对象各自分配立体声声道(Create two audio sources and assign each of the stereo channels to each object)。个人经验,这样的做法似乎没什么用处,除了有一次用这种方法设计河流音效时增加了一点扩散感。通常这种方法不太奏效,而且容易引起相位问题。
双耳音频和立体声音频的组合:下一章节详细讲解。
声音尺寸和扩散
当处理单声道的双耳录音素材时,在控制声源的扩散上会有些困难。空间中一个扩散的、大尺寸的声源对象,听起来不应该像是一个点声源发出的声音,比如远距离的车流声、溪流河流声、大型交通工具等。利用立体声声像技术就能轻松地做到这一点(译者注:比如 Pro Tools 中的立体声音轨会有左右两个声像旋钮,可用来调整立体声的宽度)。对于双耳声音素材,通过改变最小衰减距离参数(the Minimum Distance Value for Distance Roll-offs)也能达到同样的效果。当然还有其他更复杂的方式来完成,我个人倾向于直接把双耳声音素材和立体声素材进行混合。通过调整两者之间的混合比可以达到良好的扩散感,并同时保证听者能够轻松地定位声源位置。这样的做法显然会影响声源定位的质量(Localisation Quality),但无论如何一个扩散的声音本身就难以定位在单一一点。
早期反射声和混响
早期反射声在听者对空间大小、规模和类型的认知中起着非常重要的作用。传统立体声混响中包含了扩散在整个立体声声场的早期反射声。在 3Dception 设计中很重要的一个特征就是,使用经过双耳音频重新空间化的早期反射声(Binaurally Spatialised Early Reflections)和完整的空间建模系统(A Full Room Modelling System)来尽可能地再现真实环境。早期反射声、混响和直达声三者之间混合比例的不同会让定位质量产生巨大的差别。这三种声音成分共同作用于大脑,提供给它正确的信号来自愿停止对虚拟环境的怀疑。
一个经常被使用的音频技巧是,将混响作为一种“胶水”来把音轨中各种元素混合起来。双耳声音素材听起来相对外化,而(戴着耳机时)反射声和混响则像是从听者头内部产生的(译者注:头中效应),所以传统的带有立体反射声的混响会降低双耳音频声源的定位质量,并会引起听者对空间感的困惑。实际上双耳音频对那些应用在游戏音频中的技术提出了更高的要求,比如主动式混响区域(Reactive Reverberation Zones)、细致精确的衰减曲线(Detailed Sculpting of Roll-off Curves)和高动态范围混音(HDR Mixing)。混音在3D声像定位中变得更加重要。少即是多。
预延时也变得更加重要。我通常将混响稍稍延迟一些(调整预延时参数)来增强空间感,同时仍将后期混响作为“胶水”。3Dception 中的空间建模系统能够轻松地将两方面都做到最好——听起来不错的后期混响声,和符合VR或者游戏场景的空间早期反射声。
主动式的和程式化的内容
过去几年中,程序技术或者是传统技术与程序技术相结合的运用越来越多。我更倾向于推荐使用主动式VR技术(Reactive Techniques with VR)。虽然完全的程序内容实现将会非常棒,但实际上并不需要达到那种程度。开放更多的音频引擎参数并将其变成可视化组件,这倒会大有帮助。音高的细微调整,或者是多普勒值的精确选择,这就能创造一个更加令人可信的观感体验。想象一下,如果每一个音效都是由多层次的主动元素组成(A Multi-layered Reactive Element),而不是简单的静态音频文件,那么这将会极大地改变声音设计和程序实现的思路(译者注:音效文件绑定特效文件来触发的机制在很多时候无法完成复杂的逻辑实现)。视觉元素与音频参数的同步是非常重要的,并且能够实现更不一般的体验。
拟音与跟踪
既然有了动态和头部跟踪装置及相关技术,那么拟音技术能否再进一步发展,而不局限于脚步声和基本动效声?游戏逻辑能够更加智能地控制声音触发,而不是由玩家控制输入?例如,近距离的双耳声音素材能否被用来模拟潜水套装的声音?机器人的头部运动?玩家转身时衣物的细节摩擦?拟音技术能否在虚拟世界中给予玩家更好的代入感?我们只有不断地去尝试,才能达到我们追求的效果。类似于拟音这样的精细设计与神奇技术相结合的领域,也正是我今后想更多讨论的,分享一些我在VR和3D音频领域的经验。

Reply

Use magic Report

You have to log in before you can reply Login | Register

Points Rules

!fastreply! Top !return_list!