电话:010-63983646
地址:北京市西城区真武庙二条真武家园 4号楼一层西区
邮编:100045
版权所有:中国电影电视技术学会
©CopyRight by China Society of Motion Picture and Television Engineers.
京ICP备06037115号-1 京公网安备 11010202007667号
猎酷网邀请该标准的主要撰写人张建东女士(总局规划院教授级高工、音频专家)为大家解读该标准。
张老师,据说GY/T 282-2014是以ITU-R BS.1864:2010为参考的,要不您先介绍下两者之间的区别?张建东:
从标准名称看,GY/T 282-2014就是专门对节目平均响度、真峰值音频电平的特定规范。那么,对于第一个重要指标——平均响度目标值,标准是怎么要求的?依据又是什么?张建东:
图I 电声校准示意图
将同一新闻联播测试序列,以音频工作站调整增益,使重放声压级分别为50 dBA SPL、55 dBA SPL、60 dBA SPL、65 dBA SPL、70 dBA SPL、75 dBA SPL、80 dBA SPL,产生测试序列1~7。将测试序列1~7以随机顺序播放,22名评价员按照很低、低、稍低、合适、稍高、高、很高的评分标度(评价表为线状图)进行评价。每一响度感觉区间对应的分值区间如表1,主观评价统计结果如表2。表I 响度感觉分值表
响度感觉 | 分值区间 |
很低 | 0~20 |
低 | 20~40 |
稍低 | 40~60 |
合适 | 60~80 |
稍高 | 80~100 |
高 | 120~140 |
很高 | 140~160 |
表2 响度目标中心值统计结果
重放声压级(dBA) | 响度感觉 |
50 | 低 |
55 | 稍低 |
60 | 稍低 |
65 | 合适 |
70 | 稍高 |
75 | 稍高 |
80 | 高 |
那进一步,我想请教下标准对节目平均响度目标值的容差范围又有什么要求呢?有特定的依据吗?张建东:
图2 响度舒适区示意图
本主观评价的目的是获得响度“舒适区”和“容忍区”的边界点相对于中心响度的增益值。测试地点仍为广播电视规划院的视音频主观评价室。表3 响度舒适区主观评价表
C)评价人员表4 评价人员年龄分布表
评价人员年龄 | 人数 |
20~30岁 | 11 |
31~40岁 | 6 |
41~50岁 | 3 |
51~60岁 | 3 |
61~70岁 | 2 |
表5 各片段响度舒适区和容忍区的测试结果
序号 | 片段名称 | 舒适区上限增益 | 舒适区下限增益 | 舒适区范围 | 高响度容忍区边界增益 | 低响度容忍区边界增益 | 容忍区范围 |
1 | 新闻联播 | 4.2 | -7.7 | 11.9 | 8.9 | -14.7 | 23.6 |
2 | 歌曲 | 4.3 | -7.4 | 11.7 | 8.7 | -14.5 | 23.2 |
3 | 广告 | 4.5 | -6.1 | 10.6 | 9.1 | -14.1 | 23.2 |
4 | 轻音乐 | 5.2 | -7.2 | 12.4 | 9.1 | -13.7 | 22.8 |
5 | 交响乐 | 4.5 | -6.0 | 10.5 | 8.3 | -13.1 | 21.4 |
-- | 均值 | 4.5 | -6.9 | -- | 8.8 | -14.0 | -- |
对所测的新闻联播、歌曲、广告、轻音乐和交响乐片段,舒适区范围的最大差异为2dB,舒适区范围由大到小的排列顺序为:轻音乐、新闻联播、歌曲、广告、交响乐。
图3 相对响度增益及95%置信区间
从主观评价结果可以看出,人耳舒适区的范围为-6.9dB~4.5dB,因此,响度平均值在±2LU的范围内变化,是完全落在人耳感觉的舒适区之内的,不会引起不适。
(2)响度设备支撑进一步,±2LU(dB)的容差范围是否有足够的技术支撑,易于实现?这个必须考虑响度相关设备,包括响度测量设备和响度调控设备。
A)响度测量设备响度测量应使用符合ITU-R BS.1770(GY/T 262)算法的设备,不同厂家的测量设备对相同的节目应显示相同的测量结果。
EBU TECH 3341“LoudnessMetering: ‘EBU Mode’ metering to supplement loudness normalisation inaccordance with EBU R 128”和ITU-R REP BS.2217“Compliance material for Recommendation ITU-R BS.1770”均规定对于给定的一致性验证测试序列,测量设备的结果均应满足±0.1LKFS 的容差要求。
起草组对国外三款和国内的一款响度测量设备进行了测量结果精准度的验证,均满足
±0.1LKFS 的容差要求。因此,由于响度表的读数不准而造成的对响度目标值的变化基本上可以忽略不计。
B)响度调控设备按照应用场景的不同,响度调控设备可分为基于文件型非实时应用的响度调控设备和基于信号型的实时应用的响度调控设备两类。非实时应用类型的设备,在如广告上载后,节目收录后,节目进入媒资之前,设置响度调控站点,以文件为单位进行响度调控。调控设备先提取整个音频文件的平均响度,计算与响度目标值的差值,根据差值对文件进行整体的增益平移,该方式一般不改变信号的动态范围,基本不引起节目声音质量的下降。另一类对音频信号进行实时调控的设备,多部署在播控端,更适用于播出前来不及对响度进行调整的直播类节目。实时响度调控设备先提取部分音频信号的信息,如几十毫秒,按照已设置好的参数和既定策略进行实时调控,通常改变节目的动态范围,或多或少会引起声音质量的下降,而且节目的平均输出响度与目标值不一定完全吻合。响度调控设备的应用示例如图4。
图4 响度调控设备的应用示例
响度调控设备究竟如何神武,可实现多少LU的响度调控?起草组进行了一些实测。
响度控制器的测试内容主要包括两项:调控后输出节目的平均响度与响度目标值的接近程度以及调控前后节目声音质量的下降情况。测试选取平均响度接近或等于-24LKFS、高于-24LKFS若干LU和低于-24LKFS若干LU的不同音频序列(活动序列,非纯音),测试经响度处理器处理后,输出序列的平均响度以及处理前后声音质量的下降值。第一项平均响度的测试依靠响度表。第二项声音质量下降值的最好获取方法是主观评价,但由于主观评价费时费力,成本较高,经常以客观方法代替,这里所用的是符合ITU-R BS.1387 “Method for objectivemeasurements of perceived audio quality”的方法,严格意义上讲,该方法更适合于测量编解码的损伤情况。这里,按照算法,虽然也进行了原始素材与输出素材的频域对比,按照心理声学模型计算了可闻噪声,但由于算法形成时并没有纳入相应的训练样本,客观测量结果与主观评价结果的相关性未得到验证。对两种类型的响度调控设备各一款进行测试的结果见表6。
表6 响度调控设备测试结果
序列名称 | 序列时长单位(s) | 参考序列平均响度(LKFS) | 被测设备目标输出平均响度LKFS | 非实时响度调控设备 | 实时响度调控设备 | ||
被测设备实际输出平均响度LKFS | 客观分差值(声音质量损伤) | 被测设备实际输出平均响度LKFS | 客观分差值(声音质量损伤) | ||||
男女声 讲话 | 19.0 | -18 | -24 | -24 | 0.0 | -23 | -2.8 |
-24 | -24 | 0.0 | -24 | -2.2 | |||
-35 | -24 | 0.0 | -27 | -0.4 | |||
四重唱 | 11.7 | -18 | -24 | -24 | 0.0 | -24 | -0.4 |
-24 | -24 | 0.0 | -25 | -0.4 | |||
-35 | -24 | 0.0 | -27 | -0.3 | |||
交响乐 | 43.2 | -18 | -24 | -24 | 0.0 | -22 | -0.7 |
-23 | -24 | 0.0 | -22 | -0.6 | |||
-35 | -24 | 0.0 | -27 | -0.3 |
测试中还发现,对音频信号进行实时处理的设备,对应不同的参数配置,可能产生不同的响度调控力度,力度大的通常带来的声音质量下降严重,反则反之,因此需要在响度调控力度和声音质量这一对相互矛盾的因素间进行权衡和取舍。对特定类型的节目,采取什么样的参数配置,可满足在可接受的声音质量的前提下,达到最佳的响度调控结果,也经常需要检测来确定。这里所提到的可接受的声音质量是相对送至响度调控设备输入端时的节目质量而言的,具体数值没有标准规定,可参考ITU-R BS.1548《数字音频编解码系统用户要求》中对编解码系统的声音质量要求,将所测所有序列的质量下降值控制在-0.5分(理想情况)或-1分(最差的情况)之内,这里的评分标度应用的是ITU五级损伤标度,0至-1分对应“损伤可察觉,但不惹人讨厌”。
从一些主流实时响度调控设备的检测结果来看,如果将声音质量下降值控制在-1分之内,则对平均响度比目标值高6LU和低11LU的音频序列,调控结果通常与目标值有数个LU的偏差。但是,如果加大响度调控力度,一味追求平均响度的一致性而忽视声音质量的下降也是得不偿失的;以文件方式进行处理的非实时响度调控设备的检测结果较为理想,处理后的文件平均响度可完全达到所设置的目标值,声音质量的下降值基本上是理论值零。
从对响度调控设备的检测结果可以看出,对于非直播类节目,响度目标值的容差是完全可控的,但对于直播类的节目,仅把响度控制的宝压在播控端是靠不住的,还需要大力依赖于录音师的职业素养。
对于标准的第二个重要指标——节目的最大真峰值音频电平是如何规定的?依据又是什么?
张建东:
标准规定整个节目的最大真峰值音频电平应不超过-2dB TP。什么是真峰值音频电平呢?按照ITU-R BS.1770,可以抽象出如下定义:真峰值音频电平是指信号在连续时域中的最大峰值电平,是相对于离散采样点的最大峰值电平而言的。信号的真峰值电平可能大于在采样时刻获得的最大离散采样点的峰值电平。
(1)真峰值音频电平测量音频技术人员常用的电平监看仪表不外乎VU(Volume Unit)表、QPPM(QuasiPeak Programe Meter)表、SPPM(SamplePeak Programe Meter)。
VU表和QPPM表都会产生读数低于实际信号峰值的情况,这是由仪表的积分时间特性所决定的。按照GB/T 17311-1998《标准音量表》的规定,从施加1.228V的1kHz正弦波信号的瞬间到指针偏转到基准指示(音量表指示器表盘上标明0或100%的刻度点)的99%的瞬间之间的时间间隔,VU表为300(1±10%)ms。VU表指针移动相对较慢,是一种准平均值特性仪表,不能指示瞬时峰值,通常节目信号峰值电平比指示值高6-12分贝。而QPPM表的积分时间为5ms或10ms,是准峰值特性仪表,但也会错失一些持续时间很短的瞬时峰值。
SPPM表是检测数字节目音频信号峰值的检测仪表,该仪表的上升时间为被测量数字信号的一次完整采样周期,显示的是采样峰值,而非信号峰值。电平测量时通常是将各个输入采样的绝对值(经整流)与峰值表的当前读数进行比较,如果新采样值较大,则取代当前读数,否则,当前读数乘以一个略小于1的常数,产生一个对数衰减。因此,对相同的信号,采样位置不同,则峰值读数不同。比如,重复播放一段模拟录音并输入至带采样峰值表的数字系统,每次播放产生的节目峰值读数完全不同,同样地,重复播放一段数字录音,经采样率转换器后进行测量,每次播放显示的峰值也不同。这是因为每次播放时,采样时刻可能落在实际信号的不同位置。有关这一点,我们可以做实验如下:
A) 以音频编辑软件生成频率为12kHz,峰值幅度为-6.0dBFS,采样率为48kHz的正弦波信号,并使信号的初始相位为0,我们将该信号称为信号1-1。以MATLAB编程读取信号在48kHz采样率下的最大峰值电平,可得最大峰值为-6.0dBFS,与实际峰值相同。采样点位置如图5。
B) 将信号1-1的初始相位改为π/8,信号幅度、频率和采样率不变,形成信号1-2,以MATLAB编程读取信号在48kHz采样率下的最大峰值电平,可得最大峰值为-6.7dBFS,读数偏低误差为0.7 dB。
C) 将信号1-1的初始相位改为π/4形成信号1-3,以MATLAB读取信号在48kHz采样率下的最大峰值,可得-9.0dBFS,读数偏低误差为3.0dB。
图5 相同信号,不同采样位置示意图
通常,输入信号频率越高,采样峰值表出现以上问题的可能性越大。表7 不同过采样比下的真峰值表读数偏低的最大值
过采样比 | 读数偏低(dB)最大值fnorm = 0.45 | 读数偏低(dB)最大值fnorm = 0.5 |
4 | 0.554 | 0.688 |
8 | 0.136 | 0.169 |
10 | 0.087 | 0.108 |
12 | 0.060 | 0.075 |
14 | 0.044 | 0.055 |
16 | 0.034 | 0.042 |
32 | 0.008 | 0.010 |
从表7可以看出,对48kHz*4倍的上采样频率,20kHz信号的最大读数偏低不足0.6dB,本标准规定整个节目的最大真峰值音频电平应不超过-2dB TP,是为下游处理,如编解码等留有少量的增益变化的余地。
除了平均响度、真峰值音频电平之外,标准是否还对其他内容做出了相应的规定?张建东:
是否有实际监测结果来验证本标准所规定技术参数的可行性呢?张建东:
如何在实际场景中有效地应用这个标准呢?张建东:
图6 制作域中响度调控设备的部署
(3)播控环节未来对该标准是否还有更多扩展性的考虑?张建东:
限于时间关系,今天的解读就到这里。感谢张老师对GY/T 257.2-2014行业标准的重要解读。我们下次再见。
电话:010-63983646
地址:北京市西城区真武庙二条真武家园 4号楼一层西区
邮编:100045
版权所有:中国电影电视技术学会
©CopyRight by China Society of Motion Picture and Television Engineers.
京ICP备06037115号-1 京公网安备 11010202007667号