学术交流
当前位置:

3D电视主观评价方法研究

2015-02-06 22:22 来源:电视技术

责编:陈默

 

3D电视主观评价方法研究


阮卫泓1,温娜1,武晓光2,潘榕1,吴蔚华1,谢于迪1,李强1

(1. 国家广播电视质量监督检验中心;2.北京牡丹视源电子有限责任公司)


【原编者按】近几年,立体显示技术发展迅猛,电视机配备3D显示功能已经成为普遍现象,随之而来的3D电视技术的发展将面临很多亟待解决的问题,其中就包括3D电视的显示质量评价问题,传统的2D电视主观评价方法已经不再适用,今天小编为您推荐的这篇文章对国际3D电视主观评价标准进行了解析,并针对评价方法的选择、评价素材的制作、评价对象和目的的确定等方面等提出了建设性意见,希望对从业人员了解3D电视显示特性并积累相关经验提供帮助。

近几年,立体显示技术发展迅猛,电视机配备3D显示功能已经成为普遍现象。然而,普通消费者真正使用电视3D功能的并不多,3D电视技术的发展还有很多问题亟待解决,3D电视的显示质量评价就是问题之一。针对传统的2D电视主观评价方法已经不完全适用于3D电视,结合3D电视实际使用场景,并考虑人眼立体视觉感受,开展3D电视的主观评价测试研究有助于加深业内技术人员对3D电视显示特性的了解,积累相关经验,尽快建立我国统一的3D电视显示质量主观评价标准。

本文围绕3D电视主观评价方法,首先分析了3D电视主观评价标准,详细阐述了4种评价方法的差异。应用单刺激法开展了3D主观评价实验,包括评价素材的选择和节目制作、主观评价的实施、数据处理和统计分析,最后进行实验结果分析,总结并提出了开展3D电视主观评价工作的经验教训,具有实际指导意义。

1 3D电视主观评价标准分析

目前,国内还没有3D电视主观评价标准。国外ITU组织开展了相关研究,制定了标准,包括3D电视图像主观评价标准ITU-R BT.1438和3D电视系统的主观评价标准ITU-R BT.2021。两个标准都基于2D主观评价标准ITU-R BT.500,规定了主观评价的要素、观看条件等内容。

通常,评估3D电视的显示质量采用ITU-RBT.2021建议书。该建议书提出了单刺激(SS)法、双刺激连续质量量表(DSCQS)法、刺激比较法、单刺激连续质量评价(SSCQE)法等4种评价方法。下面通过分析,研究上述4种方法的区别及主要应用场景。

1.1 单刺激(SS)法

单刺激(SS)法主要用于得出某一条件的某种数值分布,分析要判断的类别和所需的信息(例如等级、主要趋势、心理“距离”)。评价时显示单一的图像或一个图像序列,并为评价者提供一份整个演示的索引,图1为典型SS法试验结构。

1

1 典型SS法试验结构

对于图像质量评估和深度质量评估可使用两种有质量标示的量表,即非连续五级量表和国际电联标准的连续质量量表。质量标示为“优”、“良”、“中”、“差”、“劣”。在这种情况下,对于视觉舒适度的评估,可使用两种舒适度标示的量表,即非连续五级量表和连续舒适度量表。舒适度标示包括:“非常舒适”、“舒适”、“轻度不舒适”、“不舒适”和“非常不舒适”。

评价员对每个序列的评分称为“意见分”。通常针对每个被研究系统计算这些分数的平均值,称为平均意见分(MOS)。“参考”视频序列是测试序列未经任何处理的版本,可包含在序列集中。将“参考”视频序列纳入序列集,就可计算“意见分差值”,即研究中每个序列的“测试”和“参考”版所得评分之间的算数差。针对每个被测试系统得到的意见分差值平均数称为平均意见分差值(DMOS)。

1.2 双刺激连续质量量表(DSCQS)法

双刺激连续质量量表(DSCQS)法(图2)主要用于测量系统相对于某一基准的质量和测量立体图像编码的质量。评价员观看来自同一信号源的一对图像,一个经过要评价的系统,另一个是原始信号。要求评价者评价二者的质量,对于图像质量和深度质量评估,可使用国际电联标准的连续质量量表。对于视觉舒适度评估,应使用舒适度标示为“非常舒适”、“舒适”、“轻度不舒适”、“不舒适”和“非常不舒适”的连续舒适度量表。

2

2 DSCQS法测试系统的一般性安排

1) 方法I:评价员是单独一个人,可以在A和B两种条件之间切换,直到对每一种条件的评分都感到满意为止。A线路和B线路都提供了直达参考图像,或通过被测系统提供图像。但哪条线路得到哪个图像在一个测试条件和下一个测试条件之间是随机变化的,它们由实验者注明,但不公布。

2) 方法II:来自A线路和B线路的图像连续显示给评价员,供评价员对每一图像进行打分,见图3。

3

3 双刺激连续质量量表法试验结构

用每个序列“测试”和“参考”版的评分计算意见分差值,再计算每个被研究系统的平均意见分差值(DMOS)。

1.3 刺激比较法

刺激比较法(图4)主要用于比较两个系统的性能,要求评价员对经不同系统(如不同的比特率、不同的算法等)处理过的序列进行比较,以判断两个系统质量的优劣。

4

4 刺激比较法试验结构

评价实验使用1个监视器或2个匹配良好的监视器,如果使用1个监视器,一对中的两个组成部分在第一个位置和第二个位置上出现的频度相同。如果使用2个监视器,则激励场要同时显示。评价员用一个二进制量表(如A是首选)提供一个简单的偏好判断,或提供一个分级偏好。图像质量、深度质量和视觉舒适度可使用相同的量表。

1.4 单刺激连续质量评价(SSCQE)法

刺激连续质量评价(SSCQE)法主要用于连续衡量数字编码视频的主观质量。在3D节目播放过程中,图像质量、深度质量和视觉舒适度也会随时间出现很大变化,这种波动可能取决于场景内容和影响上述3个基本角度的伪影的持续时间(如短期或长期)。SSCQE法的目的就是分析这些动态变化的影响。在SSCQE法中,对立体视频序列的图像质量、深度质量和视觉舒适度进行连续评估(即按照评价指标随时间的变化进行评估)。这种方法被广泛认为更能体现实际的家庭观看模式。

在SSCQE法应使用连接至计算机的电子记录手持设备来记录被试得出的质量评价。这种设备应是不带弹簧复位的滑块机构,具有10 cm的直线移动范围,位置固定或能安装在桌面上,且每秒可记录两个样本。打分原则与单刺激法相同,实验结束后收集整理所有测试阶段的数据,计算平均质量评分,作为时间的函数q(t)。结果可以每个节目段、视频内容或测试阶段所有观察者的质量评分的平均值表示,图5所示为SSCQE法的典型测试阶段输出结果。

5

5 SSCQE法典型测试阶段输出结果

因为单刺激连续质量评价(SSCQE)法由每个评价员单独进行,所以允许评价员控制节目源的播放,可根据自己的需求对节目进行反复观看。观看时根据观感实时用滑块打分,真实反应评价员每个时刻的感受。这种评价方法的评价结果信息真实、直观,难度在于打分系统成本较高、对评价员的培训要求较高、节目时间轴上的要素要清晰。

1.5 标准分析

上述4种评价方法,可用于3D电视节目源的制作、传输和显示等全方位主观评价,所有方法都是进行一系列的评判试验,评价员评估研究对象显示视频序列集时的立体效果。在每次试验中,评价员被要求用规定的量表评估视频序列的特性(如图像质量)。这些方法各不相同,主要差异在于演示模式(即向观看者播放视频序列的方式)和评价员用来对这些序列进行评分的量表不同,评价方法的选择见表1。

表1 评价方法选择

                                                            6

评价员针对图像质量、深度质量和视觉舒适度这3个参数对测试图像进行处理的系统以及显示器进行评估。主观评价涉及因素多、耗时长、费用高、不确定性强,因此要明确评价试验的目的和对象,选择合适的方法。

2 3D主观评价实验

为探索了解3D显示主观评价的一些特性,国家广播电视产品质量监督检验中心组织开展了3D电视主观评价实验。研究人员选择长安街和奥林匹克森林公园进行了实景拍摄,依据ITU-RBT.1438和ITU-R BT.2021的标准要求制作用于主观评价的素材,并聘请有关专家进行了3D主观评价打分。主观评价方法系统搭建上,考虑到观看距离、观看角度、样机与眼镜的配对关系等因素,合理的方法是对单台电视进行观看。由于目前评价人员对3D电视的评价经验偏少,评价结果信息量是否适中和对同一3D节目主观感受的差异等问题尚不明确,因此,单刺激(SS)法成为优选。

2.1 评价素材选择和节目制作

评价素材包括视力检查素材和主观评价素材。实验组依据ITU-R BT.1438和ITU-R BT.2021的标准要求制作视力检查素材,包括同时视、双眼融像、粗略立体视、精确立体视和双目锐度。而主观评价素材制作主要围绕感知角度的3个方面:图像质量、深度质量和舒适度,可分为静态图片和活动序列两类。

静态图片采用单机双机位拍摄方法,对静物分别拍摄左眼通道和右眼通道图片,经过后期加工后,将素材图片制作成左右拼接格式(SBS),其图片像素分辨率为1 920×1080。主要考察电视显示的画面,在不同亮度背景下物体的立体感、物体的质感以及深度细腻、清晰程度等。活动序列的拍摄设备为松下AG-3DA1MC广播级集成式3D数字摄录一体机。采用双路HD-SDI无压缩采集设备录制,摄录一体机的双通道HD-SDI输出,从而生成无压缩左通道和右通道的AVI活动序列作为基础素材。测试素材序列采用左右拼接格式(SBS),视频格式为1 920×1 080/50i,拍摄时选取光圈值基本定为5.6。部分测试序列的简要说明如下:

1) 聚焦面和汇聚面在岸边芦苇处;画面上部边缘的树叶略微带有边框效应;游船匀速缓慢的由画面左侧运动到右侧,之后改变方向向远处行驶。素材侧重于考察立体显示器深度运动连续性,深度层次的展现,以及边框效应带来的舒适度影响,见图6a。

2) 街道上车辆、行人由远及近地快速运动,考察显示快速深度运动中现实的连续性,以及舒适度影响,见图6b。

3) 用于评价焦平面与汇聚面不重合时对舒适度影响的素材。焦平面固定在第3辆车处,汇聚面由第1辆车至第5辆车变化,调节深度范围约为10m,见图6c。

4) 用于评价焦平面与汇聚面不重合时对舒适度影响的素材。该素材汇聚面固定而焦平面变化,其汇聚面位于近处树叶,距离约为2 m,焦平面由2~20 m缓慢变化,见图6d。

 

7

a 测试序列1

7

b 测试序列2

8

c 测试序列3

1

d 测试序列4

图6 测试序列的素材图示              

本次评价共计11段节目,每段节目均对应不同的评价要素,如表2所示。

表2 评价要素

10

2.2 主观评价实施

本次试验共计3台样机,包括2台液晶电视和1台等离子电视。3D实现方式分别为偏光式和偏振式。每个评价员每次只观看1台样机。节目播放环节选用静态节目2段、动态节目9段,节目间用灰场隔开。节目可重复播放,每段节目的观看次数由评价员在观看时自行决定。评价员认为结果确定后进行打分,并简要总结该段节目的观看感受,再进行下一段节目的观看。

评估人员使用非连续五级量表分别进行图像质量、深度质量和视觉舒适度打分。质量标示为“优”、“良”、“中”、“差”、“劣”。舒适度标示包括:“非常舒适”,“舒适”,“轻度不舒适”,“不舒适”和“非常不舒适”。

2.3 数据处理和统计

针对每台样机的评价结果按“图像质量”、“深度质量”和“舒适度”分别进行统计,计算每台样机每个节目的平均分、标准偏差及95%置信区间。图像质量平均分、深度质量平均分和舒适度平均分分别见表3、表4和表5。

表3 图像质量平均分

                                                           a


表4 深度质量平均分

                                                           z


表5 舒适度平均分

                                                            qq

2.4 结果分析

从评价结果可以看出,样机1和样机2的图像质量基本相当,样机3的图像质量较差。因此,采用适当的评价方法可以比较出不同样机3D图像质量的差异。

在制作评价节目时,对评价要素进行了充分考虑,不同节目的评价要素分配有所侧重,试验中针对深度质量、舒适度和图像质量分别进行打分。评价结果表明图像质量结果与深度质量及舒适度结果有很强相关性。

评价员对3D图像评价的经验偏少,对同一节目中同一要素的反应有较大差别,打分差别较明显,95%置信区间较宽。样机的显示质量对评价员的影响很大,显示质量差的样机打分偏差更明显。“对焦点变化”主要用于评价舒适度,3台样机该节目平均分数均最低,分数离散度也最大,说明评价员对焦点变化最敏感,但个体感觉上的差别很大。

15,16,17号评价员年龄均在70岁以上,有多年从事电视产品主观评价的经验,但他们对3台3D电视不同节目的打分几乎无差别,表明年龄越大对3D图像的差别越不敏感。

3 结论与展望

根据此次主观评价实验结果分析可以得到一些有意义的结论:

1) 尽管当前我国还没有正式颁布的3D主观评价标准作为测试依据,相关人员仍可采用科学的评价标准,针对各种立体显示设备开展主观评价,从而得到其显示质量优劣的结论。

2) 图像显示深度的质量和人眼舒适度感受对总体评价结果有决定性影响,电视机生产企业应从这两方面入手改善显示质量,提高消费者满意度。

3) 为确保3D主观评价工作科学、公平、公正地开展,检测机构应先通过大量实验,严格筛选符合个人视力、年龄、健康等条件的评价员参与测试,提高评价员的技术水平,降低由于个人经验不足导致的结果偏差。

3D电视虽然经过多年发展,真正大量观赏3D电视节目的消费者并不多,广大观众对3D图像质量的认识并不完整,用于3D电视主观评价用的节目源有限,目前国内依据标准开展的3D电视主观评价还不多,评价员经验偏少,评价结果的准确性受到多方面影响。因此,虽然经过实践发现应用适当的方法可以对3D电视产品的图像质量进行比较,但是实验室间进行数据交换为时尚早。

 

 

 

该文已刊登在《电视技术》2014年第24期

订阅电话:010-59570227