学术交流
当前位置:

面向小区生活服务的广电大数据应用的研究

2015-03-12 21:42 来源:电视技术

责编:陈默

【原编者按】随着互联网经济的进一步发展,互联网思维充斥着整个社会,许多传统行业都或多或少地采取了战略转型。在今天推出的文章中,珠江数码利用广电内部数据及互联网数据,建立面向小区生活服务的广电大数据平台,形成广电小区生活服务综合知识库与广电行业视频服务综合知识库,指导传统广电网络行业的新业务选型、落地实施以及业务推广铺开,形成可复制的小区生活服务商业模式,实现对业务转型的支撑,为国内同行应对市场挑战、实现传统广电业务向小区生活服务转型提供参考借鉴。


面向小区生活服务的广电大数据应用的研究

亮 广州珠江数码集团有限公司广州珠江数字电视及数字家庭技术应用研究院有限公司

随着互联网经济的进一步发展,互联网思维充斥着整个社会,许多传统行业都或多或少地采取了战略转型,珠江数码也面临着巨大的生存压力。对于广电网络而言,一般存在两种论调,一种是保持原有核心业务,在此基础上发展增值业务,即集中在各类多媒体终端上实现新的业务,如电商、游戏、广告推送等,可以总结为Online。第二种是跨行业转型,利用广电网络现有资源,整合各类商家资源,通过合作经营,选择适合自己发展的核心产品,最终实现跨行业战略转型,可以总结为Offline。对于第一种方案,相对保守且稳妥,解决方案相对较多,这里主要对第二种方案进行研究。

2014年,珠江数码提出了向儿童教育行业转型的整体解决方案,主要是通过整合有线电视丰富的楼盘和小区物业资源,选择适合的儿童教育产品进驻,打造自己的儿童教育品牌“甜果屋”,实现有线电视线下儿童教育服务。本文就如何利用有线电视数据,建立面向社区综合服务的广电大数据平台,实现预测、指导线下产品选型、建立、运营做了初步的论述。

1 业务需求

整合广电自有数据与社会化数据,利用实时计算技术,融合存储和实时、离线分析挖掘,创建“两库一系统”,即新型的广州小区生活服务综合知识库、新型的广电行业视频节目综合知识库以及小区生活服务综合数据应用系统,打造面向小区生活服务的广电大数据平台,实现以大数据指导广电运营商开展小区生活类服务和改善业务体验,输出相关标准2项。

大数据挖掘分析,是围绕着广电网络从传统广电业务向小区生活服务的转型,建立面向小区生活服务的广电大数据平台,利用大数据指导广电网络的新业务选型、落地实施以及业务推广铺开,形成可复制的小区生活服务商业模式,实现对业务转型的支撑,为国内同行应对市场挑战、实现业务转型提供参考借鉴(见图1)。

 

1

 

1 广电大数据支撑业务转型示意图

2 大数据组织和存储

采集和梳理来自企业内的多种形式海量数据,并根据业务需要引入社会数据,有效组织和存储大数据基础数据资源,拟形成如表1所示总量超过1 Pbyte的多种类型数据。

1 部分数据类型说明

 

2

 

3 建立一个面向小区生活服务的广电大数据平台

在以上大数据的有效组织和存储的基础上,建立一个面向小区生活服务的广电大数据平台,该平台内容包括两个综合知识库和一个综合数据应用系统。

3.1 广州小区生活服务综合知识库

通过对以上数据的智能识别、处理和推理,形成一个以小区为纬度的覆盖广州全市的小区生活服务综合知识库,能够实时更新、在线快速分析小区生活信息,并结合GIS系统动态可视化展示,主要数据包括:

1 小区的属性数据,包括小区名称、地址、总户数、入住率、平均单价、平均面积等。

2 小区周边交通设施数据,包括周边交通站点、地址、距离、途经公交和地铁线路,周边停车位数据等。

3 小区周边服务机构分布数据,包括机构名称、地址、性质和等级、客户数量等。

4 小区周边各类商铺分布数据,包括商铺名称、地址、开业时间、顾客规模、服务报价、人员水平及销售薪酬、综合评分等。

5 小区用户属性数据,包括姓名、住址、年龄、手机号码、籍贯、产权、房屋价值、报装时间、报装业务、消费能力等级、节目偏好、儿童数量估算、儿童年龄段估算等。

本知识库将根据业务需求增加多种数据指标并不断引入社会数据进行扩充,拟通过对本知识库的运用,可以达到快速提炼和获知具有高度价值信息的目的,从而把传统线下调查方式需花费30天的工作量大幅缩短到1分钟以内,且大幅节约所需投入的人力物力资源。

在不涉及隐私的前提下,本知识库的部分内容将以APISDKWeb服务等接口和方式对社会公众和企业开放,以推动新产业的快速发展,促进广州社区服务的全面提升。

3.2 广电行业视频节目综合知识库

运用对视频、图片、文本、表格等多形式的非结构数据管理与检索技术,在媒体领域突破知识表示、识别和推理的技术难关,形成一个国内首创的广电行业视频节目综合知识库,并能够与直播电视节目实时同步和更新。

该知识库以涵盖电视剧、电影、综艺节目、广告等的视频节目为纬度,以覆盖广州全市的全样本收视行为数据为基础,以大数据智能处理为技术手段,能够精确获取广州地区播出节目的综合信息,并即时归纳出影响该节目收视的主要因素,主要数据包括:10万个以上视频节目的属性数据,包括节目名称、内容、类型、导演、主演/主持/嘉宾、制作单位、播放时间等;1 000万条以上视频节目的收视行为数据,包括视频切片、到达率、受众区域、年龄段估算、收视时间段、收视热值等。

10亿条以上视频节目的互联网行为数据,包括网络评论等级、评论内容要素、与节目相关的受众上网浏览网址记录、搜索记录及时间段等。

2 000万条以上网址库,包括网址URL、一级分类、二级分类等。

1 000万条以上视频节目要素分析数据,包括同一制作单位/同一导演/同一主演/同一嘉宾的节目名称、收视总热值、受众区域分布、网络评论等级等。

通过对本知识库的运用,不但可以推理、预测新节目和广告的收视情况,而且可以准确了解用户真正的兴趣点,从而为新业务运营、新节目制作、广告投放以及宏观层面的文化热点监测和引导等方面提供决策依据。

在不涉及隐私的前提下,本知识库的部分内容将以APISDKWeb服务等接口和方式对社会公众和企业开放,以促进传统媒体行业的升级转型和更好发展。

3.3 小区生活服务综合数据应用系统

基于以上两个知识库,综合其他运营系统和数据,建立小区生活服务综合数据应用系统,支撑小区生活服务业务的具体运营。本系统以业务为纬度,整合和处理业务运作中的收视行为、上网行为、客户现场行为、消费、营销等相关数据,打通业务运营的各个环节,为业务运营提供精准的数据支撑。

本系统将提供查询、检索、自定义分析、可视化展示、应用接口等功能,拟建立用户画像、区域用户偏好指数仪表盘、区域用户偏好变化趋势仪表盘、准实时收视地图、区域用户对某一业务的消费力指数仪表盘、竞争对手虚拟经营地图等内容。

通过该系统,拟实现电视频道上播出某节目时,运营商可以快速分析出该节目的到达率和受众分布及受众特点,结合外部数据了解其后续的评论、消费行为等,从而真实地掌握节目的真实效果。与此同时,通过受众分布和特点,可以挖掘用户需求,为小区生活服务决策和精准营销提供精准的数据支持。

4 大数据平台辅助开展小区生活服务

基于上述的小区生活服务综合数据应用系统,本项目可以为小区生活服务的运营决策和精准营销提供精准的数据支持。

本项目拟从儿童教育业务切入,计划在项目期内完成儿童教育小区生活服务的商业模式研究、小区场地选点建设以及业务推广营销(见图2),研究成果(新业务选型标准、落地方案、商业模式)具有可复制性,可以根据拟开展新业务特性进行调整,继而推广和复制到小区生活服务的多个领域,诸如医疗保健、美容、装修等。

 

2

 

2 拟开展的小区生活服务(儿童教育业务)示意图

在开展儿童教育业务的过程中,拟实现以下功能:1)当有意向在某小区设点开展业务时,只需输入该小区地址,本系统将在1 min内计算并输出该小区的周边交通设施情况、学校分布数据、目标客户量、目标客户预计儿童数量和年龄段、目标客户可接受业务价格范围、竞争对手分布及运营指标等数据,并给出对该小区的综合评分,从而快速有效地辅助相关决策。2)当要开设一个新的英语辅导课程时,本系统可以在5 min内输出在目标客户中经常观看英语教育节目或订购相关业务的数据及分布情况,以及这些节目受欢迎的主要因素(譬如讲师或主持人个人因素、语言风格、英语接受难度、游戏占比等),从而为课程的选点开设、营销以及课程设计等提供决策依据。同时根据业务开展情况,逐步建立不同节目收视率与特定业务之间的影响因子。

5 标准制定

5.1 面向小区服务的广电基础数据标准体系

目前国内面向小区服务的广电基础数据体系仍处于空白,本体系是涵盖小区服务各个领域(包括商业与非商业),从广电特有数据出发,融入互联网、移动互联网、政府单位及相关企业的数据,计划最终形成一套创新性强、可扩展度高、覆盖范围广的数据标准体系,能够为全国广电行业企业的创新和转型提供规范的数据标准和参考。

5.2 视频节目大数据应用标准

当前国内广电行业对于视频节目数据的建立和输出仍比较单一、薄弱,方式方法多年来没有改变,只是简单的描述和单向的传播,无法做到对节目的全面跟踪分析和双向互动。互联网的日益普及和大数据技术的兴起,让上述问题有了切实的解决方法。

运用大数据技术,基于广电行业节目综合知识库,本项目计划建立面向广电行业的视频节目大数据应用标准,包括元数据标准、节目分类标准、收视行为分析标准、视频切片分析标准、互联网网址分类标准、网络评论分析标准以及相应的技术平台标准和应用接口标准等。

通过本标准的建立,革新了传统的视频节目数据建立方式和应用方式,从内容上真正建立了“运营商——用户”的双向互动交流机制,将对我国广电行业的发展具有深远的影响和积极的意义。

6 系统架构设计

面向小区生活服务的广电大数据平台的整体架构如图3所示,整个系统按照技术实现分为多维数据源、数据预处理、大数据支撑平台、业务应用4个层次,突破对广电行业不同类型数据的增量采集、分布存储、实时处理、全景展示、精准分析等关键技术,在此基础上创建新型的广州小区生活服务综合知识库、广电行业视频节目综合知识库。

 

1

 

3 面向小区生活服务的广电大数据平台架构图

6.1 面向小区生活服务的广电大数据平台系统需求分析

由于本项目是基于多维数据源开展的大数据挖掘分析与应用,因此多维数据源包括广电自有数据和社会化数据两类,其中广电自有数据主要是从广电现有业务系统中的应用数据和运行系统日志中获取,社会化数据包括社会交换数据和互联网数据。

数据的预处理实现对不同数据源、不同系统、不同类型的数据的抽取、转换等处理,并将这些数据批量加载到统一的大数据存储和分析挖掘平台,必须突破对数据的增量抽取和高速写入,支持对各类新增数据源和预处理模式的业务扩展。

大数据支撑平台即新型的广州小区生活服务综合知识库、广电行业视频节目综合知识库。该平台采用业内主流的无共享分布式集群架构,通过对关系型数据库和Hadoop系统等统一存储管理和数据处理,实现对结构化数据和非结构化数据的统一存储和处理,支持海量数据的实时处理和离线处理的模式,提供高效的数据存取和分析处理能力。大数据支撑平台通过并行分析处理引擎,实现用户行为画像、热点分析、趋势分析和用户自定义分析模式,提供统一的数据访问接口(包括统一的类SQL请求描述、查询和检索接口和基于Web的图形化管理接口),对外支撑自营业务优化和创新业务建设。大数据支撑平台将支持系统规模的动态扩展,实现对用户自定义的广电数据处理模式的扩展,数据存储容量的扩展,以及分析挖掘等计算能力的扩展。

广电大数据应用包括自营业务和创新业务两类,其中主营业务包括营销管理、运维管理、客户管理、产品管理等现有的业务,通过大数据分析挖掘技术,实现对主营业务的优化。创新业务即小区生活服务综合数据应用系统,主要包括儿童教育、美容美发、家居装修、医疗保健。

6.2 平台系统的架构设计、数据设计、子系统及其接口设计

采用软件工程原理和设计方法,强调广电大数据平台开发过程的整体性、全局性、开放性和标准化,在整体优化的前提下来考虑具体的分析设计问题。对系统进行详细的调查和分析,做出统一的规划,重视系统数据的完整性、标准化、系统化、精细化建设,不允许子系统各自为政地开发。在系统的设计和开发过程中,广泛采用国际通用的标准和协议,完成平台系统的架构设计、数据设计、子系统及其接口设计任务。

6.3 面向小区生活服务的广电大数据平台系统的开发实现

实现系统的高内聚、低耦合的设计,将程序功能进行详细划分和定位,在原有的3层架构的基础上,拟扩充更多层,包括业务应用层、大数据支撑平台(层)、数据预处理层、多维数据源层,使系统层的分工更加清晰,层内部封装的功能更加具体,程序更加稳固可靠,可配置性和替换性更强,层与层之间的依赖关系更合理。

层与层之间通过接口建立面向抽象的依赖关系,调用和传输对象格式通过公用实体库进行统一管理。在特定的层上面进行权限管理,将层安装在不同的服务器上进行负载均衡。

数据库采用日志备份和完全备份交错进行,本地备份和异地备份同时保存的方式,以便在无可预料的天灾人祸出现时,能够及时保护数据,将数据恢复到精确的时间点,快速还原系统,恢复运行。

6.4 面向小区生活服务的广电大数据平台系统测试

考虑到要评估和改进系统的性能指标,对于广电大数据平台系统测试,拟采用黑盒测试和白盒测试相结合进行。白盒测试主要是自顶向下分解各个子模块,细化到每个功能。采用功能测试工具对广电大数据平台系统进行系统验证;对于黑盒测试,考虑到本平台面向的广电用户群体的特性,将主要采用压力测试,包括并发性能测试、疲劳强度测试以及大数据量测试3个方面。通过上述3种测试来检验面向小区生活服务的广电大数据平台系统负载承受力等指标。

7 小结

在乐视、爱奇异等互联网内容提供商虎视眈眈的大形势下,广电网络感到前所未有的危机感。盲目转型,只会带来更大的损失,如何利用好互联网思维,如何利用好大数据,如何让广电网络在激烈的市场竞争中屹立不倒,值得认真思考。珠江数码通过建立自己的大数据平台,形成面向小区生活服务的标准化大数据体系,指导企业跨行业转型,是一种新的尝试,希望能给国内同行提供借鉴。


 

该文已刊登在《电视技术》2015年第4期

订阅电话:010-59570227