导航菜单

大数据技术在新媒体产业中的应用

孟肖虎

(中国电力传媒集团有限公司,中国 北京 100070)

【摘要】大数据采集与分析系统采用云计算架构设计,采集互联网海量信息,为媒体信息收集工作、内容制作、深度研究类刊物以及手机APP、微博、微信等移动端口提供大数据服务,成为行业内媒体融合的催化剂,为传媒行业的发展提供了有力保障。

教育期刊网 http://www.jyqkw.com
关键词 媒体融合;大数据;云计算;中文信息处理

0 概述

近些年部分传媒企业本着为目标受众提供权威信息资讯的目标,并进一步推进媒体融合,着手建设大数据采集与分析系统,本文根据笔者在中国电力传媒集团从事相关工作多年的经验,对大数据技术在新媒体产业中的应用进行简要讨论。

媒体的大数据系统要具有信息采集的功能,根据用途的不同,设计系统的日信息处理量,以及爬虫的采集列表,系统需要具备中文信息处理功能,对信息进行过滤、去重、相似性聚类、情感分析、文摘、自动分类等处理。

系统基于云计算架构进行设计,硬件以多台服务器虚拟成一个集群,以集群为单位进行无限扩容。软件总体设计模块化,以功能模块为单位进行程序编码。编码过程采用主程序、子程序等框架将系统的主要结构和流程进行描述,并定义和调试各个框架之间的输入、输出链接关系,形成一系列以功能模块为单位的算法描述。模块化设计使系统的部署、调试和维护等操作规范化。即使某一个模块发生故障,也不影响到其他模块的正常工作,不会造成整个系统的瘫痪,确保在多种情况下系统的正常运行。

系统可以为企业信息收集、报纸内容、研究类刊物以及手机APP、微博、微信等移动终端提供大数据服务,成为媒体融合的底层平台基础。同时,客观上也是主动推进传媒企业在内容、平台、渠道、经营、管理上进行融合发展的催化剂,为新媒体工作的创新发展提供了有力保障。

1 系统设计

系统由多个服务器集群构成,每个集群功能配置完全一致,单一集群由数据采集服务器群以及数据分析服务器组成,其中,数据采集服务器群由多台服务器组成,由一台调度服务器进行任务分配,整个系统实现了云采集功能。根据数据采集量可增减采集服务器的数量以及相应的带宽。系统在设计之初,为了避免原文被删除的情况,增加了快照功能,更好的协助用户还原信息原貌,但是随之而来的是需要大量的存储设备予以支持。

数据采集服务器群中,安装了多个不同性质的爬虫,对于大多数新闻网站,采集爬虫遵循广度优先原则,这样的采集策略需要较长时间与更多资源,为了合理的控制爬虫资源,采集系统将不同网站付以权重,权重高的相应采集频率会随之增高。针对贴吧以及BBS则需要选择高效率的采集策略,以免多次频繁的采集行为被目标网站视为攻击行为,而被禁止访问,所以采用定向抓取以及聚焦抓取的策略,通过URL分析,可以判断出网页是否属于特的特定的BBS论坛或者贴吧,在针对单个BBS论坛或贴吧的采集过程中,爬虫只采集与目标有关的链接,舍弃不相关的链接,只有符合采集条件的URL才进行保留。

微博信息由于数据量大,API数据接口需要申请,采集难度大。通过对系统爬虫的召回率以及虚拟账号数量等指标进行调整,比较有效的规避了数据读取量限制的天花板,在教育期刊网 http://www.jyqkw.com
关键词 配置合理的情况下,采集效果良好。由于微博有140字的字数限制,而且多是口语或者流行语,利用向量空间模型(Vector Space Model,简称VSM),计算文本的空间向量夹角余弦,试验性的获取热点信息,但准确率并不高。因此,系统利用TF-IDF(Term Frequency-Inverse Document Frequency)权重计算相结合的方法。在通过教育期刊网 http://www.jyqkw.com
关键词 采集得到微博信息后,微博信息分析模块中的情感判断模块,负面信息过滤出来。

对于BBS的信息采集与网页采集有所不同,网页采集的爬虫遵循广度优先的原则,抓取范围广,采集时间长。BBS采集爬虫选择高效率的抓取策略,收录各大论坛的网页内容,采用定向抓取以及聚焦抓取的策略。

采用以上介绍的方式进行数据采集,对没有收录入列表的信息,利用教育期刊网 http://www.jyqkw.com
关键词 法进行搜索引擎补充,目前补充的搜索引擎有百度、谷歌、搜狗、搜搜等国内外各大知名搜索引擎。采集下来的数据进行分词、聚类、分类以及情感判断等处理,最终系统以文字以配合统计图形的形式进行呈现。

2 媒体融合新思路

基于媒体融合的理念,建议采取系统应用逐步升级的三步走战略。

第一步,单一集群,小范围采集。这一阶段只建设一个计算机集群,系统收录少量站点,初步满足了信息采集以及数据处理的工作需要。

第二步,数据积累,系统升级。在积累了一定的数据之后,系统可以利用大数据技术,对海量数据进行分类、聚类等一系列分析处理,形成长期趋势,可以作为数据分析的样本进行二次加工,形成具有价值的独家数据源。通过一段时间的使用,针对系统进行二次升级以及维护,增加一个计算机集群,将收录站点进行扩容。

第三步,全面升级,实现媒体融合。在这一阶段,系统需要达到对全产业链进行服务的要求,实现媒体融合,对系统进行全面升级,重点对视频网站,外文网站数据的采集进行攻关,采集站点二次扩容。为报纸、期刊等多个产品提供数据支持,并且为网络电视台以及手机APP提供数据源以及信息反馈,在内容、渠道、平台等方面初步实现媒体融合。

3 结束语

大数据技术的应用在媒体融合发展过程中取得了良好的成效,同时新媒体事业的快速发展,以及衍生而来的研究咨询、舆情监测、新媒体矩阵等产品是新媒体业务的重要创新。作为媒体融合的核心组成部分,利用大数据、云计算、移动互联网等前沿技术,有效促进了官方媒体舆论场、网民舆论场的横向沟通,为实现媒体可持续健康发展营造良好的舆论环境并提供权威的信息资讯支持。以大数据技术为基础,以媒体融合为蓝图,创新而来的系列产品与服务受到了广大受众的广泛认可与好评,已经成为传媒行业业务新的增长点,未来伴随互联网产业持续发展,媒体融合还会不断深化,相关产品与服务将进入新一轮的高速发展。

教育期刊网 http://www.jyqkw.com
参考文献

[1]李彪.舆情之山雨欲来[M].人民日报出版社,2010.

[2]陆小华.再造传媒[M].中信出版社,2012.

[责任编辑:薛俊歌]

下载文本