黄惠兰
(广州航海学院图书馆,广东 广州 510725)
【摘要】大数据时代的到来,对我们的思维、工作方式都产生了重大的影响,图书馆学界也对大数据进行了广泛的研究和讨论,笔者先是概述了大数据的概念、理念、特征、应用,然后结合图书馆现状,指出图书馆在大数据时代面临的挑战,希望借此与同行进行进一步地探讨。
教育期刊网 http://www.jyqkw.com
关键词 大数据;图书馆;数据挖掘
0 引言
从全球知名咨询公司——美国麦肯锡咨询公司最早提出“大数据”的概念后,美国政府又在2012年2月宣布推出“大数据的研究和发展计划”[1],“大数据”时代正式开启,大数据已经成为最近几年来各行业研究的热点,图书馆学界也加入了这股热潮。尽管对于大数据这个名词大家已经耳熟能详,但还是引起了很多的困惑。笔者就大数据的概念、应用进行了一些梳理,结合目前图书馆界关于大数据的相关研究文献,提出了自己关于大数据时代图书馆的一些观点。
1大数据的概念
大数据并没有一个确切的、完整的定义,从提出这个概念以来,研究大数据的专家学者们就没有对这个概念达成过共识,基本上各人有各人的理解与定义。刚开始时,这个概念指的是需要处理的信息量太大了,已经超出了一般电脑能处理的数据量。大数据目前得到公认的是大数据的“4V”特性,Volume(大量)、Velocity(高速)、Variety(多样)、value(价值)[2]。其中Volume指收集和分析的数据量巨大,从TB级别上升到PB级别;velocity指数据处理速度要足够快,与传统的数据挖掘技术有着本质的区别;Value指数据中蕴含着潜在的价值转化,虽然大量的数据表现出价值密度低的特点,但只要有足够的技术储备,合理的利用数据,对数据进行准确的挖掘、分析,可以带来很高的价值回报;variety指数据类型多样复杂,这些数据不单包括传统数据库表格整齐排列的结构化数据,更多是视频、音频、图像、电子邮件、即时通信工具、微博、社交网络等以非结构化文本存储的数据。所以,有人总结大数据是“海量数据+复杂类型”的数据,包括分析、带宽、内容三个要素,其核心因素是蕴含价值[3]。
2 大数据的应用
维克托·迈尔·舍恩伯格在他的著作《大数据时代》中指出,大数据的核心是预测,它通常被认为是人工智能的一部分,但其实这是带有误导性的,相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。他在书中举例说明2009年甲型H1N1流感爆发的时候,谷歌公司通过人们在网络上的检索词用于一个特定的数学模型后,比疾控中心更有效、更及时的反应了流感爆发的情况。还有奥伦·埃齐奥尼(Oren Etzioni)建立的Farecast机票预测工具,到2012年为止,这个工具用了将近10万亿条价格记录,最终票价预测的准确度已经高达75%。还有Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量。他在书中的百般举例其实都是为了证明大数据的核心——预测。
3 大数据时代下的图书馆
图书馆历来作为储藏知识信息的场馆,随着近十几年来数字图书馆建设的步伐大大加快,图书馆所拥有的数据已经极其庞大并且数据类型也多种多样,特别是近年来,数据量增加的速度更是以前难以想象的,到今天图书馆已经基本上具备了大数据的特征。
3.1 图书馆学界目前对于大数据的研究现状
为了了解国内图书馆学界对于大数据的研究,笔者借助中国知网检索了图书馆学跟大数据相关的论文,在中国知网上按篇名,使用“大数据”、“图书馆”两个关键字(合并条件)进行检索,2011年是0条结果,2012年是4条结果,2013年度是58条结果,2014年迄今为止是173条结果。通过这些结果来看,大数据已经引起了我国图书馆界的专家学者们的重视,相关的研究正在飞速的发展。陆静在总结图书馆学界对于大数据研究的相关文章后总结出我国图书馆界大数据研究呈现的主要特点为:①论文数量呈逐年上升趋势。2011年以前主要研究的是计算机领域大数据量体系结构方面的内容,2012年专门研究大数据的文献开始出现,2013年激增;图书馆界发表文献也呈增长态势。②发表的论文主要集中在计算机类和管理类期刊。检索得知,刊载大数据研究论文的期刊大多集中在计算机类和管理类,近两年来图书情报学期刊也刊载有较多大数据的文章,反映出图书馆界借鉴大数据理论进行学科的交叉研究之趋势;其他刊物发文数量则较少。③研究视角多样化、研究的重点较突出。刊载在计算机类刊物上的论文主要侧重于大数据的技术架构和设计,而管理类刊物则侧重于大数据的理论探讨和现实借鉴等。④对大数据的应用实践研究不太重视。我国图书馆界重在对大数据的理论介绍,而忽视了大数据在图书馆的应用实践研究[4]。
3.2 大数据时代图书馆面临的挑战
在大数据时代,数据是基础,是大数据的矿产资源;思维是把矿产资源转化为财富的工具。笔者从这两方面来讨论图书馆面临的挑战。
3.2.1 数据挑战
巧妇难为无米之炊,大数据时代的基础是得有数据,如果解决在隐私方面交易数据存在的法理上风险,在未来数据可能成为很重要的交易商品。图书馆目前在数据的采集跟储存方面都存在挑战。
图书馆采集的数据主要包括馆藏知识数据、用户数据、工作数据三大类。馆藏知识数据包括书目数据、电子资源数据、自建数据库数据、视频和音频讲座等等,这一类的数据传统上属于图书馆的最重要的资源,一直以来都得到了各个馆的重视,得到了很好的保存。用户数据包括问卷调查和用户使用图书馆时产生的交互数据。在大数据时代需要的是全部样本数据,而不是抽样数据,所以传统的问卷调查数据已经不满足大数据的需求。用户交互的数据包括用户到馆使用图书馆资源时产生的交互信息和用户在网上访问图书馆系统时产生的交互信息,包括用户信息、借阅信息、咨询信息、查阅和下载的数据信息、用户访问的入口信息(网上访问时用户的地理位置、访问的途径、访问的设备)、RFID信息等等,这类信息在大数据时代已经成为了最重要的资源,它们是动态变化的;这类信息能真实的反映用户的对于知识信息的偏好、用户的需求,我们实时的关注分析这些信息就能及时的把握用户的需求,及时提供用户所需服务。但过去我们对于这类数据的采集是不够的,很多用户的交互数据根本就没有采集,或者采集了但没有得到很好的储存,比如用户的借阅信息、咨询信息、下载的数据信息可能随着图书馆系统的升级或者更换而丢失了。工作的数据可以从我们服务方被动的反映出用户的需求,但传统上很少有图书馆采集、存储、分析工作数据以用来提升我们的服务。图书馆目前并没有一个比较合适数据采集整合平台。
在数据存储方面,虽然经过十几年数字化图书馆的发展,图书馆的信息设备已经得到了完善,但在大数据时代数据量已经从TB跃升到了PB的规模,这要求图书馆拥有海量的数据存储系统。海量存储系统必须解决容量问题(存储容量必须足够大,并且要有简便快速的扩展能力、数据的吞吐能力)、成本问题、灵活性问题(大型的数据存储设施一旦建成投入使用后,基本上就没有调整的可能空间,这就要求设施必须能适应不同的应用场景)。海量的数据、繁杂的数据类型、高实时度的要求给图书馆的基础技术设备带极大的压力,目前图书馆在技术准备,基础设备的建设上还没有准备好迎接大数据时代的到来。
3.2.2 思维的挑战
数据本身只是蕴藏着价值,但数据的价值并不会自动体现出来,数据的价值在于将正确的信息在正确的时间交付到正确的人手中。探求数据的价值最终还是取决于把握数据的人,关键是(下转第145页)(上接第130页)要求把握数据的人需要有大数据思维。图书馆有没有大数据思维取决图书馆有没有大数据技术人才。大数据的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,大数据技术涉及到大规模并行处理(MPP)数据库、数据挖掘、非结构数据处理、分布式文件系统、分布式数据库、云计算平台、互联网、移动互联网和可扩展的存储系统一系列的技术。经过数字图书馆多年的发展,图书馆在数字化、信息化、结构化数据库管理等方面的人才培养取得了很不错的成效,但在大数据时代,上述有关大数据技术的人才却是相当的匮乏。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,图书馆目前在专业化处理这些庞大而繁杂的数据方面缺乏足够技术人才。
4 总结
近年来随着数字图书馆的建设步伐的加快,图书馆作为知识信息的集散地,已经采集了数量庞大、类型繁杂、高价值的数据,这些都构成了大数据时代图书馆的核心资产。图书馆学界也早已经提出了图书馆要从资源中心向以用户服务为驱动的服务模式转变,大数据时代的到来,给了图书馆真正转变服务模式的支点。大数据时代的大幕已经徐徐拉开,这带给了图书馆带来了创新发展的机遇,也带来了一系列前所未有的挑战。图书馆必须正确认识到大数据带来的环境改变,主动拥抱大数据,以大数据推动图书馆的创新和发展,利用大数据提升图书馆的服务能力,推动图书馆向前发展。
教育期刊网 http://www.jyqkw.com
参考文献
[1]许玲.大数据时代图书馆面临的挑战与对策思考[J].中共福建省委党校学报,2014(5):117-120.
[2]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2012(8):112-113.
[3][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:176.
[4]陆静.我国图书馆界大数据研究评述与展望[J].图书馆杂志,2014(1):20-25.
[责任编辑:汤静]