导航菜单

基于云计算的信息检索定位研究

摘要:随着云计算技术的飞速发展,海量信息分散存储在“云存储”结构中,由于数据源异构,在对其进行信息检索时易出现数据丢失或迷路现象。本文通过对异构数据进行分析,构建了一种云计算环境下的异构数据集成模型,共包括五个功能模块:云结构下的数据采集与分析接口、数据组织任务调度引擎、异构数据集成接口、云存储和资源管理和安全管理模块。本文还介绍了异构数据资源统一检索定位的常用技术,如并行检索技术、服务器集群检索技术、网页的深层挖掘技术和检索数据库共享技术。

关键词:异构数据;信息检索定位;搜索引擎;云计算

中图分类号:TP393文献标识码:A文章编号:1009-3044(2018)08-0210-02

1引言

云计算是近年来提出的一种计算模型,到目前为止,业界对云计算还没有统一的定义,常见的定义主要包括以下几种:

(1)维基百科的定义:云计算以服务的形式提供给用户IT相关的能力,允许用户在不了解服务所需的技术、无需知识背景和设备操作能力的基础上,通过互联网获取所需的服务。

(2)中国云计算网的定义:云计算是分布式计算、并行计算和网格计算的发展,换句话说,云计算是这些科学概念的商业化实现。

(3)文献通过综合分析,提出如下定义:云是一个资源池,包含了大量可用的虚拟资源,如硬件、I/O服务、开发平台等。这些虚拟资源可根据不同的负载进行动态重新配置,以达到更高的资源利用率。

根据以上定义,云计算技术的基本特征可以归纳如下:

(1)云计算系统提供服务:服务机制对用户是透明的,用户不需要了解云计算的具体机制,就可以获得所需的服务。

(2)通过冗余方式实现可靠性:云计算系统通过数据冗余和分布式存储方式确保数据的可靠性,而不需要特定的硬件组件的支持。

(3)高可用性:云计算可以提供高质量的服务,具有集成的海量存储和高性能的计算能力。云计算系统能够在不影响系统运行的情况下,自动检测故障节点并将其删除。

(4)高层次编程模型:云计算系统提供高层次的编程模型,用户仅通过简单的学习即可编写云计算程序,并在“云”系统上运行,以满足他们的需求,目前的云计算系统主要使用Map-Reduce模型。

(5)价格低廉:由大量商用计算机组成集群的成本远低于性能相同的超级计算机的成本。

(6)服务多样性:用户可以根据自己需求选择不同级别的服务,为其支付不同的费用。

2云计算对信息检索的影响

传统的搜索引擎存在着存储容量不足、计算能力有限、硬盘损坏或老化、服务器昂贵、维护成本高、故障检测速度慢等问题,“云计算”的出现改变了互联网的服务模式,也给信息检索技术带来了巨大的变化。云计算平台将单个服务器连接成一个“云”,每个服务器成为云中的一个节点,从而形成了检索成本低、检索速度快、信息资源利用率高的信息检索系统。

云计算技术对信息检索的影响主要表现在检索模式和存储模式两个方面:

2.1检索模式的改变

传统的信息检索主要采用集中式串行检索模式,检索系统覆盖范围有限,检索效率较低,且一旦在某些环节出现差错就会影响整个检索过程和结果。云计算技术应用了分布式并行计算模式,连接了地理分散、完成特定功能的子系统,系统中的每个节点都可以是并行计算机。信息检索由多台服务器并行执行,大大提高了运算速度,可以处理海量数据。

2.2存储模式的改变

云计算应用“云存储”模式,收集网络中的存储设备并通过应用软件协同工作,提供了数据存储和业务访问功能。云存储由存储层、管理层、应用接口层和访问层构成,将以往孤立的存储方式转变为集中管理。以前的数据主要存储在信息提供者的服务器上,而云存储提供商则向集中数据中心的用户提供数据存储服务,用户可以通过终端软件访问存储数据。由于数据源异构,在对其进行信息检索时易出现数据丢失或迷路现象。针对这一问题,本文构建了云计算环境下异构数据集成模型,提出了异构数据资源统一检索常用技术。

3云计算环境下的异构数据集模型

本文提出的异构数据集成模型可以智能地集成各种关系型和非关系型异构数据,满足海量数据并发性高、工作量大、速度快等查询要求。该系統模型共包括五个功能模块,逻辑框架如图1所示。

3.1云结构下的数据采集与分析接口

云结构下的数据采集和分析接口是该模型统一的内部调用接口,实现用户查询请求分析和结果显示。对于分布式数据库、传统的关系数据库和NoSQL数据库系统,该模型支持统一定制查询请求以满足不同类型的数据查询需求。用户可以通过自定义shell接口和标准SQL接口提交用户数据来访问并分析请求。通过统一接口调用请求描述、解释命令、重写查询请求、调用下层异构数据集成接口,最后返回用户所需的数据并得到分析结果。这一模块的关键技术是云计算环境下的自定义数据采集与分析命令解释模块。

3.2数据组织任务调度引擎

该模块实现上层数据获取与用户查询任务相关的逻辑操作,分为查询任务管理和查询用户管理两个模块,该引擎调用下层异构数据集成接口,对子任务集进行数据查询和处理,通过数据采集、分析控制用户管理模块、分析任务管理模块监控用户的运行和状态管理模块。

3.3异构数据集成接口

该模块用于异构数据集成,是整个模型的核心,它将上层分布式数据采集和分析执行引擎的原子操作(包括数据源、操作和访问数据)执行到存储引擎服务接口,并整合各种异构数据语义映射到异构数据,将结果返回上层。该模块的关键技术是异构数据的语义映射集成、异构数据格式的集成和异构数据的结果集成。

3.4云存储和资源管理

该模块是整个模型的基础,为云计算环境下的数据和资源管理技术提供灵活的数据存储、管理和系统资源配置技术,具有高并发性、高工作负载、海量数据存储和查询功能。它为分布式数据库、传统的关系数据库和NoSQL数据库系统提供了统一的服务管理和数据访问功能,实现对其他层的调用。这模块的关键技术是云计算的元数据和服务管理技术。

3.5安全管理模块

这一模块确保系统的安全服务,实现授权管理、用户认证和日志管理等功能。

4基于异构数据资源的统一检索常用技术

异构数据资源通过整合数据库通用过程提供用户检索结果,降低检索时间,提高检索精度。常用的统一检索定位技术包括:

4.1并行检索技术

并行检索应考虑多用户检索和用户同时检索几个数据库的场景,一般应用多线程技术:

(1)对于多用户检索场景,根据请求的任务分配机制,将每个用户的检索任务分配给一个线程,该任务分配机制需考虑服务器的负载平衡,控制线程数量。

(2)对于用户检索多个数据库场景,根据检索数据库分配机制,为用户每次检索请求创建一个数据库检索线程,提高检索速度。

4.2服务器集群检索技术

由于网络带宽所限,某些用户访问Web的检索请求可能失败,会给服务器带来很大压力。因此,应用多服务器共享服务器的压力,可提高检索并发性。在服务器集群检索技术的设计中需要考虑两点:

(1)检索服务器的分布:检索服务器可以分布在任何连接到互联网的服务器上,并公布配置参数和数据库配置文件。考虑到数据统一性和维护方便性,所有检索服务器的临时数据库最终指向同一数据库服务器。

(2)提交Web服务器的用户检索请求:系统中有很多服务器,为了更好地利用系统资源,Web将检索请求提交给占用最少的服务器,以实现工作负载平衡。

基于这些考虑设计的服务器集群检索技术能够极大地提高系统稳定性,特别是随着检索服务器的增加,并发性大大增加,服务器集群检索优势更为显著。

4.3网页的深层挖掘技术

网页的深层挖掘技术是从海量数据中挖掘隐藏的规则内容,解决数据应用中的质量问题。异构数据资源统一检索系统是从不同的Web服务器获取相应的数据,主要通过模拟操作实现日志检索和数据提取。该系统主要通过微软IE内核库文件实现,包括WebBrowser对象、MSHTML对象和配置文件。

4.4检索数据库共享技术

资源共享可以最大限度地减少管理员的重复性和难度。一方面,由于不同的组织可能具有相同的资源,在定义数据库模板之后,其他用户可以使用此模板添加相同的数据库,这样管理员只需導人一个SDA文件,不需要太多的重复工作。另一方面,数据库配置的配置是专业的,系统管理员很难配置数据库。因此简化管理员的工作成为一项紧迫的任务。一般来说,配置手动定义一个数据库,生成为SDA文件URS管理平台,发布在公共网站上下载或直接发送给用户,让用户添加数据操作更加准确、简单。

5结论

本文讨论了云计算环境下的信息检索定位技术,具有许多明显的优点:

(1)成本低:基于云计算的信息检索将数据管理任务分配给特定的数据管理中心,减少了硬件和软件的输入,从而降低了成本。

(2)可用资源多:不同的检索提供者将其数据源放入统一的云数据中心,通过协作和资源共享,使可用资源成倍增加。

(3)检索速度快:云计算应用分布并行技术,解决了CPU速度受限问题,显著提高了信息检索速度。

然而,该技术在云安全、知识产权、用户认证和可靠性等关键问题上还存在一些亟待解决的问题。

作者:沈夏添

下载文本