导航菜单

机器学习算法在数据挖掘中的应用

陈小燕(江苏农林职业技术学院,江苏句容212400)

摘要:针对数据挖掘算法中常用的机器学习型算法进行研究。机器学习型算法特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式。以机器学习型算法中的人工神经网络为例研究数据挖掘技术,针对学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点和传统的遗传算法存在算法早熟以及局部寻优能力弱等问题,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型。最后通过煤矿空压机故障诊断系统这一实例来研究改进型算法的数据挖掘技术的性能。研究结果表明,改进后的算法建立的诊断模型相比常规神经网络的诊断模型诊断准确率更好,诊断效率更快。

教育期刊网 http://www.jyqkw.com
关键词 :数据挖掘;BP神经网络;遗传优化算法;空压机故障诊断

中图分类号:TN957.52+9?34;TP274 文献标识码:A 文章编号:1004?373X(2015)20?0011?04

Application of machine learning algorithm in data mining

CHEN Xiaoyan

(Jiangsu Polytechnic College of Agricultural and Forestry,Jurong 212400,China)

Abstract:The machine learning algorithm commonly used in data mining algorithm is studied in this paper. AIT(artificialintelligence technology) is adopted in machine learning algorithm,which can automatically find out the parameters and modesrequired by operation after a large number of sample set training and learning. The artificial neural network in machine learningalgorithm is taken as an example to research the data mining technology. Since the traditional genetic algorithm has the short?comings of prematurity and weak local optimizing capacity,the improved genetic optimization BP neural network model is pro?posed by improving the chromosome structure and genetic operator,and by introducing adaptive crossover and mutation probabilityto optimize neural network structure parameters and solve the problems of slow learning speed,weak anti?jamming capability,and easily falling into local minimum value. Finally,the performance of the improved algorithm is studied by using the fault di?agnosis system of air compressor. The research results show that the improved diagnostic model,compared with the conventionalneural network diagnosis model,has better diagnostic accuracy and higher diagnostic efficiency.

Keywords:data mining;BP neural network;genetic optimization algorithm;fault diagnosis of air compressor

0 引言

数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生。随着信息化技术的不断普及,人类社会逐步进入到信息化社会中,信息化管理技术随之不断提升,成本却同时逐步下降,数据管理技术(Data Management Technology)在各企事业单位中进一步普及,从而推动企事业单位内部职能部门间的沟通联络。但是,随之而来的弊病是海量数据的累积导致数据分析的困难[1?2]。

1 数据挖掘

数据挖掘算法中常用的有机器学习型算法和统计型算法两类。前者的特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式;后者则常用相关性分析、聚类分析、概率和判别分析等进行运算。不同算法当然有着各自不同的对应领域和目标,它们既能单独使用,也能相互结合。

机器学习型算法中人工神经网络方法被普遍运用,它具有极好的数据处理能力和自组织学习能力,并且能准确进行识别,从而有助于分类问题中的数据处理。人工神经网络通过建构模型而工作,其模型多样,能满足不同需求。总体来看,人工神经网络模型精确度高、鲁棒性好,具有较强描述能力,在应用时可以无需专家支持。当然,它也存在一些缺陷,具体表现在:训练数据所需要的时间较长;对所获取知识的理解上不够智能;开放性和可伸缩性也有一定局限性。

传统的BP神精网络存在学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点,而传统的遗传算法存在算法早熟以及局部寻优能力弱等问题;所以本文提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型[3?4]。

2 改进型GA?BP 神经网络

本文为了提高BP神经网络的性能,针对常规遗传算法的染色体结构和遗传算子进行改进。引入自适应交叉、变异概率以平衡优化BP神经网络的结构和初始权重。

(1)染色体结构设计。本文将染色体基因结构分为上下两层结构,分别为控制基因和参数基因两层,从而对常规的遗传算法优化BP神经网络模型进行改进。处于上层的控制基因通过对BP神经网络的隐含层节点数优化从而实现对BP神经网络结构的优化。处于下层的参数基因主要对BP神经网络的连接权值和阈值进行优化。

(2)设计适应度函数。本文将适应度函数表示为:

式中:n 为训练样本个数; 是训练数据的均方根误差,处于0~1之间;yi 和y?i 分别是实际值和识别值。(3)算子选择。本文提出的改进型遗传优化BP神经网络算法使用最优个体保留方法实现算子选取以常规的适应值比例算法选取方法引起的局部最小值等问题[5]。(4)交叉、变异算子。本文提出的改进型遗传优化BP神经网络算法的上层控制基因采用单点交叉和基本位变异算子,下层的参数基因使用整体算数交叉和非一致变异算子。

(5)自适应交叉、变异概率。本文通过对自适应交叉、变异概率进行设计以平衡优化BP神经网络的结构和初始权重,具体设计过程如下,设定自适应交叉概率为:

式中:favr ,fmin 及fc 分别是种群的平均适应值、最小适应值以及交叉个体偏小的适应值;k1 ,k2 通常在1.0上下取值。设定自适应变异概率为:

式中:fm 是等待变异的个体适应值;k3 ,k4 通常在0.5上下取值[5?7]。

本文提出的改进型遗传优化BP神经网络算法的实施步骤如下:

Step1:采集并归一化处理数据。将处理好后的数据分为训练样本数据和测试样本数据两大类。

Step2:对遗传优化算法模型的基本参数,如进化最大代数为G ,种群的规模N 以及隐含层节点数等进行设定。

Step3:对种群上层种群个体使用二进制编码,对种群下层种群个体使用实数编码。

Step4:对种群各个个体解码以确定BP神经网络的结构参数。

Step5:遗传操作种群中适应度优异的个体。

Step6:对种群中遗传个体使用自适应概率进行交叉、变异操作,获得新的子群。

Step7:对上下层的子群个体解码以对BP神经网络隐含层节点数、权值和阈值等结构参数进行更新。

Step8:如果迭代步数达到设定最大值或者最佳个体适应度值满足要求,进入下一步,否则从Step5继续循环。

Step9:对适应值最佳的个体进行解码以确定最佳的BP神经网络隐含层节点数、阈值和连接权值等参数[8]。

3 数据挖掘应用实例

本文以煤矿空压机的故障诊断系统为实例,对提出的基于改进型GA?BP神经网络的数据挖掘模型进行研究。

3.1 煤矿空压机故障诊断系统

在建立空压机故障诊断模型之前,首先要通过查阅大量的空压机使用说明、故障说明、专家、操作人员的现场使用经验以及集合现在实时监测数据对空压机故障类型、故障来源等问题进行归纳总结。

以某煤矿的煤矿空压机故障诊断系统为例进行研究。通过经验及现场数据对煤矿空压机归纳出5种工作状态,用符号Y1~Y5表示,即为神经网络故障诊断模型的输出。Y1~Y5 分别表示:煤矿空压机为无故障工作状态;煤矿空压机冷却水系统出现故障的工作状态;煤矿空压机润滑系统出现故障的工作状态;煤矿空压机轴承出现故障的工作状态;煤矿空压机电路系统出现故障的工作状态。

当煤矿空压机出现上述故障情况时,会有相应的故障征兆,根据经验及文献可以将煤矿空压机的故障征兆或者故障现象归纳为10种,用符号X1~X10表示,即为神经网络故障诊断模型的输入。X1~X10分别表示:煤矿空压机排气量过低、空压机排气压力不足、空压机排气温度超限、空压机冷却水温度超限、空压机冷却水压力不足、空压机主机转速低限、空压机振动超限、空压机润滑系统油温超限、空压机润滑油压力不足以及轴承温度超限。

煤矿空压机的故障征兆或者故障现象与煤矿空压机出现故障的工作状态有一定的内在联系,但又不是一一对应的,属于非线性关系,在此将归纳整理的煤矿空压机的故障状态和故障现象之间的内在联系列于表1。

通过长期的现场监测得到了大量关于煤矿空压机在正常工作及各种故障状态下的系统数据。通过对数据处理选取100 组数据作为基于数据挖掘的故障诊断系统的训练数据样本,选取100组数据用于基于数据挖掘的故障诊断系统的性能测试数据样本。表2列出了10组部分用于网络训练和测试的数据样本。

表1 空压机故障状态及故障现象关系

本文将所有用于训练和测试的数据样本进行归一化处理以消除不同传感器信号数据不同量纲产生的影响,通过式(4)将所有数据归一到0.05~0.95之间: 式中:S 为归一化处理之前的值;Smax 为是归一化处理的最大值;Smin 为是归一化处理的最小值。 表2 训练和测试数据样本

建立基于本文提出的基于改进型GA?BP神经网络的故障诊断系统主要分为两大块:

第一块是利用改进GA 算法对BP神经网络结构参数进行优化,如阈值θj ,γ 、隐层节点数m 以及连接权值wj1 ,wij 等;第二块就是根据优化后的BP神经网络结构参数进行建模。

故障诊断系统的输入单元数由煤矿空压机故障现象确定,通过上述分析,确定数量为10,即X1~X10;输出单元个数由煤矿空压机的工作状态确定,通过上述分析,确定数量为5,即Y1~Y5;隐含层为单层,单元数量一般先通过经验试凑法确定为16。初始阈值θj ,γ 以及初始连接权值wj1 ,wij 在-3~3范围内取值;神经网络的最大训练次数设定为3 000,精度为10-3。

设定遗传算法中种群的规模为N = 150 ,进化最大代数为G = 300 ,及其他参数b = 0.1 ,k1 = k2 = 1.0 ,k3 = k4 = 0.5 。

通过遗传算法优化的平均适应度曲线如图1所示,隐含层节点数优化曲线如图2所示,最终隐含层节点数通过189次的迭代后确定为22。

3.2 基于数据挖掘的空压机故障诊断分析针对上述建立的煤矿空压机故障诊断系统进行仿真研究,为了比较本文提出的改进型GA?BP神经网络算法的优越性能,使用基于常规GA优化的BP神经网络建立同样的煤矿空压机故障针对系统,使用同样的训练数据样本进行网络训练,使用同样的测试数据样本进行性能测试。使用采集并处理后的100组训练样本对模型进行训练,得到两种模型的误差逼近曲线如图3,图4所示。

通过对比可以看出,使用本文提出的改进型GA?BP神经网络算法经过569 次迭代就使得误差达到了设定范围内,而使用常规GA 优化的BP 神经网络算法经过2 779次迭代才使得误差满足要求。因此在网络的训练速度、收敛速度和收敛精度方面,本文提出的改进型GA?BP神经网络算法更胜一筹。

下面使用采集并处理后的100 组测试数据样本对故障诊断模型的诊断性能进行测试。测试结果表明,常规GA优化的BP神经网络的诊断正确率为87.5%,诊断时间为564 s,输出值不稳定,而本文提出的改进型GA?BP神经网络的诊断正确率为98.2%,诊断时间为246 s,输出值稳定。

图4 改进GA优化的BP神经网络训练误差

可以看出,相比于常规GA优化的BP神经网络,本文提出的改进型GA?BP神经网络算法所建立的故障诊断模型的性能更优,检测准确率以及速度更快,误判率极低。

4 结论

数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生,在近年来发展十分迅速。本文针对机器学习算法中的人工神经网络算法在数据挖掘技术中的应用进行了研究,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型。最后通过将提出的基于改进GA?BP神经网络算法的数据挖掘技术应用于无法用数学模型建立、具有复杂非线性、数据庞大的煤矿空压机故障诊断系统中。

教育期刊网 http://www.jyqkw.com
参考文献

[1] 胡秀.基于Web 的数据挖掘技术研究[J].软件导刊,2015(1):149?150.

[2] 李仕琼.数据挖掘中关联规则挖掘算法的分析研[J].电子技术与软件工程,2015(4):200?202.

[3] 陈勇.一种目标行为序列模式的数据挖掘方法[J].无线电通信技术,2015(2):79?81.

[4] 于书媛,陈靓,王伟.基于空间数据挖掘的合肥市应急避难场所选址[J].地理空间信息,2015(1):93?95.

[5] 庄健,杨清宇,杜海峰,等.一种高效的复杂系统遗传算法[J].软件学报,2010(11):2790?2801.

[6] 刘磊.基于遗传神经网络的指数跟踪优化方法[J].系统工程理论与实践,2010(1):22?29.

[7] 宋国峰,梁昌勇,梁焱,等.改进遗传算法优化BP 神经网络的旅游景区日客流量预测[J].小型微型计算机系统,2014(9):2136?2141.

[8] 李松,刘力军,解永乐.遗传算法优化BP神经网络的短时交通流混沌预测[J].控制与决策,2011(10):1581?1585.

作者简介:陈小燕(1980—),女,江苏如皋人,讲师。研究方向为计算机应用技术。

下载文本