廖燕玲1,韦艳玲1,覃宝勤2
(1.柳州职业技术学院电子信息工程系,广西 柳州 545006;2.宜州市植保站,广西 宜州 546300)
摘要:极限学习机(ELM)学习速度快且泛化性好,极易产生惟一最优解,适用于虫害预测。通过实情验证,在广西宜州三化螟虫害预测预报中,ELM预测精度较高,能够满足虫害预测对准确率和实时性的要求,可作为一种新的虫害预测方法。
教育期刊网 http://www.jyqkw.com
关键词 :极限学习机(ELM);三化螟;预测
中图分类号:S126;S435.112+.1文献标识码:A文章编号:0439-8114(2015)05-1205-03
DOI:10.14088/j.cnki.issn0439-8114.2015.05.045
收稿日期:2014-05-15
基金项目:广西教育厅科研项目(201010LX642)
作者简介:廖燕玲(1965-),女,广西柳州人,副教授,主要从事数据挖掘的研究工作,(电话)13807728216(电子信箱)ldy020@163.com。
广西河池宜州地区水稻病虫害主要是“三虫两病”,即三化螟、稻纵卷叶螟、稻飞虱、纹枯病、稻瘟病,在各稻作区普遍发生且较为严重,尤其是三化螟虫害对水稻生产影响较大,甚至造成颗粒无收。三化螟虫害预测预报的准确性是有效防治三化螟虫害的前提和保证。传统的虫害预测预报常用的是线性方法,而在大多数情况下,预报因子与虫害发生之间常常是非线性关系,若广西宜州三化螟虫害预测仍采用传统的线性方法,则难以确保三化螟虫害预测预报的准确性。
近年来的研究表明,人工神经网络具有较强的非线性逼近能力,在虫害预测中常被采用[1-3]。极限学习机,即ELM(Extreme Learning Machine)是一种简洁、快速、有效的单隐层前馈神经网络(SLFN)学习算法。相比较而言,传统的神经网络学习算法(如BP算法)需要人为设置大量的网络训练参数,且极易产生局部最优解,而ELM只需要设置网络的隐层节点个数,在算法执行过程中不需要调整网络的输入权值以及隐元的阈值,只产生惟一最优解,具有学习速度快且泛化性能好的优点[4],故ELM应用领域极其广泛[5-8],已取得了令人满意的结果。为此,提出了一种基于ELM的广西宜州三化螟虫害预测方法,以期为该地区三化螟虫害的预测方法提供一定的参考。
1 极限学习机基本原理
ELM算法是单隐层前馈神经网络(SLFN)的训练算法。设有N个样本(xi,di),xi=[xi1,xi2,…, xim]T∈Rn,di=[di1,di2,…,dim]T∈Rm,D=[d1,d2,…,dN];又设隐含层有L个节点,输入节点与第i个隐层节点的连接权值为ωi=[ωi1,ωi2,…,ωin]T,第i个隐层节点与输出节点的连接权值为βi=[βi1,βi2,…, βim]T,bi是第i个隐层节点的阈值,则激发函数为g(x)的ELM模型的数学表示为[4]:
当激发函数g(x)无限可微时,输入连接权值和隐层节点阈值,在训练开始时可随机选择,且在训练过程中固定不变。而隐层节点与输出节点的连接权值β可通过求解线性方程组的最小二乘解来获得,其解为。
其中H+为隐含层输出矩阵H的Moore-Penrose广义逆矩阵,D′是D的转置;解可使训练误差最小,且得到权值的最小范式以及最优泛化性能,并且具有惟一性。
ELM在训练的过程中不需要调整ω和b的值,只需根据相应算法调整β值,便可获得一个全局最优解,参数选择的过程简单易用,训练速度提升明显,且不会如传统神经网络学习算法(如BP算法)陷入局部最优。
2 实例仿真
将上述ELM模型应用于广西河池宜州地区田间水稻病虫害的预测。
2.1 预测的样本数据来源
实例所用的数据来自宜州市虫情灯下诱蛾数据及田间虫情调查,是该地区第1~9年3、5、7、9月的三化螟虫害发生程度及相应的田间数据,3、5、7、9月的三化螟对应第1代、第2代、第3代、第4代三化螟。把第1~6年的数据作为ELM学习样本,第7~9年的数据作为ELM预测样本。
通过综合考虑,选取上代残虫密度、上代灯下蛾量、平均气温、降雨量等4个因素作为预测的影响因子。
2.2 虫情等级标准
三化螟发生程度分级参照广西农作物主要病虫测报技术规范标准,具体见表1。由虫害发生面积和卵密度的数据作为分级依据,把预报对象划分为5个等级,依次为:1级,小发生;2级,中等偏轻发生; 3级,中等发生; 4级,中等偏重发生;5级,大发生。
2.3 数据预处理
预测的影响因子数据均为数值型,但是量纲和单位存在不同,故必须对数据进行标准化处理。把影响因子数据归一化,使其分布在区间(-1,1)内。归一化后的部分数据如表2。
2.4 仿真结果
选择隐含层神经元个数为35,隐含层神经元的激活函数为sig。由于宜州地区三化螟病虫害连续9年的数据发生程度只有1级(小发生)、2级(中等偏轻发生)、3级(中等发生),所以发生程度只分为1~3级,目标输出模式为(100)、(010)、(001),故输出层神经元个数为3,采用ELM预测第7~9年各代虫害的程度。用ELM模型得到的目标输出中,对于每个目标输出,当a是最大值时,取a=1,否则a=0。ELM模型虫害预测测试集训练结果与预测值的对比如图1所示,回测率和预测率均达到了100%。预测值与模拟结果对应如表3所示。
选择隐含层神经元个数不同,得到的结果也不相同,在25~45之间,回测率一般达到97%~100%,预测率达到94%~100%,隐含层神经元个数太多会使预测率呈逐步下降趋势,隐含层神经元个数太少,回测率和预测率不高。在学习速度上,试验基于3.0 GHz 的双核Intel处理器、2 GB内存的PC机,试验环境为MATLAB 2009a版本,运行预测模型所花的时间为3.533 5 s, 满足了虫情预测实时性要求。
3 小结
仿真试验结果表明,在广西宜州三化螟虫害预测中采用极限学习机(ELM)方法,在参数选择以及学习速度上优势明显,准确率高,实时性强,可作为一种新的虫害预测方法。下一步将继续对极限学习机(ELM)应用作深入研究,如采用优化的极限学习机[9]或引入结构风险最小化策略[10]等,进一步提高虫害预测的效率和准确度;同时开展广西宜州三化螟虫害预测软件的研发,将极限学习机(ELM)推广应用到农业生产领域的其他方面,比如甘蔗种植户信息分析模型研究等。
教育期刊网 http://www.jyqkw.com
参考文献:
[1] 赵国富,赵 朋.基于BP网络的虫害预测预报系统的分析与实现[J].农机化研究, 2008(4): 14-17,28.
[2] 唐建军,王映龙,彭莹琼,等.BP神经网络在水稻病虫害诊断中的应用研究[J].安徽农业科学,2010,38(1):199-200,204.
[3] 贾花萍.农作物虫情的模糊神经网络预测模型[J].浙江农业学报, 2013, 25(4): 819-822.
[4] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70:489-501.
[5] 潘华贤,程国建,蔡 磊.极限学习机与支持向量机在储层渗透率预测中的对比研究[J].计算机工程与科学, 2010,32(2):131-133.
[6] 黄宴委,吴登国,李 竣.基于极限学习机的结构健康监测数据恢复[J].计算机工程,2011,37(16):241-243.
[7] 陈盛双.基于极限学习机的XML文档分类[J].计算机工程,2011,37(19):177-178,182.
[8] 丁 姣,蔡建荣,张海东,等.近红外结合Si-ELM检测食醋品质指标[J].食品与机械,2012,28(1):93-96.
[9] 王 杰,毕浩洋.一种基于粒子群优化的极限学习机[J].郑州大学学报(理学版),2013,45(1):100-104.
[10] 何其慧,姚登宝,王翠翠,等.基于模糊随机样本的结构风险最小化原则[J].计算机工程与科学,2011,47(34):51-55,144.
责任编辑 (王晓芳)