焦裕朋
(山东科技大学数学与系统科学学院,山东 青岛 266590)
【摘 要】基于支持向量机的分类原理,对具有显著不平衡性的用户行为数据进行分析,旨在探索一种利用用户浏览商品网页时的行为特征,识别用户关于商品品牌购买偏好的方法。文章提出一种基于马氏距离的高维空间类中心隶属度构建方法,将该方法与支持向量机和基于欧式距离的高维空间类中心隶属度的模糊支持向量机进行比较,通过一组对比实验,证明该方法用于对用户行为偏好识别的有效性和优越性。
教育期刊网 http://www.jyqkw.com
关键词 用户行为特征;马氏距离;模糊支持向量机;非平衡数据;偏好识别
0 引言
伴随着互联网技术的高速发展,电子商务领域迅速崛起,越来越多的人开始参与网络购物,甚至对于许多群体而言,网络购物已经成为不可替代的重要消费方式。据艾瑞咨询[1]统计数据显示,2013年中国电子商务市场交易规模100720.4亿元(其中网络购物交易规模18409.5亿元),同比增长22.6%。而伴随着参与人数和交易规模的上涨,海量的用户行为数据被储存下来。越来越多的人已经意识到,在这个海量的信息空间中蕴藏着巨大的价值,许多学者、业内人士和科研机构都已经参与到这场轰轰烈烈的寻宝运动中来,探索一切可能的挖掘数据中所蕴含价值的方法。
在人们多年的探索过程中,一类基于用户历史行为信息的输入来识别用户未来可能感兴趣的商品品类的的方法始终占有重要地位,称为推荐算法[2]。目前为止,学者们提出了基于内容的推荐算法[3]、协同过滤算法[4]、基于复杂网络的推荐算法[5]、混合推荐算法[6]等不同的算法,其中大多是基于用户打分或问卷调查的思路开发的。本文所介绍的方法基于模糊支持向量机的分类原理,利用用户在浏览产品页面时所留下的历史行为数据进行训练,通过训练出的分类超平面对未来用户短期内购买产品所属品牌进行识别。
1 电商用户网络购物行为数据的特点
数据挖掘技术在根本上是一种基于数据的技术,一个数据挖掘项目往往始于对原始数据本身的分析,数据所具备的结构特征、数据的体积以及噪声的含量等信息,往往影响甚至决定着应采用怎样的方法去处理分析这些数据。结合本文所使用的用户网购行为数据,电商用户在网络购物行为过程中所产生的数据往往具备如下特征:
1)数据体积庞大
据估算,我国某知名购物网站单日访问量可突破一亿次,经营状态较好的网店单日访问量可达数百万次,用户每次点击浏览网站中的商品页面,或对该商品进行其它操作或标记时,其行为都会被记录下来储存在数据库中。可见,当今的用户行为数据体积庞大,一方面表现在海量的存量,另一方面也表现为高速的增量。
2)特征维度低
人们在浏览商品时,能够对商品进行的操作其实是有限的,最常用的无非是点击、购买、收藏和加入购物车四种形式,人们对商品品类的偏好信息,往往就是蕴藏在这四种行为的循环往复的操作之中。
3)具备时序性
一个人从发觉自己对某样产品的需求,到搜寻来自不同品牌、型号、外观、供应商等条件的商品,再到对这些商品中逐步缩小范围直到确定最终购买的一款产品,整个过程以对商品的操作行为为载体,同时伴随着一定的时序效应,如何发现该时序效应并充分利用从而进一步提高模型的预测能力是一个值得探索的方向。
4)存在难以分辨的噪声
用户的行为数据中必然存在着噪声,噪声的来源多种多样,例如用户的误操作、商家的过度宣传、服务器错误等,但这些噪声往往难以在现有数据层面上加以分辨。但是如果可以将诸如页面停留时间等特征信息加入到数据中,则可以在一定程度上辨别噪声,也可使预测更加高效。
5)稀疏性和不对称性
在用户行为数据矩阵中存在大量零元素,这样的稀疏数据大大阻碍了像协同过滤这样的基于相似性度量的推荐方法的效果。另一方面,用户所产生的大量行为之中,购买行为只占非常小的一部分,这就导致了购买与没购买的两类产品之间具有极强的不对称性,在本文的数据组合中,购买行为发生与未发生的比例约为1比30。
因此,针对上述数据的特点,研究者一方面要对数据的结构进行调整,另一方面选择适合的方法来构建模型。
2 模糊支持向量机
支持向量机(简称SVM)是由Vapnik等人在1992到1995年期间提出的[7],该方法是建立在统计学习理论中结构风险最小化原则和最优化问题基础上的,具有坚实的理论基础、较强的泛化能力等优点,被广泛应用于模式识别、数据挖掘、人工智能、机器学习等领域。Lin和Wang在2002年将模糊集思想引入SVM,提出了单边加权模糊支持向量机,开辟了模糊支持向量机(简称FSVM)的新领域[8]。
2.1 FSVM基本形式
对于FSVR,其训练集的形式为
T={(x1,y1,s1),(x2,y2,s2),…,(xl,yl,sl)}(1)
2.2 基于特征空间类中心的隶属度设置
Jiang等人在2006年提出了基于高维特性空间类中心的模糊隶属度函数 [11]。定义+1类样本在特征空间中的均值为Φ+,-1类样本在特征空间中的均值为Φ-,即
3 数值实验
3.1 评价指标
本文的数据是典型的不平衡数据,对于不平衡数据分类精确度的评价方法有多种,这里采用的是F-measure方法[9]。结合本文研究的实际问题,这里只关心发生购买行为的组合的情况,即只对少类的样本进行评价。
以不平衡数据集作为待分类样本,二分类方法有四种可能结果,用数据集混淆矩阵表示为表1:
召回率表示是否将潜在购买用户全部识别出来,准确率表示识别结果中识别正确的比例。容易发现,只有在召回率和准确率的值同时较高的情况下,F-measure的值才会比较高;否则,如果一个较低,F-measure的值就会较低。F-measure的取值区间为[0,1],该值越大表明模型的分类效果越好。
3.2 实验过程
实验所采用的是基于用户与商品品牌之间的行为数据 [10],数据集截取了四个月内884位用户对于9531种品牌的操作,总共182880条记录。提取特征后的数据字段如表2所示。
提取特征后,训练集中共有42085条特征记录,测试集中共有18545条特征记录,测试集中发生购买行为的组合数量总共为1408条。
实验使用自行编写的Matlab程序脚本实施,隶属度函数使用基于特征空间类中心的马氏距离来获得,并使用k折交叉验证的方法对径向基核函数中的参数γ以及惩罚参数C进行寻优,具体步骤如下:
(1)将数据分割为训练集与测试集;
(2)利用式(20)计算训练集中正负两类各样本的隶属度;
(3)用k折交叉验证法对上述参数寻优,;
(4)用最优参数组合训练出基于马氏距离的FSVM训练分类超平面;
(5)用步骤(4)中的分类超平面对测试数据集进行测试。
3.3 实验结果
表3的实验结果说明,传统的SVM在非平衡数据集下失效,分类超平面严重向少类一侧偏移,以至于将所有数据全部归为多类(非购买类);欧氏距离下的FSVM在隶属度的作用下,使其可以对非平衡数据进行有效分类,而马氏距离下的FSVM将相关性信息引入隶属度函数,使得FSVM的分类性能有显著提高。
4 研究结论和展望
本文从电商用户网购行为的特征出发,结合一个真实的行为数据集,利用FSVM分类思想,构建了一个通过用户行为,来识别用户可能发生购买行为的产品品牌的方法。本文创造性的将马氏距离引入FSVM隶属度函数的构建之中,使得其对于非平衡数据的分类能力有所提高。
综合本文的实验结果,证明利用用户在浏览商品网页时所产生的点击、收藏和加入购物车三类行为来识别用户是否购买该产品或该品牌,具备一定可行性和有效性,同时结合本文提出的基于马氏距离的高维空间类中心隶属度函数构建方法,使得分类能力进一步得到提高。在未来的研究中,可进一步关注用户行为特征的量化分析、模型参数的寻优和数据噪音的辨识等方向的问题。
教育期刊网 http://www.jyqkw.com
参考文献
[1]艾瑞咨询.2013年中国电子商务市场交易规模达9.9万亿元[N].人民邮电报,2014-01-20(6).
[2]Resnick P,Varian H R.Recommender Systems[J]. Communications of the ACM,1997,40(3):56-58.
[3]姜书浩,薛福亮.一种利用协同过滤预测和模糊相似性改进的基于内容的推荐方法[J].现代图书情报技术,2014(02):41-47.
[4]Su X, Khoshgoftaar T M. A survey of collaborative filtering techniques[J]. Advances in artificial intelligence, 2009,2009:4.
[5]江山.基于复杂网络理论的推荐算法研究[D].成都:西南财经大学,2012.
[6]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques[M]. USA: Morgan Kaufmann Publishers In, 2012.
[7]SUN J, SHEN R, ZHANG T, et al. Design and Implementation of Intelligent Learning Advisor Based on Support Vector Machine Algorithm [J]. Computer Engineering, 2002,11:098.
[8]Lin C, Wang S. Fuzzy support vector machines[J]. Neural Networks IEEE Transactions on, 2002,13(2):464-471.
[9]Akbani R, Kwek S, Japkowicz N. Applying support vector machines to imbalanced datasets[M]//Machine Learning: ECML 2004. Springer Berlin Heidelberg, 2004:39-50.
[10]Tmall Recommendation Prize 2014 & TianChi Open Data Project[Z].
[11]Jiang X F, Yi Z, and Lv J C. Fuzzy SVM with a new fuzzy membership function[J]. Neural Computing and Application, 2006,15(3-4):268-276.
[12]李仁兵,李艾华,王涛,杨建业,李亮.马氏距离法在支持向量机拒识区域中的应用[J].信息与控制,2010,03:367-372.
[责任编辑:汤静]