导航菜单

用稀疏贝叶斯概率模型做文本分类

用稀疏贝叶斯概率模型做文本分类

燕荣江

(辽宁师范大学数学学院,辽宁大连116029)

【摘要】如今,当处理大量数据集的协变量时,相比小样本量的一个常见问题是:估计与每个协变量相关联的参数。当协变量的数量远远超过样本的数量,参数估计变得非常困难。在这项研究中,我们开发了一个稀疏的Probit贝叶斯模型(SPBM)的基础上吉布斯抽样,其利用双指数函数之前诱导收缩,并减少在模型协变量的数目。使用6个领域,如数学,在维基百科已下载的方法中进行评估。我们通过计算并根据执行训练和测试组的分类的阈值作为决策规则。利用遍布全球50个运行平均灵敏度和特异性我们的模型的表现相比,支持向量机(SVM)。该SPBM实现了高分类精度和几乎所有的分析领域优于SVM。

教育期刊网 http://www.jyqkw.com
关键词 稀疏贝叶斯;参数估计;广义线性模型;机器学习;文本分类

1全贝叶斯稀疏概率模型简介

现在,通常的协变量涉及数千或数百万的数据集。一个常见的问题是在处理脂肪的数据集时,协变量的数量远远超过样品。例如,文本分类、基因表达分析、盗窃检测、临床诊断和一些商业数据挖掘任务。在文本分类中,我们在几份文件中需要处理几百甚至上千个词语。考虑到不同的类别,如数学,可以尝试根据其内容分类的文字,将其转换为变量回归作为回归协变量。此外,我们还需要注意每个特定的类别。也就是说,预测基于其词语组成的文件的类型。然而,然而,许多协变量可以具有对类预测微小的影响,使得它对一个时间的单个协变量分析不可能准确地确定类别。因此,这种方法可发现大量的协变量与协变量之间,面向重要的词语是个好的发现。很多领域都涉及重要的识别协变量的回归模型的问题,有时也被称为特征选择。

根据响应变量是离散或连续的,不同的模型可以被用来执行预测和评估。

1.1离散

逻辑回归等用来拟合模型和分类响应变量。使用逻辑回归的缺点是:当协变量的数量大时,最大似然估计变成密集计算,有时难以解决。此外,预测可能导致较差的预测精度差。

1.2连续

线性回归模型被广泛应用,以适应模型和连续反应变量。然而,这些模型缺乏准确性,当设计到高维数据的设置和参数估计。一个标准的方法是广泛用于回归模型提高预测和参数估计是子集选择。子集选择是一个离散的过程,如淘汰,选择,逐步选择。然而,使用这些离散的过程可能会导致不一致的选择。也就是说,一个小的变化可能会导致非常不同的模型。

此外,这些方法计算昂贵且不稳定的样本大小比协变量的数目少的多。鉴于上述模型的缺点,研究人员试图开发出能够同时分析多个协变量的方法。在文本分类中,响应变量或类别可以是二进制或多项的量,简单线性回归是不适用的。替代处理分类响应变量适于在本文中使用稀疏概率回归的方法。稀疏概率回归被用于使用标准正态分布的累积分布来链接协变量的分类响应变量。在本文中,我们开发了一个稀疏概率单位贝叶斯模型(SPBM),以避免过多问题并获得充分的条件分布的所有参数。虽然减少一些不用的协变量为零,SPBM允许我们以识别具有最大的辨别能力判别协变量较小的子集。为了创建我们的模型,我们首先建立了多层贝叶斯层次模型。然后,根据制定的吉布斯采样算法,我们使用马尔可夫链蒙特卡洛方法来估计与所述协变量相关联的参数。发达SPBM自动收缩系数小到零,这是一个很大的灵活性,以适应许多校正模型中的一个步骤。最后,拟合模型被用于执行不同分类的数据集。本文的其余部分将作如下安排,在第2节中,我们将首先简要介绍一下有关参数估计的不同方法相关工作。然后,我们将解释我们的方法,其中包括SPBM,采样,以及使用的预测参数。我们最后证明我们在部分应用程序和结果。

2SVM模型简介

在本节中,我们将会使用参数估计的机器学习算法和其他重要的方法的简单概述。支持向量机(SVM)是用在机器学习来处理高维和数据的稀疏性的一种替代。虽然样本量小,支持向量机通常实现低测试错误。有几篇论文报告了使用支持向量机用于可变的选择的目的良好结果。然而,该方法有许多缺点,例如缺乏概率输出和权衡参数估计的必要性,以利用Mercer内核函数。我们引入了一个机器学习算法和概率主题建模(PTM)。PTM旨在从文本中自动提取主题。例如,如果我们将算法应用于过去几个话语的政治家,它产生的经济,战争,作为输出。概率的相关性建模是该算法提取的主题。因此,在某些情况下,可以考虑最额定主题作为文本的主题。然而,LDA的性能被一些研究人员比较后,无非是迭代键盘搜索算法。该算法也仅限于文本中使用的词语。举例来说,如果你正在寻找的意识,并给予有关土木工程的算法作为输入的文本,该算法只会告诉你关于建筑和结构。另一种方法用于在统计参数估计线性回归。它是模拟的响应变量和一个或多个协变量之间的关系的方法。该方法已被广泛地用在不同的应用程序。在线性回归模型中,普通最小二乘法(OLS)被用来获取参数的估计。OLS通过最大限度地减少残余误差和估计的参数。然而,该方法存在两个缺点:一是尽管由模型所获得的估计的参数具有低的偏压,往往有很大的差异,降低了模型预测的准确性;二是当有大量的协变量,期望建立的参数的一小部分,提供在响应变量作用最强。OLS估计精度可以提高通过设置无关紧要的协变量为零,因此获得更准确的估计协变量。我们将讨论这个方法在我们的方法部分加以改进。

逻辑回归是一种广义线性模型方法,当响应变量分类时,这种方法可用于建模。在文本分类中,逻辑回归方法通常用于查找最大似然估计。例如,许多软件包使用牛顿迭代的迭代算法或费舍尔的评分方法的变化。要找到最大似然估计,上述软件包实现最大化的程序,它使用矩阵求逆。然而,当协变量的数量是非常大的,矩阵求逆的方法是计算密集型的。因此,所估计的结果往往受到收敛精度差和缺乏真正价值,其中相关的真值是全局最大值。此外,这些方法失败时参数的数量要远远超过预测数量的观察。因此,上述方法不能进行参数估计和良好的协变量的分类。因此,对于文本分类来分析数据集的样本大小远小于协变量的数量,新方法是必需的。另一种避免过度拟合高度正规化处罚回归模型等方法。这些模型需要确定非零系数,提高模型的可预测性并避免过度拟合。避免过度拟合问题是一种广泛使用的模型,该模型可以通过收缩和正则化方法来提高参数估计性能,通过减少均方误差引入一些偏见。此外,通过在模型中诱导稀疏性,收缩的方法突出重要的协变量。这些方法同时促进许多协变量的分析。为了避免在文本分类过度拟合问题,在文献[2]中,使用了逻辑回归的贝叶斯方法。他们使用支持稀疏的先验概率分布模型。这种模型是面向找出最大后验作为参数点估计的优化算法。然而,它们的优化方法是一种局部优化,从而导致点估计的参数。因此,该方法不能提供完整的后验分布的参数。

其中,最小绝对收缩和选择算子(LASSO),是一种非常有效的惩罚回归方法之一。被广泛用于预测的模型拟合目的和响应变量。LASSO贝叶斯方法提出了双指数是用于实施稀疏模型参数。允许数据自适应选择之前,LASSO也可延长表达双指数分布的比例混合正态分布曲线。在本文中,我们考虑一个稀疏概率单位贝叶斯模型,通过分配双指数先验分布,以有利于稀疏中使用的变量在数量方面的参数。此外,这里所采用的完全贝叶斯方法为我们提供的参数,可用于不同的预测和估算的目的后验分布。

3改进后的方法

为了建立模型,我们首先获得用于在多级分层模型中的所有参数的完全条件分布。在第二个步骤中,将马尔可夫链蒙特卡洛(MCMC)方法的基础上发展起来的吉布斯抽样算法方法用于估计所有参数。稀疏多级贝叶斯分层模型被实现,以控制过度拟合时太多的变量包括在模型中出现的问题。所述SPBM自动收缩小的系数为零。因此,该模型显示了很大的灵活性,在同一时间以适应许多协变量。在步骤3中,我们将使用嵌合模型在不同的数据集进行分类。正如上面所提到的,由于响应变量是分类的,预先制定的完全贝叶斯模型,需要一些所需的响应变量:设y1,y2,…,yn表示观察到的反应变量,假设该文件来自于“a”和“b”这两类。令yi=1,此类记为“a”,其他记为0。设xn表示文件i中与词语j相关的权。因为响应变量是离散的,误差项不满足方差假设的正常要求,但符合线性回归模型。此外,如果使用简单的线性回归模型,可能不会产生合理的结果。在广义线性模型(GLM)的范围内,已经被使用于非线性链路功能,以及离散响应变量y的线性预测器相关性。

是个1*p向量,表示一个教育期刊网 http://www.jyqkw.com
关键词 的权重,以字中的p文档i和p是模型中使用的单词的数目,

是p向量的模型参数,设H表示链接功能之间的非线性和离散变量y和线性响应预测

。所述GLM模型可以表示为3.1

3.1

在这个公式中,xi在文件i中是协变量。我们使用链接函数3.2,其对应于概率回归模型,并适用于二进制和多级的结果的情况。

3.2

在该式中,?椎-1是标准正态分布的累积分布函数的倒数。为了能够找到的参数的后验分布,我们需要整合似然函数乘以所有参数的联合先验分布。然而,该模型与目前的配置使得集成棘手。其中“n”为独立潜变量z1,z2,…,zn,为此,我们引入

到模型中,建立起响应变量和相应的潜变量之间的关系。这样,概率单位回归模型中二进制的结果用连接到线性回归模型的潜在变量zi,见3.3

3.3

下面,我们解释我们如何实现一个完全的贝叶斯层次模型和先验分布。第一步的延续,为了建立一个完全贝叶斯层次模型,我们将使用?兹s作为如下独立双指数先验分布,见3.4。

3.4

在上式中,λ是超参数可被选择或分配给分布和预测与其他参数的分布。在我们的分析中,我们设γ=0.2,var(η)=100。指数分布3.5可以被表示为通常的具有指数混合尺度混合密度。

3.5

这种分层表示将用于以能够建立吉布斯抽样算法,有

则下面分层分配用于建立吉布斯抽样。

使用的参数和定义先验分布上述表示,我们得到完全由条件的吉布斯抽样算法的完全后验条件。

3.6

在式3.6中,TN表示截断正态分布和Ω表示的模型参数向量。对于yi=1,zi必须从定义截断正态分布采样高于零或低于零若yi=0。

3.7

在式3.7中,模型参数向量的完全条件后验分布为多元正态分布(MVN)均值矢量和当

,方差协方差矩阵指定其中,在3.7中,X是n*p的矩阵,其中xij表示第i个样本中,权为j,而p是模型中词语的字数,有Z=[z1,z2,…,zn]T,并且“n”是样本数。该对超参数完全条件分布

是逆转置高斯分布

,其中λ是阶。

教育期刊网 http://www.jyqkw.com
参考文献

[1]王权.马尔可夫链蒙特卡洛方法在估计IRT模型参数中的应用[J].考试研究,2006:2-4.

[2]杨国鹏,周欣,余旭初.稀疏贝叶斯模型与相关向量机学习研究[J].计算机科学,2010,7.

[3]江程铭,张智君,任衍具.文体结构和个体认知风格对信息搜索绩效的影响[J].人类工效学,2004,10-1.

[4]汪建均,马义中.基于GLM的贝叶斯变量与模型选择[J].计算机科学,2009,0024-1.

[5]唐有恒.广义线性模型与非线性模型参数统计推断[J].南京工业大学学报,1993-4.

[6]朱慧明,韩玉启,郑进城.基于正态的贝叶斯预测模型[J].统计与决策,2005,2.

[责任编辑:邓丽丽]

下载文本