导航菜单

混合Bernoulli分布参数估计的EM算法研究

张宝龙,魏立力

(宁夏大学 数学计算机学院,宁夏 银川 750021)

摘 要:本文构造了有限混合Bernoulli分布模型.由于有限混合Bernoulli分布模型依赖于参数的取值,我们必须求解未知参数的极大似然估计,基于常规方法求解对数似然函数的最大值点很困难,所以本文基于EM算法研究了有限混合Bernoulli分布模型的参数估计,并利用R软件进行了随机模拟.

教育期刊网 http://www.jyqkw.com
关键词 :混合Bernoulli分布;EM算法;随机模拟

中图分类号:O212.1文献标识码:A文章编号:1673-260X(2015)04-0006-03

成败型随机试验在统计学上称为伯努利试验(Bernoulli trial).很多实际问题都可以归结为伯努利试验.比如在医学领域考察对病人治疗结果的有效与无效、某种化验结果的阳性与阴性、接触某传染源的感染与未感染等;在系统可靠性理论中元件工作正常与失效;决定人类的某一特别属性(比如是否为左撇子)的一对基因的显性表现与隐性表现;某陪审团的陪审员对被告人的投票结果为有罪和无罪等等.伯努利试验必须满足两个基本条件:每次试验的结果独立且只有“成功”与“失败”,每次试验中“成功”的概率保持不变.

伯努利试验的一种推广是假设每次试验相互独立,但其成功概率允许不尽相同.这样的情形可以用一个混合Bernoulli分布来描述:

效或无效),则该模型非常适用,因为我们很难保证同种药物对不同患者的疗效完全相同.也就是说,我们预期对于众多患者的疗效可以分成l个不同的类别.

现在设y=(y1,y2,…,yn)来自于混合Bernoulli分布(1.1)的样本,我们的目的是求未知参数的极大似然估计.为此先考查其对数似然函数:

不难看出,直接求(1.2)式的最大值点是很困难的,我们下面将推导该问题的EM算法.

EM算法是一种迭代计算,其每次迭代由两步组成:E步(求条件期望)和M步(极大化),这正是该算法名称的由来.该算法最初由Dempster,Laird和Rubin提出[1],主要用来求后验分布的众数(极大似然估计),广泛应用于删失数据,截尾数据,成群数据等.其基本思想是在给出缺失数据初值的条件下,估计出模型参数的值;然后再根据参数值估计出缺失数据的值.根据估计出的缺失数据的值再对参数值进行更新,如此反复迭代,直至收敛,迭代结束.

EM算法提出之后,很快引起国内外众多学者的关注,文献[2]很好地总结了EM算法及其推广算法的很多成果.文献[3]详细介绍了有限混合模型及其应用.文献[4]介绍了有限混合模型及其应用的研究进展.本文基于EM算法研究了有限混合Bernoulli分布模型的参数估计,并利用R软件进行了数值模拟.

1 EM算法简介

一般而言,形式上[1]我们有两个样本空间X,Y,以及X到Y的一个多对一映射x a y(x).其中X中x=(x1,x2,…,xn)不能直接观测到,只能通过y间接的观测到,x被称为“完全数据”.Y里的y=(y1,y2,…,yn)是能够观测到的数据,即“不完全数据”.

其中X(y)={x:y(x)=y}

2 有限混合Bernoulli分布模型参数估计的EM算法

参数估计结果见表3.

从表1和表2可以明显看出,随着初值逐渐接近真值时,估计值亦趋于真值.当估计值变化不大时,说明估计值收敛到稳定点.由表3可以看出,随着样本容量的增加,参数的估计值逐渐接近于真值.同样,当估计值变化不大时,说明估计值收敛到稳定点.

教育期刊网 http://www.jyqkw.com
参考文献:

(1)Dempster A P,Laird N. Maximum Likelihood from Incomplete Data via EM Algorithm[J]. J. Royal Statistical Society,Series B,1977,39: 1-38.

(2)Gelffrey J. McLachlan. The EM Algorithm and Extensions(Second Edition)[M]. New York: Wiley & Sons,Inc,2008.

(3)McLachlan G,Peel D.Finite Mixture Models[M]. New York: Wiley & Sons,Inc,2000.

(4)孙兰.有限混合模型及其应用的研究进展[D].长春:东北师范大学,2006.

(5)魏立力,马江洪,颜荣芳.概率统计引论[M].北京:科学出版社,2012.

下载文本