导航菜单

基于文本分析的微博用户性格获取模型

毕 崇 武

(华中师范大学信息管理学院 湖北 武汉 430079)

摘 要:微博在改变信息传播方式的同时,受到社会各界的广泛关注。如何通过用户发布内容确定用户性格成为微博营销所要解决的关键问题之一。文章依据现阶段网络爬虫、文本分析、心理学性格分类研究的相关进展,提出一种基于微博内容分析确定微博用户性格的方法,对微博营销中基于用户性格的个性化推荐方式提供了有力保障。

教育期刊网 http://www.jyqkw.com
关键词 :微博用户;文本分析;性格特征;模型

中图分类号:F820 文献标识码:Adoi:10.3969/j.issn.1665-2272.2015.05.023

随着21世纪信息技术的快速发展,以及人们对于电子产品的日益依赖,微博从早期传播即时发布消息、用户评论的舆论平台,到如今新闻传播的高效渠道,微博已经成为了一个较为多元化的综合平台,并最终逐渐成为表达现代人精神乃至情感方面的媒体。

在企业日益认识到微博对企业品牌价值影响这一背景下,微博作为近些年广受欢迎的社交网络平台,其使用用户的性格特征一直深受社会各界广泛关注。目前通过微博内容特征确定用户性格的研究基本停留在表象层面,尚未合理深入到用户的性格特征的研究层次。本文以传统词频分析法生产用户常用微博行为标签为基础,通过建立行为——性格对照表以及用户行为性格分析模型,提出一种基于用户微博内容的用户性格分析方法。

1 微博数据的获取

获取微博用户发布内容的方式主要有两种:一是通过网络爬虫爬取客户微博中所有的用户数据,然后在获取数据中提取用户发布内容;二是通过新浪微博的开放平台API直接获取站点服务器上的用户数据和发布内容。这两种方法获取微博数据都存在获取数据有限的弊端,但整体看来利用python编写爬虫程序获取微博用户发布内容相对较好。该方法实施步骤为:注册一个微博账户,然后用该注册账户关注所需抓取的目标用户的微博;分析新浪微博网页结构,利用python编写网络爬虫程序,并加载urlib库;将抓取的微博用户数据存入数据库中。

通过以上步骤,最终可以实现通过模拟浏览器行为获取页面标签,抓取新浪微博用户所发的微博内容、用户粉丝和关注数据,并将获取数据存储在指定数据库中。

2 微博用户性格分析的实现

2.1 行为标签词库的构建

微博用户在微博中的行为无外乎转发微博、发送原微博、评论、浏览这四种行为。用爬虫软件或开发商提供相应的接口程序抓取的大量微博用户数据后,可经过数据提取的方式获取用户发布内容,并选用特定的分词系统将微博用户发布内容进行分词;然后依据用户在微博中的行为,通过词频分析从用户发布内容中抽出能够代表某一行为的名词或者动作(可依据微博用户行为动作相关的词库进行人工判断或者运用相关软件进行抽词分析);并根据行为行为学、心理学等相关理论基础规范化这些抽取名词或者表达动作(在不损坏该词原有含义的情况下进行修正或者规范化),从而形成具有一定表现用户转发、评论、发表某微博当时动作或者心理状态的标签词。在创建行为标签词库过程中,如果某两个词之间具有近似含义,则可通过相关性程度判断的方法进行近似判断,进而规定其从属范围或者选用一个词作为标签代表与其含意相近的一类词。

2.2 行为——性格关系映射表的建立

通过行为标签词库的建立可以实现对微博用户发布内容及其行为的揭示,但微博用户发布内容及其行为与其性格的关系需要行为——性格关系映射表进行对应阐释。所建立的行为——性格关系表,主要功能是可以实现针对人类发出某个社会性动作(包括评论、直接的言语表达、对部分微博转发等动作),通过查找表中行为——性格的对应关系,反映当时微博用户心理的一种状态或者反应某人当时的一种性格上的某种属性值(诸如厌恶、喜爱、外向等)。

在行为——性格关系表建立过程中,既可以根据某些实际的性格特征(如外向),又能依据心理学性格分类的相关理论(例如MBIT、九型人格、霍兰德职业兴趣理论等),通过实践与心理学理论相结合的方法,进而更加具体地描述微博用户拥有的性格特征。在行为心理学一个多世纪的发展过程中,行为与人类心理理论的研究成果已经非常丰富,可以基本描述用户的性格——行为关系;并且在进行行为——性格表的制定的同时,还得可以运用诸如信息组织方面的技术手段,将行为表达词与性格表达词的格式进行规范化,以求最终得到符合使用要求的标签词用来建立行为——性格关系映射表。

2.3 用户性格获取模型的构建

行为标签词库与行为——性格关系映射表的建立可以实现通过分析微博用户发布内容,抽取用户微博行为标签(揭示微博用户行为的标签可以是一个,也可以是多个);然后依据行为——性格关系映射表中微博用户行为与性格的对映关系,获取用户的性格。在此过程中,可以借鉴信息检索中相关性判断机理以及语义判定等方面的理论,将行为——性格关系映射表中表示行为的词与行为标签词库中的词进行语义上的匹配,并从量化的角度判断两个相似词之间的相关程度,从而判断该标签词所能代表多大程度上的某种性格。该步骤的主要目的是将行为——性格关系映射表中表示行为的词与行为标签词库中的词进行统一规范化处理。在对同一用户性格进行描述时,一个用户可能具有多种性格,用户性格获取模型对用户性格分析的结果可以从多个方面进行量化。当然这一切必须在行为标签词库与行为——性格关系映射表建立的基础上,运用数学建模方面的技术手段及其原理,将整个运行机制生成一种可操作的模型,并将通过分析微博用户发布内容生成的行为标签词输入该模型,然后对应输出相关性格的排序。

总体来说,用户性格获取模型应该包括:微博用户发布内容获取工具(如爬虫)、文本分词系统、行为标签词库、行为——性格关系映射表、用户性格综合判定模型,以及可视化输入输出界面。

3 模型科学性的检验方法及优化

使用用户性格获取模型判定微博用户性格特征的科学性需要通过实际数据进行检验。在此,本文提出一种模型合理性的检验方法,仅供读者参考:使用python编写爬虫程序抓取数据时,在抓取的用户群中运用统计学的方法进行合理采样,抽出在部分用户作为样本;将抽取的微博用户发布的内容进行行为标签词处理,输入最终形成的模型当中,得出相应微博用户的性格特征;采用心理学人物性格分析方法,对抽取的样本用户发送心理学中有关性格调查方面的问问卷,进行用户性格测试;问卷回收之后,采用心理学人物性格分析方法对问卷进行整理分析,进而得出较为准确的用户性格;将问卷调查结果与模型分析结果相比较。运用相关性理论以及心理学方面对于两个描述性格特征近义词的相关理论进行判断,或者根据相关词典中对于语义的解释进行人为主观判断专家打分法,得出模型分析结果与问卷调查结果匹配的相似度;依据得到的相似度对构建模型的科学性进行评判,并作为模型改进的重要依据。

以上方法不仅可以作为评价构建模型科学性、合理性的重要手段,而且可以作为模型改进的重要依据,但在选取调查用户样本和设计调查问卷时应带注意样本选取的合理性以及问卷设计的科学性。

4 基于用户性格的个性化推荐方法

基于性格的推荐主要有两种实施方法:一是只考虑用户性格特征,指通过用户性格来计算用户相似度;二是通过在传统的协同过滤模型中加入用户性格这一指标,综合考虑用户性格特征和用户评分,通过加权计算得出最终用户相似度。

第一种方法首先需要获取用户的性格特征,然后考虑不同用户性格特征之间的相似度,选取不同用户之间相似值小于一定阀值的用户进行群体推销。在推销过程中可以选择以用户为角度、以对象为角度以及基于项目的不同推荐模式,最终实现基于用户性格的个性化推荐方法,为微博营销中的个性化推荐提供有力保障。第二种方法相比第一种略微复杂,需要综合考虑不同的用户属性以加权的方式获取用户的总体特征,并计算用户之间的相似值,但基本原理与第一种方法相当。

5 结语

从当前企业不能很好结合微博用户性格进行微博营销这一实际出发,提出一种通过运用传统词频分析生成用户微博行为标签(该标签揭示微博用户发布某内容所表达的行为及含义),构建行为——性格关系对映表的微博用户性格获取模型,使基于微博内容的用户性格特征分析得以系统化、模型化实现,并为微博营销中基于微博用户性格的个性化推荐奠定了基础。

教育期刊网 http://www.jyqkw.com
参考文献

1 李轩.基于性格区分的客户分类营销探讨[J].中国市场,2012(26)

2 赵玲,张静.微博用户行为研究的多维解析[J].情报资料工作,2013(5)

3 沈洁.霍兰德职业兴趣理论及其应用述评[J].职业教育研究,2010(10)

(责任编辑 高 平)

下载文本