摘要:知识地图作为一种可视化的在线学习平台,现在被越来越多的学者和企业所研究和应用。本文提出了面向在线学习的知识地图构建方法,利用文本挖掘技术从文件有关特定主题中使用TF/ IDF 算法进行教育期刊网 http://www.jyqkw.com
关键词 提取。同时本文论述了知识地图模型的构建过程,主要包括,教育期刊网 http://www.jyqkw.com
关键词 提取,关联关系提纲,关联标记。为验证方法的可靠性,本文设计了相关实验,并对模型的效果进行了评价。
教育期刊网 http://www.jyqkw.com
关键词 :知识地图;在线学习;关联关系
当人们学习文字材料时,他们通常会按照设定的章节顺序来阅读①。虽然这是最常用的基于文本的学习方法,但在以下三种情况下可能会失效。首先,在许多情况下,人们有不同领域先验知识水平②。然而,当他们学习文字材料,如果他们只能从开始到结束进行阅读,或使用表中的内容直接跳转到一个专门的章节③。第二,在学习者有时间压力的情况下,可以使用目录或索引的表,以确定的主要部分。不过也没有其他特殊的方式来区分重要信息④。第三,如果一个文件是复杂的,或很长的,那么读者可能会发现很难识别重要概念和它们之间的关系⑤。
那么,知识地图的提出在这种情况下可能是很有帮助的,从而可提高在线学习的效率⑥。关键概念和之间关系很直接的呈现在知识地图上,使用户能够很轻易的查询到所需知识。但是,知识地图的构建往往需要领域专家手工操作。本文提出了一种面向在线学习的知识地图自动构建方法并进行了实验验证。
一、面向在线学习的知识地图模型结构
1.模型介绍
知识地图包含的主要元素是节点和关联⑦。节点是领域里一个特定的教育期刊网 http://www.jyqkw.com
关键词 (或者称为概念),关联就是两个教育期刊网 http://www.jyqkw.com
关键词 之间的关系。知识地图往往有知识库支撑,知识库通常是许多领域文档的集合。如图一关于约翰·F·肯尼迪的一个知识地图。该地图有18个教育期刊网 http://www.jyqkw.com
关键词 和30的关联。教育期刊网 http://www.jyqkw.com
关键词 之间的连接具有不同的厚度,代表不同重要程度的关联关系。关联关系越重要,连接的厚度越大;关联关系越疏远,连接的厚度越小。
知识地图能提供一个在线学习的环境。用户可以可视化的了解围绕约翰·F·肯尼迪的所有概念的全貌,能清晰的判断各类概念与之的关系。如果用户对约翰·F·肯尼迪周围的概念感兴趣,可以直接点击知识地图上的该节点,会出现一个新的页面展示该节点的详情。
2.模型的构建
在本节中,描述了知识地图模型的构建过程,其包括三个步骤,分别是教育期刊网 http://www.jyqkw.com
关键词 抽取,关联抽取,关联标记。
⑴关键字提取
在第一阶段中,从一组文档中提取教育期刊网 http://www.jyqkw.com
关键词 。文档可以手动选择或选择从用户的查询记录中获取。根据一定的算法计算教育期刊网 http://www.jyqkw.com
关键词 的权重。教育期刊网 http://www.jyqkw.com
关键词 从知识地图用户的领域主题词列表中选取。在运用教育期刊网 http://www.jyqkw.com
关键词 权重算法之前,文档中各句子里的连接词与停止词,如“与”和“的”,需要首先被剔除掉。接着,我们可以获取剔除后的仅保留主题词的句子。通过对这些句子运用教育期刊网 http://www.jyqkw.com
关键词 加权算法,统计其词频,判断其重要性和代表性。这里我们基于词频/逆文档频率(TF/ IDF)方法⑧。下面TF/IDF权重法的公式:
Wik :术语K在文档I中权重
tfik:术语K在文档I中出现的频率
N:文件的总数
nk:包含术语K的文档总数
加权处理后,每个术语具有其自身的权重。一个教育期刊网 http://www.jyqkw.com
关键词 在不同的文档中可以有不同的权重,每个文档使用的TF/ IDF算法对主题词进行加权计算。如果相同的教育期刊网 http://www.jyqkw.com
关键词 出现在多个文档中,它的权重是由其所有权重中的最大值决定。
WMT=Max (WDiT)
Di:i 个文件,i=0,1,2……在知识地图中文件的总数
WT:T术语在知识地图中的权重WDiT:在Di中术语T的权重
教育期刊网 http://www.jyqkw.com
关键词 是按权重排名之后,根据用户的设置,我们选取一定数量的教育期刊网 http://www.jyqkw.com
关键词 用于构造知识地图。
⑵关联关系提取
一旦决定了的知识地图的关键字,第二步就是定义关联关系。在本文中,主要考虑两个因素,其中一个因素是两个主题词出现在相同句子中的频率,另一个是这两个教育期刊网 http://www.jyqkw.com
关键词 在一个句子中发挥多大的作用。教育期刊网 http://www.jyqkw.com
关键词 在句中的权重随着句子拥有词语的增多而降低,反之亦然。教育期刊网 http://www.jyqkw.com
关键词 在句中的关联得分计算公式如下:
i, j= 教育期刊网 http://www.jyqkw.com
关键词 对
Ri,j=教育期刊网 http://www.jyqkw.com
关键词 i 和教育期刊网 http://www.jyqkw.com
关键词 j 的关联关系得分
M=1,2,. 在一个知识地图中文档的总数
N=1,2,. 在文档Dm中句子的总数
Sn =有n个句子
Dm=有m个文档NDm Sn =在m个文档,n个句子中所有教育期刊网 http://www.jyqkw.com
关键词 的个数
⑶关联标记
知识地图中的连接线条越粗,代表关联越强。如果用户选择粗的关联进行点击,系统页面上会同时展现许多句子,会造成信息干扰。因此,建议通过关联标记和分类进一步降低的句子数。
二、实验
1.方法
通过招募志愿者参与知识地图在线学习平台进行试验,通过计算对重要句子的召回率来判断结果的好坏。文档中句子根据其信息的重要性被分配为三个等级类别(A类,B类和C类)。通过领域专家来进行打分决定句子的分类登记。由于试验的语言是英文,参与试验的志愿者均是以英语为第二语言的学生。为了减少误解,实验过程中,他们有足够的时间阅读文档,并且可以讨论对每个句子内容的理解。文档中的句子分成以下3类:
A类:能对文档主题起到关键支撑作用的句子。
B类:能对文档主题起部分支撑作用的句子。
C 类:句子是不相关的话题,或者是没有帮助。
实验是的主题文档是摘选自纽约时报的新闻文章,文章里都是四级英语词汇,一共有986字,44句。
2.句子的召回率
图二(a)所示为在知识地图的帮助下,用户通过关联关系获取的句子的个数,三条曲线分别代表A、B和C三类句子的抽取数量。X-轴表示的是关联关系的访问数量,一个用户访问的顺序排序。Y轴是选择关系的句子,和用户访问的数量有关。该图显示,用户在B类的句子中提取比其它两类要多。图二(b)表示为从每个主题的类别中抽取的重要的句子的百分比。X-轴表示的也是关联关系的访问数量,Y-轴是为每个级别的提取百分比。句类A的提取率最高,其次是B类,C类的提取率远远低于平均值。
三、在线学习的绩效评估
1. 绩效评估
通过比较在有无知识地图平台支持的在线学习绩效,我们可以对在线学习的效果进行良好的评估。学习绩效的主要指标可以用用户抽取出符合主题的句子来判别。有知识地图平台支持的实验组为地图组,没有知识地图平台支持的实验组为文档组。
表1 所示为这两个群体的学习绩效的结果。表中列出了观测平均值,标准偏差和样本大小这三个字段的具体值。通过进行Anderson-Darling 检测,两个实验组的结果都是呈正态分布的。两组均未发现异常(文件组:P = 0.208,地图组:P =0.608)。此外,这两个实验组被发现有相等的F 检验(P = 0.874)和Levene 检验(P = 0.955)。最后,对两个实验组进行了t-检验,结果表明,两组(P = 0.886)之间无显着差异。
表2 分析两组之间的对主题模糊抽取的数量,而不考虑抽取的句子是否能对主题的完全支持。分析表明,知识地图和文档组都正常(文档组:P = 0.190,地图组:P = 0.695)。此外,两组有平等的方差F 检验(P = 0.806)和Levene 检验(P =0.954)。t检验的结果表明,有两组之间没有差异(P = 0.901)。换句话说,有提取的主题句子数目没有很大差异。
2.不重要信息的比较
不重要信息提取,是指C类句子的提取,这主要是分析文档组和知识地图组在学习过程中对主题产生的误解。结果表明这两个实验组都有抽取不同数量的与主题不相关的句子。表3所示为C类观测平均值,标准偏差和样本大小的统计数据。可以看到知识地图组的观测平均值为0.82,小于1,结果表明,在知识地图支持的在线学习环境下,用户可能对主题的误解和歧义会很小。
同时,通过进行正态性检验,和非参数检验(Mann-Whitney 检验),检查文档组合知识地图组是否在无关信息的量上有差别。结果表明,有差异(P= 0.0031),文件组往往要比知识地图组得到更多的无用信息。
知识地图作为一种可视化的知识管理工具,可以辅助用户进行在线学习,用户可以清晰了了解文档的所有主题以及主题和主题之间的关联关系。本文提出了自动创建知识地图的方法,利用文本挖掘技术从文件有关特定主题中使用TF/IDF 算法进行教育期刊网 http://www.jyqkw.com
关键词 提取。同时本文论述了知识地图模型的构建过程,主要包括,教育期刊网 http://www.jyqkw.com
关键词 提取,关联关系提纲,关联标记。为验证方法的可靠性,本文设计了相关实验,并对模型的效果进行了评价。实验结果表明,知识地图确实能提高在线学习的绩效。用户可以看到一个领域中中所有的关键概念,并可以识别出哪些概念是密切相关的。用户阅读时可以直接跳转访问相关文件的某个句子。未来的工作主要包括分析知识地图是否可以作为一个搜索引擎,如果更精确的给用户推送相关知识。
引文注释
①Chen, Y., & Xia, H. (2009). Research on theauto-construction methods of concept map. InProceedings of international conference on in?telligent human- machine systems and cyber?netics.
② Chu, K. K., Lee, C. I., & Tsai, R. S. (2011).Ontology technology to assist learners’naviga?tion in the concept map learning system. Ex?pert Systems with Applications, 38, 11293–11299.
③高毅,申瑞民.基于开放E-Learning平台的学生行为分析中心[J]. 计算机工程, 2009(15)④Hou, X., Ong, S. K., Nee, A. Y. C., Zhang, X.T., & Liu, W. J. (2011). GRAONTO: a graphbased approach for automatic construction of domain ontology. Expert Systems with Applica?tions, 38, 11958–11975.
⑤Jia, H., Wang, M., Ran, W., Yang, S. J. H., Li?ao, J., & Chiu, D. K. W. (2011). Design of aperformance- oriented workplace e- learningsystem using ontology. Expert Systems withApplications, 38, 3372–3382.
⑥Wang, Y. H., & Liao, H. C. (2011). Data min?ing for adaptive learning in a TESL-based elearningsystem. Expert Systems with Applica?tions, 38, 6480–6485.
⑦郝兴伟,苏雪.E-Learning中的个性化服务研究[N].山东大学学报(理学版), 2005, 40(2):67-70.
⑧冯文辉等.基于本体的多Agent 在线学习系统模型研究[J].福建电脑,2009,11(2):33-38.
(作者单位:上海工会管理职业学院)