基于文本降维和蚁群算法的文本聚类研究

文本聚类论文 文本降维论文 奇异值分解论文 蚁群文本聚类算法论文
论文详情
文本聚类技术作为文本挖掘中的一个技术分支,发挥着越来越重要的作用。文本聚类技术能够将相似的文本进行归类,方便了各个领域的人员从海量的文本信息中挖掘潜在的、有价值的信息。本文采用复旦大学中文文本语料库进行文本聚类研究,根据文本的相似度并结合相应的聚类算法将相似的文本聚集成簇。因为中文文本自身的结构特点,在文本聚类之前需要对文本进行相应的文本预处理,即对文本进行分词并去除无用的停用词。本文使用中科院分词系统(ICTCLAS)对文本分词并使用哈工大停用词表过滤停用词。接着为了得到能够有效表示文本内容的特征词,进行特征词的选择。最后考虑到计算机不能直接处理非结构或者半结构的信息,本文采用向量空间模型(VSM)来表示文本、词频-逆文档频率(TF-ID F)值来表示每个特征词的权重值。通过分析文本处理的整个过程发现,如果直接将预处理后的关键词直接组成向量空间模型,那么该模型就会存在着维度过高和数据元素稀疏问题。为了解决其问题,本文首先分两步对特征词进行筛选,第一步使用卡方检验的方法对特征词初步提取,得到特征词集合,第二步对特征词集合进行基于语义的层次聚类,合并特征词集合中同义或者相近的词。接着,计算过滤后特征词集合中每一个词的TF-II)F值并生成向量空间模型。然而,此时生成模型仍然具有着高维度和元素稀疏的缺陷,本文采用奇异值分解的方法,找到向量空间模型的隐含语义空间,实现向量空间模型的降维并减少了噪声点的干扰。通过以上方法的处理,保持了原有模型的特性,有效的降低了矩阵的维度,提高文本聚类的效率。文本降维处理后,接下来就是选择合适的文本聚类算法。目前存在较多的文本聚类算法,根据聚类实现方法的不同大致可分为基于划分、层次、密度、模型聚类方法。传统的文本聚类算法存在需预先确定簇数、无自组织等不足。所以本文采用了可以实现自组织的蚁群文本聚类算法作为最终的文本聚类算法。通过分析基本的蚁群文本聚类算法可知,基本算法中也存在着诸多的不足,比如迭代的次数过多、蚂蚁在二维平面中移动过于随机等等,这些因素影响了算法的收敛速度和文本聚类效果。本文在基本算法的基础上,采用了几种改进的措施,它们分别是修改算法终止条件使算法的结束不在简单的依赖最大迭代次数,避免了无意义空耗时间;动态调整蚂蚁的观察半径使蚂蚁以线性递减的方式调整观察半径,平衡了算法收敛速度和聚类效果;制定三种移动策略使蚂蚁在拾起、放下文本后移动的方向具有了目标性,提高了文本聚类的效果。最后,通过相关的实例展示了本文采用的文本降维方法的具体实现过程,证明了方法的可行性。使用复旦大学中文文本语料库进行了仿真实验,实验结果表明,改进后的蚁群文本聚类算法不仅加快了文本聚类的收敛速度而且提高了文本聚类结果的精度,完善了文本聚类的效果。
摘要第3-5页
Abstract第5-6页
第一章 绪论第9-14页
    1.1 选题的背景及意义第9-10页
    1.2 国内外研究现状第10-12页
    1.3 本文的主要工作及结构安排第12-14页
        1.3.1 本文主要工作第12页
        1.3.2 本文结构安排第12-14页
第二章 相关理论基础第14-32页
    2.1 文本处理相关技术第14-23页
        2.1.1 文本预处理第14-16页
        2.1.2 文本特征词提取第16-18页
        2.1.3 文本建模第18-21页
        2.1.4 文本相似度计算第21-23页
    2.2 文本聚类算法第23-27页
        2.2.1 基于划分的聚类算法第24-25页
        2.2.2 基于层次的聚类算法第25-26页
        2.2.3 基于密度的聚类算法第26-27页
        2.2.4 基于模型的聚类算法第27页
    2.3 蚁群算法第27-29页
        2.3.1 蚁群算法的基本理论第27-28页
        2.3.2 蚁群算法的数学模型第28-29页
    2.4 基于蚁群的文本聚类算法第29-31页
        2.4.1 基于蚁堆形成的聚类算法第29页
        2.4.2 基本蚁群文本聚类算法第29-31页
    2.5 本章小结第31-32页
第三章 基于卡方和奇异值分解的文本降维第32-42页
    3.1 引言第32页
    3.2 基于卡方和层次聚类融合的特征选择第32-33页
    3.3 基于奇异值分解的向量空间模型第33-37页
    3.4 实验结果与分析第37-41页
    3.5 本章小结第41-42页
第四章 基于蚁群优化的文本聚类算法第42-54页
    4.1 引言第42页
    4.2 基于算法终止条件的修改策略第42-44页
    4.3 基于蚂蚁观察半径的动态调整第44页
    4.4 基于蚂蚁移动方向的规则制定第44-48页
    4.5 实验结果与分析第48-53页
    4.6 本章小结第53-54页
第五章 总结与展望第54-56页
    5.1 总结第54-55页
    5.2 下一步的展望第55-56页
参考文献第56-61页
附录第61-63页
    附录A 图索引第61页
    附录B 表索引第61-63页
Appendix第63-65页
    Appendix A Figure Index第63页
    Appendix B Table Index第63-65页
致谢第65-66页
攻读硕士学位期间发表的论文第66页
论文购买
论文编号ABS2931086,这篇论文共66页
会员购买按0.30元/页下载,共需支付19.8
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付33
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656