Web挖掘中的降维和分类方法研究

Web挖掘论文 网页分类论文 降维论文 万维网论文
论文详情
Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点,提出和改进Web挖掘算法。主要工作包括以下方面: 第一,提出一种有监督的潜在语义索引(SLSI)模型降维方法,用于文本分类任务中的特征表示。同传统的潜在语义索引(LSI)模型相比,SLSI既能够捕捉文档集合中的潜在概念,同时能够利用不同类别之间的区分信息。SLSI可以取得好的降维效果,同时也能保证文本分类的精度。 第二,提出一种三阶数据降维模型CubeSVD,用于分析搜索引擎服务器端收集的点击日志数据。点击日志数据通常很稀疏,并且包含多种类型对象,对象之间存在复杂的关系。CubeSVD基于高阶奇异值分解技术,通过降维发现对象间的潜在关系,帮助提高个性化Web搜索的性能。 第三,研究基于降维技术的网页摘要方法,提出一种利用点击日志的改进型网页摘要算法ALSA,从点击日志数据中挖掘Web用户使用查询词搜索网页的知识;另外,结合点击日志数据和Web上人工标注的网页类别信息,提出一种构造主题词典(Thematic Lexicon)方法帮助网页摘要。 第四,提出一种通过优化组合核函数进行网页分类的方法GECKO。网页分类的一个难点是网页具有异构特征。本文使用组合核函数方法综合利用异构特征,通过求解广义特征值问题优化核函数的组合,基于优化的核矩阵训练SVM分类器。试验结果显示该算法能够取得好的泛化性能。 第五,研究基于隐链接关系的网页分类算法。用户使用搜索引擎时,输入查询词后通常会点击一些主题相关的网页,因此基于点击日志数据可以构建网页间的隐链接关系。本文提出构建隐链接的方法和基于隐链接构造网页虚拟文档表示的方法,并且基于两类网页分类算法比较文中定义的两种隐链接和三种超链接关系。试验结果显示基于隐链接关系可以改进网页分类的精度。 作者参加了数据挖掘组承担的国家973项目,将本文研究成果用于该项目的Web挖掘原型系统WebME(Web Mining Environment)中,系统的良好性能验证了本文所提出方法的有效性。
第1章 概述第12-29页
    1.1 研究的目的、意义及研究背景第12-13页
    1.2 Web挖掘研究的内容第13-15页
        1.2.1 Web内容挖掘第14页
        1.2.2 Web结构挖掘第14页
        1.2.3 Web使用挖掘第14-15页
    1.3 Web挖掘研究的关键技术第15-25页
        1.3.1 网页分类第15-19页
            1.3.1.1 文本分类算法第16-17页
            1.3.1.2 文本分类的评价第17-18页
            1.3.1.3 网页分类研究存在的问题第18-19页
        1.3.2 网页摘要第19-22页
            1.3.2.1 传统摘要算法第20-21页
            1.3.2.2 网页摘要的评价第21-22页
        1.3.3 Web搜索第22-23页
        1.3.4 Web挖掘中的降维方法研究第23-25页
            1.3.4.1 特征选择第24页
            1.3.4.2 奇异值分解(SVD)第24-25页
    1.4 Web挖掘的难点第25-26页
        1.4.1 需要多种Web挖掘技术的结合第25页
        1.4.2 复杂数据对Web挖掘研究提出挑战第25-26页
        1.4.3 使用Web数据中的用户知识提高挖掘性能第26页
    1.5 本文的研究重点、主要贡献和论文的组织第26-29页
        1.5.1 本文的研究内容第26-28页
        1.5.2 论文各部分的主要内容第28-29页
第2章 有监督的潜在语义索引(SLSI)模型第29-37页
    2.1 引言第29页
    2.2 相关研究工作第29-31页
    2.3 SLSI模型第31-34页
        2.3.1 SLSI算法描述第31-32页
        2.3.2 基向量的选择第32-33页
        2.3.3 SLSI和LSI的区别第33-34页
    2.4 试验和分析第34-36页
    2.5 本章小结和下一步研究工作讨论第36-37页
第3章 CubeSVD模型及其在个性化Web搜索中的应用第37-56页
    3.1 引言第37-38页
    3.2 个性化搜索和点击日志挖掘第38-40页
    3.3 张量和高阶奇异值分解第40-41页
    3.4 基于CubeSVD的Web搜索第41-49页
        3.4.1 CubeSVD算法第42页
        3.4.2 CubeSVD的一个例子第42-46页
        3.4.3 中心张量的维数选择第46-47页
        3.4.4 加权策略第47-48页
        3.4.5 平滑方法第48-49页
            3.4.5.1 基于常数的平滑第48页
            3.4.5.2 基于内容相似性的平滑第48-49页
        3.4.6 归一化方法第49页
    3.5 试验和分析第49-55页
        3.5.1 数据集第49-50页
        3.5.2 基准算法第50页
        3.5.3 评价方法第50-52页
        3.5.4 试验结果第52-55页
            3.5.4.1 中心张量维数对算法性能的影响第52页
            3.5.4.2 加权策略、平滑方法和归一化方法的影响第52-53页
            3.5.4.3 跟其它方法的比较第53页
            3.5.4.4 试验结论第53-55页
    3.6 本章小结和下一步研究工作讨论第55-56页
第4章 基于点击日志的改进型网页摘要算法第56-67页
    4.1 引言第56页
    4.2 相关研究工作第56-57页
    4.3 使用点击日志提高摘要性能第57-60页
        4.3.1 点击日志用于网页摘要的可行性研究第57-58页
        4.3.2 改进型网页摘要算法:ALSA第58-59页
        4.3.3 提高没有查询日志网页的摘要结果第59-60页
    4.4 试验和分析第60-66页
        4.4.1 数据集第61-62页
            4.4.1.1 人工标注的网页集第61页
            4.4.1.2 大规模测试集第61-62页
        4.4.2 评价方法第62页
        4.4.3 试验结果和讨论第62-66页
            4.4.3.1 有点击日志网页的摘要结果第62-63页
            4.4.3.2 没有点击日志网页的摘要结果第63-64页
            4.4.3.3 大规模测试集的摘要结果第64-65页
            4.4.3.4 讨论第65-66页
    4.5 本章小结和下一步研究工作讨论第66-67页
第5章 基于组合核函数的网页分类算法第67-80页
    5.1 引言第68-69页
    5.2 相关研究工作第69-70页
    5.3 核方法第70-71页
        5.3.1 核方法和核组合第70-71页
        5.3.2 核匹配第71页
    5.4 基于优化组合核函数的网页分类算法第71-74页
        5.4.1 优化组合核匹配第72-73页
        5.4.2 GE-CKO算法第73-74页
    5.5 试验和分析第74-78页
        5.5.1 数据集第74页
        5.5.2 评价方法第74页
        5.5.3 试验结果和讨论第74-77页
            5.5.3.1 基准算法第74-76页
            5.5.3.2 GE-CKO算法的泛化性能第76-77页
            5.5.3.3 多个核组合情况下GE-CKO算法的性能第77页
        5.5.4 讨论第77-78页
    5.6 本章小结和下一步研究工作讨论第78-80页
第6章 基于隐链接的网页分类算法第80-94页
    6.1 引言第80-81页
    6.2 相关研究工作第81-82页
    6.3 隐链接和超链接第82-84页
        6.3.1 隐链接和超链接的定义第82-83页
        6.3.2 隐链接和超链接的区别第83-84页
    6.4 基于隐链接的分类算法第84-85页
        6.4.1 基于链接邻居的分类(CLN)第84页
        6.4.2 基于虚拟文档表示的分类(VDBC)第84-85页
    6.5 试验和分析第85-92页
        6.5.1 试验数据第85-86页
        6.5.2 分类算法和评价方法第86-87页
        6.5.3 链接关系的统计第87-88页
        6.5.4 CLN算法分类结果第88页
        6.5.5 VDBC算法分类结果第88-92页
            6.5.5.1 不同虚拟文档表示方法的影响第89-90页
            6.5.5.2 组合网页局部文本的虚拟文档表示第90-91页
            6.5.5.3 点击日志数量对分类性能的影响第91-92页
    6.6 本章小结和下一步研究工作讨论第92-94页
第7章 Web挖掘原型系统第94-107页
    7.1 系统框架第94页
    7.2 WebME系统的特点第94-96页
    7.3 系统主要模块第96-98页
    7.4 WebME系统用于宏观经济领域的例子第98-103页
    7.5 本章小节和下一步研究工作讨论第103-107页
结论第107-109页
参考文献第109-118页
致谢及声明第118-119页
个人简历、在学期间发表的学术论文与研究成果第119-121页
论文购买
论文编号ABS1664979,这篇论文共121页
会员购买按0.30元/页下载,共需支付36.3
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付60.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656