面向中文Web评论的观点挖掘关键技术研究

观点挖掘论文 评价特征论文 情感词语论文 主题模型论文 DirichletForest论文
论文详情
互联网中包含大量关于社会事件、热点人物及电商产品等的评论信息。它们其有重要的应用价值,既可以为政府舆情服务,也可以为商家和消费者等大众使用。但互联网中的信息量正以指数级的速度增长,仅靠人工阅读来获取有价值的信息是一个十分费时费力的过程。因此迫切需要一种有效的手段,能够对海量数据进行深入的整理、分析与提炼,从而给用户提供直接可用的、准确全面的信息。Web信息观点挖掘技术正是在这样的背景下应运而生,它己成为当前数据挖掘和自然语言处理领域的研究热点。本文旨在研究面向中文产品评论的观点挖掘技术,主要包括产品评价特征抽取和情感词语识别。首先利用丰题模型从评论文本中抽取产品的评价特征及其层次关系;然后将情感词语区分为通用情感词语和语境情感词语,分别利用基于词语释义和关联规则的方法进行识别;最后根据产品特征对评价结果进行统计,并以层次结构的形式展示给用户。论文丰要的研究工作及创新之处包括以下几个方面:一、提出了一个评论-主题模型(Review-Topic Model, RTM),根据其分布结果抽取评价特征及其层次关系。RTM模型在LDA的基础上增加了一个评价指标层,将文档表示为评价指标上的概率分布、评价指标为主题上的概率分布、主题为词语空间上的概率分布。其基本思想是利用评论网站中的评价指标来指导文本中词语的生成过程,以提高主题挖掘的效果。RTM模型会将语义相关的评价特征分配到同一个主题中,达到特征聚类的效果;并且还可以利用模型的评价指标-丰题分布结果得到评价指标、丰题和特征词群之间的层次结构关系。实验结果表明,利用RTM模型除了可以得到评价特征间的层次关系之外,其评价特征抽取的准确率、召回率和F值比LDA模型分别提高了8.6%、3%、7%左右。二、在丰题模型中加入词语分布的先验知识可以提高其性能,本文研究了如何在RTM中融入先验知识,提出了一个基于Dirichlet Forest分布的评论-主题模型(RTM-DF)。该模型将主题在词语空间上的先验分布扩展为Dirichlet Forest分布,能够将词语之间的语义关系有机地融合进来。本文首先计算词语之间的语义相关度,在此基础上对词语的分布加以限制生成Must-Link和Cannot-Link集合;然后对这些限制关系进行表示得到Dirichlet Forest;再利用RTM-DF模型为每个主题分配Dirichlet Tree,并根据树结构产生其在词语空间上的先验概率。实验结果表明,加入先验知识之后,在召回率基本不变的情况下,评价特征抽取的准确率和F值分别提高了5%、3.7%。三、提出了一种基于规则与共现概率的专有名词识别方法。首先对文本进行分词、词性标注,根据词性组合规则抽取候选名词短语;然后利用共现概率对候选名词短语进行过滤,实现专有名词短语的识别。四、提出了一种基于词语释义的通用情感词语识别方法。首先根据现有情感词典资源构建候选情感词表,然后基于多特征线性融合的方法计算词语在《现代汉语词典》中所有释义的情感色彩;再利用多次循环的策略从情感词表中识别出通用情感词语,构建一个适用于任何领域的通用情感词典。五、提出了一种基于关联规则的语境情感搭配词组挖掘方法。首先利用关联规则技术从特定领域的语料中挖掘出与语境情感词具有搭配关系的常用词语组合;然后根据搭配词组的上下文信息对其倾向性进行分析,进而构建领域相关的情感词语搭配集合。最后将通用情感词语与语境情感词语结合起来在文本倾向性分析会议(COAE2011)的语料集上了进行了测试,实验结果表明情感词语识别的效果有了明显的提高。
摘要第5-7页
Abstract第7-8页
第一章 绪论第12-17页
    1.1 研究背景与意义第12-13页
    1.2 概念介绍第13-15页
    1.3 本文的主要研究内存第15-16页
    1.4 论文的组织结构第16-17页
第二章 相关研究工作概述第17-37页
    2.1 文本倾向性分析概述第17-18页
    2.2 文本倾向性分析的任务第18-30页
        2.2.1 主客观分类第18-20页
        2.2.2 观点持有者抽取第20页
        2.2.3 评价特征抽取第20-23页
        2.2.4 情感词语抽取及倾向性识别第23-27页
        2.2.5 句子倾向性分析第27-29页
        2.2.6 篇章倾向性分析第29-30页
        2.2.7 海量数据的整体倾向性分析第30页
    2.3 观点挖掘应用系统第30-33页
    2.4 相关会议及评测第33-35页
    2.5 语料库建设第35-36页
    2.6 本章小结第36-37页
第三章 基于主题模型的评价特征及其层次关系识别第37-58页
    3.1 引言第37-38页
    3.2 主题模型概述第38-43页
        3.2.1 主题模型的发展第39-40页
        3.2.2 LDA模型第40-42页
        3.2.3 参数估计第42-43页
    3.3 基于多特征融合的主观句识别第43-44页
    3.4 专有名词识别第44-46页
        3.4.1 基于规则的候选名词短语抽取第45页
        3.4.2 基于共现概率的短语过滤第45-46页
    3.5 基于RTM模型的评价特征及层次关系抽取第46-50页
        3.5.1 RTM模型描述第46-47页
        3.5.2 基于Gibbs采样的参数估计第47-49页
        3.5.3 评价特征抽取及表示第49-50页
    3.6 实验与分析第50-57页
        3.6.1 实验数据第50页
        3.6.2 评价指标提取第50-52页
        3.6.3 模型评估——Perplexity结果第52-54页
        3.6.4 模型评估——分布结果示例第54-55页
        3.6.5 评价特征抽取结果第55-57页
    3.7 本章小结第57-58页
第四章 基于Dirichlet Forest先验分布的产品特征识别优化第58-75页
    4.1 引言第58-59页
    4.2 Dirichlet Forest prior第59-63页
        4.2.1 共轭分布第59页
        4.2.2 Dirichlet-Tree分布第59-60页
        4.2.3 Dirichlet Forest分布第60-63页
    4.3 RTM-DF模型第63-66页
        4.3.1 模型描述第63-64页
        4.3.2 参数估计第64-66页
    4.4 先验知识获取第66-67页
    4.5 模型评估第67-69页
    4.6 实验与分析第69-73页
        4.6.1 先验知识设置第69-70页
        4.6.2 Perplexity结果第70-71页
        4.6.3 模型的分布结果第71-72页
        4.6.4 评价特征抽取结果第72-73页
    4.7 本章小结第73-75页
第五章 情感词语识别及其倾向性分析第75-98页
    5.1 引言第75-76页
    5.2 基于词语释义的通用情感词语识别第76-81页
        5.2.1 问题的引入第76-77页
        5.2.2 《现代汉语词典》介绍第77-78页
        5.2.3 词语释义的情感倾向性识别第78-79页
        5.2.4 通用情感词语识别第79-81页
    5.3 基于关联规则的语境情感搭配词组挖掘第81-87页
        5.3.1 问题的引入第81页
        5.3.2 关联规则第81-83页
        5.3.3 语境情感搭配词组识别第83-84页
        5.3.4 语境情感搭配词组的倾向性分析第84-87页
    5.4 实验及分析第87-97页
        5.4.1 实验数据第87页
        5.4.2 候选情感词表构建第87-88页
        5.4.3 通用情感词语识别第88-91页
        5.4.4 语境情感词语识别第91-94页
        5.4.5 情感词语识别的效果及分析第94-97页
    5.5 本章小结第97-98页
第六章 酒店评论文本的观点挖掘示范第98-105页
    6.1 评价特征抽取第98页
    6.2 情感词语识别第98-100页
        6.2.1 情感词语识别步骤第98-99页
        6.2.2 通用情感词语识别结果第99页
        6.2.3 语境情感词语识别结果第99-100页
    6.3 观点挖掘结果第100-104页
    6.4 本章小结第104-105页
第七章 总结与展望第105-108页
    7.1 本文总结第105-106页
    7.2 展望第106-108页
参考文献第108-119页
攻读学位期问的科研成果第119-120页
攻读学位期间参与的项目第120页
攻读博位期间获得的奖励第120-121页
致谢第121页
论文购买
论文编号ABS4008785,这篇论文共121页
会员购买按0.30元/页下载,共需支付36.3
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付60.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656