社交媒体数据流谣言实时检测方法的研究

社交媒体论文社交媒体谣言检测论文文本挖掘论文文本蕴涵论文

论文详情

随着互联网技术的高速发展,社交媒体已经从一个基于用户关系的通讯工具,逐渐演变成了人们获取新闻信息的主要渠道。社交媒体中的新闻传播主体呈多元化,人人都是新闻的制造者、传播者与接收者。社交媒体打破了传统新闻传播的边界,使得新闻传播可以跨越国界、产业、社群等得到全方位的发展。社交媒体的用户群体多样化、产生数据量大、消息文本碎片化等特征明显区别于相对数据流量较小的网络新闻媒体。研究网络新闻媒体与社交媒体的新闻传播行为也成为了西方学者们竞相研究的一个方向。但在中国,学者们对该课题的研究却尚处萌芽状态。中国汉字的复杂性和民族的多样性,以及汉字使用群体的庞大,导致中国的社交媒体平台和传媒渠道更具有中国特色。随着中国国际地位的日益提升,研究中国传媒的话题性与西方传媒话题性之间的相互覆盖率和区别也显得十分重要。社交媒体在革新了新闻传播方式,便利了人与人之间的即时信息交流之余,也成为了网络谣言产生与传播的温床。社交媒体的谣言检测方法也成为了目前比较热门的一个研究方向,但谣言检测并不容易,目前最准确的谣言检测系统需要进行回溯型运算,严重影响了检测的效率。检测的延时导致了我们无法在谣言发布的同一时间就进行监控,使其有机会得到扩散,给人们生活和社会带来了严重的负面影响。此外,随着社交媒体的普及、用户的不断增加,社交媒体每天所产生的数据量之大也变得越来越难以估量。本研究发现随着处理数据量的增大,新话题检测系统的性能和准确率也面临着严峻的挑战。目前该领域的学者们都致力于提升新话题检测算法的性能使其能更好地适应对数据流的处理,却忽略了随着存储历史信息的空间饱和度的不断上升,系统计算出来的累计平均新颖度分数也呈新出持续衰变的趋势。而新颖度分数的偏差给新话题检测系统的准确率也带来了一定程度的负面影响。综上所述,本文将研究的重点主要集中在以下三个方面:第一,本文探索中西方传媒在内容和时间特性上的异同,揭示了中国网络新闻媒体在重大事件的新闻报道时间上的领先性,以及中西传媒在报道内容上的主观偏向性。本项研究主要通过话题检测与跟踪算法以及基于向量空间的近似度算法,对中西网络新闻媒体和社交媒体的四个数据流进行话题及重合度检测,并对检测出的数据进行定性和定量的分析。实验结果揭示了中西传媒在话题内容上的自中国向西方的兴趣偏向性,即中国媒体对西方话题的覆盖率明显高于西方媒体对中国话题的覆盖率,且该偏向性在涉及到与名人相关的新闻报道与讨论时表现的最为明显;第二,本文主要研究社交媒体数据流中的实时谣言检测方法。本研究证实现有谣言检测方法并不能胜任对社交媒体数据流中谣言的实时检测。利用本文提出的基于记忆的文字蕴涵Kterm Entailment算法与访问外部数据相结合的方法可从真正意义上实现社交媒体数据流中的实时谣言检测。为了弥补在早期谣言检测过程中基于回溯运算的谣言特征缺失,本文利用Kterm Entailment算法访问外部数据(如新闻报道)以检验消息是否被可信源所证实(即蕴涵度计算),提出以蕴涵度分数为代表的实时谣言检测特征集。本文还提出辅助检测的伪反馈特征,该类特征利用了重复信号的概念,能够自动计算消息文本与已判定为谣言的内容相似度。本文通过特征分析、检测性能、扩展性检验等多个实验证实了基于蕴涵度与伪反馈特征的实时谣言检测方法相较于其他各种检测方法具有更加优秀的实时检测性能;第三,本文还探索了处理数据流对新话题检测系统性能的影响,指出新话题检测系统中存在的新颖度衰变问题,在此基础上提出新颖度衰变经验模型,并通过实验验证了应用该模型对新话题检测系统准确率的提升。本文通过研究三个不同类型的新话题检测系统在数据流处理中的性能来探索数据规模对系统性能的影响,揭示了新话题检测系统的新颖度分数衰变现象。在此基础上,本文还探索衰变现象和空间饱和程度之间的关系,并揭示衰变对检测准确率的负面影响。通过对实验数据的拟合,本文提出了衰变修正模型,利用该模型可以为检测出的新颖度分数进行一个预期衰变值的补偿。经验证,实验结果表明采用衰变模型对新颖度分数进行补偿,可以显著提升检测性能。本文所研究的社交媒体谣言的实时检测方法,是一利用最新的大数据处理技术与传统的应用机器学习技术进行谣言检测的方法相结合的创新思路与方法,在实时谣言检测领域具有一定的前沿性,对于及时捕捉谣言,减少谣言传播的危害以及实时舆情检测与监控具有深远的意义。此外,本文在新话题检测系统的研究中所发现的新颖度衰变问题是该领域研究的一项重大发现,本文在该方向上的研究成果对于如何在数据爆炸的时代进行高效的话题检测与跟踪产生了积极的影响,促进了舆情分析的发展。

中文摘要	第8-10页
Abstract	第10-12页
第一章绪论	第13-27页
1.1 选题背景与意义	第13-16页
1.1.1 研究背景	第13-14页
1.1.2 研究意义	第14-16页
1.1.3 主要研究内容	第16页
1.2 研究思路与研究方法	第16-20页
1.2.1 研究思路与技术路线	第16-18页
1.2.2 研究方法	第18-19页
1.2.3 关键技术与难点	第19-20页
1.3 术语与核心概念	第20-26页
1.3.1 微博及社交网络术语	第20-22页
1.3.2 TDT项目	第22-24页
1.3.3 Cross-Twitter	第24-25页
1.3.4 网络新闻媒体及社交媒体	第25页
1.3.5 谣言的定义	第25-26页
1.4 研究框架与主要内容	第26-27页
第二章相关研究	第27-39页
2.1 国外谣言研究现状	第27-33页
2.1.1 可信度计算相关研究	第27-29页
2.1.2 基于传统特征的谣言检测	第29页
2.1.3 基于传播结构的谣言检测	第29-30页
2.1.4 基于聚类技术的谣言检测	第30-31页
2.1.5 基于情感分析的谣言检测	第31-33页
2.1.6 早期谣言检测方法	第33页
2.2 国内谣言研究现状	第33-37页
2.2.1 微博的特征及价值	第33-34页
2.2.2 国外技术在微博谣言检测应用的相关研究	第34-35页
2.2.3 微博谣言传播结构及情感分析的相关研究	第35-37页
2.3 国内外研究现状总结	第37-39页
第三章中西传媒在新闻报道上的时间特性与内容特性的研究	第39-58页
3.1 中西媒体在新闻报道上的时间特性研究	第39-49页
3.1.1 研究目的	第39-41页
3.1.2 数据集	第41-46页
3.1.3 西方网络新闻媒体与社交媒体的时间特性分析	第46-48页
3.1.4 中国网络新闻媒体与社交媒体的时间特性分析	第48-49页
3.1.5 小结	第49页
3.2 中西媒体在新闻报道上的内容特性研究	第49-56页
3.2.1 研究目的	第49-50页
3.2.2 数据集	第50页
3.2.3 研究方法	第50-52页
3.2.4 中国网络新闻媒体及社交媒体话题相互覆盖率实验	第52-54页
3.2.5 覆盖强度	第54页
3.2.6 中西网络新闻媒体的报道内容的异同	第54-55页
3.2.7 中西社交媒体所关注话题内容的异同	第55-56页
3.2.8 小结	第56页
3.3 本章小结	第56-58页
第四章基于蕴涵度特征与伪反馈特征的实时谣言检测方法	第58-96页
4.1 主要研究点	第58-60页
4.2 现有检测方法的实时性验证	第60-62页
4.2.1 现有检测方法的理论检验	第61-62页
4.2.2 现有检测方法的实践检验	第62页
4.3 Kterm Entailment算法	第62-69页
4.4 实时谣言检测方法研究	第69-71页
4.4.1 问题陈述	第69-70页
4.4.2 方法概述	第70页
4.4.3 目标谣言检测	第70-71页
4.5 谣言的新特征及计算	第71-79页
4.5.1 蕴涵度特征的计算	第73-75页
4.5.2 伪反馈特征的计算	第75-79页
4.6 其它实时谣言特征的计算	第79-83页
4.7 实验	第83-94页
4.7.1 数据的收集与数据集	第83-85页
4.7.2 分类器选择	第85-88页
4.7.3 评估方法	第88-89页
4.7.4 模型效果测试	第89-91页
4.7.5 目标谣言检测测试	第91页
4.7.6 特征分析测试	第91-93页
4.7.7 中文分词对检测性能的影响测试	第93页
4.7.8 对非流行型谣言检测的测试	第93-94页
4.7.9 有效性与延伸性测试	第94页
4.8 本章小结	第94-96页
第五章新颖度衰变模型的研究	第96-117页
5.1 研究目的	第97-98页
5.2 新话题检测技术的新颖度衰变问题	第98-102页
5.3 新颖度衰变的原因	第102-106页
5.3.1 传统的基于对比的检测系统	第102-103页
5.3.2 基于局部敏感哈希的检测系统	第103-104页
5.3.3 基于记忆的检测系统	第104页
5.3.4 新颖度衰变原因的总结	第104-106页
5.4 提高新话题检测系统准确率的预初始化法	第106-107页
5.5 应对新颖度衰变的方法	第107-116页
5.5.1 新颖度衰变模型	第108-112页
5.5.2 应用衰变模型对抗新颖度衰变	第112-113页
5.5.3 应用衰变模型对检测系统有效性的影响	第113-115页
5.5.4 应用衰变模型对检测系统效率的影响	第115-116页
5.6 本章小结	第116-117页
第六章总结与展望	第117-123页
6.1 研究总结	第117-119页
6.2 主要创新点	第119-121页
6.3 展望	第121-123页
参考文献	第123-131页
攻读博士学位期间的主要科研成果	第131-132页
致谢	第132页

论文购买

论文编号ABS4124892，这篇论文共132页

会员购买按0.30元/页下载，共需支付39.6。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付66。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！