社交媒体数据流谣言实时检测方法的研究

社交媒体论文 社交媒体谣言检测论文 文本挖掘论文 文本蕴涵论文
论文详情
随着互联网技术的高速发展,社交媒体已经从一个基于用户关系的通讯工具,逐渐演变成了人们获取新闻信息的主要渠道。社交媒体中的新闻传播主体呈多元化,人人都是新闻的制造者、传播者与接收者。社交媒体打破了传统新闻传播的边界,使得新闻传播可以跨越国界、产业、社群等得到全方位的发展。社交媒体的用户群体多样化、产生数据量大、消息文本碎片化等特征明显区别于相对数据流量较小的网络新闻媒体。研究网络新闻媒体与社交媒体的新闻传播行为也成为了西方学者们竞相研究的一个方向。但在中国,学者们对该课题的研究却尚处萌芽状态。中国汉字的复杂性和民族的多样性,以及汉字使用群体的庞大,导致中国的社交媒体平台和传媒渠道更具有中国特色。随着中国国际地位的日益提升,研究中国传媒的话题性与西方传媒话题性之间的相互覆盖率和区别也显得十分重要。社交媒体在革新了新闻传播方式,便利了人与人之间的即时信息交流之余,也成为了网络谣言产生与传播的温床。社交媒体的谣言检测方法也成为了目前比较热门的一个研究方向,但谣言检测并不容易,目前最准确的谣言检测系统需要进行回溯型运算,严重影响了检测的效率。检测的延时导致了我们无法在谣言发布的同一时间就进行监控,使其有机会得到扩散,给人们生活和社会带来了严重的负面影响。此外,随着社交媒体的普及、用户的不断增加,社交媒体每天所产生的数据量之大也变得越来越难以估量。本研究发现随着处理数据量的增大,新话题检测系统的性能和准确率也面临着严峻的挑战。目前该领域的学者们都致力于提升新话题检测算法的性能使其能更好地适应对数据流的处理,却忽略了随着存储历史信息的空间饱和度的不断上升,系统计算出来的累计平均新颖度分数也呈新出持续衰变的趋势。而新颖度分数的偏差给新话题检测系统的准确率也带来了一定程度的负面影响。综上所述,本文将研究的重点主要集中在以下三个方面:第一,本文探索中西方传媒在内容和时间特性上的异同,揭示了中国网络新闻媒体在重大事件的新闻报道时间上的领先性,以及中西传媒在报道内容上的主观偏向性。本项研究主要通过话题检测与跟踪算法以及基于向量空间的近似度算法,对中西网络新闻媒体和社交媒体的四个数据流进行话题及重合度检测,并对检测出的数据进行定性和定量的分析。实验结果揭示了中西传媒在话题内容上的自中国向西方的兴趣偏向性,即中国媒体对西方话题的覆盖率明显高于西方媒体对中国话题的覆盖率,且该偏向性在涉及到与名人相关的新闻报道与讨论时表现的最为明显;第二,本文主要研究社交媒体数据流中的实时谣言检测方法。本研究证实现有谣言检测方法并不能胜任对社交媒体数据流中谣言的实时检测。利用本文提出的基于记忆的文字蕴涵Kterm Entailment算法与访问外部数据相结合的方法可从真正意义上实现社交媒体数据流中的实时谣言检测。为了弥补在早期谣言检测过程中基于回溯运算的谣言特征缺失,本文利用Kterm Entailment算法访问外部数据(如新闻报道)以检验消息是否被可信源所证实(即蕴涵度计算),提出以蕴涵度分数为代表的实时谣言检测特征集。本文还提出辅助检测的伪反馈特征,该类特征利用了重复信号的概念,能够自动计算消息文本与已判定为谣言的内容相似度。本文通过特征分析、检测性能、扩展性检验等多个实验证实了基于蕴涵度与伪反馈特征的实时谣言检测方法相较于其他各种检测方法具有更加优秀的实时检测性能;第三,本文还探索了处理数据流对新话题检测系统性能的影响,指出新话题检测系统中存在的新颖度衰变问题,在此基础上提出新颖度衰变经验模型,并通过实验验证了应用该模型对新话题检测系统准确率的提升。本文通过研究三个不同类型的新话题检测系统在数据流处理中的性能来探索数据规模对系统性能的影响,揭示了新话题检测系统的新颖度分数衰变现象。在此基础上,本文还探索衰变现象和空间饱和程度之间的关系,并揭示衰变对检测准确率的负面影响。通过对实验数据的拟合,本文提出了衰变修正模型,利用该模型可以为检测出的新颖度分数进行一个预期衰变值的补偿。经验证,实验结果表明采用衰变模型对新颖度分数进行补偿,可以显著提升检测性能。本文所研究的社交媒体谣言的实时检测方法,是一利用最新的大数据处理技术与传统的应用机器学习技术进行谣言检测的方法相结合的创新思路与方法,在实时谣言检测领域具有一定的前沿性,对于及时捕捉谣言,减少谣言传播的危害以及实时舆情检测与监控具有深远的意义。此外,本文在新话题检测系统的研究中所发现的新颖度衰变问题是该领域研究的一项重大发现,本文在该方向上的研究成果对于如何在数据爆炸的时代进行高效的话题检测与跟踪产生了积极的影响,促进了舆情分析的发展。
中文摘要第8-10页
Abstract第10-12页
第一章 绪论第13-27页
    1.1 选题背景与意义第13-16页
        1.1.1 研究背景第13-14页
        1.1.2 研究意义第14-16页
        1.1.3 主要研究内容第16页
    1.2 研究思路与研究方法第16-20页
        1.2.1 研究思路与技术路线第16-18页
        1.2.2 研究方法第18-19页
        1.2.3 关键技术与难点第19-20页
    1.3 术语与核心概念第20-26页
        1.3.1 微博及社交网络术语第20-22页
        1.3.2 TDT项目第22-24页
        1.3.3 Cross-Twitter第24-25页
        1.3.4 网络新闻媒体及社交媒体第25页
        1.3.5 谣言的定义第25-26页
    1.4 研究框架与主要内容第26-27页
第二章 相关研究第27-39页
    2.1 国外谣言研究现状第27-33页
        2.1.1 可信度计算相关研究第27-29页
        2.1.2 基于传统特征的谣言检测第29页
        2.1.3 基于传播结构的谣言检测第29-30页
        2.1.4 基于聚类技术的谣言检测第30-31页
        2.1.5 基于情感分析的谣言检测第31-33页
        2.1.6 早期谣言检测方法第33页
    2.2 国内谣言研究现状第33-37页
        2.2.1 微博的特征及价值第33-34页
        2.2.2 国外技术在微博谣言检测应用的相关研究第34-35页
        2.2.3 微博谣言传播结构及情感分析的相关研究第35-37页
    2.3 国内外研究现状总结第37-39页
第三章 中西传媒在新闻报道上的时间特性与内容特性的研究第39-58页
    3.1 中西媒体在新闻报道上的时间特性研究第39-49页
        3.1.1 研究目的第39-41页
        3.1.2 数据集第41-46页
        3.1.3 西方网络新闻媒体与社交媒体的时间特性分析第46-48页
        3.1.4 中国网络新闻媒体与社交媒体的时间特性分析第48-49页
        3.1.5 小结第49页
    3.2 中西媒体在新闻报道上的内容特性研究第49-56页
        3.2.1 研究目的第49-50页
        3.2.2 数据集第50页
        3.2.3 研究方法第50-52页
        3.2.4 中国网络新闻媒体及社交媒体话题相互覆盖率实验第52-54页
        3.2.5 覆盖强度第54页
        3.2.6 中西网络新闻媒体的报道内容的异同第54-55页
        3.2.7 中西社交媒体所关注话题内容的异同第55-56页
        3.2.8 小结第56页
    3.3 本章小结第56-58页
第四章 基于蕴涵度特征与伪反馈特征的实时谣言检测方法第58-96页
    4.1 主要研究点第58-60页
    4.2 现有检测方法的实时性验证第60-62页
        4.2.1 现有检测方法的理论检验第61-62页
        4.2.2 现有检测方法的实践检验第62页
    4.3 Kterm Entailment算法第62-69页
    4.4 实时谣言检测方法研究第69-71页
        4.4.1 问题陈述第69-70页
        4.4.2 方法概述第70页
        4.4.3 目标谣言检测第70-71页
    4.5 谣言的新特征及计算第71-79页
        4.5.1 蕴涵度特征的计算第73-75页
        4.5.2 伪反馈特征的计算第75-79页
    4.6 其它实时谣言特征的计算第79-83页
    4.7 实验第83-94页
        4.7.1 数据的收集与数据集第83-85页
        4.7.2 分类器选择第85-88页
        4.7.3 评估方法第88-89页
        4.7.4 模型效果测试第89-91页
        4.7.5 目标谣言检测测试第91页
        4.7.6 特征分析测试第91-93页
        4.7.7 中文分词对检测性能的影响测试第93页
        4.7.8 对非流行型谣言检测的测试第93-94页
        4.7.9 有效性与延伸性测试第94页
    4.8 本章小结第94-96页
第五章 新颖度衰变模型的研究第96-117页
    5.1 研究目的第97-98页
    5.2 新话题检测技术的新颖度衰变问题第98-102页
    5.3 新颖度衰变的原因第102-106页
        5.3.1 传统的基于对比的检测系统第102-103页
        5.3.2 基于局部敏感哈希的检测系统第103-104页
        5.3.3 基于记忆的检测系统第104页
        5.3.4 新颖度衰变原因的总结第104-106页
    5.4 提高新话题检测系统准确率的预初始化法第106-107页
    5.5 应对新颖度衰变的方法第107-116页
        5.5.1 新颖度衰变模型第108-112页
        5.5.2 应用衰变模型对抗新颖度衰变第112-113页
        5.5.3 应用衰变模型对检测系统有效性的影响第113-115页
        5.5.4 应用衰变模型对检测系统效率的影响第115-116页
    5.6 本章小结第116-117页
第六章 总结与展望第117-123页
    6.1 研究总结第117-119页
    6.2 主要创新点第119-121页
    6.3 展望第121-123页
参考文献第123-131页
攻读博士学位期间的主要科研成果第131-132页
致谢第132页
论文购买
论文编号ABS4124892,这篇论文共132页
会员购买按0.30元/页下载,共需支付39.6
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付66
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656