自然语言信息隐藏与检测研究

自然语言信息隐藏论文 文本信息隐藏论文 信息隐藏检测论文 机器翻译论文 文本分类论文
论文详情
信息隐藏是一门古老的技术,也是一门年轻的学科。早在古希腊战争中,就已经使用信息隐藏进行通信。我国古代也有很多信息隐藏通信的记载,如藏头诗、藏尾诗等。然而,直到计算机网络发展起来以后,信息隐藏才真正被重视而获得广泛的研究。计算机网络的发展应用,在极大便利了人们获取和分发信息的同时,也带来新的挑战。如何保护互联网内容版权?如何检测互联网内容是否被篡改?如何安全的在互联网传输信息?如何防止恐怖分子利用互联网传输秘密信息?一系列问题的提出,使得人们重新思考和研究信息隐藏技术。通过信息隐藏技术,在互联网内容中嵌入作者版权等信息,可以有效解决版权保护问题。通过信息隐藏技术,在互联网内容中嵌入控制信息,可以有效检测互联网内容是否被篡改。通过信息隐藏技术,将秘密信息嵌入互联网载体之中,可以使得传输信息更安全。通过信息隐藏检测技术,可以有效防止恐怖分子或敌对分子等进行秘密通信。信息隐藏技术与信息隐藏检测技术之间的关系,如同加密和解密之间的关系,是一种对立统一,既互相竞争又互相促进的关系。信息隐藏技术的发展,必然导致信息隐藏检测技术的研究;信息隐藏检测技术的进步,也必然促使更安全的信息隐藏技术的设计。信息隐藏技术有多种分类方式,其中按照载体类型,可以分为基于图像的信息隐藏技术、基于音频的信息隐藏技术、基于视频的信息隐藏技术和基于文本的信息隐藏技术等。基于文本的信息隐藏包含基于格式的隐藏、基于字体的隐藏、基于行或字符间距的隐藏以及基于自然语言本身的隐藏等。因为文本使用的广泛性,对文本信息隐藏与检测的研究将对国家安全和社会稳定有重大意义。鉴于此,本文对基于自然语言的信息隐藏与检测算法深入研究,设计了多种检测算法。另外,在自然语言信息隐藏检测研究成果的基础上,设计了更安全的自然语言信息隐藏算法。具体研究成果如下:1)设计了一种使用统计语言模型的文本信息隐藏检测算法,该检测算法可以对不同的文本信息隐藏系统(如NICETEXT、TEXTO和基于马尔可夫链的信息隐藏系统)进行检测。对不同大小的文本进行检测实验表明,本文算法对检测文本大小的要求远远低于以往算法,而且算法的检测精确度比以往算法高约10%。2)基于翻译的信息隐藏(Translation-Based Steganography,简称TBS)是一类较新的具有代表性的信息隐藏算法。在本文研究成果发表之前,尚没有有效的检测方法。本文设计了一种在知道TBS算法所使用的翻译机集合条件下的检测算法,并且对算法的有效性进行了理论分析和实验验证。结果皆表明:算法不仅可以用来分类自然语言文本和含有隐藏信息的文本(或叫隐写文本、载密文本),也可以用来区分不同翻译机的翻译文本。3)设计了一种针对TBS算法的盲检测算法一—STBS。 STBS不需要知道任何TBS的信息,包括翻译机集合、语言对等,仅需根据测试文本中单词以及词组的频率就可以区分正常文本和隐写文本。另外,本文还给出了STBS的性能优化方法以及实验测试结果。本部分内容发表在2010年国际信息隐藏大会(IH2010)上。4)构建了一种新的更安全的TBS算法(Novel Translation Based Steganography, NTBS)。本文不仅通过实验说明NTBS的安全性,并且探索了通过数学建模计算NTBS的安全性。就本文作者所了解,通过数学计算验证文本信息隐藏算法安全性尚属首次。计算结果表明,对于NTBS产生的大小为1000个句子的隐写文本,理论上最大分类准确度小于59%。本部分内容已发表在2011年国际信息隐藏大会(IH2011)上。5)设计了基于哈希的信息嵌入算法(HashHide).使用HashHide,通信双方仅需共享密钥信息,大大减少了通信双方需要共享的信息量,因此增加了系统的安全性。算法嵌入效率比同类算法提高约20%。6)根据中文文本特征,设计了基于字体的信息隐藏算法,给出了三种秘密信息嵌入方法,并对三种嵌入方式的嵌入率和嵌入效率等进行了分析比较。最后对算法的安全性进行了分析,并给出了增强安全性的手段。上述成果1)是一种通用的信息隐藏检测算法,大大提高了目前算法的检测准确率,属于方法创新;成果2)和3)是针对基于机器翻译的信息隐藏算法的检测分析,将统计自然语言处理的部分理论引入到自然语言信息隐藏检测上来,分别给出了知道隐藏系统部分信息和完全不知道任何信息情况下的检测算法,属于应用创新;成果4)设计了一种更安全的信息隐藏算法,并且通过数学计算验证算法的安全性,属于理论创新;成果5)是一种通用的信息嵌入方法,可以广泛应用于文本信息隐藏;成果6)专门针对中文特性设计的信息隐藏算法,算法比较实用且简单。
摘要第5-7页
Abstract第7-9页
第一章 绪论第13-25页
    1.1 信息隐藏简介第13-15页
    1.2 信息隐藏研究现状第15-19页
        1.2.1 国内外研究现状第15-17页
        1.2.2 信息隐藏技术的分类第17-19页
    1.3 文本信息隐藏研究现状第19-21页
        1.3.1 基于格式的文本信息隐藏第20页
        1.3.2 基于语法的自然语言信息隐藏第20-21页
        1.3.3 基于语义的自然语言信息隐藏第21页
        1.3.4 基于自然语言统计特征的信息隐藏第21页
    1.4 文本信息隐藏检测技术研究进展第21-23页
    1.5 本文的主要工作及意义第23-25页
第二章 基础知识介绍第25-33页
    2.1 统计自然语言处理基础第25-27页
        2.1.1 Zipf法则第25-26页
        2.1.2 N元语法模型第26-27页
    2.2 信息论基础第27-30页
        2.2.1 熵第27页
        2.2.2 联合熵和条件熵第27-28页
        2.2.3 互信息第28页
        2.2.4 相对熵第28-29页
        2.2.5 交叉熵第29页
        2.2.6 混乱度第29-30页
    2.3 统计机器翻译介绍第30-33页
第三章 自然语言信息隐藏盲检测研究第33-47页
    3.1 自然语言信息隐藏算法介绍第33-39页
        3.1.1 TEXTO算法第33-35页
        3.1.2 NICETEXT算法第35-37页
        3.1.3 基于马尔可夫链的自然语言信息隐藏算法第37-39页
    3.2 自然语言信息隐藏盲检测算法思想第39-41页
        3.2.1 N元语法模型与最大似然估计第40-41页
        3.2.2 点态熵、文本的熵和混乱度第41页
    3.3 检测流程第41-43页
    3.4. 实验结果第43-45页
    3.5 本章小结第45-47页
第四章 基于机器翻译信息隐藏检测算法第47-57页
    4.1 基于翻译的信息隐藏算法介绍第47-50页
        4.1.1 LiT算法第48-49页
        4.1.2 LiJtT算法第49-50页
    4.2 概念定义第50-51页
    4.3 算法思想第51-54页
        4.3.1 正常文本的机器可逆度分布规律第51-52页
        4.3.2 正常文本的机器生成度计算第52-53页
        4.3.3 隐藏文本的机器生成度计算第53页
        4.3.4 用机器倾向度检测TBS的有效性分析第53-54页
    4.4 实验和TBS安全性改进第54-56页
        4.4.1 检测过程和实验结果第54-55页
        4.4.2 TBS安全性分析第55-56页
    4.5 本章小结第56-57页
第五章 基于机器翻译信息隐藏的高效盲检测算法第57-67页
    5.1 基于机器翻译信息隐藏分析第57-62页
        5.1.1 正常文本和隐写文本单词频率对比第58-59页
        5.1.2 通过精炼文本扩大单词频率对比第59-60页
        5.1.3 一对一单词产生方法第60-61页
        5.1.4 正常文本和隐写文本的N元组频率差别第61-62页
    5.2 特征提取第62-64页
    5.3 实验过程和结果分析第64-65页
    5.4 本章小结第65-67页
第六章 安全高嵌入率的信息隐藏系统设计第67-83页
    6.1 背景介绍第68-69页
    6.2 统计机器翻译简介第69-71页
    6.3 高效信息嵌入算法第71-75页
        6.3.1 HashHide的基本嵌入思想第71-72页
        6.3.2 改进HashHide的嵌入率第72-74页
        6.3.3 HashHide执行过程第74-75页
    6.4 NTBS安全性和嵌入率实验第75-79页
        6.4.1 HashHide嵌入率实验第75-78页
        6.4.2 HashHide安全性实验第78-79页
    6.5 NTBS安全性分析第79-82页
    6.6 本章小结第82-83页
第七章 中文字符信息隐藏系统设计第83-91页
    7.1 背景介绍第83-84页
    7.2 算法描述第84-88页
        7.2.1 简单替换的嵌入算法(SSE)第85页
        7.2.2 高效替换的嵌入算法(ESE)第85-87页
        7.2.3 基于模板的嵌入算法(TBE)第87-88页
    7.3 嵌入率和安全性分析第88-90页
        7.3.1 嵌入率分析第88-89页
        7.3.2 安全性分析第89-90页
    7.4 本章小结第90-91页
第八章 总结第91-95页
    8.1 本文主要工作和创新点第91-93页
    8.2 下一步工作展望第93-95页
参考文献第95-105页
致谢第105-107页
攻读学位期间发表的学术论文第107-109页
参加的科研项目与获奖情况第109页
论文购买
论文编号ABS2226110,这篇论文共109页
会员购买按0.30元/页下载,共需支付32.7
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付54.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656