云计算环境下关联规则算法的研究

云计算论文 Hadoop论文 MapReduce论文 关联规则论文
论文详情
信息技术的发展带来了数据量的爆炸性增长,人们面临的问题不是缺乏足够的信息可以使用,而是面对如此多的数据如何找到有价值的信息。对这一问题,数据挖掘显示出了强大的生命力,数据挖掘能够找出数据之间的潜在联系。关联规则是数据挖掘中的一项重要内容,它反映了一个事物和其他事物之间的依赖或关联。从广义上讲,关联分析是数据挖掘的本质。但是随着关联规则的广泛应用,很多方面不能满足现在的需要,如何提高关联规则算法的效率、适应性、可用性等方面变得日益重要。自从Google推出云计算概念以来,随后亚马逊、微软、惠普、雅虎、英特尔、IBM等公司都宣布了自己的“云计划”,云计算是未来3-5年内全球范围内最值得期待的技术革命。云计算的设计理念是让资源动态分配、按需服务,并且以低成本处理海量信息。云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等技术和网络技术发展融合的产物。正是因为云计算有强大的数据处理能力,通过借助云计算中的一些技术运用到数据挖掘中,将会明显的提高效率。本文的主要工作如下:(1)介绍了云计算中的一些相关技术和一些开源云计算如Eucalyptus、Enomaly ECP、Sector/Sphere和Hadoop,重点分析了Hadoop中的核心技术HDFS、MapReduce和HBase。(2)针对传统的关联规则算法即Apriori的一些缺陷和Hadoop在大的集群中表现出来的优势,设计出了MapReduceApriori算法,它用HDFS分布式文件系统存储数据,以MapReduce方式实现并行处理。该算法能在海量数据中发现频繁项集。实验表明,它对海量数据的处理效率明显比传统算法高,且表现出了很好的加速比。(3)以MapReduce为基础,设计出了MapReduceGenRules算法,它的处理过程简化为Map和Reduce两个阶段,在集群中可以并行的产生规则,大大的缩短了计算时间,表现出了良好的性能。
摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第10-15页
    1.1 研究背景和现状第10-12页
    1.2 研究内容第12-13页
    1.3 重要意义第13-14页
    1.4 论文组织结构第14-15页
第二章 云计算简介第15-32页
    2.1 云计算思想的产生和发展第15-17页
    2.2 云计算的未来和面临的问题第17-18页
    2.3 云计算相关概念第18-23页
        2.3.1 不同的云计算定义第18-20页
        2.3.2 云计算的分类第20-23页
    2.4 云计算相关技术第23-27页
        2.4.1 体系结构第24页
        2.4.2 快速部署第24-25页
        2.4.3 资源调度第25-26页
        2.4.4 云计算中的几种核心技术第26-27页
    2.5 开源云计算第27-31页
        2.5.1 Eucalyptus第28-29页
        2.5.2 Enomaly ECP第29页
        2.5.3 Sector and Sphere第29-30页
        2.5.4 Hadoop 介绍第30-31页
    2.6 本章小结第31-32页
第三章 Hadoop 与关联规则第32-47页
    3.1 Hadoop 分布式文件系统第32-38页
        3.1.1 前提和设计目标第32页
        3.1.2 HDFS 的一些特征第32-36页
        3.1.3 HDFS 提高可靠性的措施第36-37页
        3.1.4 HDFS 文件系统的读写解析第37-38页
    3.2 MapReduce 模型第38-42页
        3.2.1 编程模型第39页
        3.2.2 逻辑模型第39-40页
        3.2.3 实现机制第40-42页
    3.3 HBase第42-43页
    3.4 关联规则第43-46页
        3.4.1 数据挖掘概述第43-45页
        3.4.2 关联规则挖掘技术第45-46页
    3.5 本章小结第46-47页
第四章 基于Hadoop 的MapReduceApriori 算法设计第47-62页
    4.1 关联规则算法第47-50页
        4.1.1 Apriori 算法第48-49页
        4.1.2 Apriori 算法性能分析第49页
        4.1.3 Apriori 算法的几种改进方法第49-50页
    4.2 MapReduceApriori 算法设计过程第50-54页
        4.2.1 MapReduce 中Key/Value 的设计第50-51页
        4.2.2 Map 的设计第51-52页
        4.2.3 Reduce 的设计第52-53页
        4.2.4 MapReduceApriori 算法描述第53-54页
    4.3 Hadoop 集群配置第54-58页
        4.3.1 修改/etc/hosts 文件第55-56页
        4.3.2 SSH 设置第56页
        4.3.3 Hadoop 配置文件设置第56-58页
    4.4 MapReduceApriori 实验和结果分析第58-61页
        4.4.1 输入输出数据格式第58页
        4.4.2 数据对比试验第58-60页
        4.4.3 节点对比试验第60-61页
    4.5 本章小结第61-62页
第五章 MapReduceGenRules 算法设计第62-69页
    5.1 规则生成算法第62-64页
        5.1.1 相关定义第62-63页
        5.1.2 genRules 算法第63-64页
    5.2 MapReduceGenRules 设计过程第64-66页
        5.2.1 Map 和Reduce 函数的设计第64-65页
        5.2.2 算法描述第65-66页
    5.3 MapReduceGenRules 实验与结果分析第66-68页
        5.3.1 输入输出数据格式第66-67页
        5.3.2 MapReduceGenRules 和genRules 对比效果第67页
        5.3.3 算法的加速比情况第67-68页
    5.4 本章小结第68-69页
第六章 总结与展望第69-70页
致谢第70-71页
参考文献第71-74页
攻硕期间取得的研究成果第74-75页
论文购买
论文编号ABS537189,这篇论文共75页
会员购买按0.30元/页下载,共需支付22.5
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付37.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656