本文作者:吕婉琪;钟诚;唐印浒;陈志朕;成功正常投稿发表论文到《计算机技术与发展》2014年01期,引用请注明来源400期刊网!
【摘要】:基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计算节点的存储数据,进而减少各个计算节点执行交集操作的次数,提高并行挖掘效率。实验结果表明,给出的并行挖掘算法解决了大数据集挖掘过程中产生的大量数据通信、中间数据以及执行大量交集操作的问题,算法高效、可扩展。
【论文正文预览】:0引言诸如Apriori算法和FP-Tree算法这样的数据挖掘算法基于水平数据格式进行挖掘[1]。Zaki等人在文献[2]中提出采用垂直数据格式的串行数据挖掘算法Eclat和MaxEclat,这两个算法均采用基于前缀的等价类技术,不同的是Eclat算法采用自底向上的搜索策略,而MaxEclat算法采用了混合
【文章分类号】:TP311.13
【稿件关键词】:数据挖掘大数据集并行算法Hadoop
【参考文献】:
- 张玉芳;熊忠阳;耿晓斐;陈剑敏;;Eclat算法的分析及改进[J];计算机工程;2010年23期
- 李玲娟;张敏;;云计算环境下关联规则挖掘算法的研究[J];计算机技术与发展;2011年02期
- 王鄂;李铭;;云计算下的海量数据挖掘研究[J];现代计算机(专业版);2009年11期
- 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
- 张雪英;朱少楠;徐希涛;;基于Neogeography的中文地名词典维护和服务机制[J];测绘通报;2012年01期
- 丁艳辉;王洪国;高明;谷建军;;A New Parallel Algorithm for Mining Association Rules[J];Journal of DongHua University;2006年06期
- 朱敏;万剑怡;王明文;;基于MR的并行决策树分类算法的设计与实现[J];广西师范大学学报(自然科学版);2011年01期
- 曲朝阳;朱莉;张士林;;基于Hadoop的广域测量系统数据处理[J];电力系统自动化;2013年04期
- 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
- 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期
- 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期
- 刘静;李跃辉;杨苗苗;许静;;基于MapReduce的电信客户流失决策树算法研究[J];电脑知识与技术;2013年30期
- 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期
- 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
- 于晓梅;王红;;基于双向支持度排序的Eclat改进算法[A];山东计算机学会2013学术年会论文集[C];2013年
- 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
- 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
- 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
- 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年
- 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
- 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
- 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
- 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
- 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
- 王喆;商务数据中的关联和聚类算法研究[D];吉林大学;2005年
- 唐松;基于数据挖掘的高校评教系统设计与实现[D];电子科技大学;2010年
- 秦逞;基于前缀树Tire的关联规则挖掘算法研究[D];北京交通大学;2011年
- 杜雅红;基于云计算平台的图算法研究[D];北京邮电大学;2011年
- 宋进征;直接挖掘无冗余规则的关联分类[D];兰州大学;2011年
- 文思;基于Hadoop的K近邻分类算法的研究[D];华南理工大学;2011年
- 张敏;云计算环境下的并行数据挖掘策略研究[D];南京邮电大学;2011年
- 徐志侠;并行Apriori算法的性能优化技术研究[D];哈尔滨工业大学;2010年
- 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年
- 俞安琪;仿真数据并行分布式挖掘算法研究[D];哈尔滨工业大学;2011年
- 谭小雷;医学图像关联模式挖掘算法的研究[D];哈尔滨工程大学;2011年
- 刘华元;袁琴琴;王保保;;并行数据挖掘算法综述[J];电子科技;2006年01期
- 于蕾;刘大有;高滢;田野;;改进SPRINT算法及其在分布式环境下的研究[J];吉林大学学报(理学版);2008年06期
- 吴绍函;余昭平;;基于矩阵的关联规则挖掘算法[J];计算机工程;2008年23期
- 魏红宁;基于SPRINT方法的并行决策树分类研究[J];计算机应用;2005年01期
- 宋长新;马克;;改进的Eclat数据挖掘算法的研究[J];微计算机信息;2008年24期
- 王鄂;李铭;;云计算下的海量数据挖掘研究[J];现代计算机(专业版);2009年11期
- 高伟峰;数据挖掘中关联规则的研究及应用[D];武汉理工大学;2006年
- 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
- 李云强;;数据挖掘中关联规则算法的研究[J];大众科技;2006年01期
- 王丹阳;田卫东;胡学钢;;一种有效的并行频繁项集挖掘算法[J];计算机应用研究;2008年11期
- 缪裕青;;频繁闭合项目集的并行挖掘算法研究[J];计算机科学;2004年05期
- 马世欢;白万民;张雪霞;;改进的关联规则并行算法[J];西安工业大学学报;2006年01期
- 杨泽民;;关联规则的并行优化挖掘算法[J];中北大学学报(自然科学版);2007年05期
- 王卉;张红君;;关联挖掘研究综述[J];软件导刊;2009年03期
- 吕志军;王照飞;谢福鼎;桑雪;;基于FCM聚类的时间序列模糊关联规则挖掘[J];大连理工大学学报;2010年05期
- 孙涛;董立岩;李军;张羽翔;;用于粗糙集约简的并行算法[J];吉林大学学报(理学版);2006年02期
- 郝志斌;;并行FP-Growth算法相关技术研究[J];电脑知识与技术;2011年10期
- 李庆华;王卉;蒋盛益;;挖掘最大频繁项集的并行算法[J];计算机科学;2004年12期
- 王丹阳;田卫东;胡学钢;;基于SMP系统的并行Apriori算法研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
- 杨仕博;贺彦琨;马志新;;一种基于极大完全子图的最大频繁项集并行挖掘算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
- 李忠哗;何丕廉;;一种分布环境中最大频繁项目集挖掘算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
- 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
- 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
- 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
- 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
- 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
- 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
- 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
- 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
- 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
- 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
- □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
- 张立明;数据挖掘之道[N];网络世界;2003年
- 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
- 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
- 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
- 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
- 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
- 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
- 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
- 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
- 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
- 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
- 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
- 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
- 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
- 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
- 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
- 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
- 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
- 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
- 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
- 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
- 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
- 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
- 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
- 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
- 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
【稿件标题】:【hadoop伪分布式配置范文】Hadoop分布式架构下大数据集的并行挖掘
【作者单位】:广西大学计算机与电子信息学院;
【发表期刊期数】:《
计算机技术与发展》2014年01期
【期刊简介】:《计算机技术与发展》杂志是由中华人民共和国新闻出版总署、正式批准公开发行的优秀期刊,计算机技术与发展杂志具有正规的双刊号,其中国内统一刊号:CN61-1450/TP,国际刊号:ISSN。计算机技术与发展杂志社由陕西省信息产业厅主管、陕西省计算机学会主办,本......更多
计算机技术与发展杂志社(
http://www.400qikan.com/qk/6081/)投稿信息
【版权所有人】:吕婉琪;钟诚;唐印浒;陈志朕;
更多
科技类论文详细信息:
【hadoop伪分布式配置范文】Hadoop分布式架构下大数据集的并行挖 论文代写
http://m.400qikan.com/lw-18258 论文代发
相关专题:助理工程师 加拿大运营商