摘 要:在存留和解析多样数据时,云计算能供应实效凸显的解决路径。明晰数据挖掘用到的特有算法,带有侧重的价值。建构在SLIQ之上的算法,采用逐一遍历以及伸缩性指标的计算方法,寻找到精准的分裂点。建构出来的模型,能促动算法实效的升高。经由改进,SLIQ框架下的算法,增添了并行化情形下的挖掘效率。
关键词:计算机云计算;SLIQ;并行算法
数目偏多的数据,经由数据挖掘,被归整和处理。陈旧的挖掘算法,只可以输入那种规模偏小的数据量;若数据量递增,那么这样的算法会缩减速率,很难提升原有的运算成效。云计算框架下的运算,能处理这种规模偏大的数据。若能摸索出并行化情形下的数据挖掘,就可化解掉这样的疑难。SLIQ接纳了新颖的编程模型,在既有的环境之下,建构出决策规则情形中的数据挖掘。
1 新颖算法概述
建构在SLIQ框架下的新颖算法,归属于决策树分类这种算法,并凸显了代表性。这样的算法,可处理数目偏多的数据;而陈旧的分类器带有的处理容量,只能升至600KB左右。因此,建构在SLIQ框架下的新颖算法,打破了陈旧算法特有的瓶颈。经由改进的SLIQ,带有凸显的分布特性,能与现有的数据挖掘状态契合。
上世纪末这一时段内,学者经由摸索,创设出了新颖的SLIQ。这样的新算法,速率很高,且能被延展,它建构在特有的模型之上,即决策树这种模型。SLIQ可分出三个独特阶段,即预处理用到的阶段、构建树的独特阶段、修剪树的独特阶段。预处理用到的阶段以内,要排列出各类别数值带有的属性。在制备出来的类表以内,对叶的那些节点索引,朝向决策树搭配着的根节点。建构树用到的阶段以内,采纳新颖的、递归调用必备的路径。修剪树用到的阶段以内,特有的修剪算法,描述的是独特的最小长度。
2 经由改进的新算法
2.1 独特的属性分裂路径
SLIQ框架下的新颖算法,搭配着可伸缩的新指标。用这样的新指标,替换掉旧有的信息量。这样一来,就生成了最适宜的那种决策树。在计算体系带有的特征值时,索引只考量类值现有的分布情形。对数值型的、带有连续性的独特字段,在寻找出分裂点的路径中,可设定出如下几步:设定一个特有的字段a,经由排序,可获取到独特数列,含有m个数值。分裂这样的事件,会在带有邻近特性的那些节点中产出,因此,就运算出了m种这样的可能性。选取数列涵盖着的中点,当成备选情形下的分裂点。依循由小到大这样的次序,选取出能用到的分裂点。在这之中,最小点归属于最佳的备选数值。
对那些带有离散特性的独特字段,要经由分裂测试,选取出字段含有的所有子集。把原有的字段,分出两个独特成分,运算得来不同的索引。当选取到那个最小状态下的索引时,就寻找到了最好的那个分裂点。然而,要遍历字段涵盖着的一切子集,会耗费掉偏多的时间。
2.2 并行化路径
经由改进,SLIQ框架下的新颖算法,可以并行化路径。具体而言,要把体系搭配着的一切类表,存留在现有的处理机以内。在并行框架下,建构树用到的阶段,应被侧重探究,而剪枝时段,不会耗费掉偏多的时间。要创设出并行建树必备的路径,就应寻找出最好的那个分裂点,同时建构出能用到的新节点。
若要执行这样的分裂路径,则要更替样本涵盖着的类表,以及特有的直方图。直方图含有的独特字段,可借助运算得来索引。还应借助特有的哈希表,以便存留住分割点搭配着的两侧数值,并供应并行节点必备的分隔根据。经由改进,SLIQ框架下的算法,能存留偏多的内存,提升原有速率;同时,在很短时段内,可生成期待中的目标数。
3 可用的改进途径
借助特有的编程模型,改进了陈旧算法,获取到SLIQ框架下的新算法。编程模型搭配着的函数,会把各类别根节点既有的记录,予以水平方位内的划分。这样一来,就分出了N个等同规模之下的子集,并获取到特有的数据块。对N个这样的子集,增添现有的格式化特性。Map框架下的操作,会经由扫描,录入各类别的记录。在这以后,分出同种类别下的key,对应到精准的文件内。选取特有的模计算,把这些文件,搭配到既有的模型之上。
对那些带有连续属性的独特字段,要依循由小到大这样的次序,排列出字段涵盖着的属性值。与此同时,要生成精准的直方图。初始数值,被设定成零。要经由运算,得来分裂点搭配着的索引数值。随时去更替现有的直方图,对那些离散情形下的连续字段,可以不排出次序,也可以不去更替原有的直方图。初次扫描,可归结出特有的直方图,运算得来子集搭配着的索引数值。
SLIQ框架下的独特操作,会依循既有的分裂点,建构出可用的哈希表。这种表单内,第m条独特记录,就表征着源数据含有的第m个独特树节点。比对现有的输出数值,选取出最小的那种索引,关联起既有属性,以及既有的数据表。对各类别工作站含有的偏小的索引,比对它们搭配着的属性数值。这样一来,就获取到了最小情形下的指标值,它就归属于最好的那种分割点。经由年龄框架下的直方图,可运算得来Age表征着的属性。经由遍历,可获取到最好的那种分割点,这就增添了运算实效。
[参考文献]
[1]杨长春,沈晓玲.基于云计算的SLIQ并行算法研究[J].计算机工程与科学,2012(03).
[2]王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机(专业版),2009(11).
友情链接: |
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有 如有不愿意被转载的情况,请通知我们删除已转载的信息。 联系方式:电子邮件:1053406363@qq.com 豫ICP备2023024751号-1 |