刊名:计算机光盘软件与应用
主办:中国大恒公司大恒电子出版社
主管:中国科学院
ISSN:1007-9599
CN:11-3907/TP
语言:中文
周期:半月
影响因子:0
期刊分类:计算机软件及计算机应用
文章摘要:设计一个基于Hadoop分布式文件系统的数据挖掘平台,并基于最大最小距离的思想对Kmeans算法进行改进。在Hadoop分布式文件系统平台上,通过MapReduce实现并行化;以Iris数据集为例,分析了该算法的数据处理效果。结果表明:与传统算法相比,并行算法划分的样本正确度更高;在单机环境下,并行算法运行时间较长;面对大数据集,传统算法因内存不足而无法完成数据处理任务,而并行算法则能完成计算任务;随着集群规模和数据集规模的扩大,并行算法的加速率提高,显示出良好的并行效果。实验结果验证了并行算法在大数据处理中的可靠性,为进一步提高数据挖掘效率提供了一个解决办法。
文章关键词:
文章来源:《计算机光盘软件与应用》 网址: http://www.jsjgprjyyy.cn/qikandaodu/2021/1009/1592.html