:堕…焦…皇…壁 UJlAN C0MPUT警R DOI:10.16707 ̄.cnki.fjpc.2017.01.010 大数据下的海量统计数据分类挖掘方法研究 何波 (1重庆理工大学计算机科学与工程学院重庆400054; 2贵州省电力大数据重点实验室贵州理工学院贵州贵阳550003) 【摘要】现有的海量统计数据分类挖掘方法基ff- ̄tF素贝叶斯等,分类准确度较低、执行效率较低。针对这些问题,利 用大数据的超大规模、高度可伸缩特性和关联分类在分类挖掘的优势,通过建立MapReduce任务、关联分类和剪枝分类 规则,提出高效的大数据下的海量统计数据分类挖掘方法。 【关键字】大数据;海量统计数据;分类挖掘 1引言 3大数据下的海量统计数据分类挖掘方法 随着互联网及数据库技术的飞速发展,数据出现了爆炸性 现有的海量统计数据分类挖掘方法基于朴素贝叶斯等,分 增长,出现了TB、PB乃至EB级的海量统计数据。海量统计数 类准确度较低、执行效率较低。针对这些问题,利用大数据的超 据呈现的特点包括:数据量巨大;数据是分布式的;增量数据不 大规模、高度可伸缩特性和关联分类在分类挖掘的优势,通过 断涌现。 建立MapReduce任务、关联分类和剪枝分类规则,提出高效的 大数据(Big data)是指利用常用软件工具获取、管理、挖掘 大数据下的海量统计数据分类挖掘方法。首先,从海量统计数 和处理数据所耗时间超过可容忍时间的数据集。 据中抽取训练数据集:其次,采用map分解任务,对训练数据集 海量统计数据挖掘f 1是大数据 中一个非常重要研究领域。 生成FP—tree,利用FP—tree挖掘出频繁项集;再次,采用reduce 传统的数据挖掘方法不具备高度的可伸缩性,不适合海量统计 进行归并,利用频繁项集生成关联规则,进而剪枝生成分类规 数据的挖掘。而大数据具有超大规模和高度可伸缩的特性,为 则;最后,利用分类规则构建分类器,对海量统计数据进行分 海量统计数据挖掘提供了新的解决方法。 类。如图1所示。 MapReduee[al是Google开发的一种大数据的分布式计算模 从海最统计数据中抽取训 对海量统计数据进行分类 型,将要执行的问题拆解成Map(映射)和Reduce(归约)操 练数据集 作,非常适合大规模数据的分布式处理。 海量统计数据挖掘方法的研究中,分类挖掘方法是重要的 采用map分解任务 利用分类规则构建分类器 研究内容。 2海量统计数据分类挖掘方法现状 数据挖掘分类方法包括朴素贝叶斯、关联分类等。 对训练数据集生成FP.tree 剪枝生成分类规则 朴素贝叶斯分类是基于很强的独立性假设为前提,然而这 种假设在实际中难以成立,因此朴素贝叶斯分类的分类准确性 利用FP.rtee挖掘出频繁项 采用reduce进行归并,利 很难得到保证。 集 用频繁项集生成关联规则 关联分类挖掘技术是一种用关联规则作为分类器的分类 图1大数据下的海量统计数据分类挖掘方法图 挖掘技术。关联分类以分类准确度高,易实现等优点在数据挖 掘领域得到了广泛的关注。 4结束语 Wenmin Li等人提出了基于多个关联规则的分类方法 论文利用大数据的超大规模、高度可伸缩特性和关联分类 CMAR,该方法不适合大型数据挖掘,而且强关联规则分类中, 在分类挖掘的优势,通过建立MapReduce任务、关联分类和剪 权重的选择难以确定。 枝分类规则,提出了高效的大数据下的海量统计数据分类挖掘 上述这些方法并不适合海量统计数据的分类挖掘。 方法。下一步工作是对提出的挖掘方法进行实践和应用。 少量学者对大数据应用到分类进行了研究。有代表性的有 向小军等人提出了基于Hadoop平台的海量文本分类方法,江 参考文献: l 1 JHan JW,Kamber M,Pei J.Data Mining:Concepts and Techniques 小平等人提出了大数据云计算环境下的朴素贝叶斯文本分类 Third Edition[M].San Francisco:Morgan Kaufiaaann,2011. 方法等。这些海量统计数据分类挖掘方法基于朴素贝叶斯等, [2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发 分类准确度较低、执行效率较低。 展,2013,50(1):146—149. 关联分类技术的实践表明:它的整体分类准确度要明显的 [3]李建江,崔健,王聃,严林,黄义双MapReduce并行编程模型研究综 高于朴素贝叶斯等方法。因此,将大数据与关联分类相结合来 述[J]吨子学报,2011,39(11):2635—2642. 实现海量统计数据分类挖掘是非常重要的发展趋势。 【4 jQuinlna J R.In ̄oducfion of decision tree[J].Machine Learning, (下转第83页) 基金项目:贵州省电力大数据重点实验室(贵州理工学院)开放基金课题;国家统计局全国统计科学研究重点项目@015LZ22) 重庆市教委人文社会科学重点项目(15SKG131) 2017年第1期I福建电脑 ・21・ I_卜……———— .E 一 ^钠瞎l醯 器 递造祷静豫错栳 薅 蠢嚣嫩罄试黯 ’ .。 |f|哪 Ⅲ 的试题库总共包括选择题、填空题、判断题以及编程题四种不 同题型,如图2 a所示。在设置试卷的相关参数界面中,用户根 据实际情况,输入选择题数目(不宜超过20)、填空题数¨(不宜 超过l0)、判断题数日(不宜超过20)以及编程题数日(不宜超 过5)后,点击“确定”按钮,便可将设置的试卷相关参数保存至 本 能组卷软件中,如图2 b所示。点静‘退}}{”按钮,则关闭本 界面。 赶再收披蛐蛾 蝌十辟雌甜 黛o '摒#删 棚*’∞髓 棵 。 Ⅲ ’髓 拉 艄’” ’ I.A糟替譬 干鼙 蚺雌 鞫 一 “-辑壤肆黼 _ ”席 菇 ’ 转剞啦 ・譬 辟蓐 ——■ 1 一 一 霹粕 甜 础ll脯÷槛捌 栅i 一 』 他 ’瑚_ 盎 毒枷}甍 啊___骘瞄li El明舢詹凹 商 {l聃l b “ r ‘ 一图4改进遗传算法智能组卷结果 3结束语 为了减轻《Android系统开发》任课教师的负担,使课程考 蒋 收艘肿艟 蘸越瞻 雕赫睁辅嘏 看姐卷进慰 1-3改进遗传算法智能组卷界面 试更具科学性,针对《Android系统开发》的课程特点,细分 n— droid系统开发》所包含的知识点,并建 了包含选择题、填空 题、判断题、编程题等四种不同题型的合理试题库,在此基础 竺:建 节: :穗艄 蕾 … 刈缔 }: 删 #童 鲁^ 雌 j j j 0 赫 鳓t■_, ■ j 璃确姆一辆瑚噍 一 壤 蛳}=捧晦 一一一 …一 j 上,研究了基:j:改进遗传算法的钾能组卷软件,并将其应用于 <<Android系统开发》教学过程中,不仅有效提高了工作效率,从 而有利于任课教师的个人发展,而且提高了考试的公正性与公 图3改进遗传算法智能组卷界面 改进遗传算法智能组卷界面是基于改进遗传算法《Android 系统开发》智能组卷软件的核心部分。如图3 a所示,改进遗传 算法智能组卷界面由四部分构成:参数输入部分(包括试题平 均难度系数与权值、试题总分值与权值、试题平均相关系数与 权值、试题总耗时与权值、遗传算法交叉概率、遗传算法变异概 率、算法选择、算法最大迭代次数)、算法智能组卷结果显示部 分、查看组卷试题部分以及查看收敛曲线部分。用户可针对不 平性,有利于加快实现考试自动化与管理数字化、信息化的步 伐。 参考文献: [1]高会燕手机Andifod系统下的思政移动学习系统设计与开发[『]电 子设计工程,2016,24(23):71—73. [2]强杰,王舒憬,单振华.基于Android系统的求职信息平台的设计与实 同学期学生考试结果等实际情况,结合自身经验知识,输入试 题平均难度系数与权值、试题总分值与权值、试题平均相关系 数与权值、试题总耗时与权值、遗传算法交叉概率、遗传算法变 异概率、算法选择、算法最大迭代次数后,点击“确定”按钮,便 可根据用户输入的参数,利用改进遗传算法实现 ndroid系统 开发》智能组卷 l。点击“查看组卷试题”按钮,便可进入查看组 现[I]工业控制计算机,2016,29(12):126—127 [3]刘萍基于Android微课程教学系统服务器端设计与实现[J].福建电 脑.2016(1 1):125一I26 [4]朱孝鹏.基于Android系统的校园二手交易系统设计….福建电脑, 2016(11):127,167 [5]盛魁,马健,董辉.sA—PSO算法在智能组卷中的应用研究[J]I_睦春师 范大学学报,201 6,35(1{)):42—46. 卷试题界面。点击“查看收敛曲线”按钮,便可进入查看收敛曲 线界面。点击“退出”按钮,则关闭本界面。 2智能组卷结果 根据用户输入的参数,(<Android系统开发》的改进遗传算 法智能组卷结果如图4所示。其中智能组卷结果中试题编号如 图4 a所示,根据试题编号,用户可查看对应的试题,如图4 b [6]李国安.基于改进遗传算法智能组巷系统的研究[J].内蒙古教育, 2016(10):65—66. [7]易桂生,黄文华.Memetic算法在智能组卷问题中的应用[J].计算机 与现代化,2016(11):114—117,121. [8]潘刚,杨清平,蒲国林等.遗传算法在智能组卷系统中的应用研究[J] 云南民族大学学报,2(}16,25(6):579—583. 所示。另外,用户可以通过查看如图4 c所示的改进遗传算法收 敛曲线,判断改进遗传算法收敛精度是否满足要求,如果不满 足要求,可选择其他两种不同算法或者增大改进遗传算法最大 作者简介: 马秋芳(1980一),女(汉族),山东省淄博市高青县人,副教授,硕士 主要研究方向为智能算法。 石 、 写 -石 \! ; -、 \! l-、 l、 写 、 写\!- l、 吧 迭代次数、调整遗传算法交叉概率与变异概率。 ;.、 \! I、 -、 写 写\! \! l、 石 (上接第2l贞) 1986.1(1):81—1I】6. Knowledge Discovery and Data Mining,New York,1998:80-86 1 5 jQuinlan J R.C4 5:Programs for Machine Learning【M j.San Francis— CO:Morgan Kaufmann、1993 [9]江小平,李成华,向文,张新访云计算环境下朴素贝叶斯文本分类算 法的实现[I].计算机应用,201 1,31(9):2551—2554 [1(1_杨来,史忠植,梁帆,齐保元.基于Hadoop云平台的并行数据挖掘方 法.系统仿真学报,2013,25(5):936—944. [6]Tzeras K,Harmmnn S.Automatic Indexing Based on Bayesian Inference Networks lCj Proceedings of 16th ACM SIGIR Conference,1993: 22-34. [11]刘君强.海量数据挖掘技术研究[M].杭州:浙江工商大学出版社, 2010年. [7]霍纬纲,邵秀丽.一种基于多目标进化算法的模糊关联分类方法 [J].计算机研究与发展,21)1 1,48(4):567—575. 【8 jLiu B,Hsu W,Ma Y.Integrating Classiifcation and Association Rule 作者简介: 何波(1978一),男,副教授,研究方向:大数据,数据挖掘 Mining l C j Proceedings of the Fourth ACM SIGKDD Conference on 2017年第1期J福建电脑 ‘83・