...策树的数据挖掘算法的应用与研究
白晓鑫
[摘 要]文章运用决策树中的C4.5算法对所调查的数据进行数据挖掘。通过实例给出了该算法在大学生就业满意度分析中的应用,以找出影响就业满意度的因素,为大学生自身发展及高校学生工作提供依据,提高就业满意度。
[关键词]数据挖掘;决策树;C4.5算法;就业满意度
[DOI]10.13939/j.cnki.zgsc.2017.28.153
近年来,高等院校招生规模不断扩大,高校毕业生人数不断增多,预计2017年高校毕业生高达795万人。面对就业难的形势,高校毕业生的就业满意度得到了广泛的关注。就业满意度是反映就业机会的可获得性、工作稳定性、工作场所的尊严和安全、机会平等、收入、个人发展有关方面满意度的综合概念,也是反映高校人才培养水平的重要标志。[1]
文章对某大学2017届毕业生进行问卷调查,并对所取得数据进行挖掘。基于大学生自身的角度,利用C4.5数据挖掘算法建立决策分类树,找出大学生自身因素对就业满意度的影响,为低届学生提供学习方向,为高校决策者提供教学和学生工作建议。[2]
1 C4.5算法
C4.5算法是决策树算法中最重要的算法之一,是对决策树核心算法ID3的改进算法,该算法的基本流程与ID3算法基本相同;但是,值得注意的是,C4.5算法用信息增益率来选择属性,克服了ID3算法中用信息增益来选择属性时偏向选择多值属性的问题。
在C4.5算法中决策树结点属性的选择是根据信息论中熵的概念来进行的。首先计算出类别属性的信息熵,再计算出非类别属性的期望信息熵,通过信息增益与分裂信息得出信息增益率,将信息增益率最大的属性作为决策树的节点,从而构造出决策树。[3]计算过程如下:
设D为用类别对训练集进行的划分,则D的熵表示为:
Info(D)=-mi=1Pilog2(Pi)
其中Pi表示第i个类别在整个训练集中出现的概率。
随后假设将训练集D按属性A进行划分,则A对D划分的期望信息熵为:
Info(D)=nj=1DjDInfo(Dj)
其中D是表示训练集中样本的数量,Dj是基于属性A的某个值的子树中每一类的样本数量;
那么信息增益就为两者的差值:
Gain(A)= Info(D)-InfoA(D)
信息增益率为:
Gain Ratio = Gain(A)/ Split Info(A)
其中分裂信息Split Info(A)=- ki=1DjDlog 2DjD,D1到Dk是K个不同值的属性A分割D而形成的K个样本子集。
2 数据预处理
2.1 数据准备
在此次就业满意度调查中,主要需要收集的数据有大学毕业生的性别、就业目标清晰度、对工作岗位的了解程度,为了保证数据的质量及一致性,需要对收集到的数据进行合并、量化、转换、集成等处理工作。
2.2 数据转换
数据样本用一个三维向量X={X1, X2, X3}表示,分别描述性别、就业目标清晰度、对工作岗位的了解程度对大学生就业满意度的影响。各属性按如下方式进行定义:
就业满意度:分为两种,满意用“Y”表示,不满意用“N”来表示。
性别:分为两种,即“男”或“女”。
就业目标清晰度:分为三个等级,高(有明确就业目标),中(就业目标不够清晰),低(从未想过就业目标)。
对工作岗位的了解程度:分为三种,A(了解),B(不太了解),C(不了解)。
3 构造决策树
选取训练样本数据集,如下表所示,将就业满意度作为类别表示属性,将性别、就业目标清晰度、对工作岗位的了解程度作为决策属性。
(1)根据样本类别属性计算信息熵。就业训练样本集中样本类别属性为就业满意度。首先计算出就业满意度的信息熵,其中就业满意的有12人,就业不满意的有8人。根据公式计算其信息熵:
I(就业满意度)=-(1220log21220+820log2820)= 0.9710
(2)计算每个非类别属性的期望信息熵。
对属性“性别”
t1=7(性别为“男”的个数),p1=6(就业满意度为YES的个数),q1=1(就业满意度为NO的个数)
t2=13(性别为“女”的个数),p2=6(就业满意度为YES的个数),q2=7(就业满意度为NO的个数)
E(性別)=-[720×(67log267+17log217)+1320×(613log2613+713log2713)] = 0.8543
因此,属性“性别”的信息增益Gain(性别)= I(就业满意度)-E(性别)= 0.9710-0.8543=0.1167
属性“性别”的分裂信息:
Split Info(性别)=-(720log2720+1320log21320)= 0.9341
属性“性别”的信息增益率Gain Ratio(性别)= Gain(性别)/ Split Info(性别)= 0.1249
同理计算得到
对于属性“就业目标清晰度”
E(就业目标清晰度)= 0.9203,Split Info(就业目标清晰度)= 1.5129
所以Gain Ratio(就业目标清晰度)= Gain(就业目标清晰度)/ Split Info(就业目标清晰度)= 0.0335
对于属性“对工作岗位的了解程度”
E(对工作岗位的了解程度)= 0.8797,Split Info(对工作岗位的了解程度)= 1.5813endprint
所以Gain Ratio(对工作岗位的了解程度)= Gain(对工作岗位的了解程度)/ Split Info(对工作岗位的了解程度)= 0.0577
(3)由于属性“性别”具有最大信息增益率值,故将“性别”作为决策树的根节点,引出一个分支,样本按此划分。对引出的每一个分支再用此分类方法进行分类,再引出分支,最后所构造出的决策树如下图所示:
C4.5算法构造决策树
(4)分類规则提取。根据构造的决策树,用IF—THEN对所分析出的结果进行描述。将数据可视化,以便于人们理解,本例中的部分分类规则如下:
IF性别=“男”and对岗位的了解程度=“了解”或“不太了解”THEN对就业满意;
IF性别=“男”and对岗位的了解程度=“不了解”and就业目标清晰度=“中”THEN对就业满意;
IF性别=“男”and对岗位的了解程度=“不了解”and就业目标清晰度=“低”THEN对就业不满意;
IF性别=“女”and就业目标清晰度=“高”或“中”and对岗位的了解程度=“了解”或“不太了解”THEN对就业满意;
IF性别=“女”and就业目标清晰度=“高”或“中”and对岗位的了解程度=“不了解”THEN对就业不满意;
IF性别=“女”and就业目标清晰度=“低”THEN对就业不满意。
4 结果分析
由以上规则可以看出男生与女生在就业满意度中有较大程度的不同。男生对工作岗位了解或有一定程度的了解,无论就业目标是否清晰,都能找到满意的工作;即使不了解岗位,如果对就业目标有一定程度的认知,也可以找到满意的工作。而对于女生来说,只有当就业目标清晰度高或者适中且对工作岗位了解或有一定程度了解,才能找到满意的工作。由此来看,性别是影响就业满意度的重要因素,就业目标清晰度及对工作岗位的了解程度也起到了较大的作用。
5 提高大学生就业满意度的建议
根据以上利用C4.5算法对大学生业满意度的分析,对学生本身及高校学生工作提出以下3点建议:
(1)提前制订职业生涯规划。大学生应根据自己的兴趣爱好及自身特点,进行自身的社会定位,提前制定职业生涯规划,明确就业目标,提升自身能力,把握就业机会,提高就业满意度。值得强调的是,女生相较于男生而言更需要有相对清晰的就业目标,以此来提高就业满意度。
(2)加强对各工作岗位的了解。大学生应将自己的就业目标与对工作岗位的认知结合起来考虑,根据就业目标全面了解相应工作岗位的工作内容、工作技能和工作方法与工具,以便找到适合自己的工作,提高就业满意度。
(3)高校提供高水平的就业指导。各高校要以市场需求为导向,制定全方位的就业指导体系,根据学生自身特点实行分类、分阶段的就业指导,提升大学生对自身、企业需求、工作内容、就业方向的认知,引导大学生树立积极的就业观念,提高就业满意度。
参考文献:
[1] 徐才千.提高大学生就业满意度途径探索[J].继续教育研究,2011(9).
[2] 张俊,王琴.C4.5算法在研究生就业信息库中的应用研究[J].信息技术,2009(11).
[3] 傅亚莉.数据挖掘技术C4.5算法在成绩分析中的应用[J].重庆理工大学学报,2013(11).endprint
此文由 科学育儿网-资讯编辑,未经允许不得转载!: 科学育儿网 > 资讯 » C4.5算法在大学生就业满意度分析中的应用研究