生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

通俗易懂03决策树DecisionTree

3月11日 断龙塔投稿
  视频详解:03机器学习决策树DecisionTree,小白入门决策树:
  决策树(decisiontree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
  构建树的原则
  我们构建一棵决策树的基本想法就是,我们希望决策树每个叶子节点包含的样本尽可能属于同一个类别,即结点的纯度越来越高决策树划分选择的方法
  根据构建树的原则来看,即使得每个结点的纯度尽可能小,那么我们需要一些指标评价纯度这个概念。信息熵和基尼指数是两个常用的指标。决策树算法1、熵(Entropy)
  信息熵(informationentropy)是度量样本集合纯度的常用指标;
  在信息论与概率统计中,熵是表示随机变量不确定性的度,熵越大,随机变量的不确定性就越大,反之则不确定性越小;
  假定当前样本集合D中第k类样本所占的比例为pk(k1,2,,Y),则D的信息熵为:
  Ent(D)的值越小,D的纯度越高(约定:若p0则plog2p0)
  数据集:
  2、信息增益(InformationGain)
  一般而言,信息增益越大,则意味着用属性a来进行划分所获得的纯度提升越大:
  ID3就是以信息增益为准则来选择划分属性的
  举例:
  3、增益率
  实际上,信息增益对可取值数目较多的属性有所偏好(如编号,在西瓜集中若以编号为划分属性,则其信息增益最大),为减少由于偏好而带来的不利影响,C4。5算法使用增益率(gainratio)来选择最优划分属性:
  其中:
  称为属性a的固有值(intrinsicvalue),属性a的可能数目越多,则IV(a)的值通常越大信息增益率准则对可取值数目较少的属性有所偏好,C4。5采用的是先从候选划分属性中寻找出信息增益率最高的属性
  举例:
  4、基尼指数(GiniIndex)
  CART(ClassificationandRegressionTree)使用基尼指数(Giniindex)来选择划分属性,数据集的纯度可用基尼值来度量
  属性a的基尼指数定义为:
  在属性集合A中寻找:
  CART决策树使用基尼指数作为属性划分的标准
  我们使用色泽属性进行举例,计算此时的基尼指数:
  5、剪枝处理
  剪枝(pruning)是决策树学习算法对付过拟合的主要手段,基本策略有预剪枝(prepruning)和后剪枝(postpruning)预剪枝:在决策树的生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来泛化性能提升则停止划分后剪枝:先生成一个完整的树,然后自底向上对非叶节点考察,若将该节点对应的子数替换为叶节点能提升泛化性能则替换
  5。1预剪枝
  预剪枝的关键在于是否继续进行划分:在上面的西瓜的例子当中,在划分前,我们将其类别标记为训练样例最多的类别好瓜。那么在验证集用脐部这个结点进行划分,则编号{4,5,8}被划分正确,其划分进度为3710042。9如果我们使用脐部进行划分,那么图中、和分别包含编号为{1,2,3,14}、{6,7,15,17}和{10,16}的训练样例,因此这3个结点分别被标记为叶结点好瓜、好瓜、坏瓜(按其训练样例最多类别归属),此时,验证集中编号为{4,5,8,11,12}的样例被分类正确,验证集精度为57x10071。442。9。于是,用脐部进行划分得以确定。
  预剪枝使决策树的很多分支都没有展开,不仅降低了过拟合的风险,还显著减少了训练时间和测试时间,但是可能会引起过拟合5。2后剪枝
  后剪枝通常比预剪枝保留更多的分值,一般情况下,后剪枝欠拟合风险很小,泛化性能优于预剪枝,但其训练时间比未剪枝和预剪枝都要大得多我们基于信息增益算法进行划分决策树,最后在验证集的划分精度为42。9,我们基于这颗完整的树进行后剪枝我们先考虑结点6纹理,将其替换为叶结点,替换后的结点包含样本{7,15},因此将其标记为好瓜,则此时决策树在验证集的精度提升至57。1,因此进行剪枝连续与缺失值连续值处理
  在C4。5决策树算法当中,使用二分法对连续的数值进行处理:我们可以考察包含n1个元素的候选划分点集合
  我们将每个区间的中位点作为候选划分点,然后我们使用想离散值属性一样来考察这些划分点,选取最优的划分点进行样本集合的划分,例如:
  对上图表格当中的例子而言,设置密度为:
  根据Gain的计算公式可以得到属性密度的信息增益位0。262,对应于划分点0。381。同时按照之前的离散值的计算方法,计算离散属性的信息增益的值:
  Gain(D,色泽)0。109;Gain(D,根蒂)0。143;
  Gain(D,敲声)0。141;Gain(D,纹理)0。381;
  Gain(D,脐部)0。289;Gain(D,触感)0。006;
  Gain(D,密度)0。262;Gain(D,含糖率)0。349。
  可以发现纹理的信息增益是最大的,所以我们选择纹理作为根节点作为划分属性,然后每个结点划分过程递归进行,最终生成如图所示的决策树:
  缺失值的处理
  一些数据由于敏感等原因,部分数据可能会出现缺失的情况,例如下面的情况:
  在决策树的C4。5算法当中,我们使用了没有缺失值的样本子集进行树的构建。以上述表格为例子举例,没有缺失值的样例子集包含编号为{2,3,4,6,7,8,9,10,11,12,14,15,16,17}的14个样例(总共有17个样例)。那么相应的信息熵为:
  其分别在色泽属性上取值为青绿,乌黑以及浅白的样本子集,那么有:
  因此在样本子集上,其信息增益为:
  那么在样本集上的色泽的信息增益为,要乘以其没有缺失的样例数量除以全部的样例数量:
  在上述文章提及的变量为,其中每个样本的权重wk为1:
  决策树算法优缺点优点:决策树具有高度可解释性;需要很少的数据预处理;适用于低延迟应用。劣势:很可能对噪声数据产生过拟合。决策树越深,由噪声产生过拟合的可能性就越大。一种解决方案是对决策树进行剪枝。代码演示DecisionTree数据集irissklearn可视化决策树插件Download:https:graphviz。orgdownload决策树插件安装文档:https:blog。csdn。netu012744245articledetails103360769coding:utf8fromsklearn。datasetsimportloadirisfromsklearnimporttreeimportpydotplusimportos用于划分训练集与测试集os。environ〔PATH〕os。pathsepC:ProgramFilesGraphvizbin指定路径fromsklearn。modelselectionimporttraintestsplitfromsklearn。metricsimportclassificationreport加载数据irisloadiris()划分训练集与测试集(traininginputs,testinginputs,trainingclasses,testingclasses)traintestsplit(iris。data,iris。target,testsize0。4,randomstate1)构建模型clftree。DecisionTreeClassifier()clfclf。fit(traininginputs,trainingclasses)测试值预测ypredictclf。predict(testinginputs)预测值和测试值打分scoreclassificationreport(testingclasses,ypredict)print(score)保存模型withopen(iris。dot,w)asf:ftree。exportgraphviz(clf,outfilef)画图,保存到pdf文件设置图像参数dotdatatree。exportgraphviz(clf,outfileNone,featurenamesiris。featurenames,classnamesiris。targetnames,filledTrue,roundedTrue,specialcharactersTrue)graphpydotplus。graphfromdotdata(dotdata)保存图像到pdf文件graph。writepdf(irsi。pdf)
  决策树示意图:
投诉 评论

欧冠德甲仅剩1队,萨默尔基本训练出大问题,除了拜仁都得反思直播吧3月16日讯欧冠18决赛在周三全部结束,与有四支球队从小组赛出线的盛况不同,德甲只有拜仁一队进入了欧冠八强。德国名宿萨默尔直言,德甲球队的训练在身体素质、速度、运动能力等……乘务员幽默则1。乘客:小姐,麻烦帮我拿杯水。乘务员:先生,麻烦帮您自己拿杯水。乘客:你不是天使吗?天使拿杯水都要帮忙吗?乘务员:您是上帝都需要帮忙,我只是天使,能不需要帮……裴启石崇厕主要内容简介及赏析三国两晋南北朝裴启石崇厕亦题《刘寔》。东晋轶事小说。裴启撰。原载《语林》。见《太平御览》卷一八六。鲁迅《古小说钩沉》、周楞伽《裴启语林》皆辑录。李格非等《文言小说》、滕云……感情什么是感情?感情就是发自内心的心情。感情,可能是你对某件物品、某件事情、某个人的感情,可能是亲情、友情、爱情我认为,感情是这个世界上最简单的东西,表达自己的感情,就是尽情……虚假健康知识讲座危害大虚假健康讲座多为骗取老年人的钱财,推销各种保健食品,但不能代替药物治疗。患有疾病的老年人食用这些保健食品而不使用药物治疗,很容易延误病情,并加重老年人的心理负担,危害很大,切勿……苹果用户尝鲜2K安卓,旗舰芯大内存应有尽有,玩游戏真的香由于工作原因,我日常用着一部iPhone14,与Macbook、iPad搭配,生产效率十分给力。但平时又想打打游戏,都知道iPhone打游戏续航很容易崩,于是我就动了入手一台安……爱在原地等待在那个落叶纷飞的深秋,她的生命如飘落的叶片失去了方向,她患了后天性脂肪紧缩症,这个症状在医学界上很罕见,吃的食物全部堆积成脂肪无法对外排泄。她的命运也就因此而定格,以往追求过她……秦始皇死前曾发生五星连珠奇象死亡早有预兆秦始皇一生征战无数,在位期间多次遭到仇家的暗杀都安然无数,最后却是被逼死的,据说,当时秦始皇去世之前秦朝发生了事件匪夷所思的怪事,专家怀疑是秦始皇死亡的前兆真的?下面小编带你看……动态实现高质量就业数字经济的快速发展,既深刻改变了人们的生产生活方式,也重塑了劳动者的职业发展路径,使就业方式呈现数字职业化和职业数字化的趋势。同时,也不可避免地存在着一些成长的烦恼。数字……莲子冷知识今天分享的这种食材很常见,外壳淡淡清香,里面颗颗宝贝。它就是莲子。莲子为睡莲科植物莲的干燥成熟种子。小小的颗粒,作用却不小,含有大量的营养物质。今天就从挑选和……通俗易懂03决策树DecisionTree视频详解:03机器学习决策树DecisionTree,小白入门决策树:决策树(decisiontree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征……呐喊造句用呐喊造句大全(31)尽管地方选举往往只有最低的参与度,但我坚信为我们当地的学校董事会摇旗呐喊远比为总统投票重要。(32)只见在场近百名群众齐声呐喊,大家一起动手拿起沙包堵住了河堤的缺……
企业火灾事故原因有哪些前景造句用前景造句大全浅谈支部党建工作水平提升路径如何制止孩子早恋?父母一定要知道怎么做!1药网不断创新,持续做深处暑是什么意思标志着炎热的夏季正式结束小议高中语文的古典诗歌教学养狗有什么好处当官造句用当官造句大全逆流而上!中国芯片日产突破10亿颗,新能源汽车出口再创新高哪些男人会在女人心里扎地生根准妈妈清凉度夏的营养美食有哪些客运站宣传标语学习雷锋的故事作文600字猕猴桃和什么放在一起熟的快?猕猴桃和什么放一起好选新能源车记住这几条,就能少踩坑一个人五年级优秀作文挖矿潮退去显卡价格回落近五成现在买电脑便宜了吗?游乐设施发生故障怎么办中医帮你修复受损肌肤职场通病:高不成,低不就的尴尬夏夜美景盒马的青团保质期多久《洋葱头历险记》读书笔记

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找