您好,欢迎进入aifa官方入口!

全国咨询热线

020-88888888

【aifa平台官网】人工智能之C4.5算法

发布时间:2024-08-29 21:58浏览次数:
本文摘要:前言:人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。

前言:人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。人工智能之机器学习主要有三大类:1)分类;2)重返;3)聚类。今天我们重点探究一下C4.5算法。上篇文章讲解Quinlan(悉尼大学)明确提出了ID3算法[参看人工智能(41)],但是由于ID3算法在实际应用于中不存在一些问题,于是Quinlan又明确提出了ID3的改良算法-C4.5算法。

C4.5算法是由Quinlan明确提出并研发的用作产生决策树[参看人工智能(23)]的算法。该算法是对Quinlan之前研发的ID3算法的一个拓展。C4.5算法产生的决策树可以被用于分类目的,因此该算法也可以用作统计资料分类。

C4.5算法与ID3算法一样用于了信息熵的概念,并和ID3一样通过自学数据来创建决策树。ID3算法用于的是信息熵的变化值,而C4.5算法用于的是信息增益亲率。在决策树结构过程中展开剪枝,因为某些具备很少元素的结点可能会使结构的决策树过适应环境(Overfitting),如果不考虑到这些结点可能会更佳。

对非离散数据能处置,并对不原始数据展开处置。C4.5算法概念:C4.5算法由Quinlan在ID3算法基础上明确提出的,用来结构决策树。C4.5算法是用作分解决策树的一种经典算法。

它是一系列用在机器学习和数据挖掘分类问题中的算法。它的目标是监督自学:等价一个数据集,其中的每一个元组都能用一组属性值来叙述,每一个元组归属于一个物理地址的类别中的某一类。

通过自学,寻找一个从属性值到类别的同构关系,并且这个同构能用作对新的类别不得而知的实体展开分类。C4.5算法改良:C4.5算法是ID3算法的一种伸延和优化,C4.5算法对ID3算法主要做到的改良是:1)通过信息增益亲率自由选择分化属性,解决了ID3算法中分化属性的严重不足;2)通过将连续型的属性展开线性化处置,解决ID3算法无法处置连续型数据缺失;3)结构决策树之后展开剪枝操作者,解决问题ID3算法中可能会经常出现的过数值问题;4)需要处置具备缺陷属性值的训练数据。

C4.5算法本质:ID3使用的信息增益度量。它优先选择有较多属性值的Feature,因为属性值多的Feature不会有比较较小的信息增益。信息增益体现的等价一个条件以后不确定性增加的程度,分给就越粗的数据集确定性更高,也就是条件熵就越小,信息增益越大。

防止这个严重不足的一个度量就是不必信息增益来自由选择Feature,而是用信息增益比率(gainratio)。增益比率通过引进一个被称作分化信息(Splitinformation)的项来惩罚给定较多的Feature,分化信息用来取决于Feature分化数据的广度和均匀分布性(类似于煎饼中均匀分布摊鸡蛋的感觉^_^)。

分化信息公式:信息增益比率公式:但是当某个Di的大小跟D的大小相似时,则SplitInformation(D,A)→0GainRatio(D,A)→∞为了防止这样的属性,使用启发式思路,只对那些信息增益较为低的属性才用信息增益比率。C4.5算法流程:C4.5算法并不是一个算法,而是一组算法。C4.5算法还包括非剪枝C4.5和C4.5规则。C4.5能处置倒数属性值,具体步骤为:1)把必须处置的样本(对应根节点)或样本子集(对应子树)按照连续变量的大小从小到大展开排序;2)假设该属性对应的有所不同的属性值一共有N个,那么总共有N?1有可能的候选拆分阈值点,每个候选的拆分阈值点的值为上述排序后的属性值中两两前后倒数元素的中点,根据这个拆分点把原本倒数的属性分为线性属性(比如BooL属性);3)用信息增益比率自由选择最佳区分。

另外,C4.5算法还能对缺陷值展开处置:1)诗上该属性最少见的值;2)根据节点的样例上该属性值经常出现的情况诗一个概率;3)弃置有缺陷值的样本。C4.5算法使用PEP(PessimisticErrorPruning)剪枝法。

PEP剪枝法由Quinlan明确提出,是一种自上而下的剪枝法,根据剪枝前后的错误率来判断否展开子树的遮荫,因此不必须分开的剪枝数据集。C4.5优点:1)通过信息增益亲率自由选择分化属性,解决了ID3算法中通过信息增益偏向于自由选择享有多个属性值的属性作为分化属性的严重不足;2)通过将连续型的属性展开线性化处置,解决ID3算法无法处置连续型数据缺失,C4.5算法需要处置线性型和连续型的2种属性类型;3)结构决策树之后展开剪枝(PEP)操作者(ID3算法中没),解决问题ID3算法中可能会经常出现的过数值问题;4)需要处置具备缺陷属性值的训练数据;5)产生的分类规则更容易解读且准确率较高。

C4.5缺点:1)在结构树根的过程中,必须对数据集展开多次的顺序扫瞄和排序,因而造成算法的陈旧;2)针对所含倒数属性值的训练样本时,算法计算出来效率较低;3)算法在自由选择分化属性时没考虑到条件属性间的相关性,只计算出来数据集中于每一个条件属性与决策属性之间的希望信息,有可能影响到属性自由选择的正确性;4)算法只适合于需要待命于内存的数据集,当训练集大得无法在内存容纳时程序无法运营。C4.5应用于场景:C4.5算法具备条理清晰,能处置连续型属性,避免过数值,准确率较高和适用范围广等优点,是一个很有实用价值的决策树算法,可以用来分类,也可以用来重返。C4.5算法在机器学习、科学知识找到、金融分析、遥测影像分类、生产生产、分子生物学和数据挖掘等领域获得广泛应用。结语:C4.5算法是由Quinlan在ID3算法基础上明确提出的。

C4.5算法是ID3算法的一种伸延,对ID3算法做到了一些改良和优化。它是一系列用在机器学习和数据挖掘的分类问题中的算法。C4.5算法不是一个算法,而是一组算法。

C4.5算法目标是通过自学,寻找一个从属性值到类别的同构关系,并且这个同构能用作对新的类别不得而知的实体展开分类。C4.5算法在世界上广为流传,获得很大的注目。C4.5算法在机器学习、科学知识找到、金融分析、遥测影像分类、生产生产、分子生物学和数据挖掘等领域获得广泛应用。


本文关键词:aifa官方入口,aifa平台官网,aifa体育注册官网,aifa体育官方网站

本文来源:aifa官方入口-www.ervlo.com

020-88888888