79.7.2与82.15

点击联系发帖人 时间：2019-03-25 22:56

79×15

3-5 各地、州、市、县(市)户数、人口數、土地面积

【大中小】【打印文本】

高新技术开发区(新市区)

经济技术开发区(头屯河区)

克孜勒苏柯尔克孜自治州

塔什库尔干塔吉克自治县

紸：1.全区年末人口数、各地、州、市、县、区人口数据为2018年公安年报数据? 2.本表全疆及各地州市
土地面积为国土资源厅2008年数据。

}

它一般会优先选择有较多属性值嘚Feature因为属性值多的特征会有相对较大的信息增益，信息增益反映的是在给定一个条件以后，不确定性减少的程度

这必然是分得越细嘚数据集确定性更高，也就是条件熵越小信息增益越大。为了解决这个问题C4.5就应运而生，它采用信息增益率来作为选择分支的准则

其中，分子为信息增益（信息增益计算可参考上一节ID3的算法原理）分母为属性X的熵。

需要注意的是增益率准则对可取值数目较少的属性有所偏好。

所以一般这样选取划分属性：选择增益率最高的特征列作为划分属性的依据

与ID3代码实现不同的是：只改变计算香农熵的函數calcShannonEnt，以及选择最优特征索引函数chooseBestFeatureToSplit具体代码如下：

20 #列中相同值数量最多为结果 33 #axis:进行分割的指定列索引 39 #下面两行去除某一项指定列的值，很巧妙有没有 47 #其他表示获取特征列 51 #标签计数对象初始化 54 #获取数据集每一项的最后一列的标签值 56 #如果当前标签不在标签存储对象里则初始化，然后计数 62 #遍历标签对象求概率，计算熵 69 #通过信息增益选出最优特征列索引(ID3) 71 #计算特征个数，dataSet最后一列是标签属性不是特征量 73 #计算初始数据香农熵 75 #初始化信息增益，最优划分特征列索引 #获取每一列数据 81 #将每一列数据去重 97 #通过信息增益率选出最优特征列索引(C4.5) 99 #计算特征个數，dataSet最后一列是标签属性不是特征量 103 #初始化信息增益，最优划分特征列索引 107 #获取每一特征列香农熵H(X) #计算信息增益 122 #计算信息增益率 131 #获取标簽属性dataSet最后一列，区别于labels标签名称 133 #树极端终止条件判断 134 #标签属性值全部相同返回标签属性第一项值 137 #没有特征，只有标签列（1列） 139 #返回實例数最大的类 145 #获取最优索引对应的标签名称 149 #去除最优索引对应的标签名使labels标签能正确遍历 155 #子标签名称集合 161 #获取分类结果 164 #testVec:测试向量例如：简单实例下某一路径 [1,1] => yes（树干值组合，从根结点到叶子节点） 170 #获取根结点对应的子节点 172 #获取根结点名称在标签列表中对应的索引 174 #由索引获取向量表中的对应值 176 #获取树干向量后的对象 178 #判断是子结点还是叶子节点：子结点就回调分类函数叶子结点就是分类结果 187 #将决策树分类器存储在磁盘中，filename一般保存为txt格式 193 #将瓷盘中的对象加载出来这里的filename就是上面函数中的txt文件

12 #获取树的叶子节点 20 #判断是否是叶子节点（通过类型判断，子类不存在则类型为str；子类存在，则为dict） 82 #绘制树的根节点和叶子节点（根节点形状：长方形叶子节点：椭圆形）

11 #copy函数：新开辟一块内存，然后将list的所有值复制到新开辟的内存中 17 #在本地磁盘获取树 28 #测试分类简单样本数据3列

不要让懒惰占据你的大脑不要让妥协拖垮你的人生。青春就是一张票能不能赶上时代的快车，你的步伐掌握在你的脚下

}

杰西卡呢吗信息网

79.7.2与82.15

3-5 各地、州、市、县(市)户数、人口數、土地面积

我要回帖

更多关于 79×15 的文章

更多推荐