今天自考学长给大家收集整理了自考模型与决策书电子版的相关问题解答,还有免费的自考历年真题及自考复习重点资料下载哦,以下是自考网为自考生们整理的一些回答,希望对你考试有帮助!
点击免费下载:最新2000多门自考历年真题及答案汇总
有哪本书介绍关于“决策树”的概念和画法?
sparc.nfu.edu.tw/~dlyang/crm92c9.ppt
决策树分析
?title=%E5%86%B3%E7%AD%96%E6%A0%91%E6%B3%95
决策树(decisionTree)
决策树(decisionTree)是一种基本的分类和回归方法。此文仅讨论用于分类方法的决策树。决策树的学习通常分为3步:决策树的学习的思想主要源于分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点又分为内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。其中,圆表示内部结点,方框表示叶结点。if-then规则,简单来说就是 :举例:对于一个苹果,外表是红色的是红苹果,外表是绿色的是青苹果。可以表示为:if-then规则集合具有一个重要的性质:这就是说每一个实例都被一条路径或规则覆盖,并且只被一条路径或规则覆盖。这里所谓的覆盖是指实例的特征与路径上的特征一致,或实例满足规则的条件。其中, 为输入实例,含有 个特征, 为类标记, ,为样本容量。根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确分类。特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。如果我们利用某一个特征进行分类的结果与随机分类的结果没什么很大的差别的话,则称这个特征没有分类能力。那么问题来了,怎么选择特征呢?通常特征选择的准则是下面通过例子来说明一下。希望通过所给的训练集数据,学习一个贷款申请的决策树。当新的客户提出贷款申请的时候,根据申请人的特征利用决策树决定是否批准贷款申请。可见这里共有4个特征可供选择。用特征选择的准则是 。接下来介绍 。熵是表示随机变量不确定性的度量。设 是一个取有限个值的随机变量,其概率分布为则随机变量 的熵定义为若 ,则定义 。通常对数取以2为底,或是以 为底,熵的单位分布为比特或是纳特。由上式可知,熵只依赖 的分布,而已 的值无关,则 的熵还可记作 ,即则从定义可知当随机变量只取2个值的时候,例如 时, 的分布为熵随概率变化的曲线为当 或 时 ,随机变量完全没有不确定性,当 时 ,熵取值最大,随机变量不确定性最大。设随机变量 ,其联合概率分布条件熵 表示在已知随机变量 的条件下随机变量 的不确定性。随机变量 给定条件下随机变量 的条件熵(conditional entropy),定义为 给定条件下 的条件概率分布的熵对 的数学期望特征 对训练集 的信息增益根据信息增益准则的特征选择方法:对训练集 ,计算其每个特征的信息增益,并比较大小,选择信息增益最大的特征。前期定义各个量:信息增益的算法输入:训练集 和特征 ;输出:特征 对训练集 的信息增益回看刚才的例子,这一次我很无聊的想用一下.csv文件类型。所以训练数据集部分如下,我存在一个loan.csv文件里了。对.csv文件的各种处理一般由python的pandas模块完成。第一步,导入相关模块第二步,读入数据若是使用jupyter,可以即刻查看一下数据,和数据标签。可以看出,除了’ID’之外前4个标签 ‘age’, ‘work’, ‘own house’, ‘Credit conditions’为我们一直在说的特征 ,而最后一个标签’label’是我们所说的类 ,所以要处理一下这些标签,第三步,计算训练集 的熵 :这里会用到pandas的一个统计数据的功能, groupby(by = [列]).groups ,将数据统计成字典的形式,这么说比较抽象,看下图,将我们用pandas读入的data,分为2类, , Index 表示索引,即第0,1,4,5,6,14个数据的 ,第2,3,7,8,9,10,11,12,13个数据的 .那么计算训练集 的熵第四步,计算特征 对数据集 的条件熵第五步 ,计算信息增益输入:训练集 和特征 和阈值 ;输出:决策树(1)中所有实例都属于同一类 ,则 为单结点树,并将类 作为该结点的类标记,返回 ;(2) 若 ,则 为单结点树,并将 中实例数最大的类 作为该结点的类标记,返回 ;(3)否则,按照上述信息增益的算法,计算 中各个特征对 的信息增益,选择信息增益最大的特征 ;(4)如果特征 的信息增益小于阈值 ,将置 为单结点树,并将 中实例数最大的类 作为该结点的类标记,返回 ;(5)否则,对 的每一个可能值 ,依将 分割为若干非空子集,将中实例数最大的类 作为该结点的类标记,构建子结点,由结点及其子结点构成树,返回;(6)对第 个子结点,以 为训练集,以 为特征集,递归的调用步骤(1)~步骤(5),得到子树,返回。对上述表的训练集数据,利用ID3算法建立决策树。【特征:有自己的房子】将数据集 划分为2个子集 和 ,观察一下 和 :由于 所有实例都属于同一类 ,所以它是一个叶结点,结点的类标记为“是”。对于 则需从特征 中选择新的特征。将 看作新的数据集 。【特征:有工作】有2个可能值,划分为2个子集 和 ,观察一下 和 :由于 所有实例都属于同一类 ,所以它是一个叶结点,结点的类标记为“是”。
关于自考的大问题
一,大自考报名到考试时间基本上是半年左右,除了补考的,补考的是一个半月左右, 大自考报名如三月初报,要到十月才考.九月报,要等到明年的四月份才考.补考的话是,六月初报,七月中旬考. 二,自考的学习方法,只有自己多看书,没有什么好的捷径,你看书时边看边去理解,不要走马观花一样,看完书做做练习,巩固一下知识. 三,大自考最好不要作蔽,有点严的,抓到停考,那次考试成绩取消,还要通知所在单位,不合算,就算你全部成绩过了,人家都会以为你是通常作蔽毕业的,而不是自己正真的实力 四,要大自考你得有毅力,对自己有信心,肯去看书 五,自考报名地为你所在地的自考办 六,报名时带上身份证和两三百块钱就可以了
北交大物流管理考研,考什么科目,分别是什么书?谢谢~~~
北交大吧 这个好一些
以上就是今天分享关于自考模型与决策书电子版的全部内容,更多自考历年真题及答案,自考视频网课,自考重点复习资料,可以咨询在线客服或者点这里{自考资料网}!
有需要自考PDF电子版教材的,可以点我查看{自考电子版教材目录}