决策树01

来源:转载

此笔记根据《machine learning in action》和周志华教授的《机器学习》所作。

决策树的构造

  • 优点:计算复杂度不高,输出结果易于理解,对中间值的确实不敏感,可以处理不相关特征数据。
  • 缺点:可能会产生过度匹配问题。
  • 适用数据类型:数值型和标称型
If so return 类标签;Else 寻找划分数据集的最好特征 划分数据集 创建分支节点 for每个划分的子集 调用函数createBranch并增加返回结果到分支节点中 return 分支节点

上面的伪代码createBranch是一个递归函数,在倒数第二行调用了它自己。

决策树的一般流程

  1. 收集数据:可以使用任何方法。
  2. 准备数据:树构造算法只适用于标称型数据(标称型目标变量的结果只在有限目标集中取值,如真与假[标称型目标变量主要用于分类]),因此数值型数据必须离散化。
  3. 分析数据:可以使用任何方法,构造书完成之后,我们应该检查图形是否符合预期。
  4. 训练算法:构造树的数据结构。
  5. 测试算法:使用经验树计算错误率。

一些决策树算法采用二分法划分数据,本文并不采用这种方法,而采用ID3算法

ID3算法

维基百科解释:https://en.wikipedia.org/wiki/ID3_algorithm

分享给朋友:
您可能感兴趣的文章:
随机阅读: