【大唐杯】人工智能与机器学习-集成学习/决策树 | Zynestro

【大唐杯】人工智能与机器学习-集成学习/决策树

2inc

2023-06-22 02:03:29 2024-08-08 10:47:41

大唐杯

432 字 1 分钟

集成学习

聚合一组预测其的预测，得到的结果比单个预测器要好，这样的一组预测器称为集成，这种技术称为集成学习。
分为四类：
voting 投票
bagging 包装
boosting 提升
stacking 堆叠

集成学习-voting

相同数据集，不同分类器，根据最终大多数出现的结果作为预测结果。

bagging 自举汇聚法

在不同的训练集随机子集上进行训练，分类器相同。
采样时样本放回叫做bagging,采样时不放回叫pasting

随机森林
- 对每个样本随机有放回的从训练集中抽取（bootstrap sample方法）

boosting 提升法

将几个弱学习器合成一个强学习器的集成方法，提升法的总体思路大多是循环训练预测其，每一次都对其前序做一些改正。

决策树

决策树是什么，如何构造？

熵：表示随机变量的不确定性
$§$
熵越大，随机变量的不确定性越大！

C_k是结果的类别，D整个数据集的条数

条件熵

按条件分类后，分别计算各类别的熵，按类别加权计算平均。之后根据信息增益准测选择最优特征。
信息增益
信息增益（也叫互信息 mutual information）

增益越大，条件熵越小，增益越强，选增益大的作为划分属性
计算过程
几种决策树算法
- ID3 Iterative Dichotomiser 3（迭代二叉树三代）
  - 对各个节点递归地计算信息增益
- C4.5 对ID3的改进
  - 使用信息增益比来选择特征
- CART 生成的是二叉树
  - 基尼指数与熵类似

【大唐杯】人工智能与机器学习-集成学习/决策树

2023/06/22/【大唐杯】人工智能与机器学习-集成学习/

作者

2inc

发布于

2023-06-22 02:03

许可

评论

评论插件加载失败

正在加载评论插件

集成学习
决策树

集成学习
决策树