核心:用有放回采样的样本训练哆棵决策树训练决策树的每个节点是只用了无放回抽样的部分特征,预测时用这些树的预测结果进行投票
随机森林是一种集成学习算法,它由多棵决策树组成这些决策树用对训练样本集随机抽样构造出样本集训练得到。随机森林不仅对训练样本进行抽样还对特征向量的分量随机抽样,在训练决策树时每次分裂时只使用一部分抽样的特征分量作为候选特征进行分裂。
对于分类问题一个测试样本会送到每一棵决策树中进行预测,然后投票得票最多的类为最终分类结果。对于回归问题随机森林的预测输出是所有决策树输出的均值
假设有n个训练样本。训练每一棵树时从样本集中有放回的抽取n个样本,每个样本可能会被抽中多次也可能一次都没抽中。用这个抽样嘚样本集训练一棵决策树训练时,每次寻找最佳分裂时还要对特征向量的分量采样,即只考虑部分特征分量
随机森林是一种判别模型,既支持分类问题也支持回归问题,并且支持多分类问题这是一种非线性模型。