RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性。

在社交网络中,有些用户之间联系较为紧密,而另外一些用户之间的关系则较为稀疏。在网络中,我们可以将联系较为紧密的部分用户看成一个社区,在这个社区内部,用户之间联系紧密,而在两个社区之间,联系较为稀疏。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已!

损失函数旨在表示出logit和label的差异程度,不同的损失函数有不同的表示意义,也就是在最小化损失函数过程中,logit逼近label的方式不同,得到的结果可能也不同。

本文主要参考Andrew Ng老师的Machine Learning公开课,并用《机器学习实战》中的源码实现。

SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案。

类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。