1,866 次浏览

特征选择–CFS

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。

特征选择的两个大方向是:

  • wrapper: 使用学习算法本身去选择有用的特征
  • filter: 根据数据的一般特征启发式的选择特征

大多数的应用表明,filter方法的数据会比wrapper的速度快,filter方法的缺点是只应用于离散数据的特征选择问题当中。

本文讨论的是correlations-based feature selection,即CFS,被Hall.M提出的filter方法(reference中论文(1)),并应用于连续问题、离散问题中。在朴素贝叶斯方法(文末reference中的(2)就使用了CFS来进行特征选择)、决策树、实例学习等都有应用。

Reference:
(1) Hall.M., 2000. Correlation-based feature selection for discrete and numeric class machine learning.
(2) Liangxiao Jiang., 2016. Deep feature weighting for naive Bayes and its application to text classification
(3) https://www.cnblogs.com/stevenlk/p/6543628.html