Chapter 05 特征选择

尽管有些特征对我们的问题是有意义的,但是不同特征的重要性不同,有些特征之间可能存在了信息冗余,过多的特征也可能会导致过拟合的情况发生,因此选出一些对问题影响比较大的特征就尤为重要了。

特征选择主要有两个目的:

  • 减少特征数量、降维,使模型泛化能力更强,减少过拟合;
  • 增强对特征和特征值之间的理解。

特征选择是从原始的特征集中选择出一个子集,从而在不降低甚至提高模型性能的情况下,减少输入数据的规模。 按照是否需要标签,特征选择可以分为有监督特征选择和无监督特征选择。根据特征选择的形式又可以将特征选择方法分为3种:

  • Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择特征的个数,选择特征。
  • Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
  • Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

参考资料

  1. https://blog.csdn.net/qq_39303465/article/details/79221254
  2. https://en.wikipedia.org/wiki/Feature_selection#Filter_method
  3. http://sklearn.lzjqsdd.com/modules/feature_selection.html
  4. https://zhuanlan.zhihu.com/p/32335608
  5. https://ask.hellobi.com/blog/lsxxx2011/10426
  6. http://sofasofa.io/forum_main_post.php?postid=1000484
  7. https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF
  8. https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA))
  9. https://www.deeplearn.me/1466.html
  10. https://blog.csdn.net/u014271612/article/details/51781250
  11. http://nbviewer.jupyter.org/github/jaganadhg/data_science_notebooks/blob/master/sklearn/scikit_learn_feature_selection.ipynb
  12. http://featureselection.asu.edu/tutorial.php
  13. https://www.cnblogs.com/stevenlk/p/6543628.html
  14. https://blog.csdn.net/u012328159/article/details/53954522
  15. https://blog.csdn.net/jetFlow/article/details/78884619
  16. http://www.ituring.com.cn/article/273668
  17. https://www.zhihu.com/question/28641663
  18. http://www.cnblogs.com/stevenlk/p/6543646.html
  19. https://www.cnblogs.com/stevenlk/p/6543628.html
  20. http://www.cnblogs.com/ooon/p/5677098.html
  21. https://blog.csdn.net/drbinzhao/article/details/52930600

results matching ""

    No results matching ""