数据观察
观察内容 | 说明 | |
---|---|---|
属性判定 | 观察是否有不合逻辑或不合常理的数据 | 如:该类别的人逻辑上不匹配该项特征,一个男士买了女士专用的发夹。 |
组合或统计属性判定 | 观察组合特征或该特征下的统计属性来判定数据逻辑上的真伪。 | 如:声称是美国用户但IP却为中国地区的新闻阅读用户;要判定一个人是否会买篮球鞋,但样本中女性用户占90%。 |
缺失值 | 观察是否有缺失值 | 去除不可信的特征;缺失值极多的特征可考虑不用;补充缺失值可以利用后一位填充前一位或者取该样本特征项中的均值。 |
离群点 | 观察是否有明显离群点 | 后续进行离群点处理 |
垃圾值 | 观察全空列、连续值中出现异常、异常乱码、标点乱码。 | 对于异常数据,可以使用异常点检测算法对样本进行分析,常用的异常点检测算法包括偏差检测,例如聚类,最近邻等。 |
取值变化 | 观察是否有取值变化小的特征。 | 样本之间该特征的取值变化不大,则认为该数据意义不大。如:一个特征取值是{0,1},且95%是1,其余是0,那么认为这个特征意义不大,如果100%是1,那么这个特征毫无作用。 |
量纲 | 观察不同特征的数据是否属于同一量纲 | 即特征的规格不一样,不能够放在一起比较。需对数据进行去量纲化处理。 |
信息冗余 | 观察是否有某些列的特征重复,或者某些列之间成比例。 | 对冗余信息进行去重。 |
定量特征 | 观察定量特征,包含的有效信息为区间划分 | 如对学习成绩数据进行二值化,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。 |
定性特征 | 观察是否有判定属性且无法定量的特征。 | 定性特征需转化为定量特征,通常采用哑编码的手段处理数据。哑编码的方式不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。 |
正负样本分布 | 观察正负样本数据分布是否失衡。 | 可通过采样等手段进行平衡。 |
变量的特征 | 观察是否为连续变量、分类变量、程度变量、组合变量。 |
参考资料
1.https://blog.csdn.net/qq_39303465/article/details/79221254
2.https://wenku.baidu.com/view/baa6346043323968011c92a7.html
3.http://www.cnblogs.com/fengfenggirl/p/iForest.html
4.https://zr9558.com/2016/06/13/outlierdetectionone/
5.https://www.applysquare.com/topic-cn/ShiBHw1ny/
6.https://www.jianshu.com/p/5af3c66e0410?utm_campaign=maleskine
7.http://pyodps.readthedocs.io/zh_CN/latest/df-sort-distinct-apply-zh.html
8.https://blog.csdn.net/zutsoft/article/details/51498026