数据处理
数据预处理环节包括对数据的探索性数据分析(Exploratory Data Analysis,EDA)和ETL(Extract-Load-Transform)工作:
- 数据接入
- 数据探索
- 数据清洗
- 数据转换
- 数据可视化
数据预处理分析有三个主要目的:
- 对数据有更直观的了解,如数据类型、分布情况等,对异常值有一定的人为预测和理解,提高模型的解释性。
- 检测异常值及缺失值并进行清洗,数据类型统一,去除不需要的数据及关联性验证。
- 统计业务相关指标,如基金每天或在某一时间段曝光/点击/转化人数、点击/转化率、及人数和比率排名,对比是否与模型结果一致。
参考资料
https://github.com/WillKoehrsen/Data-Analysis/blob/master/pairplots/Pair%20Plots.ipynb
- https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient
更多数据分析案例: