特征使用方案

在确定了目标之后,下一步,我们需要确定使用哪些数据来达到目标。需要事先梳理哪些特征数据可能与用户是否点击下单相关。我们可以借鉴一些业务经验,另外可以采用一些特征选择、特征分析等方法来辅助我们选择。对于这里举的实际例子,从业务经验来判断,可能影响用户是否点击下单的因素有:

  • 距离,很显然这是一个很重要的特征。如果购买一个离用户距离较远的单子,用户去消费这个单子需要付出很多的代价。 当然,也并不是没有买很远单子的用户,但是这个比例会比较小。
  • 用户历史行为,对于老用户,之前可能在美团有过购买、点击等行为。
  • 用户实时兴趣。
  • 单子质量,上面的特征都是比较好衡量的,单子质量可能是更复杂的一个特征。
  • 是否热门,用户评价人数,购买数等等。

可用性评估

在确定好要使用哪些数据之后,我们需要对使用数据的可用性进行评估,包括数据的获取难度,数据的规模,数据的准确率,数据的覆盖率等。

  • 数据获取难度 例如获取用户id不难,但是获取用户年龄和性别较困难,因为用户注册或者购买时,这些并不是必填项。即使填了也不完全准确。这些特征可能是通过额外的预测模型预测的,那就存在着模型精度的问题。

  • 数据覆盖率 数据覆盖率也是一个重要的考量因素,例如距离特征,并不是所有用户的距离我们都能获取到,PC端的就没有距离,还有很多用户禁止使用它们的地理位置信息等;对于用户历史行为,只有老用户才会有行为;对于用户实时行为,如果用户刚打开app,还没有任何行为,同样面临着一个冷启动的问题。

  • 数据的准确率

    因为从网上或者其他地方获取的数据,会由于各种各样的因素(用户的因素,数据上报的因素)导致数据不能够完整的反映真实的情况,这个时候就需要事先对这批数据的准确性作出评估。如单子质量、用户性别等,都会有准确率的问题。


参考资料

  1. 机器学习中的数据清洗与特征处理综述
  2. 特征工程简介
  3. 机器学习之特征工程

results matching ""

    No results matching ""