在之前格物汇的文章中,我们介绍了工业数据预处理的方法以及特征工程的基本知识,今天要带大家来了解如何做特征构建。
特征构建常用方法
特征构建的常用方法是属性分割和结合,这一般根据我们具体的问题所决定。我们通过具体的应用场景来看看:
时间列处理
时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。通常时间序列数据会含有一定的趋势和周期性,这时需要我们去构建趋势因子和周期因子。
分解类别属性
一些属性是类别型而不是数值型,举一个简单的例子,由{红,绿、蓝}组成的颜色属性,最常用的方式是把每个类别属性转换成二元属性,即从{0,1}取一个值。因此基本上增加的属性等于相应数目的类别,并且对于你数据集中的每个实例,只有一个是1(其他的为0),这也就是独热(one-hot)编码方式。我们在前面的文章中介绍过了,在此不再赘述。
分箱和分区
有时候,将数值型属性转换成类别呈现更有意义,同时能使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。举个例子,我们预测一个人是否拥有某款衣服,这里年龄是一个确切的因子。其实年龄组是更为相关的因子,所以我们可以将年龄分布划分成1-10,11-18,19-25,26-40等年龄段,分别表示 幼儿,青少年,青年,中年四个年龄组,让相近的年龄组表现出相似的属性。此外,我们还可以对分箱,分区做一些统计量字段作为数据的特征。
只有在了解属性的领域知识的基础,确定属性能够划分成简洁的范围时分区才有意义。即所有的数值落入一个分区时能够呈现出共同的特征。在实际应用中,当你不想让你的模型总是尝试区分值之间是否太近时,分区能够避免出现过拟合。例如,如果你所感兴趣的是将一个城市作为整体,这时你可以将所有落入该城市的维度值进行整合成一个整体。分箱也能减小小错误的影响,通过将一个给定值划入到最近的块中。如果划分范围的数量和所有可能值相近,或对你来说准确率很重要的话,此时分箱就不适合了。
交叉特征
交叉特征是特征工程中重要的方法之一,交叉特征是一种很独特的方式,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这是一项非常有用的技术。数学上来说,是对类别特征的所有可能值进行交叉相乘。当然我们不仅仅会去查找交叉项关系,还可以去寻找更加复杂的二次项,三次项乃至更复杂的关系,这根据问题求解的需要决定。
经度与纬度的组合便是交叉特征的应用实例,一个相同的经度对应了地图上很多的地方,纬度也是一样。但是一旦你将经度和纬度组合到一起,它们就代表了地理上特定的一块区域,区域中每一部分是拥有着类似的特性。
小结
一般我们会收集与问题相关的数据作为我们的特征,但是这些特征有时不足以解释我们的问题,我们还是会通过特征构建来增加解释能力。这其实是对数据进行升维操作,总的来说,特征构建可以给我们的模型提供一些关键的信息,来解决模型解释能力不足的情况。但如果我们收集的数据包含了过多的特征,如何对这些特征进行提纯呢?请继续关注格物汇,我们将在之后的文章中详细讲解。
本文作者:格创东智 OT团队 (转载请注明来源及作者)
全部0条评论
快来发表一下你的评论吧 !