数据挖掘——内容过滤


协同过滤是基于社交网络的推荐系统,内容过滤则是依靠物品属性进行推荐的系统。即根据所有用户对物品或者信息的评价,发现物品和物品之间的相似度,然后根据用户的历史偏好信息将类似的物品推荐给该用户。

归一化

概念

name age salary
a 22 14000
b 28 20000
c 25 16000

在实际的情况中,我们通常会接受到的是上图类似的数据,有很大的取值范围,对此类数据,一般采用的方案是归一化,即将特征数据转换到0到1之间。
比较常用的归一化公式是:
标准分数=(每个值-均值)/标准差

标准分数的问题

采用标准分数容易受到极值影响,故在某些时候,可以用中位数代替均值得到绝对标准分数。

应该采用归一化的情况

  • 所用的数据挖掘方法基于特征的值计算两个对象的距离
  • 不同特征的尺度不同

2 条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

😉😐😡😈🙂😯🙁🙄😛😳😮:mrgreen:😆💡😀👿😥😎😕