4月22日推荐算法适用性分析

【笔记】算法适用性分析

作者 Trekerz 日期 2017-04-22
4月22日推荐算法适用性分析

基于内容的推荐

内涵:

​ 计算物品的内容相似度。

所含部件:

​ 1. 内容分析器(提取物品内容信息,作为属性学习期和过滤部件的输入)

​ 2. 文件学习器(收集、泛化代表用户偏好的数据,生成用户概要信息)

​ 3. 过滤部件(通过学习用户概要信息,去匹配用户概要信息和商品信息,推荐商品)

缺点:

​ a. 推荐的物品可能会重复。

​ b. 音乐电影图片等的特征很难提取,解决方式手机给这些item打标签。

​ c. 当一个新的用户没有或很少对任何商品进行评分时,系统无法向该用户提供可信的推荐。

优点:

​ a. 不受CF推荐中的打分稀疏性问题的约束。

​ b. 能很好地解释推荐结果。

​ c. 可以将新产品很快地进行推荐。

跟ItemCF的区别:

​ Content-based根据内容计算物品相似度,ItemCF根据外界环境(分析用户行为)计算物品相似度。

跟UserCF的区别:

​ Content-based计算的是物品相似度,UserCF计算的是用户相似度。

核心算法列举:

​ TF-IDF

​ 马尔可夫模型(词性标注)

基于朴素贝叶斯的用户分类

不能用。原因:

  1. 因为已定的用户模型中的特征存在不相互独立的特征,但朴素贝叶斯分类器有一个前提是所有特征都彼此独立。

  2. 需要训练样本先把类别给“积累起来”,在初期数据很少的情况下很难实现(不利于冷启动)。

  3. 用户懂哪些知识、想学哪些知识,严格来讲这不是特征,

基于kNN的用户分类算法

​ 是一种懒惰算法,要用时才进行分类,不适合实时推荐场景。