基于内容的推荐
内涵:
计算物品的内容相似度。
所含部件:
1. 内容分析器(提取物品内容信息,作为属性学习期和过滤部件的输入)
2. 文件学习器(收集、泛化代表用户偏好的数据,生成用户概要信息)
3. 过滤部件(通过学习用户概要信息,去匹配用户概要信息和商品信息,推荐商品)
缺点:
a. 推荐的物品可能会重复。
b. 音乐电影图片等的特征很难提取,解决方式手机给这些item打标签。
c. 当一个新的用户没有或很少对任何商品进行评分时,系统无法向该用户提供可信的推荐。
优点:
a. 不受CF推荐中的打分稀疏性问题的约束。
b. 能很好地解释推荐结果。
c. 可以将新产品很快地进行推荐。
跟ItemCF的区别:
Content-based根据内容计算物品相似度,ItemCF根据外界环境(分析用户行为)计算物品相似度。
跟UserCF的区别:
Content-based计算的是物品相似度,UserCF计算的是用户相似度。
核心算法列举:
TF-IDF
马尔可夫模型(词性标注)
基于朴素贝叶斯的用户分类
不能用。原因:
因为已定的用户模型中的特征存在不相互独立的特征,但朴素贝叶斯分类器有一个前提是所有特征都彼此独立。
需要训练样本先把类别给“积累起来”,在初期数据很少的情况下很难实现(不利于冷启动)。
用户懂哪些知识、想学哪些知识,严格来讲这不是特征,
基于kNN的用户分类算法
是一种懒惰算法,要用时才进行分类,不适合实时推荐场景。