推荐系统冷启动问题

一、简介

冷启动问题分类：

a. 用户冷启动

b. 物品冷启动

c. 系统冷启动

解决方案：

a. 先提供非个性化推荐

b. 利用用户注册时提供的信息

c. 利用用户的社交网络账号登陆（需要用户授权）

d. 要求用户在登陆时对一些物品进行反馈

e. 对于新加入的物品，可以利用内容信息

f. 在系统冷启动时，可以引入专家的知识

二、利用用户注册信息

1. 用户注册信息分类

(1) 人口统计学信息

(2) 用户兴趣的描述

(3) 从其他网站导入的用户站外行为的数据

2. 注册信息使用流程

(1) 获取用户的注册信息

(2) 根据用户的注册信息对用户分类

(3) 给用户推荐他所属分类中用户喜欢的分类（可以考虑单特征分类页可以考虑组合分类）

由上图可知，基于用户注册信息的推荐算法的核心问题是计算每种特征f的用户喜欢的物品，也就是物品i在具有特征f的用户中的热门程度p(f,i)：

N(i)：喜欢物品i的用户集合。

U(f)：具有特征f的用户集合。

上述定义的改进：对于热门的物品，往往会有很多不同特征的用户都喜欢，即不同f的用户群都有一样高的p(f,i)值，这样就无法把它们区分开来了。

对此，我们可以换一种定义方式：喜欢物品i的用户中具有特征f的比例：

α：解决数据稀疏性问题。（比如一个物品只被一个用户喜欢过，这个用户刚好是特征f的，那这个p(f,i)=1就没有统计意义，这时加入一个比较大的a可以避免这样的物品产生比较大的权重）

实验与测评：实验测评是要注意算法的粒度，一般来说，利用的用户人口统计学特征越多，粒度越细，算法的精度和覆盖率越高，越能准确地预测用户兴趣。

三、选择合适的物品启动用户的兴趣

1. 用来启动用户兴趣的物品的特点

(1) 比较热门

(2) 具有代表性和区分性

(3) 启动物品集合需要由多样性

2. 选择启动物品的系统——“决策树”（Nadav Golbandi提出）

Nadav Golbandi的基本思想是通过如下方式度量一个物品的区分度D(i)：

N⁺(i)：喜欢物品i的用户集合；

N^-(i)：不喜欢物品i的用户集合；

：没有对物品i评分的用户的集合（不知道物品i）。

：喜欢物品i的用户对其他物品评分的方差。

：不喜欢物品i的用户对其他物品评分的方差。

：没有对物品i评分的用户对其他物品评分的方差。

如果这3类用户集合内的用户对其他物品的兴趣很不一致，说明物品i具有较高的区分度（可以用来作为启动物品）。

具体实验方法：Nadav Golbandi的算法首先会从所有用户中找到具有最高区分度的物品i，然后将用户分为3类，继续找其中具有最高区分度的物品，再将这3类中每一类分为3类（共9类），继续找下去，最终可以通过对一系列物品的看法将用户进行分类。

冷启动时，从根节点开始询问用户对该节点物品的看法，然后根据用户的选择将用户放到不同的分枝，直到进入最后的叶子节点，此时我们对用户的兴趣就有了比较情趣的了解，从而可以开始对用户进行比较准确度个性化推荐。

四、利用物品的内容信息

1. UserCF和ItemCF的不同

(1) UserCF

使用用户关系来推荐，没有冷启动问题，但要解决“第一推动力”的问题，即新的物品要有人来发现，只要发现了，就能传播开来了，这个时候就要用到物品内容信息了。

(2) ItemCF

存在严重的物品冷启动问题，因为ItemCF就是根据用户之前喜欢的物品来推荐物品；并且，新加入的物品因为无法及时计算相似度（一般一天算一次，因为耗时），也造成了物品的冷启动。此时就要用到物品的内容信息了。

2. 向量空间模型

一般来说，物品的内容可以用向量空间模型来表示，该模型会将物品表示成一个关键词向量。对物品d，它的内容表示成一个关键词向量为：

其中，e_i就是关键词，w_i就是关键词对应的权重。

如果物品时文本，首先，要对文本进行分词，将字流变成词流，然后从词流中检测出命名实体（如人名、地名、组织名等），这些实体和一些其他的重要的词将组成关键词集合，最后对关键词集合排名，之后我们可以用信息检索领域著名的TF-IDF公式计算每个关键词的权重：

如果物品的电影，可以根据演员在剧中的重要程度赋予他们权重。向量空间模型的优点是简单，缺点是丢失一些信息，如关键字之间的关系。不过在绝大多数应用中，向量空间模型对于文本的分类、聚类、相似度计算已经可以给出令人满意的结果了。

在给定物品内容的关键词向量后，物品的内容相似度可以通过向量之间的余弦相似度来计算：

（这种算法施加复杂度很高，在计算可以先通过简历关键词-物品的倒排表加速这一计算过程）

3. LDA话题模型

向量空间模型在计算长文本的时候可以获得很高的精确度，但在计算短文本时就很难，这个时候话题模型就能起到作用。如何建立文章、话题、关键词的关系是话题模型研究的重点。

使用LDA计算物品的内容相似度时，我们可以先计算出物品在话题上的分布，然后利用两个物品的话题分布计算物品的相似度。比如，如果两个物品的话题分布相似，则认为两个物品具有较高的相似度，反之则认为两个物品的相似度较低。计算分布的相似度可以利用KL散度：

其中p和q是两个分布，KL散度越大说明分布的相似度越低。

五、发挥专家的作用

雇佣专家对内容进行分类。

例子：Pandora个性化网络电台、Jinni电影推荐网站。

1. Pandora

使用了400多个特征（被称作“基因”），标注完所有的歌曲后，每首歌都可以表示为一个400维的向量，然后通过常见的向量相似度算法可以计算出歌曲的相似度。

特征比如：心情、剧情、类别、时间、地点、观众、获奖、风格、态度、画面、标记等。

2. Jinni

半自动、半人工的方式。让专家对电影惊喜给你标记，每部电影大约50个基因，这些基因来自大约1000个基因库。然后在专家标记一定的样本后，Jinni会使用自然语言理解和机器学习技术，通过分析用户对电影的评论和电影的一些内容属性对电影（特别是新电影）进行自己的标记。同时，Jinni也设计了让用户对基因进行反馈的界面，希望通过用户反馈不断改进电影基因系统。

总之， Jinni通过专家和机器学习相结合的方法解决了系统冷启动问题。

一、简介
二、利用用户注册信息
1. 1. 用户注册信息分类
2. 2. 注册信息使用流程
三、选择合适的物品启动用户的兴趣
1. 1. 用来启动用户兴趣的物品的特点
2. 2. 选择启动物品的系统——“决策树”（Nadav Golbandi提出）
四、利用物品的内容信息
1. 1. UserCF和ItemCF的不同
  1. (1) UserCF
  2. (2) ItemCF
2. 向量空间模型
3. LDA话题模型
五、发挥专家的作用
1. Pandora
2. Jinni

推荐系统冷启动问题

【笔记】浅谈冷启动