利用用户标签数据推荐

【笔记】用户标签

作者 Trekerz 日期 2017-03-21
利用用户标签数据推荐

推荐系统的目的:联系用户兴趣和物品。

联系用户兴趣和物品的三个办法:

​ a. 利用用户喜欢过的物品

​ b. 利用与用户兴趣相似的用户

​ c. 通过一些特征联系用户和物品(属性集合、隐语义向量、标签)

标签:一种无层次化结构的、用来描述信息的关键词,可以用来描述物品的语义。

根据打标签的人的不同可以分为两类:一种是让专家或作者打标签,另一种是让普通用户打标签(UGC)。

一、 UGC标签系统的代表作用

1. 著名的标签系统

(1) Delicious

​ (给互联网中每个网页打标签)

(2) CiteULike

​ (著名论文书签网站)

(3) Last.fm

​ (分析用户的听歌行为预测用户对音乐的兴趣,从而推荐个性化音乐)

(4) 豆瓣

​ (著名评论和社交网站,中国个性化推荐邻域的领军企业)

(5) Hulu

​ (美国著名的视频网站)

2. 标签系统的不同作用

​ (1) 表达(30%)

​ (2) 组织(23%)

​ (3) 学习(27%)

​ (4) 发现(19%)

​ (5) 决策(14%)

二、 标签系统中的推荐问题

标签系统中的推荐问题主要有以下两个:

​ a. 如何利用用户打标签的行为为其推荐物品(基于标签的推荐)?

​ b. 如何在用户给物品打标签时为其推荐适合该物品的标签(标签推荐)?

1. 用户为什么进行标注

(1) 社会维度

a. 给内容上传者使用

b. 给广大用户使用

(2) 功能维度

a. 更好地组织内容,方便查找

b. 用于传达某种信息(如时间、地点)

2. 用户如何打标签

标签流行度的分布:长尾分布。

横坐标是流行度k,纵坐标是数据集中流行度为k的标签总数n(k)。标签流行度的双对数曲线几乎是一条直线。

3. 用户打什么样的标签

(1) Delicious上的标签分类

a. 表明物品是什么

b. 表明物品的种类

c. 表明谁拥有物品

d. 表达用户的观点

e. 用户相关的标签(我最喜欢的、我的评论等)

f. 用户的任务(即将阅读、找工作等)

(2) Hulu对视频的标签的分类

a. 类型

b. 时间

c. 人物

d. 地点

e. 语言

f. 奖项

g. 其他


附:深度学习笔记1

四、 关于特征

1. 特征表示的粒度

学习算法在一个什么粒度上的特征表示才能有效发挥作用:合适的粒度。

比如:对一张图片来说,“像素”的粒度太小,“区域”粒度就合适。

2. 初级(浅层)特征表示

稀疏编码的例子:

a. 图片->碎片->重组成碎片

b. 声音->基音->重组成一段声音

3. 结构性特征表示

深度学习是一个由低层级特征逐级“组合”成高层级特征的过程。每一级之间都是成量级的关系。

4. 需要有多少个特征

太多:计算复杂、探索的空间大

太少:信息量少、准确性降低