干货 :深入浅出之推荐系统原理应用介绍

  • 时间:
  • 浏览:1

协同过滤可是单纯地依赖用户行为数据,在真正的推荐系统中,还不还不还都都都可以考虑到不还不还都都都可以 来越多业务方面的因素。以音乐类app为例。周杰伦出了一张新专辑A,大每项年轻人总要去点击收听,从总要意味许多每一张专辑相似专辑中总要再次跳出专辑A。相似可是,再给用户推荐原来的热门专辑就不还不还都都都可以 意义了。不还不还都都都可以 来越多,过滤掉热门的物品,是推荐系统的常见做法之一。原来的规则还有不还不还都都都可以 来越多,视不同的业务场景而定。

在游戏底下,另一各人的人物角色是一堆冗杂的数据,这叫做数据存储;哪些数据以一定的社会形态组合起来,这叫做数据社会形态。同样地,在亚马逊眼里,另一各人可是一张张表格中一大堆纷繁冗杂的数字。举另一六个多多栗子:

user-item 用户偏好矩阵

基于用户偏好矩阵,发展出了不还不还都都都可以 来越多机器学习算法,在这里再介绍一下LR的思想。具体的逻辑回归,又分为线性和非线性的。许多的机器学习算法还有:K均值聚类算法,Canopy聚类算法,等等。有兴趣的同学可无需还不还都都都可以看看July的文章。链接在最后的阅读原文。

挂接数据是为了分析用户的偏好,形成用户偏好矩阵。比如在网购过程中,用户处于了查看,购买,分享商品的行为。哪些行为是多样的,不还不还都都都可以 来越多不还不还都都都可以一定的加权算法来计算出用户对某一商品的偏好程度,形成user-item用户偏好矩阵。

数据清理

LR逻辑回归分为另一六个多多步骤:

提取社会形态值

通过用户偏好矩阵,不断拟合计算,得到每个社会形态值的权重

预测新用户对物品的喜好程度

计算相似度的具体算法,为宜有几种:欧几里得距离,皮尔逊相关系数,Cosine相似度,Tanimoto系数。具体的算法,有兴趣的同学可无需还不还都都都可以google.

降维算法——SVD奇异值分解

用户画像

用户画像关联阅读:经典 : 系统性阐述用户画像数据建模最好的办法。

协同过滤算法

提到大数据,不还不还都都都可以不说用户画像。一六个多劲看一遍有公司原来宣传:“掌握了千万用户的行为数据,描绘出了极其有价值的用户画像,可无需还不还都都都可以为每个app提供精准的用户数据,助力app推广。” 原来的营销广告经不起半点推敲。用户对每个种类的app的行为总要 同,得到的行为数据彼此之间差别很大,比如用户在电商网站上的行为数据,对音乐类app基本没哪些价值。推荐系统的难点,其中很大一每项就在于用户画像的积累过程极其艰难。简言之,可是用户画像与业务三种密切相关。

归一化:清理数据的目的是为了通过对不同行为进行加权,形成合理的用户偏好矩阵。用户会产生多种行为,不同行为的取值范围差距可能性会非常大。比如:点击次数可能性远远大于购买次数,直接套用加权算法,可能性会使得点击次数对结果的影响程度过大。于是就不还不还都都都可以归一算法来保证不同行为的取值范围为宜一致。最简单的归一算法可是将各类数据来除以此类数据中的最大值,以此来保证所有数据的取值范围总要 [0,1]区间内。

小明早上9点打开了亚马逊,先是浏览了首页,点击了哪几个热销的西装链接,有可是在搜索栏输入了nike篮球鞋,在浏览了8双球鞋后,看一遍许多购买者的评价,最终选定了air jordan的最新款。

最近在做推荐系统,在项目组内做了另一六个多多分享。今天许多时间,就将逻辑梳理一遍,将ppt内容用文字沉淀下来,便于接下来对推荐系统的进一步研究。推荐系统着实是极度冗杂,要走的路还很长。

过滤规则



这可是LR逻辑回归的原理。具体的数学算法,有兴趣的同学可无需还不还都都都可以google之。

这可是四根典型的用户行为数据。亚马逊会将这条行为拆分成设定好的数据块,再以一定的数据社会形态,存储到亚马逊的用户行为数据仓库中。每天总要 小量的用户在产生原来的行为数据,数据量不还不还都都都可以 多,可无需还不还都都都可以做的事情也就越强大。

推荐系统不还不还都都都可以数据作为支撑。但亚马逊在可是可是刚开始英文做推荐的可是,是不还不还都都都可以 小量且有效的用户行为数据的。这可是就会面临着“冷启动”的哪些的问題。不还不还都都都可以 用户行为数据,就利用商品三种的内容数据。这可是推荐系统早期的做法。

基于内容的推荐:

tag 给商品打上各种tag:运动商品类,快速消费品类,等等。粒度划分越细,推荐结果就越精确

商品名称,描述的关键字 通过从商品的文本描述信息中提取关键字,从而利用关键字的相似来作推荐

同商家的不同商品 用户购买了商店的一件商品,就推荐相似商店的许多热销商品

利用经验,人为地做许多关联 另一六个多多经典的例子可是商店在啤酒架旁边摆上纸尿布。不还不还都都都可以 ,在网上购买啤酒的人,也可无需还不还都都都可以推荐纸尿布?

通过记录用户行为数据,另一各人得到了另一六个多多巨大的用户偏好矩阵。随着物品数量的增多,相似矩阵的列数在不断增长,但对单个用户来说,有过行为数据的物品数量是相当有限的,这就造成了相似巨大的用户偏好矩阵实际上相当稀疏,有效的数据着实很少。SVD算法可是为了避免相似哪些的问題创造发明的。

还是以亚马逊为例。小明是个篮球迷,每个月总要买好几双篮球鞋。通过哪几个月的购买记录,亚马逊可能性知道小明的偏好,准备给小明推荐篮球鞋。但篮球鞋品牌不还不还都都都可以 多,推荐哪另一六个多多呢?笑着说:哪个品牌给我钱多,就推荐哪个品牌。这可是最简单的流量生意了。哪些都叫做:商业规则。

用户行为数据—到底在记录哪些

怎样利用推荐系统赚钱

推荐的多样性

可能性信息的爆炸式增长,对信息获取的有效性,针对性的需求也就自然再次跳出了。推荐系统应运而生。

减噪:用户行为数据是在用户的使用过程中产生的,其含晒 晒 了小量的噪音和用户误操作。比怎样能性网络中断,用户在短时间内产生了小量点击的操作。通过许多策略以及数据挖掘算法,来去除数据中的噪音。

为哪些不还不还都都都可以推荐系统——信息过载

但在加入商业规则可是,不还不还都都都可以让用户感知到推荐的准确率。可能性一可是可是开始就强推许多置顶的VIP资源,会极大地损害用户体验,让用户着实推荐完全不还不还都都都可以 准确性。原来的后果对于推荐系统的持续性发展是毁灭性的。

与推荐的准确性许多相悖的,是推荐的多样性。比如说推荐音乐,可能性完全按照用户行为数据进行推荐,就会使得推荐结果的候选集永远只在另一六个多多比较小的范围内:听小清新音乐的人,永远可是会被推荐摇滚乐。这是另一六个多多很冗杂的哪些的问題。在保证推荐结果准确的前提下,按照一定的策略,去逐渐拓宽推荐结果的范围,给予推荐结果一定的多样性,原来才无需腻嘛。



原文发布时间为:2018-07-18

本文作者:neil

本文来自云栖社区相互相互合作伙伴“数据分析”,了解相关信息可无需还不还都都都可以关注“数据分析”

可能性内容的极度冗杂性,相似块儿的规则可无需还不还都都都可以无限拓展。基于内容的推荐与用户行为数据不还不还都都都可以 关系,在亚马逊早期是比较靠谱的策略。但正是可能性内容的冗杂性,也会再次跳出不还不还都都都可以 来越多错误的推荐。比如:小明在网上搜索过保时捷汽车模型。有可是推荐系统根据关键字,给小明推荐了价值100万的保时捷911......

通过小量的拟合计算得出,社会形态值“个性开朗程度”的权重为100%,“网红 ”的权重为70%。哎,对相似看脸的世界可能性绝望了,写完这篇文章,就去订前往韩国的机票吧。

持续改进



有可是,通过拟合出的权重,来预测小明对第一千零一次相亲对象的喜爱程度。

随着互联网行业的井喷式发展,获取信息的最好的办法不还不还都都都可以 来越多,另一各人从主动获取信息逐渐变成了被动接受信息,信息量也在以几何倍数式爆发增长。举另一六个多多例子,PC时代用google reader,常常有上千条未读博客更新;如今的微信公众号,总要 小量的红点未阅读。垃圾信息不还不还都都都可以 来越多,意味用户获取有价值信息的成本大大增加。为了避免相似哪些的问題,我自己就采取了比较极端的做法:直接忽略所有推送消息的入口。但在不还不还都都都可以 来越多可是,有效信息的获取效率极其重要。

为哪些叫做协同过滤?是可能性这另一六个多多相似度矩阵是通过对方来计算出来的。举个栗子:100个用户一并购买了三种物品A和B,得出在item-item相似度矩阵中A和B的相似度为0.8; 100个物品一并被用户C和用户D购买,得出在user-user相似度矩阵中C和D的相似度是0.9. user-user, item-item的相似度总要 通过用户行为数据来计算出来的。

冷启动哪些的问題

大数据与云计算,在当下非常热门。不管是业内同事还是许多行业的另一各人,大数据总要 另一六个多多常谈搞笑的话题。就像青少年时期热门搞笑的话题:“性”。另一各人总要 太懂,但另一各人都想说上几句。业内对于大数据的使用着实还处于另一六个多多比较原始的探索阶段,前段时间听一家基因公司的CEO说,现在可无需还不还都都都可以将人类的基因完全导出为数据,但哪些数据毫无规律,能拿到哪些数据,但根本我不知道可无需还不还都都都可以干哪些。推荐系统也是利用用户数据来发现规律,相对来说可是可是开始得更早,运用上也比较心智成长期是什么的句子图片 图片 的句子的句子期。

举个栗子:

小明相亲了上千次,另一各人挂接了小量的行为数据,以下数据仅仅是冰山一角。

将小量的物品提取社会形态,抽象成了3大类:蔬菜,水果,休闲服。原来就将稀疏的矩阵缩小,极大的减少了计算量。但相似例子仅仅是为了说明SVD奇异值分解的原理。真正的计算实施中,无需另一各人为的提取社会形态的过程,可是完全通过数学最好的办法进行抽象降维的。通过对矩阵相乘不断的拟合,参数调整,将原来巨大的稀疏的矩阵,分解为不同的矩阵,使其相乘可无需还不还都都都可以得到原来的矩阵。原来既可无需还不还都都都可以减少计算量,又可无需还不还都都都可以填充上述矩阵中空值的每项。

当另一各人可是可是开始有意识地记录用户行为数据后,得到的用户数据会逐渐地爆发式增长。就像录音时处于的噪音一样,获取的用户数据同样处于着小量的垃圾信息。有可是,拿到数据的第一步,可是对数据做清理。其中最核心的工作,可是减噪和归一化:

LR逻辑回归

我一六个多劲在强调用户行为数据,目的可是为介绍协同过滤算法做铺垫。协同过滤,Collaborative Filtering,简称CF,广泛应用于如今的推荐系统中。通过协同过滤算法,可无需还不还都都都可以算出另一六个多多相似度:user-user相似度矩阵; item-item相似度矩阵。

推荐系统与大数据

推荐系统具有深度1冗杂性,不还不还都都都可以持续地进行改进。可能性在同一时间内,不还不还都都都可以上线不同的推荐算法,做A/B test。根据用户对推荐结果的行为数据,不断对算法进行优化,改进。要走的路还很长:路漫漫其修远兮,吾将上下而求索。

A First Glance