Resys China 创刊号

Resys 目录 Resys China 2010年1月
CONTENTS

主编：谷文栋
设计：薛晶晶（百分点科技）
联系人：谷文栋
邮箱：wendell.gu@gmail.com

1 业界新闻
业界新闻 1

2 学术动态
Workshop on Social Recommender Systems 3
Collaborative Filtering Over Time 4

3 精品推荐
YouTube's Quest to Suggest More 5
Recommendation Systems: Increasing Profit by Long Tail 8
推荐系统五大问题 11

4 系列连载
Greg Linden，Early Amazon：The First Week 14

5 精彩应用
开源推荐框架 DUINE 概览 15

6 Resys 精华贴
大家觉得推荐系统和长尾的关系是什么 21
基于SNS/Lifestream 22

5 开心一下
人生的真谛在于分享 25

Resys China 第一期

1 业界新闻
作者：谷文栋 (clickstone)

1、Google：读你的邮件是为了能让你更好地看广告 Digg 在谋变，一是更 niche 的兴趣划分，一是更
CEO Eric Schmidt 和美女总裁都说了，
“搜索的未实时的内容推荐；
来要靠个性化”！我看二者的区别：
Google 说到做到，看看人家的组合拳：一是 Digg 了别人不一定能看到，ReTweet 马
Google News Personalization 上能到达所有的 Followers；
Personalized new tab page
二是 Digg 靠秘密的算法作为过滤器，而
Interested-based Ads
Personalized keyword-suggestions Twitter 本身不做过滤，你就是自己的过滤器；
Google Reader by Personalized Ranking 信任 Digg，还是靠你自己，你投哪一票？
Google Friend Connect
Personalized Search
Personalized Gmail Ads 3、让 Amazon 的首席科学家来告诉你：
“推荐的力量”！

这里有一枚杯具，欢迎围观。让用户直达他们想购买的商品；
挖出高利润率的商品组合；

2、小鸟太嚣张，Digg 要反击减少“跳”数，有效利用搜索流量；

仿佛一夜之间，那个熟悉的 Digg button 就被交叉销售，提升单个订单金额；

ReTweet 轻描淡写地费了武功；准确的推荐可以提升用户体验；

不多不少，你好我好！

4、2010，属于在线音乐的一年？
YouTube Disco
The Song Decoders
Smarter Than Genius?

How Good Is That Playlist?
豆瓣电台在发力，就我个人的体验——它很棒！

http://www.resyschina.com/ -1-


５、推荐引擎公司 Directed Edge 向应用开发者开放 API 9、推荐还可以这么玩儿
这是一家由大名鼎鼎的 Y Combinator 投资的创业公司；基于缴税状况的推荐
其官方 blog ，http://feeds.feedburner.com/directededge/ Surf the hottest stuff on twitter, WITHOUT the
很有料； noise
为Microsoft’s MediaRoom 2.0 CES demo提供推荐 Finding Experts in Twitter #resys
技术支持；
twitter帐号：http://twitter.com/directededge/ 10、百分点公司推出了《个性化时代》电子杂志
百分点推荐技术研究中心是国内专注于个性化推荐

6、个性化，这个可以有——两位杯具的大佬技术和个性化商业应用的研究机构
Microsot 关于个性化方面的一个专利获批； http://www.baifendian.com
Yahoo on personalizing content and ads；

Yahoo Research (NONE China) 非常棒，但有时候
投胎很重要；
与 google 在个性化领域有条不紊地布局相比，MS

与 Yahoo 基本还是在瞎折腾。

7、自建还是购买推荐引擎，电子商务网站应该如何决

策？
Time Inc 公司收购个性化购物引擎 StyleFeeder
时装零售商 Republice 通过部署推荐引擎使得在线
订单额增长了 22%

8、AT&T Labs 对 Netflix Prize 的参赛回顾

一个很不错的视频；
一个很有料的Tech Talk；



2 学术动态
Workshop on Social Recommender Systems

2010 International Conference on Intelligent User Interfaces, 香港, 2010年2月7-10日
网址：http://www.comp.hkbu.edu.hk/~lichen/srs2010/
译者：程光瑶（yoyo）

社会化推荐系统和从业者对推荐系统的新兴话题进行讨论，以期可以:

近几年社会化媒体网站已经变得非常流行，著名的例 1. 从算法、用户界面、评估等几方面，分享有效开
子包括照片和视频分享网站 Flickr 和 YouTube,博客站点发社会化推荐系统的研究成果和技术
Blogger 和维基百科 Wikipedia ，社会化书签网站 2. 确定该领域下一个关键性挑战
Delicious，社交网络网站（SNSs）MySpace 和 Facebook， 3. 确定新的跨主题合作的机遇
以及微博网站 Twitter。这些网站每天有数以百万计的活
关注的话题包括，但并不局限于此：
跃用户在创造着丰富的网络信息，这是前所未有的。然而，
随着社会媒体网站的大行其道，大量用户及其产生的海量
社会化推荐技术和应用
信息，都对如何处理信息过载问题提出了巨大的挑战。

社会化推荐系统的推荐上下文模型（例如：所需
社会化推荐系统（SRSs）的目标，通过展示最具吸
的信息类型）
引力和相关性的内容，来减轻社会化媒体用户信息过载
适用于社会化推荐系统的新算法
的问题，通常使用针对特定用户的个性化技术。社会化
用于社会化媒体站点的新推荐方法（比如：对个
推荐系统的另一个目的是提高社会化媒体网站新老用户
人和社区的推荐）
的接受度、接触和参与度。除了在内容方面的推荐，新
对个体和群体的推荐
型推荐在社会化媒体中也逐渐显现，比如：个人和社区
企业级社会化推荐系统
之间的联系、跟随或加入。
社会化推荐系统的多样性和新颖性
针对不同用户组的推荐建议（例如：社会化媒
这次研讨会希望能集结社会化媒体方面的研究人员
体网站中的新用户 vs.重度用户）



社会化推荐系统的用户界面 (SRSs) 社会化推荐系统中的信任与声誉
社会化推荐系统中的透明度和说明评价
社会化推荐系统中的适应性和个性化社会化推荐系统中的评价方法和评价
社会化推荐系统中的用户反馈用户研究

Collaborative Filtering Over Time

网址：http://nlathia.wordpress.com/
这是一次使用 blog 的形式进行博士论文写作的尝试！
作者：Neal Lathia，来自英国伦敦大学学院计算机科学系
译者：程光瑶（yoyo）

作者声明

我把我正在写的论文放在博客里，论文中可能有很多错误，一旦我收到我导师的意见将进
行大幅的修改。由于这篇论文还没有正式发表，因此论文的第一章和最后一章将不会在博客中
公开。那么我为什么要把论文放在博客上呢？或许各位读者在阅读之后，可以对我的论文提些
建议。比如：我遗漏了一些内容，某些部分描述的不够清晰，或者给我一些改进意见。

论文摘要
在这篇论文中，我们主要关注协同过滤算法的时间特性：我们的目标是分析和衡量协同过滤算法是如何随时间的推移
运作的。为此，我们在方法论和算法两方面做出努力，范围从大量时间分析（比率、相似性、预测和多样性）到各种不同
的算法处理的准确性、多样性以及这些算法随时间的鲁棒性。在下面的章节我们将先回顾协同过滤算法目前的发展状况。



3 精品推荐
YouTube's Quest to Suggest More

原文链接：http://www.nytimes.com/2009/12/31/technology/internet/31tube.html
原文作者：MIGUEL HELFT
译者：谷文栋 (clickstone)

YouTube——Google 旗下的视频网站，从受欢迎程度为此，Walk 领导着一个由工程师、设计师和项目经
来看，它已经是其最接近竞争对手的 10 倍。但是 Hunter 理组成的小组，持续调整着 YouTube，以期为用户送上他
Walk 仍然认为，它才刚上路。们想看的，甚至是在用户自己还不太清楚自己想看什么的

时候。这个小组的目标，就是努力让用户能够每天在网站
Hunter Walk 是 YouTube 的产品总监，在他看来，上多待那么几分钟。
YouTube 的竞争对手并不是其它网站：而是电视。

a这件事情绝对是说起来容易做起来难。 YouTube 不
“我们的用户平均每天待在 YouTube 上的时间是太可能透露其视频库的总大小，但该公司说，每分钟会有
15 分钟”，他说。 “而他们待在电视机前的时间大约是大约 20 小时的视频被上传到网站上。也就是说，每星期
5 个小时。人们会说，'YouTube 是如此之大'，但我确实差不多新增 10 多万部完整长度的电影。Walk 领导的小
认为我们还有很长的路要走。” 组所面临的挑战正是，如何从这数以亿计的视频当中，自
动选出用户可能会喜欢的 5、10 或 20 部。

俗话说舍不得孩子套不来狼。Google 高管曾说，
YouTube 虽然已经找到了收入途径，但目前仍然还是个赔

钱货。如果能够吸引用户更长时间地留在网站上，就能够
卖出更多的广告，从而加快迈向实际盈利的步伐。而且，
这样还可以大大巩固其统治地位，保持其相对于竞争对手
的优势，比如 Hulu，它正在吸引越来越多的用户到其网
站上观看全长电影和电视节目。



此外，这样也有助于 YouTube 对其它竞争对手保持压力，包括视频搜索引擎
像 Truveo 和 Blinkx，或者 Clicker.com，后者以推荐专业原创视频见长。

Blinkx 的创始人及首席执行官 Suranga Chandratillake 透露，通过在
2009 年早些时候引入一项更好的视频内容分析技术，用户平均观看的视频数，已
经从 2.5 个上升到了接近 5 个。

对于 YouTube，挑战之一是如何处理人们的搜索请求。据市场研究机构
comScore 报道，2009年11月，美国人总共在 YouTube 上进行了 38 亿次搜索，
超过了除 Google 之外的其它任何一个搜索引擎。不过，人们使用 Google 进行

的搜索往往是比较具体的，相比而言，在 YouTube 上的搜索则含糊许多，比如像
“搞笑视频”这种。

但也许比搜索更重要的是，YouTube 必须充分发掘一项被称为“发现（discovery）”
的技术所具备的潜能。这项技术，以用户之前观看过的视频，或者拥有相似口味的用
户喜欢的视频为基础，为用户推荐他们可能会喜欢的视频。这其实是一项数据挖掘技
术，与 Netflix 和 Amazon 用来进行电影或书籍推荐的技术相似。

“我并不认为 YouTube 的问题，与 Netflix 或者 Amazon 所面临的问题有

何不同”，Christopher T. Volinsky 说。Volinsky 先生是 AT&T 实验室统计研
究方向的执行总监，最近他带领的一个团队，刚刚赢得了由 Netflix 设立的一项
百万美元大奖，此竞赛的目标是将 Netflix 推荐引擎的准确度提高百分之十。

Volinsky 先生说，他的团队成员都是顶级计算机科学家，花了三年的时间才
达成目标，而 Netflix 总共只不过 70000 多部影片，这足以证明这个问题有多
么复杂。



针对这个领域，Walk 小组每个月要在 YouTube 上进 “如果我们做出了错误的建议，用户会很快地抛弃我
行几十项大大小小的调整，但对于用户来讲，这些工作大们” Jamie Davidson 说，
， Davidson 今年 25 岁， Walk
是
多是不易察觉的。例如，该小组最近开始着手解决被他们小组的一名产品助理。 “但如果猜对了，我们可以促使
称为“审美疲劳（topic exhaustion）”的问题。打个比用户另外多看 10 段视频。做到这个很难。”
方，不论用户多么喜欢看沙克奥尼尔的集锦，他也总会有
审美疲劳的那一刻。这项技术需要建立一张巨大的图，像沙克奥尼尔、和
NBA
科比布莱恩这样的主题，都各自对应到图上的一个节点，然
用户在观看特定视频的时候，例如某个“奥尼尔”的后把类似的相关概念连接在一起，即构成了 Davidson 所定

视频，YouTube 以前会建议同一主题下的更多视频，比如义的“概念地图”，在这张图中，两个节点的距离远近，即
“更多奥尼尔的视频”，但现在它已经开始小心地将用户表明了对应主题的相近程度。 YouTube 的推荐引擎，通过分
导向其它的相关主题，包括，科比布莱恩特集锦，NBA 剪析这张图，为用户寻找其可能会感兴趣的新主题。
辑，甚至会更进一步，比如“拍过电影的体育明星”。
YouTube 表示，随着时间的推移，他们计划更多地依
赖个性化以及用户之间的联系来做出更完善的推荐。

Walk 小组每周都要开会讨论如何对 Youtube 做出
调整。在最近的一次会议上，一组工程师及用户界面设计
师围绕着一项决策展开了头脑风暴，这项决策很有可能成
为 Youtube 演进过程里的一大步：当用户打开 Youtube
页面，播放器将立即开始播放专为用户定制的一组视频，

而不是仅仅提供一套建议的播放清单。这样做的目的，是
使用户无需敲打键盘就可以观赏到更多的视频，这将提升
躺在沙发里使用 Youtube 的用户体验。

“在 YouTube 上，每 45 秒，你就会碰到一个决策
点”，Davidson 说，“任何时候，只要需要做决定，人
们就可能会离开。我们不是要拿掉与用户的交互，但提供
了自动播放功能，默认的用户体验应该会容易许多。”



小组成员之一，工程师Palash Nandy，提出了一些留的平均时间提升了50%。
为什么不给用户一个滑块让他设定好时间，然后由YouTube 来自 comScore 的数据看起来可以支持这个说法。

自动为其创建一组播放列表？ 2009年10月，YouTube 用户平均观看了 83 段视频，而
2008年10月，这个数字是 53。不过，我们很难确切了解
短时间内这些功能都还不太可能出现在 YouTube 的这里面有多大比例是 YouTube 算法改进的成果。
主站里。但他们已经在尝试让用户创建主题列表， “会
比如
弹琴的猫（youtube.com/bestofkeyboardcat）”。上面提不管怎样，Walk 小组已经计划要加快创新步伐，以
到的类似想法可能会首先出现在 TestTube 上，这是帮助 YouTube 用户更少动手搜索，更多享受观赏的乐趣。

YouTube 的一个专门试验新功能的站点。
“尽管我们已经成为第二大搜索引擎，但这并不能证明搜
目前来看，评价YouTube在这方面的投入产出还比较索就是发现视频的最佳方案”，Davidson 说，“我们正

困难。YouTube不会公布详细的流量统计。但他们宣称，在努力做出超越
通过改进搜索与发现功能，2009一年内用户在网站上停

Recommendation Systems: Increasing Profit by Long Tail
原文链接http://en.webrazzi.com/2009/09/18/recommendation-systems-increasing-profitby-long-tail/

原文作者：Deniz Oktar

译者：项亮 (xlvector)

Deniz Oktar is the partner founder of iletken recommendation technologies and the
article of his has been published in Webrazzi as guest author.



每一个产品都会有一个买家，不过我们很难把互相大量的非热门商品，远远多于热门的商品，他们能带来
适合的生产者和消费者结合在一起。目前主要的在线销相当大的利润空间。
售都是像消费者提供最热门的产品供他们选择。这样做
除了利用长尾效应，交叉销售也能带来很大的利
的原因是可以把卖的最好的商品放在首页同时为他们做
润。所谓交叉销售就是每次销售一堆商品，而不是一个
广告。但是，如果一个商品被卖出去很多，他的利润空
商品（译者注：比如让用户在买笔记本的同时，把相关的
间一般都比较低。因为所有的竞争者都会去卖这个商
配件都买了，或者让本来只准备买一本韩寒的书的人买
品，并且通过价格来竞争从而降低利润空间。同时，不
上 2 本韩寒的书）。有两种方法做交叉销售，一种是让用
热门的商品会占据库存从而造成很大的损失。在现实生
户自己选择要一起购买的商品，一种是用一个推荐系统
活中这种情况并不严重，因为有售货员，他们会综合考
来给用户推荐一些商品。（译者注：比如在当当网中，当
虑消费者的兴趣和库存来给你推荐最可能买的东西，并
你选择了一本书的时候，当当网会给你推荐另一本书，
说服消费者购买。
可以一起购买，而且还为一起购买 2 本书大更大的折扣）

正是由于上面的两个原因，我们需要一个个性化的

推荐系统来分析用户的历史购买行为并对用户未来的购
买行为作出预测。在这种机制下，那些因为不太热门而
得不到展示的商品也会被卖给最需要它们的用户。我们

可以为用户设置个性化页面或者通过邮件来讲我们推荐
的商品告诉用户。很多公司的实验表明，使用推荐系统
后，销售额会有 10%-35%的提高。更加 Amazon 2006 年的

销售曲线，35%的销售额来自于他们的推荐系统。
根据很多分析的结果，很多像 Amazon 这样的公司通
过长尾效应从很多并不是很热门的商品（处在长尾中的商推荐系统由于他们的自学习的能力能够在用户每次登陆

品）中获得了很大的利润。如果一个不是很热门的商品能后给用户推荐合适的商品，同时利用机器学习算法不断的

够通过某种系统卖给很需要它或者对它很感兴趣的消费学习用户的行为来优化推荐的效果。优化的指标往往是为

者，利润会大大增加（译者注：这种产品的利润率往往还了卖出更多的商品赚更多的钱。很多实时的系统，每当用

比较高），正如长尾图中所示，一个电子商务网站中有着户访问一个页面，做出一个行为，就能立即自动的调整推
荐结果以更好的符合用户的需要。



商品数都很庞大的系统，这样的系统需要相当好的硬件条
件。

译者点评

这篇文章中对长尾能产生利润率的观点很有意思。我
个人设想，如果是广告投放，似乎也有这种现象。比如在
电影推荐中，如果你能把一个不热门的电影推荐给最喜欢

它的用户，那么这个电影页面的广告也会得到比较大的点
击可能性。不知道小众的广告是否有比较大的利润空间
呢？
下面是一些在电子商务网站中使用推荐系统的例子：

广义的推荐不仅仅包括了个性化推荐，热门排行榜其
1）个性化页面：为每个用户建立一个根据他们兴趣计算
出的个性化的首页，上面展示了他们最可能喜欢的商品实也算是一种推荐，不过我们一般说到推荐，不特别指明

的话，就是指个性化推荐。在传统的推荐中，评测一个算
2）为用户推荐相似的商品或者新的商品
法的好坏往往是用他预测对了了 item 数目来评测，其实

3）交叉销售：将相似的商品放在一起卖给用户，可以考这个是有问题的，因为有些 item 容易预测，有些 item
虑为这样的购买行为打折很难预测。就比如在长尾效应中，如果我们预测一个用户
会喜欢热门的东西，这种预测是正确的，但是没用的。比
4）个性化的活动/广告/电子邮件推荐。
如最近阿凡达很火，如果一个推荐系统再去推荐用户看阿

推荐系统是目前学术界的一个研究课题。这个领域有凡达，就没有意义了。所以好的推荐应该能将长尾里那些

很多困难的问题所以也有很多竞赛来推动这个领域的发不热门的东西准确的推荐到合适的用户中去。

展。Netflix 的推荐系统比赛持续了 3 年，他们为能够将
所以，评测一个推荐系统，应该看他在解决困难问题
现有推荐系统精度提高 10%的队伍提供一百万美元的奖
上的能力，在 top-n 推荐中，就应该看一个系统准确挖
励。（译者注：在作者写这篇文章时，NetflixPrize 刚
掘长尾的能力，而在 rating 的问题上，就应该看一个系
结束，但还没有宣布结果，当时 The Ensemble 还是排在
统能否准确的预测出一个人对一部有争议的电影的看法
第一，不过后来还是 BPC 取得了冠军)
（比如你预测对了大家都喜欢阿凡达是没有意义的，因为

推荐系统的设计需要综合考虑用户群和网站系统的大多数有都会给阿凡达打 5 分，但如果系统预测一个人会

设计。为了达到最好的推荐效果，我们需要为不同的公司给三枪打 5 分，而那个人确实打了 5 分，那这个系统就很

定制不同的推荐系统。推荐系统的设计不仅有算法上的难不错了）。

度，在扩展性和规模上也有很大的挑战，特别是用户数和

http://www.resyschina.com/ - 10 -


推荐系统五大问题

原文链接：http://www.readwriteweb.com/archives/5_problems_of_recommender_systems.php
原文作者：Richard MacManus
译者：王绪刚（Gary Wang）

读写网在 2009 年初的时候编辑了一系列针对推荐系统的文章，在荷兰阿姆斯特丹举办
的一次专门针对推荐系统的兴趣小组会议上，一些公司提出了实施和建设推荐系统需要面对
的几个问题，本文针对这些问题，进行了初步的分析。在此与大家分享：

1、缺少数据
对于推荐系统来说，可能最大的问题就是需要大量的
推荐系统的目的就是带来更多的用户点击和购买，而好的
数据才能产生推荐结果。这也是为什么那些表现最突出的
推荐系统需要大量的用户，你才能为推荐系统提供需要的
推荐系统都是来自于有数据的大公司，比如 Google、
数据。
Amazon、Netflix 或者 Last.fm。正如 Strands 公司在
他的演讲中提到的那样，一个好的推荐系统首先要获得内
2、变化的数据
容数据，接着必须获得和分析用户数据（行为事件），最
这个问题曾经被智能推荐系统公司 Clicktorch CEO
后才是算法的工作。内容和用户数据越多，获得好的推荐
Paul Edmunds 在以前的文章评论中提到过，Paul 指出推
的比率就会越高。但是这也是一个“鸡和蛋”的问题——
荐系统常常充斥着老的内容，而很难推荐出新的东西。时
尚发烧友社区 StyleHop 的 David Reinke 在他的一篇

博客中举了一个例子——“流行趋势总是在变化，因此用
户的过去行为并不是一个好的工具”。显然纯算法的方式
是不太可能跟上流行的趋势的。大多数非时尚认识，我就
属于这一类，只信赖那些可信的对时尚很谨慎的朋友和家
人的推荐。

David Reinke 要说明的是往往产品中有很多时尚因



素，比如肥瘦、价格、颜色、款式、材料、品牌等，对于太能做出这样的推荐。
同一个消费者来说，每个时尚元素在不同的时间都会有不
同的重要程度，因此产品的推荐往往会效果不好，他还指 5、推荐系统是复杂的！
出也许“社会化推荐”会解决这个问题。我们上面只是说了一些表面的现象，Strands 公司曾
经介绍过，即使实施一个非常简单的推荐系统，也需要许

3、变化的用户喜好多的变量（我们猜想以下的这些变量恐怕还仅仅是一小部
同样也是由 Paul Edmunds 提出的一个问题是，今天分）。
我们在 Amazon 上怀着某一特殊目的浏览，而明天我们的

目的就会变化。一个经典的例子，某天我在 Amazon 上为
自己找一本书，另一天我有可能会在 Amazon 上为我的妹
妹找一个生日礼物。

另外一个有关用户喜好的话题就是推荐系统有可能
会给用户打上错误的标签，比如经典的 2002 年华尔街日
报上的笑话——If TiVo Thinks You Are Gay, Here's How
to Set It Straight.

4、无法预测的事物
在我们关于 Netflix 竞赛（由影片在线租赁公司迄今为止，只有少数几家公司可以为用户提供高满意

Netflix 举办的 100 万美金的推荐系统竞赛活动）的文的推荐——Amazon，Netflix（他们仍然在寻求对算法的

章中，曾经提到关于某些“怪异电影”的问题，这些影片改进） Google 也算是一个。
，尽管只有这么少的成功故事，

用户常常会表现出偏激的喜欢或者讨厌，比如《炸弹头拿成百上千的其它网站和应用程序仍在努力探寻着推荐系

破仑》（又名《大人物拿破仑》Napoleon Dynamite）。这统的魔法公式——以给他们的用户产生满意的推荐。

些类别的影片很难做出推荐，因为用户的反应是多样化和
不可预测的。事实上，我们在读写网上也非常希望让读者围绕我们
的网站产生更多点击，发现其它内容。我们尝试了一些插

在音乐中有很多这样的内容。你能猜出我同时喜欢件和方法，以实现这一点——但我们仍未感到满意。

Metallica 和 Carpenters 的音乐吗？我怀疑 Last.fm 不我们错过了什么东西？



在实施推荐系统过程中会遇到很多问题——比如有不是喜好的变化，而是目的的变化。因此在进行推荐系统
些仅仅简单了提供“大众化”的推荐；有些不能够形成作设计时，需要建立更加完整的用户模型。而对于文中的例
古的长尾效应，只能给出一些显而易见的结果；还有的会子，比较好的处理办法是单独设计一个礼物的购物通道，
有异常推荐等问题。随着应用和技术的进步，我们还会发比如 Amazon 上的礼物页面：
现其它的一些问题。 http://www.amazon.com/gp/gift-central/ 。

译者点评
以上提出的 5 大问题，在实施个性化推荐服务的过

程中，或多或少的都会遇到，但是在不同的类型的网站、
不同的内容和用户、不同的实施阶段和不同的目的，所面
临问题的严重程度也会不同。

对于数据影响推荐质量的问题：为什么有大量数据的
公司会做出效果更好的推荐服务，首先推荐系统本身需要
数据，其次在海量数据引起的信息过载问题更加严重，需
求更加迫切。因此推荐系统的作用更加明显。因此，用户
数据的绝对数量并不是限制推荐系统实施的门槛，而用户推荐系统确实是非常复杂的，不仅涉及文中提出的数

数据的稀疏程度会直接影响推荐的效果。据获取的问题，还有对数据的处理，对算法的选择，对参
数的优化，产品和服务设计，反馈收集，效果测试和改进，

对于内容数据的变化问题：我们大部分人都不是时尚是一个螺旋式上升的过程，它不仅仅是一个或几个推荐服

达人——在一般的服装电子商务网站上实施个性化推荐务新的功能开发，而是需要长期维护和改进，需要专业的

还是可以满足大部分人的需求的。虽然文中举出的例子有团队和持续的投入才能完成的工作。

些极端，更像是在长尾的尾部。但是对于某些对时间性有

要求的内容也还是会面临这样的问题。解决的方法除了对实际上效果不错的推荐服务不仅仅包括文中提到的网

算法本身的选择和改进以外，还需要在产品设计的过程中站，比如 digg、overstock、yahoo、AT&T 等一大批网站也在

加入时间因素的条件。他们的业务中加入了不错的推荐服务。还有国内著名的豆瓣，
当当网都有较高用户满意度的推荐产品，所以，请暂时忘了

对于用户的喜好变化问题：实际上文中提出的例子倒上面的这些问题，Just Do It，我们才能克服这些困难。



4 系列连载
Greg Linden，Early Amazon：The First Week

原文链接：http://glinden.blogspot.com/2006/01/early-amazon-first-week.html
译者：谷文栋 (clickstone)

Greg Linden 毕业于华盛顿大学计算机学院，1997 年加入 Amazon，领导开发了享誉业
界的 Amazon 推荐引擎。
著名的 Item-based 推荐算法的提出者之一；Findory.com 创始人。
其Blog - HGeeking with GregH是个性化推荐领域最有影响力的博客（没有之一）
。

1997 年初的亚马逊公司，邋遢、混沌、但令人兴奋。到我的办公室——一张安装在厨房角落里的牌桌，上面
放着一台 PC。

亚马逊公司位于美国西雅图市，办公室在第二大道
的哥伦比亚大厦里，这是一座砖体结构的建筑物，已经
有些年头了，离帕克市场不远。从办公室的窗户望出去
感觉还不错，有一个本地的美沙酮诊所，还有一个贩
卖怪诞假发的商店。你甚至隐约可以看见一些脱衣舞俱
乐部，它们就藏在几个街区远的地方。插播八卦：帕克

市场有一个著名的 Athenian 餐厅，传世经典爱情影片
《西雅图夜未眠》中，汤大哥就是在这里泡梅甜心的。

当然了，我现在还只是一个眨巴着大眼睛的刚刚研
究生毕业的菜鸟，还不敢奢望有这样一个靠窗的工位。

我的工位在厨房。在亚马逊公司，空间从来都是一
种奢侈，那个时候自然也是这样。报到的那天，我被领



在厨房办公还是着实有些乐趣的。在亚马逊，我几乎窗口，调出 emacs，然后开始阅读代码。我花了一些天来
什么人都不认识，大多数同事都沉浸在无聊的窃窃私语之跟踪针对不同 URL 的分发器，研究 ol' obidos ——一
中。不过，他们倒经常会到离我不远的柜台上去取茶和咖个用来支持 Amazon 网站运转的大型 CGI 程序——是怎
啡。我弄了一个糖果瓶——嗯，免费的——尽力和他们搞样漂亮地处理不同的请求，主页，书籍详情页，搜索，购
关系，以求套出些什么来。物车，以及订单流转。至今，大多数亚马逊 URL 里面还
包含着 “/exec/obidos” 。插播八卦：不用为不知道
我的第一项任务是开始学习代码库。打开一个shell Obidos 为何物而犯囧，哥只是个传说。这里是正解。

5 精彩应用
开源推荐框架 DUINE 概览
作者：阿稳（Once）

Duine 是由一个挪威的团队开发的开源推荐，发音为 Dinner 少一个 r 音。不久前 resys group 里有人提出来，能
翻墙的朋友可通过这个链接来挖坑。当时我提过一点初步的见解，最近抽时间把它大致地作了一番研究，不妨拿出来与
大家一同探讨。
总的来说，我认为相对于大部分文章与系统里研究具体的推荐算法或推荐系统的某个要点，Duine 做了一个很好的
探索：就是怎样把这一切整合成一个很完善而且很优美的系统，是很值得研究的框架。但如果从代码层面来说，则是作
个参考即可，因为代码库已经快一年没更新了。这个项目的不足之处，或者说任何一个个性化推荐系统的困难之处，大
都已经列在这个项目的 RoadMap 页面。在其 RoadMap 中有这么一句话：

Our collaborative prediction technique does not scale well currently, we need to add
clustering (and probably more) and get in track with current research. We’d like to have
more techniques, for instance a matrix factorization prediction technique.



可惜这已经是一年前的愿景，至今仍未有什么更实现一些推荐算法，而在 Duine 中推荐器只是其中
新。一言概之，如果你想做一个完善的推荐系统， Duine 的一个模块，它同时还处理用户资料库（User Profile）、
极具参考价值，但如果要实际使用，并面向一定量的用反馈（Feedback）、推荐可解释性（Explanation）等等更
户，不能偷懒，每个模块的代码你还是得重新来实现。多的模块，以及这些模块之间如何交互的问题。

与 Mahout-Taste 的对比下面根据我个人的理解介绍 Duine 的三个主要的方
面：推荐框架、推荐过程、自省过程，其实还应该有一个
Taste 是推荐领域另一个更著名的项目。简单来说，很重要的是反馈过程，但由于在 Duine 中这并不是一个
Taste 是一个推荐器的集合，而 Duine 立志于做一个推重要的模块，这里就不多说了。以下不完全是按照原文档
荐框架，可以认为 Taste 要解决的问题是 Duine 的一个的叙述，有些地方会加入了我个人的理解或实践上的认
子集。Taste 专注于利用 Mahout 的分解思想来能高效地识，如有不妥之处，还请指出。

推荐框架

图 1 Duine 推荐框架各个模块／概念及其相互的关

1、Ratable Item：例如书、电影、音乐等等用户可以对它表 2、User Profile：用户资料库，这是所有模块里最不容易定

达自己的观点与爱好的事物集，它所包含的一 meta 信息也可义的一部分，通常用户的性别、年龄、职业等人口统计学的
作为推荐器的依据之一。拓展一下这个概念，你可以为自己信息是应该被包含在资料库中的（如果有的话）
；如果能通过
的推荐系统构建一个 Item Profile 模块。对用户行为与收藏的统计得到一些有价值的表征用户兴趣的



信息与类别信息，也应该存放在其中；有些系统会把用户的式的反馈，并把变化更新到 User Profile 中。这里的反馈
收藏与评分信息也归入该模块，有些系统则倾向于把这部分包括面比较广，不单指用户对推荐结果的爱好表达，还包括
数据独立出来，因为这部分数据量毕竟比较大，这关系到应一般的收藏、评分行为这类用户与推荐系统之间的交互。
该把源数据还是应该把中间计算结果存储在资料库中。Duine 5、Validity Indicators：这个我不知道该如何翻译更合适，
实际采用的是一个更广义的 Profile Model 的概念，其中包所以在下文根据自己的理解把它译为“自省”
。每个推荐器都

括：Rating Model、Interest Model、User Similarity Model 需要一个自我评价与校正的机制，这样才能促使系统的不断
以及 Item Similarity Model。竞争与进化。Duine 中对这一模块的处理比较简单，只是根
据测试集的测试结果对每个推荐器的可靠程度作一个评价。

3、Prediction Technique：这是推荐框架的核心，也是推荐实际上这是很难以解决好的一部分，不同的推荐器应该有不
系统研究中被讨论最多的模块。学术研究与工业应用中已经同的校验方法，并且需要有能力根据用户的反馈对自身进行
催生出大量的推荐算法，目前为止可以说最强大的推荐算法校正，也许拥有一个高级的“自省过程”是一个“有智能”

不是某一个算法，而是一个适用于不同用户需求的混合式的的推荐系统的前提条件。
推荐算法。Duine 的推荐池中采用的推荐器并不太复杂，下
面会逐一介绍。现在 Duine 包含有如下的一些推荐器：

4、Prediction & Explanation：这是推荐器模块直接输出到 UserAverage：返回该用户对其它条目打分的平均值。
用户的结果，推荐池依据已知的 User Profile 与 Ratable AlreadyKnow：返回用户 Ui 对条目 Ij 的实际打分，适
Item（或许你可以认为它是 Item Profile）的输入，对未知用于 Ui 已经对 Ij 有打分的情况。
的 user-item 作出预测。如果这个推荐系统足够 User TopNDeviation：通过其它用户对 Ij 的打分，预测 Ui
Friendly 的话，它还应该输入自己对这个预测的解释，毕竟对 Ij 的打分。我的理解是应该根据时间、用户权值选
一个可解释的推荐结果更容易为用户所接受，这也是为什么择一个已经打分用户的子集，进行预测。
amazon 在每个推荐的下面都会给出自己的推荐依据。可解释 Collaborative Filtering (Social Filtering)：相当
的东西有很多，比如某一个推荐器的决策依据，再比如下一于 user-based 的 KNN，根据以往的打分历史算出跟 Ui
节要讲的推荐决策过程。相似的用户，再根据这批用户对 Ij 的打分预测 Ui 对
Ij 的打分。
5、Feedback & Feedback Processor：一个有反馈的推荐系 Information Filtering：相当于 content-based 的推
统才能向着更优化的方向演进，反馈更快，系统会得到更快荐，提取 Ij 的语义，跟 Ui 的 profile 中相应的信息
的学习机会。Feedback Processor 收集来自用户的显式或隐进行匹配，预测其打分。



Case-based Reasoning：相当于 item-based 的 KNN，这里的推荐器大都比较寻常，但基本上已经覆盖了大
先算出条目间的相似度，然后根据 Ui 的打分条目及其多的用户需求。实际使用中可以根据本身的技术贮备改善
与 Ij 的相似度，预测 Ui 对 Ij 的打分。原有的推荐器，或加入更多其它类型的推荐器。
InterestLMS：根据条目本身的信息来计算条目的吸引程度。

图２推荐器结构图

图 2 推荐器结构图



图 2 展示的是一个推荐器结构图，从最顶部的根结自省(Validation)过程：
点到叶子结点走一遍即是一个推荐过程，非叶子节点代表正如上文所述，Duine 的自省是一个狭义的自省过程，
某一类推荐策略。如图红线所示则表示了对一个新用户的主要的目的在于根据一组训练数据集对各个推荐器进行
推荐流程。在这个例子中，系统在根结点发现该用户并未测试，并得到相应的置信度，以便在推荐过程为不同的
对该条目评分，并且在 User Profile 中没找到用户的用户选择合适的推荐器。比如 MovieLens、Netflix 的开
taste 信息，因而转到 rationalStrategy；这个推荐策放数据就可以用来实现这个过程。除此之外，Duine 的自
略有一个子推荐策略及两个推荐器，根据判断那两个推荐省过程还可以看作是对其推荐交互过程的一种仿真。最
器不满足推荐要求，则转向 firstTimeUser 推荐策略；后，自省过程体现了一个仲裁者的角色，任何对推荐算法
以此类推直到找到一个叶子节点作为合适的推荐器为止。改动后造成的效果变化都可以通过自省过程体现出来。拥
有一个评价体系也是推荐系统进化的必要基石，虽然
Duine 的这个评价体系还比较简单。

图３ Duine 自省过



跟我们想象中的不一样，Duine 的自省过程并不是把了简单直观而赋予了太强的耦合，以致于看起来也只能是
所有数据载入，然后对推荐器进行训练，相对而言，它的一个仿真器，无法真正地在现实中使用。另外就是效率问
训练过程更接近于现实中人与推荐系统的交互，即更像是题，由于 Duine 更注重整体，所以在效率上没有太多关注，
一种对现实情况的仿真，很难说这样做的效果就比批量训这个自省的过程非常缓慢，处理 9 万多条 log 数据也要耗
练的方式更好，但这无疑更贴近一种在线的训练模式，与费几个小时的时间。

离线训练模式可以形成互补。

一个采用 MovieLens 作为训练数据集的完整的

Duine 自省过程如图 3 所示。Replayer 是整套系统的驱
动者，首先把 MovieLens 的数据导入数据库并存成 Duine
通用的 log 数据格式，这种格式犹如日志一般，一条一条
地记录了用户对系统的输入（反馈）
，然后 Replayer 把这
些记录再一次一条地取出来作预测，同时作为输入的还有
条目自身的信息，即图中所示的 content 模块。预测任务
由 Recommender 模块完成，也即上文所述的推荐器池，
Validator 负责把预测结果与真实结果进行比较，算出误
我们可以得到什么
差与推荐器的置信度，把这些数据存到数据库。此外，从

log 中得到的用户反馈也会存储到 Profile Models 这个
首先，这肯定不是一个能马上就用在生产环境的推荐
资料库里，积累用户资源，为此后的推荐作贮备。很显然，
系统，但从这套框架我们至少了解了一个完善的推荐系统
Replayer 其实就是一个仿真器，并且是对一个推荐系统
应该有哪些模块组成，功能模块化之后就能有针对性地解
从完全没有用户资料到逐步成熟的全过程的仿真。在这个
决某一方面的问题，并方便地挂接新的模块；此外，Duine
过程中，各个推荐器都得到了测试并计算出相应的置信
通过配置文件来管理各个模块间的依赖关系与参数配置，
度，以此作为可以现实系统中使用的参数，辅助推荐决策
个人认为这是个可供借鉴的很优美地整合了各个零乱模
过程。
块的方式；最后，最强大的推荐器是混合推荐器，这是无
论在学术界上还是在工业界上都已经多次被验证，至于怎
这是一个很直观的模拟过程，可以让人很形象地了解
么解决推荐器间的选择问题，Duine 也提供了一个可参考
到一个整体的推荐系统的各个模块是可以怎样协同工作
的思路。
的。不同之足在于忽略了太多困难的细节，各模块之间为



6 Resys 精华贴
大家觉得推荐系统和长尾的关系是什么
原帖地址：https://groups.google.com/group/resys/browse_thread/thread/41f917e6d95dfc8a#

xlvector:

有人说，推荐长尾可以增加销售额，把很多本来卖不尾和大头覆盖下的阴影。并不一定长尾超过大头就是好的。
出去的东西卖出去了。 “推荐长尾可以增加销售额，把很多本来卖不出去的
有人说，推荐长尾会引入很多误差。东西卖出去了”，如果从销售长尾的成本大于大于大头，
大家怎么看这个问题。为什么要销售呢？我想这种只有在充分竞争的情况下才
有可能发生。
王立才:

先看看是否符合长尾理论。 kuber:
如果符合的话，我觉得长尾是有意义的，因为世界是 “任何革新都在于找到一个可以解释变化中的世界
丰富多彩的，人和物之间的关联也不可能停留于局部。的新的参照标准” 长尾理论是基于生产能力的大大力高，
。
产品极度丰富，同时顾客的要求也越来越个性化。因此从
Loeb: 销售商的角度来说，有时仅仅卖那 20%的商品已经不能满
就销售而言，库存压力可能可以靠这解决，但是商品足增长的需要，必须要向那 80%的产品要利润。同时顾客
天生是不该被库存，这是个矛盾长尾是时间函数，但是除也不满足于 20%的产品，如果你不卖，顾客有可能去人家
此外因子太多不可预测，例如某过气歌手在某些状态下又那买了，所以
突然红了推荐应该是，处理这些不可控＂某些状态＂，长 1、不是家家都一定要去做长尾的。

尾之于销售，比较像是没办法中想辧法。 2、长尾不一定意味着塞满库存，比如说 zara。

Gray Wang: 安德森提出的办法是，提供尽可能多的产品（每样件
有一个问题是，从理论上来说，长尾越长越好，但是实数未必多，还是如 zara）和让用户很容易的找到它。要
际上大部分零售或者在线销售者，希望的是总量，也就是长让客户从无尽的产品中找到自己要的，首先当然是搜索。



但是个性化推荐绝对是不可忽略的。如果大家有陪女朋友所以我就在想，这也算是一个盲目追求精度不利于设
/老婆逛街的话，一定能体会到，一个好的销售员恰到好计好的个性化推荐的反例。个性化推荐还是应该 focus 在
处的推荐肯定会大大提高销售机会，如果我们不讨论理性长尾上吧。
消费还是冲动消费的话，呵呵。我老婆就常常中招。我觉比如如果大家拿很多门户网站的日志数据，以追求精
得推荐应该就是一个好的销售员。度来设计推荐系统，那就只推荐首页，肯定精度最高，但
这不符合个性化推荐的本质，是吧？

Guozhu.Wen:
的确，在 item 的头部有足够的用户行为数据可以做
出精确的推荐来，长尾部分因为缺乏足够的数据支持往往
很难做好。但如果不解决这个问题，这个情况会愈演愈烈，
越来越难以解决。解决方案除了算法，也可以考虑从产品
层面去解决。

feng ya dong:
如果仅仅集中在头部推荐就失去了他的意义，比如在
sns 上给一个用户推荐一个用户，除了满足用户的口味

之外，另外一个目的也是想让非活跃的用户活跃起来，促
进用户圈子的交融。
除了 cross saling 外，推荐应该还有一个功能，就
是个性化，找到顾客的小众需求。 tinyfool:
从产品角度，我经常想，没有靠谱推荐（尤其是推荐
xlvector: 有反作用的时候），产品上应该考虑让推荐消失，这样其
很受启发，我最近在做一个实验，这个数据集上，用实可能会更好。
户的行为过于集中在头部，可能是因为产生这个数据集的 Google 曾试验过一个功能：如果 Google 发现用户每
系统没有能很好的让用户找到长尾，所以在这个数据次搜索后都不会点击顶端的广告的话，就会把这些广告移
集上，popular 推荐的精度反而是最好的。到右边（搜索结果显示广告的传统位置）去。
http://tiny4.org/tinygoogle/2006/09/google.html



kuber:
如果只需要关注头部的话，排行榜和分类就够了，不只有在长尾的情况下（海量同时用户需要小众产品）才
需要推荐。需要推荐来帮助用户找到适合自己的排行榜以外的内容。

基于 SNS/Lifestream

原文链接：https://groups.google.com/group/resys/browse_thread/thread/59eb4cc3b0fe20f7#

kuber:

作为输入，SNS 能提供：active stream: 聚合用户友的讨论知道我最近对什么感兴趣来做相应推荐那就更
已有的 active stream，解决启动数据太少的问题，或者好了。
干脆就基于 lifestream。像 StumpleUpon 这样的服务，
不需要一开始问用户这么多问题，用户其实已经告诉你最重要的是拜 twitter 和它数不清的第三方应用引
了。领的这一波开放热潮所赐，google, friendfeed, digg,
facebook, myspace 还有数不清的创新网站都已经或正在
contacts: user-based 算法中第一步是找出近邻用开放出自己的数据。在国内虽然很多网站还不够开放，但
户。现在当我们在无数个 SNS 系统上已经有了一大堆“好是也有 douban，听说新浪微薄也要开放 API 了。
友”关系，为什么我们不使用这些用户自己找出的“相
似用户”呢？一些简单的想法，希望能抛砖引玉。

如果我们能跨多个 SNS 地使用这些数据的话，可以跨
SNS 推荐好友。简单的比如说在 douban 上推荐你 flickr
和 twitter 上好友的帐号。虽然用户在不同的 SNS 上可能
会希望维护不同的圈子，这样可以让新用户很容易地启动
并融入社区。进一步地说，根据数个不同 SNS 上用户的
active stream 也可以向用户推荐靠谱的好友。

产品推荐。在这里产品是泛指，不一定指商品。作为
一个 douban 和 dangdang 网的用户，我希望当当能够利用
我在 douban 上输入的读书信息来为我推荐。同时如果它
根据我的 Google Reader sharing 和 Twitter 上我和朋



xlvector: 1. 推荐的信任问题

我已经准备在我收集的 twitter 数据上大作一番手通常如果来自于 SNS 上好友的推荐，用户的接受程度
脚了。有数据就是好啊！都会相对较高。

跨 SNS 也是我下面一个准备做的事情，嘿嘿。我们可以考虑这么一个场景，当当/豆瓣给我们推荐
了一本新书，说来自当当/豆瓣猜，我想通常情况下，大
kuber: 家还是需要再去看看评论什么的确认一下。如果是现实里
的好朋友说：这本书很适合你，那我想多半大家都会看了。
昨天晚上google的blog“Search is getting more
social ” 公布了 google social circl 的 link ：
http://www.google.com/s2/search/socia。

基本上这个应用整合了你在 Google Profile 和各个
SNS 上的信息组合成了一个你在互联网上的 Social
Graph。

"Social content" 页面就相当于 lifestream 了：
http://www.google.com/s2/search/social#socialcontent。

xlvector:

google 的这个服务的缺点是不是，你只能看到你自
如果这个由好友主动发起的靠谱行为可以自动化，想
己的 scoial circle，却看不到别人的，或者无法找出具
像空间很大。
有某个兴趣的 user。

2. 推荐数据的问题
kuber:

SNS 上的好友，与 CF 算出来的相似用户，两者之间
只让登陆用户看到自己的 circle 估计是出于隐私保
如何协调？
护。

我举个例子，我矩阵方面不太行，想找本书看看。胖
你说的 " 找出具有某个兴趣的 user" 是指类似
子是这方面的大拿，我发现他在读李医民的《矩阵论》。
TwitHunter 那样吗？
那好了，别的相似用户我基本可以不管了，直接就开始死
啃这一本了。
clickstone:

但推荐系统如何能够确认胖子是大拿呢？也许
基于 SNS 的推荐，我认为有两点值得关注的地方：
Lifestream 可以发挥些作用。



7 开心一下
人生的真谛在于分享

http://www.resyschina.com/


Resys China 创刊号

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Resys China 创刊号

Ähnlich wie Resys China 创刊号 (20)

Mehr von gu wendong

Mehr von gu wendong (10)

Resys China 创刊号