今天主要是听推荐引擎的专场。感觉总体将来,新意不高。基本上都差不多。

关于推荐引擎做一下如下的总结吧。

推荐引擎的本质

  • 在用户和商品之间通过一种合理的方式找到一种联系

    • 把具有和当前用户喜欢的商品相同的特征的商品推荐出来

    • 类似用户喜欢的,但是当前用户还没有买,推荐出来

    • 把和用户喜欢的商品相似的商品进行推荐

冷启动

所谓冷启动就是说,当一个用户刚刚注册,或者一个用户初次登陆,那么他的历史数据为0,或者很少,所以,很难分析他的购买意图

  • 通过商品热点来推荐

  • 通过地域特点来推荐

  • 通过用户信息来推荐

  • 实时的捕获用户的浏览行为,进行实时分析,去连线商品数据进行推荐(这个是一个有难度的实时或者准实时系统)

算法

  • 协同过滤可以说是所有推荐引擎的第一步。任何一个推荐引擎一开始一定得用协同过滤来实现一遍

  • jaccard 算法公式

    = 买过两个产品的交集/买过两个产品的并集

  • 推荐引擎往往是多个算法结合和配合使用,而不是单一的某种算法

  • 算法的关注点

    • ctr: 点击率,用户是否喜欢推荐结果

    • cvr: 转化率,从推荐到付钱

    • pcvr: ctr * cvr 这个值越高越好,但是ctr和cvr基本上是一个反比趋势

  • 算法重要性

    算法很重要,但是不是最重要。工程和系统的实现能力才是最重要的,甚至高于算法。

    • 例如,一淘的 两个产品之间的相似度:

      • hadoop,每天需要计算 4个小时,后来的优化 用了2个小时,最后只需要24min

      • 20% improve in CTR

电商推荐引擎的数据

  • 数据模型:

    • 宝贝metadata,title,attributes

    • 人群属性:年纪,性别,购买力 等等

    • 性别预测:物理性别(男/女),购买性别(账号可能家庭公用,又可以分成长期和短期性别)

    • 对于长期:广告主有用

    • 短期:推荐系统有用

    • 浏览数据:时长,点击,购买 等等

  • 数据形式

    • input: > 通常就是日志log

      • 通常具有稀疏性,但是也不是完全想象中那样子稀疏,公式定义: 活跃用户数量/活跃产品数

      • 被点过1次,或者被看过1次的商品才能有推荐价值

    • output:

搜索结果页面推荐

  • 相关推荐,搜索结果从文本相似度,推荐结果从图片相似度

  • 基于query做惊喜性的推荐,婴儿床->床单->衣服

注意点

  • 业内一般认为:user相似度作为推荐理由可能不会得到对方的认可

  • 对领域和对数据的理解比算法要重要

  • 算法很重要,但是不是最重要。工程和系统的实现能力才是最重要的,甚至高于算法

  • 购买贵重物品的用户购买意图一般会很明确