达观数据:怎样评价推荐系统的结果质量?
推荐系统是互联网发展至今最常见也重要的技术之一。如今各类APP、网站、小程序等所有提供内容的地方,背后都有推荐系统在发挥作用。 开发好一套真正优秀的推荐系统非常有价值,但也非常艰巨。达观数据是国内推荐系统主要第三方供应商,一直在摸索中前进。 在想办法开发出强大的推荐系统服务好客户时,也一直在思考推荐系统的评估方法。 众所周知业界有一句俗话:“没有评价就没有进步”,其意思是如果没有一套科学的评价推荐系统效果的方法,那就找不到优化改进的方向,打造优秀的推荐系统就无从谈起。 笔者在几年前写过《 怎样量化评价搜索引擎的结果质量 》一文并首发于InfoQ(也可见知乎 https://zhuanlan.zhihu.com/p/30910760 )。和搜索引擎相比,移动互联网时代的推荐系统应用面更广阔,评价指标也更复杂。 评价指标像一把尺子,指引着我们产品优化的方向。到底怎样才能科学合理的评价推荐系统的结果质量?从各类文献资料和网上文章里能看到数十种评估公式,让人眼花缭乱。这些指标各自有什么优缺点,应该怎样取舍?本文从我们的实践经验出发,对此进行一些深入的分析,期望对大家有所裨益(达观数据 陈运文)。 针对不同的推荐场景,一定要因地制宜的选择合适的评估方法 推荐场景是制定评价指标时最为关键的,脱离了推荐场景来谈评测指标就像无水之鱼。所谓“推荐场景”, 与所推荐的内容类型、展现方式