Learning and Transferring IDs Representation in E-commerce笔记
一、摘要 电子商务场景: 主要组成部分(用户ID、商品ID、产品ID、商店ID、品牌ID、类别ID等) 传统的编码两个缺陷: 如onehot,(1)存在稀疏性问题,维度高(2)不能反映关系,以两个不同的id为例,无论它们是否相似,两种id都具有由一个热编码测量的恒定距离。以条目ID和存储ID为例,由于它们位于不同的空间,它们之间的关系甚至无法度量。 这些IDs中,可以是同质也可以是异质的。 本文提出了一个基于嵌入的框架来学习和传输ID的表示。 1、作为用户的隐式反馈,易从交互session中收集大量的项目ID序列。 2、通过联合实验这些信息序列和IDs之间的结构连接,所有类型的IDs可以嵌入到一个低维语义空间中。 3、学习到的embedding表示可在四个场景中被利用和转移:(1)测量项目之间的相似性(2)从已知的项目转移到未知的项目(3)转移跨不同领域(4)跨不同应用场景转移 二、引言 NLP:如单词嵌入(Word2vec),将单词嵌入到低维表示中,以捕获单词之间的语法与语义关系。 item2vec通过对交互序列中的项目ID共现进行建模,将项目ID嵌入到低维表示中。 本文扩展了item2vec,并提出了一个基于嵌入的框架来学习和传输所有类型id的低维表示。除了用户的隐式反馈之外,本文还考虑了项目ID和其他类型ID之间的结构连接(如图1)。 衡量项目之间的相似性。