MetaPath

最近三年四大顶会深度推荐系统上的18篇论文

不想你离开。 提交于 2020-12-05 08:04:26
导读:本文是“深度推荐系统”专栏的第十篇文章,这个系列将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化。本文主要根据RecSys 2019中论文《Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches》总结的最近三年四大顶会深度推荐系统上的18个最新算法。 欢迎转载,转载请注明出处以及链接,更多关于深度推荐系统优质内容请关注如下频道。 知乎专栏: 深度推荐系统 微博: 深度传送门 公众号:深度传送门 今年RecSys 2019上出现的一篇极具批判性的论文《Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches》。灵魂一问深度学习是否在推荐系统已经取得了足够可信的进展?在知乎上也引起了激烈的讨论: 如何看待RecSys 2019上的一篇文章认为现有DNN-based推荐算法带来的基本上都是伪提升? 作者总结了过去三年四大顶会(KDD、SIGIR、WWW和RecSys)推荐系统上18个最新算法,只有7个能重现效果。而且在不同的测试数据集上它们与浅层经典方法效果对比中经常都败下阵来

从近期两篇论文看大规模商品图嵌入

人盡茶涼 提交于 2020-09-28 17:38:50
©PaperWeekly 原创 · 作者|桑运鑫 学校|上海交通大学硕士生 研究方向|图神经网络在金融领域的应 用 GATNE 论文标题: Representation Learning for Attributed Multiplex Heterogeneous Network 论文来源: KDD 2019 论文链接: https://arxiv.org/abs/1905.01669 代码链接: https://github.com/THUDM/GATNE 这篇论文提出了一种在 Attributed Multiplex Heterogeneous Network 上进行嵌入学习的框架 GATNE,该框架同时支持转导式学习(transductive learning)和归纳式学习(inductive learning),在 Amazon,Youtube,Twitter 和 Alibaba 四个数据集上取得显著提升。 相比于传统的只有一种边或只有一种节点的图,Attributed Multiplex Heterogeneous Network(AMHEN)中包含多种节点,多种边,每种节点都有不同的属性,各种类型的图有代表性的嵌入方法如下表所示。 AMHEN 有以下几个问题: 每对节点之间可能有多种类型的边,需要对每种关系都学习不同的表示。 很多图嵌入方法都是转导式学习

图计算黑科技:打开中文词嵌入训练实践新模式

巧了我就是萌 提交于 2020-08-13 19:53:25
在自然语言处理领域,文本表示学习技术可以帮助我们将现实世界转化为计算机可以处理的数据,以求更精准地建立学习模型。而在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似度匹配一直存在着棘手的问题,本文将尝试从图计算的角度来进行中文词向量的训练,并取得了积极的效果,希望与大家一同分享交流。文章作者:翟彬旭,腾讯云大数据高级研发工程师。 一、技术背景 在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似匹配是一个常见且棘手的问题。NLP(自然语言处理)社区对文本的匹配和召回已经经历从早期的基于分词和倒排索引的全文检索过渡到如今流行的文本向量检索。 向量检索通过训练和学习文本的分布式表征得到文本向量,可以解决倒排索引无法解决的语义相似度匹配问题,而且针对高维向量的大规模快速检索在业界已经有相当成熟的解决方案,如Faiss、Nmslib等。 但目前业内常用的表示学习方法很少考虑中文场景下由于输入法输入错误、发音问题等导致的文本相似匹配问题。 例如,在笔者所在的腾讯云企业画像产品研发过程中,就经常遇到类似的需求。当用户在我们的产品中搜索“腾迅科技集团股份有限责任公司”时,此时用户希望搜索的企业工商注册名称应该是“腾讯科技(深圳)有限公司”,但由于输入法错误(将“腾讯”错输为“腾迅”)、认知错误(将“有限责任公司”误认为“集团股份有限责任公司”)等原因

Adversarial Heterogeneous Network Embedding with Metapath Attention Mechanism

♀尐吖头ヾ 提交于 2020-08-04 22:24:01
论文传送门 作者 复旦大学 Chun-Yang Ruan Yanchun Zhang Xin-Tian Chen 国防科技大学 Ye Wang 澳大利亚联邦大学 Jiangang Ma 摘要 异构信息网络(HIN) 为真实世界中的实际应用提供了有效的模型。网络嵌入是支持基于网络的分析和预测任务的基础。当前流行的网络嵌入方法通常无法有效保留HIN的语义。在这个研究中,我们提出了AGA2Vec,这是一种用于HIN嵌入的生成对抗模型,它使用注意力机制和元路径。为了从HIN中的多类型实例和关系中捕获语义信息,我们研发了加权元路径策略来保持HIN邻近性。然后,我们使用自动编码器和生成对抗模型来获得HIN的可靠表示形式。在多个实际数据集上的实验结果表明,该方法胜过HIN嵌入的最新方法。 来源: oschina 链接: https://my.oschina.net/u/4304462/blog/4359372

ERNIE加持,飞桨图神经网络PGL全新升级

做~自己de王妃 提交于 2020-05-06 19:58:59
在2019年深度学习开发者秋季峰会上,百度对外发布飞桨图学习框架PGL v1.0正式版,历经5个月的版本迭代,PGL再度升级,发布v1.1版本,带来了最新的算法突破、全面的工业级图学习框架能力以及工业级的实践案例。下面我们逐一揭秘升级点。 最新算法突破:结合语义与结构信息的图神经网络模型ERNIESage 在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。 ​ PGL团队提出ERNIESage模型同时建模文本语义与图结构信息,有效提升Text Graph的应用效果。其中ERNIE是百度推出的基于知识增强的持续学习语义理解框架,在中英文16个任务上超越业内同类最优模型,以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的 GLUE评测榜单 ,并在最近SemEval 2020上斩获5项世界冠军。 ERNIESage是ERNIE与GraphSAGE碰撞的结果,是ERNIE SAmple aggreGatE的简称,它的结构如下图所示,主要思想是通过ERNIE作为聚合函数(Aggregators),建模自身节点和邻居节点的语义与结构关系。 ERNIESage对于文本的建模是构建在邻居聚合的阶段

Graph Embedding:

北慕城南 提交于 2020-05-04 11:14:48
https://blog.csdn.net/hy_jz/article/details/78877483 基于meta-path的异质网络Embedding-metapath2vec metapath2vec: Scalable Representation Learning for Heterogeneous Networks metapath2vec https://dl.acm.org/citation.cfm?id=3098036 是17年发表的,使用基于meta-path的随机游走重构节点的异质邻居,并用异质的skip-gram模型求解节点的网络表示。DeepWalk 是同质网络中的表示学习方法,并不能直接应用到异质网络。比如:并不能解决多种类型节点的“word-context”对的问题,异质网络中的random walk问题。 本文提出了两种模型,metapath2vec 和 metapath2vec++。模型框架如下图所示: Heterogeneous Skip-Gram 对于一个的异质网络,metapath2vec通过skip-gram模型学习网络表示。给定一个节点v, 它 最大化节点的异质上下文(context) 条件概率定义为soft-max函数。 这个公式,每计算一次,就会遍历所有的节点,计算起来并不高效,根据Word2vector中的负采样优化,上式可以写为

PaddlePaddle/PGL

≡放荡痞女 提交于 2020-04-17 00:56:02
【推荐阅读】微服务还能火多久?>>> 文档 | 快速开始 | English Paddle Graph Learning (PGL)是一个基于 PaddlePaddle 的高效易用的图学习框架 在最新发布的PGL中引入了异构图的支持,新增MetaPath采样支持异构图表示学习,新增异构图Message Passing机制支持基于消息传递的异构图算法,利用新增的异构图接口,能轻松搭建前沿的异构图学习算法。而且,在最新发布的PGL中,同时也增加了分布式图存储以及一些分布式图学习训练算法,例如,分布式deep walk和分布式graphsage。结合PaddlePaddle深度学习框架,我们的框架基本能够覆盖大部分的图网络应用,包括图表示学习以及图神经网络。 特色:高效性——支持Scatter-Gather及LodTensor消息传递 对比于一般的模型,图神经网络模型最大的优势在于它利用了节点与节点之间连接的信息。但是,如何通过代码来实现建模这些节点连接十分的麻烦。PGL采用与 DGL 相似的 消息传递范式 用于作为构建图神经网络的接口。用于只需要简单的编写 send 还有 recv 函数就能够轻松的实现一个简单的GCN网络。如下图所示,首先,send函数被定义在节点之间的边上,用户自定义send函数 会把消息从源点发送到目标节点。然后,recv函数 负责将这些消息用汇聚函数 汇聚起来。

10亿节点异构网络中,GCN 如何应用?

故事扮演 提交于 2020-01-07 01:48:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 简介: 推荐系统普遍是基于用户偏好的商品或者商品关系来建模学习,这些关系通常可以用网络结构表示,在淘宝这样的复杂场景网络常常是十亿节点和上百亿的边,计算和推理复杂度高挑战大,网络嵌入方法(Network Embedding)能够学习网络中节点的低维度潜在表示,可以用所学表征在低维空间实现相关推荐。本篇论文收录于KDD2019,建议大家收藏阅读哦。 作者 | 赵军、周洲、管子玉、赵伟、宁伟、仇光、何晓飞 1. 引言 在构图中用户和商品的交互行为通常是最直接也是最有效的边连接方式,是一种显式的用户偏好刻画,并取得一定的推荐效果提升,该方案存在的最大问题是显式交互数据存在较大的数据稀疏性。而在实际场景中是存在大量的异构信息可以引入提升网络表征的丰富性,比如用户的搜索词、访问店铺、偏好品牌、偏好属性等等,这些特征可以提升更丰富的语义表示和相关性刻画,intentGC是本文提出的一种基于GCN的统一的网络嵌入学习框架,融合显式偏好关系以及丰富的用户和商品异构关系信息,提升推荐系统的效果,算法中最为核心的技术是图卷积,我们在经典图卷积的基础之上做了一些创新优化,以更好地解决我们业务中存在的强异构性、大规模性等核心挑战。 2. 问题定义 3. 模型设计 本文设计的模型融合多种信息的大规模图卷积学习算法,采用二部异构图建模