common crawl

干货：使用Spark进行大规模图形挖掘（附链接）

阅读更多关于干货：使用Spark进行大规模图形挖掘（附链接）

翻译：陈丹校对：王雨桐本文约4700字，建议阅读 15 分钟本文为大家介绍了多种图挖掘工具，并运用Spark为大家展示了一个标签传播算法LPA构建图的实例。本教程分为两部分：第1部分：无监督学习图（https://towardsdatascience.com/large-scale-graph-mining-with-spark-750995050656）第2部分（就是本文！）：如何运用神奇的图。我们将讨论标签传播，Spark GraphFrame和结果。下文可回顾示例图和笔记： https://github.com/wsuen/pygotham2018_graphmining 在第1部分，我们看到了如何使用图来解决无监督的机器学习问题，因为社区是集群。我们可以利用节点之间的边作为相似性或相关性的指标，特征空间中的距离可用于其他类型的聚类。本文将深入探讨社区检测的方式。我们构建和挖掘一个大型网络图，学习如何在Spark中实现标签传播算法（LPA）的社区检测方法。通过标签传播检测社区尽管有许多社区检测技术，但本文仅关注一种：标签传播。有关其他方法的概述，我推荐Santo Fortunato的“图形中的社区检测”（https://arxiv.org/pdf/0906.0612.pdf）。 Raghavan，Usha Nandini

TensorFlow 中最大的 30 个机器学习数据集

阅读更多关于 TensorFlow 中最大的 30 个机器学习数据集

作者： Limarc Ambalina 编译：ronghuaiyang 原文链接： TensorFlow中最大的30个机器学习数据集 mp.weixin.qq.com 导读包括图像，视频，音频，文本，非常的全。 largest tensorflow datasets for machine learning 由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的训练数据，本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。图像数据集 1、CelebA: 最大的公开的人脸图像数据集之一，名人脸属性数据集(CelebA)包含超过20万名名人的图像。 celebrity face images dataset 每幅图像包含5个面部特征点和40个二值属性标注。 2、Downsampled Imagenet：该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率：32 x 32和64 x 64。 3、Lsun – Lsun是一个大型图像数据集，用于帮助训练模型理解场景

TensorFlow非常出色的30个机器学习数据集

阅读更多关于 TensorFlow非常出色的30个机器学习数据集

本文转自雷锋网，如需转载请至雷锋网官网申请授权。 TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台，适合完全没有经验的初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据，本文将简单介绍一些TensorFlow中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本。 TensorFlow图像数据集 CelebA：明星脸属性数据集（CelebA）是最大的公开可用的人脸图像数据集，其中包含200,000多个名人图像。每个图像包括5个面部标注和40个二进制属性标注。 Downsampling Imagenet：该数据集是为密度估计和生成性建模任务而建立的。它包括了130多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格：32×32和64×64。 Lsun—Lsun是一个大规模的图像数据集，创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过900万张图像，按场景类别划分，如卧室、教室和餐厅。 Bigearthnet—Bigearthnet是另一个大规模数据集，它包含来自Sentinel-2卫星的航空图像。每张图像覆盖了1.2公里×1.2公里的一片地面。该数据集中有43个类别不平衡的标签。 Places

XLNet论文导读-超越Bert的后浪

阅读更多关于 XLNet论文导读-超越Bert的后浪

论文链接： https:// arxiv.org/pdf/1906.0823 7.pdf 导读自然语言处理中，无监督学习通常分为自回归任务和自编码任务，自回归任务是从左到右预测一个可能的单词，自编码任务是已知上下文，去预测被MASK掉的单词，例如Bert就是一个非常经典的自编码任务。但是自编码任务被人诟病的缺点就是预训练和Finetune阶段看到的信息是不一样的，忽视了原文本和上下文之间的互相影响的关系。基于以上分析，本文提出了XLNet, 平衡了自编码任务和自回归任务的优缺点的自回归任务并且在多个数据集上也超过了Bert。并且我们还有一个惊人的发现——NSP(Next Sentence Prediction)对于XLNet的效果提升并无太大影响。这是为什么呢？我们一起来康康吧~ 背景在自然语言处理中，无监督学习通常是在大规模数据集上进行预训练然后在下游任务中进行微调，这些任务通常分为两种类型自回归任务(Autoregressive)和自编码任务(AutoEncoding)。自回归任务(AR) 是根据上下文内容预测下一个可能的单词，但是这个上下文仅限于一个方向，前向或者后向，不能同时利用上下文的信息。GPT就是典型的AR语言模型，AR语言模型的优点是擅长生成式的自然语言处理任务，比如机器翻译，文本摘要等，因为在生成文本的时候就是从左向右的。自编码任务(AE)

干货 ：使用Spark进行大规模图形挖掘（附链接）

TensorFlow 中最大的 30 个机器学习数据集

TensorFlow非常出色的30个机器学习数据集

XLNet论文导读-超越Bert的后浪

干货：使用Spark进行大规模图形挖掘（附链接）