无监督学习

可高效训练超大规模图模型,PyTorch BigGraph是如何做到的?

不问归期 提交于 2021-02-08 05:46:18
选自medium 作者: Jesus Rodriguez 机器之心编译 编辑:Panda Facebook 提出了一种可高效训练包含数十亿节点和数万亿边的图模型的框架 BigGraph 并开源了其 PyTorch 实现。 本文将解读它的创新之处,解析它能从大规模图网络高效提取知识的原因。 图(graph)是机器学习应用中最基本的数据结构之一。具体来说,图嵌入方法是一种无监督学习方法,可使用本地图结构来学习节点的表征。社交媒体预测、物联网模式检测或药物序列建模等主流场景中的训练数据可以很自然地表征为图结构。其中每一种场景都可以轻松得到具有数十亿相连节点的图。图结构非常丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。尽管如此,图结构却非常复杂,难以进行大规模扩展应用。也因此,现代深度学习框架对大规模图数据结构的支持仍非常有限。 Facebook 推出过一个框架 PyTorch BigGraph:https://github.com/facebookresearch/PyTorch-BigGraph,它能更快更轻松地为 PyTorch 模型中的超大图结构生成图嵌入。 某种程度上讲,图结构可视为有标注训练数据集的一种替代,因为节点之间的连接可用于推理特定的关系。这种方法遵照无监督图嵌入方法的模式,它可以学习图中每个节点的向量表征,其具体做法是优化节点对的嵌入

Hinton最新访谈:无监督胶囊网络、对比学习以及大脑中的反向传播

走远了吗. 提交于 2021-01-30 11:53:00
来源 | 数据实战派 转载自:AI科技评论 原文链接: Hinton最新访谈:无监督胶囊网络、对比学习以及大脑中的反向传播 ​ mp.weixin.qq.com Geoff Hinton 是公认的深度学习先驱。2018 年,他与 Yoshua Bengio、Yann LeCun 共同获得了图灵奖。而在这之前的一年,他提出了一个想法 —— 胶囊网络(Capsule Network)。这是卷积神经网络的替代方案,它考虑了物体在 3D 世界中的姿势,尝试弥补当今计算机视觉模型学习能力上的不足,比如学会从不同的角度来识别同一个物体。 从那之后, Hinton 在学术界的公开活动有所沉寂。直到2020 年 12 月,在 NeurIPS 上,他的团队介绍了一项堆叠式胶囊自动编码器(stacked capsule autoencoders)相关的研究成果。更早之前 2 月的 AAAI 会议上,他谈到,胶囊网络是无监督学习的关键。4 月,Hinton 又重新提出了将反向传播作为人类大脑中的一种学习功能,并介绍了近似反向传播的算法 ——用活动差异表示神经梯度(neural gradient representation by activity differences,简称 NGRAD)。 近日,在播客节目 Eye on AI 中,受到播客主理人、纽约时报资深记者 Craig Smith 的邀请

人工智能,机器学习,深度学习的区别

蹲街弑〆低调 提交于 2021-01-23 13:29:05
先来看看自维基百科的定义 什么是人工智能? 人工智能 (Artificial Intelligence, AI)亦称机器智能,是指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通电脑程式的手段实现的类人智能技术。该词同时也指研究这样的智能系统是否能够实现,以及如何实现的科学领域。 一般教材中的定义领域是“智能主体(intelligent agent)的研究与设计”,智能主体是指一个可以观察周遭环境并作出行动以达致目标的系统。 约翰·麦卡锡 于1955年的定义是“制造智能机器的科学与工程。” 人工智能的研究是高度技术性和专业的,各分支领域都是深入且各不相通的,因而涉及范围极广。人工智能的研究可以分为几个技术问题。其分支领域主要集中在解决具体问题,其中之一是,如何使用各种不同的工具完成特定的应用程序。 AI的核心问题包括建构能够跟人类似甚至超越的推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。 强人工智能 目前仍然是该领域的长远目标。目前强人工智能已经有初步成果,甚至在一些影像辨识、语言分析、棋类游戏等等单方面的能力达到了超越人类的水平,而且人工智能的通用性代表着,能解决上述的问题的是一样的AI程式,无须重新开发算法就可以直接使用现有的AI完成任务,与人类的处理能力相同,但达到具备思考能力的统合强人工智能还需要时间研究,比较流行的方法包括统计方法

百万级文献分析,十万字深入解读:机器之心发布《全球AI技术发展趋势报告》

六月ゝ 毕业季﹏ 提交于 2021-01-23 09:34:36
2017 年,机器之心发布了《机器之心人工智能技术趋势报告》,系统介绍了人工智能领域(AI) 下不同的技术分支,并以定性分析的方法讨论了各分支技术当时所处的发展阶段、瓶颈以及未来发展方向,帮助AI产业从业者提供技术趋势参考,帮助AI技术应用方、初学者理解飞速发展中的 AI 领域内各项技术的概况和层出不穷的新鲜技术内涵。 在2017版报告发布至今的三年里,越来越多的 AI 技术实现了商业落地,但也有不少深度学习方法开始触碰到技术自身的天花板,亟需突破。在三年后的今天,机器之心在这个可能是 AI 技术发展的关键拐点发布《2020-2021 全球AI技术发展趋势报告》。 相比 2017 年版报告,2020-2021版报告在过往的定性分析方法之外增加了数据层面的挖掘、分析和探索,更加侧重对具体技术趋势的挖掘以及量化分析指标的形成。基于开源的论文与专利语料,结合机器之心自有的相关数据库,综合文献报告审阅与问卷访谈等形式,本报告分别从「顶会趋势(NeurIPS) 分析」、「专家问卷分析」以及「专业分析」三个不同角度呈现分析结果,辅助读者了解近年来 AI 领域的热门趋势技术。 你将从报告中获得什么? 人工智能技术发展七大趋势领域概览 一、(人类)自然语言技术 大规模预训练语言模型成为主流 语音识别技术应用普及度最高 问答系统、聊天机器人相关应用放缓 情感分析、文本分类增速不减 跨领域融合越来越多

小白机器学习实用笔记

两盒软妹~` 提交于 2021-01-20 10:32:07
小白机器学习实用笔记 一.什么是机器学习 机器学习项目流程 特征工程三大步骤:特征抽取、预处理、降维 数据类型 数据集 监督学习与无监督学习 二.用sklearn对特征进行提取(特征抽取) 1: 字典的文字特征提取 2:count方式提取文字特征 3:tf-idf对文字特征提取 打算利用空余时间学习python机器学习,通过写文章的方式来记录学习成果。持续更新中。。。。。 一.什么是机器学习 机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,从而预测未来的行为、结果和趋势 机器学习项目流程 1.根据原始数据明确问题,该做什么 2.特征工程 3找到合适算法,进行训练预测 4模型的评估,判定效果 特征工程三大步骤:特征抽取、预处理、降维 1.特征抽取:将文字、图像等转化为数字 2.预处理:将数字转化为格式统一、符合规范的数值,并且减少特殊值 3.降维:进行数据的筛选,取出最有代表性的数据特征 数据类型 · 散 型 数 据 : 由 记 录 不 同 类 别 个 体 的 数 目 所 得 到 的 数 据 , 又 称 计 数 数 据 , 所 有 这 些 数 据 全 部 都 是 整 数 , 而 且 不 能 再 细 分 , 也 不 能 进 一 步 提 高 他 们 的 精 确 度 。 · 连 续 型 数 据 : 变 量 可 以 在 某 个 范 围 内 取 任 一 数 , 即 变 量 的 取 值

原创 | 机器学习数学推导与代码实现30讲.pdf

点点圈 提交于 2021-01-17 18:20:24
机器学习 Author:louwill Machine Learning Lab 机器学习数学推导与代码实现30讲已完成,主要包括监督学习模型、无监督学习模型、集成学习模型和概率模型四个大类29个模型和算法。现整理形成pdf版本并开提供开源下载。 获取方式: 扫描关注下方公众号回复 机器学习 即可。 该系列机器学习模型的思维导图如下所示: 完整版的pdf目录如下: 获取方式: 扫描下方二维码关注公众号机器学习实验室 在后台回复 机器学习 即可。 另外本项目也会在后续时间持续改进和整理,完整版的代码会陆续在GitHub上进行更新。 项目地址: https://github.com/luwill/machine-learning-code-writing 本文分享自微信公众号 - NewBeeNLP(NewBeeNLP)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4594481/blog/4833234

原创 | 机器学习数学推导与代码实现30讲.pdf

ぃ、小莉子 提交于 2021-01-17 18:20:10
机器学习 Author:louwill Machine Learning Lab 机器学习数学推导与代码实现30讲已完成,主要包括监督学习模型、无监督学习模型、集成学习模型和概率模型四个大类29个模型和算法。现整理形成pdf版本并开提供开源下载。 获取方式: 扫描关注下方公众号回复 机器学习 即可。 该系列机器学习模型的思维导图如下所示: 完整版的pdf目录如下: 获取方式: 扫描关注下方公众号回复 机器学习 即可。 另外本项目也会在后续时间持续改进和整理,完整版的代码会陆续在GitHub上进行更新。 项目地址: https://github.com/luwill/machine-learning-code-writing 本文分享自微信公众号 - 机器学习与生成对抗网络(AI_bryant8)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4579551/blog/4667084

原创 | 机器学习数学推导与代码实现30讲.pdf

折月煮酒 提交于 2021-01-17 18:10:08
机器学习 Author:louwill Machine Learning Lab 机器学习数学推导与代码实现30讲已完成,主要包括监督学习模型、无监督学习模型、集成学习模型和概率模型四个大类29个模型和算法。现整理形成pdf版本并开提供开源下载。 获取方式: 扫描关注下方公众号回复 机器学习 即可。 该系列机器学习模型的思维导图如下所示: 完整版的pdf目录如下: 获取方式: 扫描关注下方公众号回复 机器学习 即可。 另外本项目也会在后续时间持续改进和整理,完整版的代码会陆续在GitHub上进行更新。 项目地址: https://github.com/luwill/machine-learning-code-writing 本文分享自微信公众号 - Python之禅(VTtalk)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/151730/blog/4645966

原创 | 机器学习数学推导与代码实现30讲.pdf

巧了我就是萌 提交于 2021-01-17 09:02:58
机器学习 Author:louwill Machine Learning Lab 机器学习数学推导与代码实现30讲已完成,主要包括监督学习模型、无监督学习模型、集成学习模型和概率模型四个大类29个模型和算法。现整理形成pdf版本并开提供开源下载。 获取方式: 扫描关注下方公众号回复 机器学习 即可。 该系列机器学习模型的思维导图如下所示: 完整版的pdf目录如下: 获取方式: 扫描下方二维码关注公众号机器学习实验室 在后台回复 机器学习 即可。 另外本项目也会在后续时间持续改进和整理,完整版的代码会陆续在GitHub上进行更新。 项目地址: https://github.com/luwill/machine-learning-code-writing 来源: oschina 链接: https://my.oschina.net/u/4343420/blog/4906484

吴恩达《Machine Learning》精炼笔记 8:聚类 KMeans 及其 Python实现

走远了吗. 提交于 2021-01-15 13:10:13
作者:Peter 红色石头的个人网站: 红色石头的个人博客-机器学习、深度学习之路 ​ www.redstonewill.com 系列文章: 吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习 吴恩达《Machine Learning》精炼笔记 2:梯度下降与正规方程 吴恩达《Machine Learning》精炼笔记 3:回归问题和正则化 吴恩达《Machine Learning》精炼笔记 4:神经网络基础 吴恩达《Machine Learning》精炼笔记 5:神经网络 吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议 吴恩达《Machine Learning》精炼笔记 7:支持向量机 SVM 本周的主要知识点是无监督学习中的两个重点:聚类和降维。本文中首先介绍的是聚类中的K均值算法,包含: 算法思想 图解K-Means sklearn实现 Python实现 无监督学习unsupervised learning 无监督学习简介 聚类和降维是无监督学习方法,在无监督学习中数据是没有标签的。 比如下面的数据中,横纵轴都是xx,没有标签(输出yy)。在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,快速这个数据的中找到其内在数据结构。 无监督学习应用 市场分割 社交网络分析 组织计算机集群 了解星系的形成 聚类