监督学习

机器学习13 -- 无监督学习之自监督

陌路散爱 提交于 2020-10-05 06:23:50
1 为什么要自监督学习 self-supervised learning 自监督学习是无监督学习的一种特殊方式。我们在无监督学习中讲过了,标注label是十分宝贵的,一般需要人工打标,时间和人力成本都十分高昂。但现实中,获取无标注data确实相对比较easy的事情。我们可以在网络上爬取很多很多的文本、图片、语音、商品信息等。如何利用这些无标注data,一直以来都是无监督学习的一个重要方向。而自监督学习则给出了一种解决方案。 自监督学习通过data的一部分,来predict其他部分,由自身来提供监督信号,从而实现自监督学习。利用自监督学习,可以学到一定的文本或图片的表征,从而有利于下游任务的展开。这就是pretrain-finetune 2 自监督学习实现方案 自监督学习实现方案主要有 利用部分data来重建整个data。这其实就是Denoising Auto-Encoder的一种。NLP方面BERT系列的Mask language model,和CV领域的图像还原In-painting,都是采用了这种方案 CV领域的一些任务。比如将图片分割为9块,打乱后,进行拼图。将图片旋转一定角度,然后predict旋转的角度。 对比学习。比如word2vec,Contrastive Predictive Coding,SimCLR 3 NLP领域的自监督学习 各种NLP预训练模型

浅谈主动学习(Active Learning)

倾然丶 夕夏残阳落幕 提交于 2020-10-02 12:16:55
1背景概述 在机器学习领域有很多学习模式,比方说监督学习、半监督学习、强化学习、无监督学习等。平时大家接触比较多的一般都是监督学习,在监督学习里面,比方说要做个人和鱼的图像分类模型,假设有200张图片,那就需要把这200张样本都打好标记再训练。 监督学习存在很多问题,比如最直接的一点,当样本打标成本很高的时候,比如要标记一个人脸,可能需要在图片上打上百个点,用监督学习很消耗资源。 主动学习(Active Learning)很好地解决了这个问题,主动学习的本质是让训练样本的利用率最大化,今天就来介绍下主动学习的一些内容。 2Active Learning基本原理 ActiveLearning的基本逻辑很好理解,就是构建一个打标和训练流程的闭环,有点类似于boosting算法。 在ActiveLearning中,不需要训练样本全部打标,可以先打标部分样本,然后跑一次分类模型,接着对未打标样本做一次预测。可以根据预测结果将未打标样本分成两类,一类是不确定性大,也就是信息熵大的样本,另一类是不确定性小但是信息熵也小的样本。然后针对信息熵大的样本再次训练。 这里面有个问题,什么叫不确定性大的样本呢?还是举文章开篇的例子,假设做人和鱼的分类模型,什么样的样本是不确定性高的呢?当然是哪种很难分辨人还是鱼的样本,比如美人鱼,哈哈。 总结下,ActiveLearning的本质就是先标记部分样本

学了这么久,你知道Python机器学习全流程是怎样的么?

こ雲淡風輕ζ 提交于 2020-10-02 11:23:27
万事开头难,首先Python机器学习整个流程的第一步就是学习Python这门编程语言的相关基础知识。 第一步:基本 Python 技能 如果要使用 Python 进行机器学习,拥有对 Python 有基础的理解非常关键。幸运的是,Python 是当前普遍使用的流行语言,并纳入了科学计算和机器学习的内容,所以找到入门教程并不困难。在选择起点时,很大程度上要取决于你之前的 Python 经验和编程经验。 这里推荐几本python入门必读书籍: 别再说你不知道怎么学习Python了,13本书给你安排的明明白白! 对于想要速成课程的人,这里有 全网最全Python学习路线图+14张思维导图,让你不走弯路! 第二步:机器学习基础技能 KDnuggets 的 Zachary Lipton 指出,人们对数据的认识千差万别,这实际上是对机器学习领域的反映。数据科学家在不同程度上使用计算学习算法。要建立和使用支持向量机模型,熟知核函数方法是否是必需的?答案当然不是。就像现实生活中的许多事情一样,所需要的理论深入程度与具体的实际应用有关。获取对机器学习算法的深入理解不是本文的讨论范围, 而且这通常需要在学术领域投入大量时间,或者至少要通过密集的自学才能达到。 好消息是,你不必拥有博士级别的机器学习理论能力才能进行实践,就如同不是所有程序员都必须接受计算机理论教育才能写好代码。 关于机器学习基础技能

MyDLNote

两盒软妹~` 提交于 2020-10-02 05:14:21
Self-Supervised Representation Learning by Rotation Feature Decoupling Zeyu Feng, Chang Xu, Dacheng Tao UBTECH Sydney AI Centre, School of Computer Science, FEIT, University of Sydney, Darlington, NSW 2008, Australia zfen2406@uni.sydney.edu.au, {c.xu, dacheng.tao}@sydney.edu.au 这篇文章在知乎和一些网上被提出质疑,该文其实就是将两篇文章进行了拼接组合。但这里我想说两句: 首先,我认为这种组合应该是有效的,是可行的; 其次,嘴下留情,点到为止,没有必要刻意放大。 我们最好多想想别人工作中好的地方。当然,维护学术风气非常重要,要从自己做起。 Abstract We introduce a self-supervised learning method that focuses on beneficial properties of representation and their abilities in generalizing to real-world tasks. The method

Science 好文:强化学习之后,机器人学习瓶颈如何突破?

拥有回忆 提交于 2020-10-02 05:14:01
   编译 | 陈彩娴   编辑 | 陈大鑫   在过去的十年里,机器学习确实取得了巨大的突破,计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。但是,这股“春风”却没有吹到智能机器人领域。   针对机器人学习所面临的瓶颈,麻省理工学院机器人专家Leslie Pack Kaebling在《Science》上发表一篇名为《The foundation of efficient robot learning》的文章。她认为,造成这一现象的一个关键因素在于:机器人学习的数据只能通过在现实世界的操作中获得,成本非常高昂。   为此,Leslie女士提出, 实现下一代机器人学习的技术革新,需要应用新的算法、从自然体系中获取灵感,并灵活使用多项机器学习技术。   1    强化学习是否真的那么灵?   尽管监督学习取得了许多重要的成果,但在机器人学习领域,强化学习(RL)更具有优势,因为机器人要在人类世界中执行一系列不同的任务。   在监督学习中,学习算法被赋予输入与期望输出的配对示例,并学会将输入与期望输出关联起来。而在强化学习中,智能体能够根据事先设置的奖励信号来判断自己的表现是出色的,或是差劲的,进而选择恰当的行动方式,这与机器人所应用的复杂环境有利相关。简而言之,监督学习与强化学习的本质区别在于: 在强化学习里,智能体的行为对数据产生重大影响,并能控制自己的学习探索

###好好好##BERT新转变:面向视觉基础进行预训练| NeurIPS 2019论文解读

£可爱£侵袭症+ 提交于 2020-10-01 23:47:14
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 论文作者: Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee(佐治亚理工学院、俄勒冈州立大学、Facebook AI Research) 点此进入 “论文地址” 摘要 本文提出ViLBERT(Vision-and-Language BERT),该模型学习图像内容和自然语言的无任务偏好的联合表征。ViLBERT在BERT的基础上扩展为多模态双流模型,在各自的流中处理图像和文本输入,这两个流通过共注意力transformer层进行交互。该模型在Conceptual Captions数据集上进行预训练,再将其迁移应用到多个视觉-语言任务:视觉问答,视觉常识推理,指示表达(referring expressions)和基于字幕的图像检索。ViLBERT应用到下游任务时仅需对基础架构进行少量添加。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。 ViLBERT代表了一种转向:从将学习视觉和语言之间的基础知识仅作为任务训练的一部分,转向将视觉基础知识作为一种可预训练和可迁移的能力。 介绍 视觉理解任务包括通过在图像

一种基于注意力机制特征匹配网络SuperGlue:端到端深度学习SLAM的重要里程碑

余生长醉 提交于 2020-10-01 13:14:00
点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 论文全名《SuperGlue:Learning Feature Matching with Graph Neural Networks》, ETHZ ASL与Magicleap联名之作,CVPR 2020 Oral,一作是来自ETHZ的实习生,二作是当年CVPR2018 SuperPoint的作者Daniel DeTone。 注: SuperPoint参见另外一篇文章《SuperPoint: Self-Supervised Interest Point Detection and Description》,备用链接。 后文中反复提到的self-attention/cross-attention,我暂时翻译成自我注意力/交叉注意力。 本人知识水平有限,如有错误请在评论区指出。当然,没有问题也可刷刷评论。 摘要 本文提出了一种能够同时进行特征匹配以及滤除外点的网络。其中特征匹配是通过求解可微分最优化转移问题( optimal transport problem)来解决,损失函数由GNN来构建。基于注意力机制提出了一种灵活的内容聚合机制,这使得SuperGlue能够同时感知潜在的3D场景以及进行特征匹配。该算法与传统的,手工设计的特征相比,能够在室内外环境中位姿估计任务中取得最好的结果,该网络能够在GPU上达到实时

数据标注员:人工智能行业的“筑梦师”丨曼孚科技

99封情书 提交于 2020-09-30 15:38:25
数据标注行业里有着这样的一段话:“有多少智能,就有多少人工”。 这句话在某种程度上道出了人工智能的本质。 ​事实上,现阶段提升AI认知世界能力的最有效途径仍然是监督学习,而监督学习下的深度学习算法训练十分依赖于数据标注员进行标注数据。可以说,如果数据标注是人工智能行业的基石,那么数据标注员就是数据标注行业的基石。 2020年2月,数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录。 人工智能训练师新职业隶属于软件和信息技术服务人员小类,主要工作任务包括:标注和加工原始数据、分析提炼专业领域特征,训练和评测人工智能产品相关的算法、功能和性能,设计交互流程和应用解决方案,监控分析管理产品应用数据、调整优化参数配置等。 根据国家人力资源和社会保障部相关预测显示,随着人工智能在智能制造、智能交通、智慧城市、智能医疗、智能农业、智能物流、智能金融及其他各行各业的广泛应用,人工智能训练师的规模将迎来爆发式增长。预计到2022年,相关从业人员有望达到500万。 不过,尽管数据标注员规模处于急速扩张中,但是与市场需求相比,缺口依然很大。 据艾瑞咨询相关统计数据显示,当下一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。 语音方面

推荐 :如何用XGBoost做时间序列预测?

柔情痞子 提交于 2020-09-30 10:04:19
作者:Jason Brownlee. 翻译:wwl. 校对:王雨桐 本文 约3300字 ,建议阅读 10 分钟 本文介绍了如何用XGBoost做时间序列预测,包括将时间序列转化为有监督学习的预测问题,使用前向验证来做模型评估,并给出了可操作的代码示例。 针对分类和回归问题,XGBoost是梯度提升算法的一种高效实现。 它兼顾了速度和效率,且在很多预测模型任务中表现优异,在数据科学比赛中广受赢家偏爱,如Kaggle。 XGBoost也可以用于时间序列预测,尽管要先把时间序列数据集转换成适用于有监督学习的形式。它还需要使用一种专门的技术来评估模型,称为前向推进验证,因为模型评估使用了k-折叠交叉,这会产生有正偏差的结果。 在本文中,你将会了解到如何开发应用于时间序列预测的XGBoost模型。 完成本教程后,你将知道: XGBoost是用于分类和回归问题的梯度提升集成方法的一个实现。 通过使用滑动时间窗口表示,时间序列数据集可以适用于有监督学习。 在时间序列预测问题上,如何使用XGBoost模型进行拟合、评估、预测。 让我们开始吧! 教程概览 本教程分为三个部分,分别是: 一、XGBoost集成 二、时间序列数据准备 三、时间序列预测上的XGBoost 一、XGBoost集成 XGBoost是Extreme GradientBoosting的缩写,是一种高效的随机梯度提升的实现。

从多模态到泛化性,无监督学习如何成为人工智能的下一站?

点点圈 提交于 2020-09-29 20:37:42
     作者 | 彩娴、青暮、宝尚   编辑 | 大鑫   2016年,图灵奖得主Yann LeCun 表示,未来几年的挑战是让机器学会从原始的、没有标签的数据中学习知识,即无监督学习。 Yann LeCun提出,无监督学习是人工智能的下一站。   2020年, 图灵奖得主Geoffrey E. Hinton指出,人类无法完全依赖有监督学习的方法完成所有神经元训练,而需要更多来自于无监督学习的帮助。   目前无监督学习技术备受关注,无监督表达学习技术在自然语言处理领域进展神速,OpenAI 近期发布的包含1700亿参数的GPT-3预训练模型吸引了全世界的目光;无监督图嵌入表达技术在图学习领域取得了不俗的成果;自监督学习技术在视觉领域近期也有较大的突破,Geoffrey E. Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标提升了 7-10%,甚至可以媲美有监督学习的效果。   但我们同时也看到,对GPT-3的质疑声一直不断,无监督学习技术在更多的领域尚待突破。   2020年8月22日, 中国计算机学会青年计算机科技论坛深圳分论坛主办大湾区IT创新论坛“无监督学习,如何成为人工智能的下一站?”。      本次论坛吸引了超过1千人通过线下会场、腾讯会议及B站全程参与,包括涉及表达学习、自然语言处理、计算机视觉分析、数据挖掘、金融大数据处理等众多相关领域的青年学者