监督学习

算法在岗一年的经验总结

喜夏-厌秋 提交于 2020-10-31 06:35:52
说起来今天还是一个有意思的日子,去年在美团实习,离职的时间也是12月7日。 算起来,自己的算法在岗应该也有一年了,在美团担任算法工程师大概有7个月,OPPO加上实习,估计也一年多吧,时间过的好快,这周末给大家谈谈我的感想吧,相比各位大佬,我的经验尚属稚嫩,但是也希望能给一些准备入行的、刚入行的人一些经验和建议吧,相关文章其实我也聊得不少,这里有部分重点我可能还会聊到,但是不见得都会说到,所以可以看看我以前的文章: 我从研究生生活中得到的经验 NLP.TM | 我的NLP学习之路 懒人目录: 算法工作的一天都要干什么。 特别的经验。 有关学习。 写在最后。 算法工作一天都要干什么 很多人可能再想想着每天在研究模型,看论文,实现模型之类的,这方面虽然非常重要,但是实际上并非如此。 每天这些时间会花的更多: 和产品沟通,技术方案设计。 数据层面花费的时间最多。 需要什么样的数据。 写SQL。 检查数据质量,空的、错的、不合法的。 特征工程。 有监督学习,需要标注数据,怎么标,标注本身是否可靠。 模型选择与开发。这块可以这么说,随着工作经验提升,这块时间会越来越少。 模型选择的话,把问题抽象出来,其实都比较好选,第一版模型一般是业内基线或者最简单的模型,像我,二分类先搞LR(logistic regression),序列标注就是CRF。 模型开发也基本不耗时

AI研习丨陈松灿:自监督学习的最新进展与展望

不羁的心 提交于 2020-10-29 08:52:56
http://dy.163.com/v2/article/detail/F6QSA34N0511PEBT.html   转自 CAAI会员中心   摘 要   当前我们虽已身处大数据时代,但代价高昂、不易获取的标记数据依旧是机器学习发展的瓶颈。相比而言,无标记数据廉价且易获取,因此,如何高效利用它们一直是学者们关注的焦点。最近,一种无监督学习的新范式——自监督学习已开始受到广泛关注,其旨在减少对大量标记/ 注释数据的需求。为此本文围绕该学习范式作出简要回顾及展望,并力图从一个新的视角来考察该范式,以期为后续研究提供一些洞察。   关 键 字   机器学习;自监督学习;多视图学习;数据增广      陈松灿   自监督学习的最新进展与展望   0 引言   目前机器学习技术已获得了令人印象深刻的进展,尤其是深度学习已在计算机视觉和自然语言处理等多个领域取得了突破。然而,它仍存在许多不足。例如,当前许多机器学习技术(如分类)的成功大都处在一个封闭、静态的环境下,即训练数据和测试数据来自相同的标记和特征空间。但更实际的场景通常是动态、开放和非平稳的,如无人驾驶、医疗诊断等。在此类场景下,一些意外情形常会出现,致使这些现有模型往往难以奏效,甚至变得无用。为迎接这些挑战,学界开始探索诸如安全的AI(Safe AI-Open World/Dynamic Learning)、终身/连续/预测

机器学习-常见的监督学习模型

纵饮孤独 提交于 2020-10-28 08:57:45
机器学习可以分为三大类:监督学习、非监督学习、强化学习。 今天学习监督学习模型,根据输出是连续的还是离散的,又分为 回归问题 和 分类问题。 监督学习的训练数据,都是带‘答案’的,通过输入和答案之间的对应关系,获取其中的规则。 1,朴素贝叶斯分类器 Naive Bayes Classifier 假设样本的特征(被观察现象的一个可以测量的属性)在给定分类的条件下是相互独立的。 选择重要的特性对于传统的机器学习方法至关重要。 简单来讲这就是个概率计算 假设输入 X = (x1,x2,...,xn) 在给定 x的条件下 分类Ck的概率: P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X) 解释:给定X, P(X) 是一个固定的归一化的常量,因此可以忽略;P(xi|Ck) 和 P(Ck) 是通过训练数据集获取计算来的; 这样就可以计算给定条件X下的各个分类的概率,取概率最大的作为分类结果。 需要注意个细节: 如果 Xi 过多,相乘可能出现下溢(0),可以把乘法转为取对数相加;对于训练集中未出现的值的概率,可以忽略。 2,逻辑回归 Logistic Regression 线性回归模型: y = w T x + b 这个输出范围是 负无穷 到 正无穷 要转换为分类问题,需要使用 Sigmoid 函数 σ(x) = 1 / (1 + e -x ) 范围 (0,1) 逻辑回归模型:f

原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

被刻印的时光 ゝ 提交于 2020-10-27 05:52:26
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI “本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处” 虽然每天早晨甚至无法从50平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球—— 穿越到霸道总裁小说的世界,是一种怎样的体验? 最近,一个能满足这种幻(xia)想的快手AI特效火了。 不仅老铁们纷纷穿越,许多明星大V也贡献了自己的「言情小说脸」。 你看这位李雪琴老师,就瞬间女主光环加持,慵懒的眼神里又多了几分灵动的忧郁。 硬糖少女刘些宁,更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗? 还有歪嘴战神本神,到了二次元的世界,还是熟悉的配方,熟悉的味道。 看到这些,我不禁产生了一个大胆的想法,让老婆们也一起穿越,不也就是举起手机就能搞定的事? △ 新垣结衣 嗯,新垣结衣是二次元走出来的实锤了! 更妙的是,这样一个AI特效,不仅能实时捕捉每一个表情变化,模仿咆哮帝也能hold得住: △ 明道 细节处理也着实奥利给,描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。 打破次元壁的技术 所以快手这一堪称「穿越神器」的AI特效,在技术上是如何实现的呢? 快手工程师介绍

脑洞大开!Adobe等新研究把「自拍」变「他拍」,魔幻修图效果感人

断了今生、忘了曾经 提交于 2020-10-27 03:10:36
自拍也能变为他拍,魔幻修图界又出新招式,但效果实在感人。 选自arXiv,作者:Liqian Ma、Zhe Lin等,机器之心编译,编辑:蛋酱、张倩、杜伟。 智能手机的出现,让摄影变成了一项大众艺术,也让越来越多的人爱上「自拍」。但自拍照常常存在构图问题,比如不自然的肩膀姿势、占据一小半镜头的手臂,或者极其诡异的视角。 要想解决这个问题,可以选择随身携带三脚架或自拍杆,也可以选择随身携带一个朋友作为摄影师(该方法对单身狗极其不友好)。 或者,你还可以选择相信后期修图的艺术。近日, 来自 Adobe 研究院、UC 伯克利、鲁汶大学的研究者开发了一种「自拍」变「他拍」的新技术,通过识别目标的姿势并生成身体的纹理,在给定的自拍背景中完善和合成人物 。 在这篇论文中,研究者提出了一种叫做 「Unselfie(非自拍)」的图片转换方法,能够将自拍照中的人物,转变为手臂、肩膀、躯干都比较放松舒展的“他拍图像”。它会把所有举起的手臂调整为向下,然后调整服装细节,最后填充好所有暴露出来的背景区域。 论文链接: https:// arxiv.org/pdf/2007.1506 8.pdf 除了用来修饰社交媒体上的自拍照,这项技术还有很多应用方式,如果你急需一张证件照,而无人能帮你拍摄,那这项技术就能派上用场。 当然,这个方法目前还不太成熟,除了效果一般之外,偶尔还有翻车的时候,比如生成这样的图像:

深度学习未来的三种方式

被刻印的时光 ゝ 提交于 2020-10-21 13:28:31
来源:海豚数据科学实验室 深度学习的未来在于这三种学习模式,而且它们彼此之间密切相关: 混合学习——现代深度学习方法如何跨越监督学习和非监督学习之间的边界,以适应大量未使用的无标签数据? 复合学习——如何以创造性的方法将不同的模型或组件连接起来,以生成一个大于各部分之和的复合模型? 简化学习——出于性能和部署目的,如何减少模型的规模和信息流,同时保持相同或更强的预测能力? 混合学习 这种方式试图跨越监督学习和非监督学习之间的界限。由于有标签数据缺乏且成本高,所以常常在业务上下文中使用。从本质上说,混合学习是对下面这个问题的回答: 如何使用监督方法解决非监督问题? 首先,半监督学习在机器学习领域取得了良好的进展,因为它只需要很少的有标签数据就能够在监督问题上有非常好的表现。例如,一个设计良好的半监督式 GAN(生成式对抗网络)只需要 25 个训练样本,就能在 MNIST 数据集上获得了超过 90% 的准确率。 半监督学习是针对有大量无监督数据和少量有监督数据的数据集而设计的。传统上,监督学习模型只在一部分数据上进行训练,无监督模型则在另一部分数据上进行训练,而半监督模型则可以将有标签数据与从无标签数据中提取的见解结合起来。 半监督 GAN(简称 SGAN)是对 标准生成式对抗网络模型 的改写。判别器输出 0/1 表示图像是否生成,它也输出项的类别(多输出学习)。 这是基于这样一种想法

Waymo与谷歌提出颠覆性TNT模型,实现自动驾驶多轨迹行为预测

a 夏天 提交于 2020-10-20 17:21:42
  导读:Waymo 近期宣布在凤凰城地区开放没有安全员的无人驾驶出租车,实现首个商用的真正的无人驾驶。与此同时,Waymo 也公开分享了一系列新的研究论文,本文就来讲解一下 Waymo 在行为预测方面的研究成果。   周围的车辆和行人在接下来数秒中会做什么?要实现安全的自动驾驶,这是一个必须回答的关键问题,这也就是自动驾驶领域中的行为预测问题。   行为预测的难点在于周围行人、车辆的不确定性和各种规则之外的行为。这些状况难以用规则进行总结,因此最近研发人员们开始利用基于数据驱动的深度学习的方法,以达到更加合理的预测效果。   在这方面, 来自 Waymo 和谷歌的团队提出了一系列用于自动驾驶行为预测的模型,让无人车理解抽象的道路环境,并实现对车辆、行人的多可能性预测。   在今年 6 月的一篇 CVPR 论文中,这个团队首先提出了一个全新模型 VectorNet。   在该模型中,团队首次提出了一种抽象化认识周围环境信息的做法:用向量(vector)来简化地表达地图信息和移动物体,这一做法抛开了传统的用图片渲染的方式,达到了降低数据量、计算量的效果。Waymo 也在其博客文章中明确表示,该技术提高了其行为预测的精准度。   近日,这个团队公布了进一步的工作,提出了 TNT (Target-driveN Trajectory Predictio)。TNT

浅析神经协同过滤NCF在推荐系统的应用

ⅰ亾dé卋堺 提交于 2020-10-18 07:57:09
NCF在推荐领域应用背景 CF,也就是协同过滤,在推荐领域有极其广泛的应用,应该没有谁的智能推荐系统是没用到过CF的。CF其实就是挖掘user和item的交互关系,然后生成I2I或者U2I表示向量。传统的CF从数学角度上还是偏行为统计计算的,没有用到很复杂的网络。因为深度学习很火,也是有一些关于Neural Collaborative Filtering的工作。今天介绍一下最近看的叫《Neural Collaborative Filtering》这篇论文。也有一个对应的开源项目,地址: https://github.com/hexiangnan/neural_collaborative_filtering 有兴趣的做推荐相关工作的同学,可以在自己的工作中用用。 隐式反馈vs显式反馈 其实把任何算法前面加个N,改成neural某某都是比较好发paper或者取得效果的。这篇文章比较有意思的一个点我觉得不在于将GMF或者MLP加在CF中,而是为CF构建了一套针对隐式反馈的建模理论。 说到这里先要提下隐式反馈和显式反馈。首先推荐业务一般都是按照有监督学习方式建模,也就是说要构建特征和目标列。在目标列的选择上一般会认为购买、点击、收藏这种行为是正样本,标记成label=1,其它行为全都是0。 但是这其中有一些问题,有的时候点击了的不一定是用户真正喜欢的,没点击的不一定是用户不喜欢的。

融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020

一个人想着一个人 提交于 2020-10-17 16:58:57
     原创作者:王少磊   文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。   目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。   本文介绍一篇被EMNLP 2020录取的工作,在本工作中,作者首次尝试用无监督的方法来解决文本顺滑问题。   作者通过结合自训练(self-training)和自监督(self-supervised)两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。   论文名称:   《Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection》      论文作者:王少磊,王重元,车万翔,刘挺   论文链接:http://ir.hit.edu.cn/~slwang/emnlp2020.pdf   以下是论文一作王少磊对本文的亲自解读。   1   任务简介及动机   自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。  

深度学习未来的三种范式

烂漫一生 提交于 2020-10-17 13:51:49
来源:AI前线 作者:Andre Ye 译者:平川 策划:陈思 深度学习是一个广阔的领域,它围绕着一种形态由数百万甚至数十亿个变量决定并不断变化的算法——神经网络。似乎每隔一天就有大量的新方法和新技术被提出来。不过,总的来说,现代深度学习可以分为三种基本的学习范式。每一种都有自己的学习方法和理念,提升了机器学习的能力,扩大了其范围。 本文最初发布于 Towards Data Science 博客,由 InfoQ 中文站翻译并分享。 深度学习的未来在于这三种学习模式,而且它们彼此之间密切相关: 混合学习——现代深度学习方法如何跨越监督学习和非监督学习之间的边界,以适应大量未使用的无标签数据? 复合学习——如何以创造性的方法将不同的模型或组件连接起来,以生成一个大于各部分之和的复合模型? 简化学习——出于性能和部署目的,如何减少模型的规模和信息流,同时保持相同或更强的预测能力? 混合学习 这种范式试图跨越监督学习和非监督学习之间的界限。由于有标签数据缺乏且成本高,所以常常在业务上下文中使用。从本质上说,混合学习是对下面这个问题的回答: 如何使用监督方法解决非监督问题? 首先,半监督学习在机器学习领域取得了良好的进展,因为它只需要很少的有标签数据就能够在监督问题上有非常好的表现。例如,一个设计良好的半监督式 GAN(生成式对抗网络)只需要 25 个训练样本,就能在 MNIST