监督学习

Flink + 强化学习搭建实时推荐系统

一曲冷凌霜 提交于 2020-11-13 11:47:05
简介: 如何根据用户反馈作出快速及时的实时推荐? 如今的推荐系统,对于实时性的要求越来越高,实时推荐的流程大致可以概括为:推荐系统对于用户的请求产生推荐,用户对推荐结果作出反馈 (购买/点击/离开等等),推荐系统再根据用户反馈作出新的推荐。这个过程中有两个值得关注的地方: 这可被视为是一个推荐系统和用户不断交互、互相影响的过程。 推荐系统需要对用户反馈作出快速及时的响应。 这两点本篇分别通过强化学习和 Flink 来实现,而在此之前先了解一些背景概念。 强化学习 强化学习领域的知名教材 《Reinforcement Learning: An Introduction》开篇就写道 : 当我们思考学习的本质的时候,脑中首先联想到的可能就是在与环境不断交互中学习。当一个婴儿在玩耍、挥舞手臂或是旁顾四周时,并没有任何老师教它,但它确实能直接感知到周围环境的变化。 强化学习的主要过程是构建一个智能体,使之在与环境交互的过程中不断学习,以期获得最大的期望奖励。它是一种非常通用的学习范式,可以用于对各种各样问题的建模,比如游戏、机器人、自动驾驶、人机交互、推荐、健康护理等等。其与监督学习的主要不同点在于:强化学习根据延迟的反馈通过不断试错 (trial-and-error) 进行学习,而监督学习则是每一步都有明确的反馈信息进行学习。 下图反映了一个推荐智能体 (recommender agent

“达观杯”文本分类--baseline

断了今生、忘了曾经 提交于 2020-11-11 04:24:28
结合tfidf权重,对“达观杯”提供的文本,进行文本分类,作为baseline,后续改进均基于此。 1.比赛地址及数据来源 "达观杯"文本智能挑战赛 2.代码及解析 # -*- coding: utf-8 -*- """ @简介:tfidf特征/ SVM模型 @成绩: 0.77 """ # 导入所需要的软件包 import pandas as pd from sklearn.svm import LinearSVC from sklearn.feature_extraction.text import TfidfVectorizer print ( " 开始............... " ) # ==================================================================================================================== # @代码功能简介:从硬盘上读取已下载好的数据,并进行简单处理 # @知识点定位:数据预处理 # ==================================================================================================================== df_train = pd

[Deep-Learning-with-Python]机器学习基础

大城市里の小女人 提交于 2020-11-09 05:17:19
机器学习类型 机器学习模型评估步骤 深度学习数据准备 特征工程 过拟合 解决机器学习问题的一般性流程 机器学习四分支 二分类、多分类以及回归问题都属于监督学习--目标是学习训练输入和对应标签之间的关系。 监督学习只是机器学习的冰山一角。机器学习主要分为4类:监督学习、非监督学习、半监督学习和强化学习。 监督学习 最常见的机器学习类型---学习输入数据和对应标签之间的映射关系。当下几乎所有的深度学习应用都属于监督学习类型,比如ocr识别,语音识别,图像分类和机器翻译等。 尽管监督学习主要由分类和回归组成,也包括一些其他变种: 生成序列---给定图片,生成一个概括性的标题。序列生成可以看做一系列分类问题; 语法树预测---将句子生成对应的句法树; 物体检测---给定图片,在图片中圈出物体所在的矩形框; 等等。 非监督学习 在没有对应标签的情况下,为了进行数据可视化、数据压缩、数据降噪或数据相关性分析对输入数据进行有趣的数据转换。数据降维和聚类是典型的非监督学习。 半监督学习 一种特殊的监督学习。半监督学习是没有手工标签的监督学习。但是学习过程中仍然有标签(还是监督学习),但是标签是由启发性算法从输入数据中生成而来。 比如,自编码器就是常见的半监督学习。 强化学习 强化学习中,agent(代理)接收关于环境的信息,然后选择可以最大化reward的动作。比如:神经网络查看网络游戏的屏幕

Anchor-free目标检测 | 工业应用更友好的新网络(附大量相关论文下载)

余生颓废 提交于 2020-11-08 05:06:23
计算机视觉研究院专栏 作者:Edison_G 扫描二维码 关注我们 微信公众号 : 计算机视觉研究院 回复“Anchor Free”获取论文集下载 随着 CVPR 2020和ICCV 2020的结束,一大批目标检测的论文在arXiv上争先恐后地露面,更多的论文都可以直接下载。下面几篇paper有异曲同工之妙,开启了anchor-based和anchor-free的轮回。1. Feature Selective Anchor-Free Module for Single-Shot Object Detection2. FCOS: Fully Convolutional One-Stage Object Detection3. FoveaBox: Beyond Anchor-based Object Detector4. High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection 这几篇论文不约而同地将矛头对准了 Anchor 这个检测里面的基础模块,采用anchor-free的方法在单阶段检测器上达到了和anchor-based方法类似或者更好的效果。 anchor-free和anchor-based区别 这个问题首先需要回答为什么要有anchor。在深度学习时代

神经网络原来是这样和数学挂钩的

不想你离开。 提交于 2020-11-07 13:07:38
来源:遇见数学 近几年,有几个被媒体大肆报道的事件,如下表所示。 如上所示,深度学习作为人工智能的一种具有代表性的实现方法,取得了很大的成功。那么,深度学习究竟是什么技术呢?深度学习里的“学习”是怎么做到的呢?本文我们就来解答一下这个疑问,不过在此之前,我们需要先了解一下神经网络,因为深度学习是以神经网络为出发点的。 神经网络的灵感来源 谈到神经网络的想法,我们需要从生物学上的神经元(neuron)开始说起。从生物学扎实的研究成果中,我们可以得到以下关于构成大脑的神经元知识。 人的大脑是由多个神经元互相连接形成网络而构成的。也就是说,一个神经元从其他神经元接收信号,也向其他神经元发出信号。大脑就是根据这个网络上的信号的流动来处理各种各样的信息的。 神经元示意图 神经元主要由细胞体、轴突、树突等构成。树突是从其他神经元接收信号的突起。轴突是向其他神经元发送信号的突起。由树突接收的电信号在细胞体中进行处理之后,通过作为输出装置的轴突,被输送到其他神经元。另外,神经元是借助突触结合而形成网络的。 让我们来更详细地看一下神经元传递信息的结构。如上图所示,神经元是由细胞体、树突、轴突三个主要部分构成的。其他神经元的信号(输入信号)通过树突传递到细胞体(也就是神经元本体)中,细胞体把从其他多个神经元传递进来的输入信号进行合并加工,然后再通过轴突前端的突触传递给别的神经元。 那么

APM时代的质量保障之路:腾讯互娱品质管理部性能负责人访谈

做~自己de王妃 提交于 2020-11-05 10:09:20
APM时代的质量保障之路:腾讯互娱品质管理部性能负责人访谈 导读:11 月 23 ~ 24 日,GIAC 全球互联网架构大会将于上海举行。GIAC 是高可用架构技术社区推出的面向架构师、技术负责人及高端技术从业人员的技术架构大会。今年的 GIAC 已经有微软,腾讯、阿里巴巴、蚂蚁金服,华为,科大讯飞、新浪微博、京东、七牛、美团点评、饿了么,才云,格灵深瞳,Databricks,等公司专家出席。本周购买可享门票88折优惠,高可用架构会员低至6折。 在大会前夕,高可用架构采访了2017年 GIAC质量保证分论坛 出品人何纯,就目大家广泛关注的质量保证方面的问题进行了访谈。 何纯,腾讯互娱品质管理部性能负责人,腾讯TDR专家,参与制定腾讯手游发布标准,聚焦移动游戏在性能问题上的定位和调优。主导开发性能分析工具(UPA)及APM手游客户端性能管理工具。负责参与《王者荣耀》《穿越火线:枪战王者》《魂斗罗:归来》《火影忍者手游》及战术竞技类手游等多款战略级产品的性能优化,在客户端性能领域积累了丰富的经验。 高可用架构:现在性能问题是非常火热的问题,因为性能直接影响到用户体验,很多相关从业者也在各种会议上强调自己解决的是真实的用户体验问题,那么从您所从事的游戏行业来说,您觉得怎么定义真实的用户体验?根据你的经验来说,现在的手机游戏性能问题通常在哪里? 何纯:以我所处的游戏行业举例

大数据-----大数据-机器学习-人工智能

十年热恋 提交于 2020-11-03 05:29:03
1.大数据与机器学习的关系: 大数据领域我们做的是数据的存储和简单的统计计算,机器学习在大数据的应用是为了发现数据的规律或模型,用机器学习算法对数据进行计算的到的模型,从而决定我们的预测与决定的因素(比如在大数据用户画像项目里,生成的特殊用户字段)。 2.大数据在机器学习的应用 目前市场实际开发模式中,应该在大数据哪一个阶段层次应用到机器学习的相关技术呢,我们接下来来说明,首先目前大数据的架构模式列举如下几个 2.1数据采集(ftp、socket)---数据存储(hdfs)---数据清洗(MapReduce)----数据分析(hive)---sqoop导入-----存储(mysql、oracle)---web显示 2.2数据采集(ftp、socket)---数据存储(hdfs)---数据清洗(MapReduce)---列式数据库存储(hbase)-----thrift(协处理器)---web显示 2.3数据采集(ftp、socket)---数据存储(hdfs)---数据清洗(MapReduce)----数据分析(hive)----impala(实时数据分析)---jdbc-----web显示 2.4数据采集(ftp、socket)---数据存储(hdfs)---spark计算-----存储(mysql、oracle)---web显示 整体在开发完成后用分布式任务调度系统

强化学习(四)—— DQN系列(DQN, Nature DQN, DDQN, Dueling DQN等)

最后都变了- 提交于 2020-11-01 20:04:46
1 概述   在之前介绍的几种方法,我们对值函数一直有一个很大的限制,那就是它们需要用表格的形式表示。虽说表格形式对于求解有很大的帮助,但它也有自己的缺点。如果问题的状态和行动的空间非常大,使用表格表示难以求解,因为我们需要将所有的状态行动价值求解出来,才能保证对于任意一个状态和行动,我们都能得到对应的价值。因此在这种情况下,传统的方法,比如Q-Learning就无法在内存中维护这么大的一张Q表。   针对上面的问题,于是有人提出用一个模型来表示状态,动作到值函数的关系。我们令状态为 $s \in S $,行动为 $a \in A $,引入一个状态价值函数 $\hat{v}$,函数的参数为 $w$,接收状态 $s$ 的输入,则有:     $ \hat{v}(s, w) \approx v_{\pi}(s) $   对于动作-状态价值函数也是一样可以表示为:     $ \hat{q}(s,a,w) \approx q_{\pi}(s,a) $   还有一种表现形式是输入状态向量 $s$,输出每个动作 ${a_i}\in{A}$ 所对应的 $\hat{q}(s,a_i,w) $。具体的如下如所示:      虽说有上面三种表达形式,但一般我们用第三种方式,这一种方法会获得所有动作的Q值,这样就可以很方便的使用贪婪策略和$\epsilon-greedy$。  

Hinton新作!越大的自监督模型,半监督学习需要的标签越少

青春壹個敷衍的年華 提交于 2020-11-01 14:24:19
来源:AI科技评论 编译:青暮 本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了优越的结果。此外,他们还发现,网络的规模越大,需要的标签数据越少。 论文地址:https://arxiv.org/abs/2006.10029 仅使用1%的标签(每类≤13个标签图像),本文提出的方法即可达到73.9%ImageNet top-1准确率,与以前的SOTA相比,标签效率提高了10倍。 使用10%的标签,本文的方法可以达到77.5%的top-1准确率,优于使用100%标签的标准监督训练。 “无监督预训练、监督微调”范式 充分利用少量标记示例和大量未标记示例进行学习是机器学习的一个长期存在的问题。 人们曾经提出一种半监督学习来试图解决这个问题,其中涉及无监督或自监督的预训练,然后进行有监督的微调。 这种方法在预训练期间以与任务无关的方式利用未标记的数据,仅在有监督微调时使用带标签的数据。 这种方法在计算机视觉上很少受关注,但是在自然语言处理中已成为主流。例如,人们首先在未标记的文本(例如Wikipedia)上训练大型语言模型,然后在一些带标记的示例中对该模型进行微调。 基于视觉表示的自监督学习的最新进展,Ting Chen等人对ImageNet上的半监督学习进行了深入研究

Hinton构思下一代神经网络:属于无监督对比学习

孤人 提交于 2020-10-31 15:04:23
本文由机器之心报道 Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。 自 20 世纪 80 年代开始,Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificial neural network),为机器学习研究奠定了基石。 那么,30 多年过去,神经网络的未来发展方向在哪里呢? Hinton 在此次报告中 回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习。 Hinton 的报告主要内容如下: 人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。 目前,无监督学习主要有两类方法。 第一类的典型代表是 BERT 和变分自编码器(VAE),它们使用深度神经网络重建输入。但这类方法无法很好地处理图像问题,因为网络最深层需要编码图像的细节。 另一类方法由 Becker 和 Hinton 于 1992 年提出,即对一个深度神经网络训练两个副本,这样在二者的输入是同一图像的两个不同剪裁版本时