强化学习

传统机器学习和前沿深度学习推荐模型演化关系介绍

浪子不回头ぞ 提交于 2020-08-11 08:01:57
本文来自王喆老师《深度学习推荐系统》一书,如果有一定的推荐系统基础的话,建议读一读,当然如果只是初学者的话还是建议从基础的开始学起,比如《推荐系统开发实战》。 传统机器学习推荐模型演化 简单讲,传统推荐模型的发展主要由以下几部分组成 协同过滤算法族 即上图中蓝色部分,协同过滤是推荐系统的首选模型,从物品相似度和用户相似角度出发,衍生出了ItemCF和UserCF两种算法。为了使协同过滤衍生出矩阵分解模型(Matrix Factorization,MF),并发展出矩阵分解的各分支模型。 逻辑回归模型族 协同过滤仅利用用户和物品之间显式或者隐式反馈信息,逻辑回归能够利用和融合更多用户、物品和上下文特征。从LR模型衍生出的各种模型同样“枝繁叶茂”,包括增强了非线性能力的大规模分片线性模型(Large Scale Piece-wise Linear Model,LS-PLM),由逻辑回归发展出来的FM模型,以及与多种不同模型配合使用后的组合模型等。 LS-PLM模型是阿里巴巴曾经使用的主流推荐模型,本质上,LS-PLM可以看作是对逻辑回归的自然推广,他在逻辑回归的基础上采用了分而治之的思路,先对样本进行分片,而在样本分片中应用逻辑回归进行CTR预估。 比如在电商领域要预估女性受众点击女装广告的CTR,那么显然我们不希望把男性用户点击数码类的样本数据也考虑进来

量子计算与AI“双拳”出击,他们锁定38种潜在抗疫药物

落爺英雄遲暮 提交于 2020-08-11 07:19:09
作者 | Just 出品 | AI科技大本营(ID:rgznai100) 医药研发行业有一个“三个十”的说法,即一种药物的发现需要投入十年以上的时间,花费十多亿美元,最后获得10%的成功率。也就是说,医药研发需要花费很长时间,投入大量资金才能成功研发出一种药物。 不过,AI等新技术的不断涌现,让科学性极强的医药研发行业也有机会追求大幅“提速降费”。 “把原本可能需要三到五年的药物发现过程,显著地缩短至一到两年,同时还帮助人们跳脱出药物研发专家个人经验和能力的限制,全面加速药物研发。”致力于以计算驱动药物研发的晶泰科技联合创始人、AI负责人赖力鹏告诉AI科技大本营。 抗疫,筛选出38种潜在药物分子 目前AI在医药研发的应用覆盖多个研发环节,包括靶点发现到苗头化合物、先导化合物的发现,然后到药物开发和临床实验。 以新冠病毒的靶点发现为例,首先需要找到病毒上与转录、复制、感染等关键机能相关的蛋白质,然后分析其与药物结合、抑制这些机能实现的位点。通过找到能有效、稳定地与这些靶点结合的分子,就可以阻止病毒的感染和传播,患者由此得到治疗。 寻找候选药物分子并非易事。传统的方法是通过药物化学家的参与,从百万到千万潜在化合物层层进行筛选,去做实验验证对抑制病毒活性有效的化合物。而通过AI生成模型、强化学习和迁移学习,可以根据对应靶点去设计出更加多样化的分子结构,这样扩大了找到相应分子的可能性

Hinton等6位图灵奖得主、百余位顶级学者邀你共话AI下一个十年

…衆ロ難τιáo~ 提交于 2020-08-11 05:56:30
  机器之心报道    机器之心编辑部    Geoffrey Hinton 等 6 位图灵奖得主亲临,百余位顶级学者邀请你加入群聊「2020 北京智源大会」,深入系统探讨「人工智能的下一个十年」。      自 2009 年深度学习崛起以来,第三波人工智能浪潮席卷全球,推动了新一波技术革命。   在这波澜壮阔的 11 年,我们见证了技术突破、应用创新与产业变革。   技术上,深度学习首先带来计算机视觉、语音识别等领域的突破,让机器识别的准确率一步步突破人类水平;在应用上,深度学习、强化学习、联邦学习等学习范式在安防、游戏、金融等不同场景带来新的创新。人工智能技术,在这些领域由点到面的落地应用,逐步推动着整个产业的变革。   技术变革,需要不断的推陈出新。在这 11 年中,如果说前半期是深度学习的时代,那么近年来我们能够看到更多不同的概念继续推动这人工智能的发展:符号主义、因果关系、联邦学习,等等。   2020 年,是一个十年的结束,也是下一个十年的开始。   在未来的十年,人工智能技术将如何发展?如何推动 AI 技术在医疗、交通等领域的落地应用?如何构建 AI 基础设置、规范 AI 伦理,都是当前人工智能领域亟待解决的问题。   依托北京在人工智能领域的科研和人才优势,第二届北京智源大会将于 6 月 21-24 日线上开幕。   此届大会围绕技术、应用、基础设施等话题

2020智源大会总结-多角度看AI的未来

。_饼干妹妹 提交于 2020-08-11 05:12:26
智源大会2020 聚焦AI的未来,大家都知道, 2010是深度学习的时代, 我们经历了AI从巅峰进入到瓶颈的过程。 那么什么是2020这个十年AI的中心?近一段大家逐步从各个不同的角度切入到这个主题, 比如从相关到因果, 从感知到认知, 重新结合符号主义, 结合脑科学,发展基础数学等, 而2020的智源大会,就是分别从这些不同角度进行跨学科交流的一次盛会。 因果角度 一个当下机器学习界的共识是,机器学习需要从感知过度到认知,但是对于如何引导这次革命,大家的答案是不一样的, 而一个重要的观点在于当下机器没有因果推理的能力。 这次会议有幸请到Jude Pearl, 因果被称为是第二次数学科学革命。 因为对于我们需要回答的大部分问题 ,都密切依赖我们对因果关系的建模, 这些问题包含对行为结果的分析和反事实推理,比如当下如果我要达到目标A, 我如何构建中间条件, 如果我没有做某事今天会怎样(反事实)等。 而这些能力是当下深度学习所不具备的, Jude Pearl的演讲深入浅出的引入了这个问题, 并用几个生动的例子提出了指出一些可能的解决方法。 因果理论的核心,就是do calculus, 它提到我们的模型如果要包含因果,就要能够模拟由行为产生的结果的不同, 这和我们之前物理的mechanic model 是相通的。 你有现象模型可以预测数据,但是这是观测数据的联系

1种策略就能控制多类模型,华人大二学生提出RL泛化方法,LeCun认可转发 | ICML 2020

旧街凉风 提交于 2020-08-10 20:10:32
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 如果给你几十甚至几百种模型,让你用1种策略对它们进行训练,怎么做? 上图中的这些智能体模型,不仅仅模拟「人」的动作,有些还代表着「四足动物」、「两足动物」,亦或者是特殊形态的「机器人」的行为。 智能体,能进行自主活动的硬件或软件实体。例如,可以是某种智能机器人。 而所有的这些智能体,都能通过1种策略来表达。 通过强化学习,模型中分散的肢体间也能进行消息传递,甚至能表示出训练中没有发现的模型。 论文在Reddit上po出后,一天之内就获得了近900热度。 与此同时,Twitter上也获得了Yann LeCun的转发。 对于强化学习,LeCun曾经给出过比喻:「如果智能是蛋糕,无监督学习就是那块蛋糕,有监督学习是糖衣,而强化学习则是糖衣上的樱桃。」 但现在看来,LeCun似乎对于这份强化学习的研究非常感兴趣。 毕竟,就个体差异而言,仅通过1个策略达到控制多种不同形状的智能体,需要模型具有很好的泛化能力。 来看看研究者们是怎么实现这个策略的。 整体架构原理 首先,将所有智能体放在一起进行训练。 不同的是,相比于对模型架构进行整体训练,他们将智能体拆解成多个肢体部分,分别进行训练。 这个策略中权重(πθ)被智能体中的所有肢体部分共享,也就是说,不仅对于其中一个肢体是这样

数字化孪生管理平台运用现状及技术前景

淺唱寂寞╮ 提交于 2020-08-10 12:24:14
数字孪生定义始于商品全生命周期管理方法(PLM),由美国密歇根大学专家教授迈克尔·格里夫斯于2002年明确提出。数字孪生运用最开始产生于航天航空领域,其中,美国国家航空航天局和美国空军实验室是第一批数字孪生运用企业。近些年,数字孪生运用已从航天航空领域向工业各领域全方位扩展,西门子、美国通用电气等工业大佬竞相打造出数字孪生解决方法,并颠覆式创新工业企业。据IDC预测分析,到2022年,70%的生产商将应用数字孪生技术展开流程模拟仿真和情景评定。由此可见,将来数字孪生技术有希望持续在工业界发挥作用,加速促进工业公司完成数字化转型发展。 一、工业数字孪生技术管理体系 工业数字孪生技术并不是最近问世的一项新技术,它是一系列数字化技术的集成化整合和创新性运用,技术管理体系包含了感知操纵、数据集成、模型剖析、人机交互技术四大领域和基础技术、关键技术两大种类。一方面,基础技术是搭建数字孪生数据信息闭环控制的支撑点保障,包含面向感知操纵领域的传感技术和操纵技术,面向数据集成领域的商品数据集成(PLM)和业务流程数据集成(BPM)技术,面向模型剖析领域的物理学模型、数据建模、业务流程模型技术,及其面向人机交互技术领域的AR/VR技术。另一方面,关键技术是数字孪生运用创新性的动力模块,集中在数据集成和模型剖析两个领域,包含数字进程、模型整合、模型调整、管理壳技术。 二 、数字孪生基础技术发展趋向

一线算法工程师经典面试题

半世苍凉 提交于 2020-08-10 09:39:52
一、 机器学习基础题 1、LSTM的公式 2、RNN为什么出现梯度消失及BPTT的推导 3、DQN的基本原理么 4、GBDT和随机森林有什么区别 5、GBDT的原理,如何做分类和回归 6、随机森林的随机体现在哪方面 7、Wide &Deep的原理 8、GBDT+LR是怎么做的? 9、DQN模型为什么要做经验回放 10、数据之间如果不是独立同分布的会怎样 11、AUC的原理介绍一下 12、XGBOOst和GBDT的区别。 13、强化学习和监督学习的区别 14、神经网络里面的损失函数有哪些 15、机器学习中常见的激活函数有哪些?为什么通常需要零均值? 16、DeepFM介绍 17、FM推导 18、boosting和bagging的区别? 19、bagging为什么能减小方差? 20、交叉熵损失函数,0-1分类的交叉熵损失函数的形式。什么是凸函数?0-1分类如果用平方损失为什么用交叉熵而不是平方损失? 21、L1和L2有什么区别,从数学角度解释L2为什么能提升模型的泛化能力。 22、深度学习中,L2和dropout有哪些区别? 23、L1正则化有哪些好处 24、如果有一万个地理坐标,转换成1-10000的数,可以用决策树么? 25、CART分类树和ID3以及C4.5有什么区别? 26、树集成模型有哪几种实现方式:Bagging和Boosting,回答过程中又问到了很多细节

机器学习驱动的游戏AI 应用流程指南

蓝咒 提交于 2020-08-10 06:27:32
以卡丁车游戏演示 AI 开发过程,来一场速度与激情?自己玩卡丁车的时候总是碰撞?那不如跟着课程作者一起来打造一个可以自己掌控的AI 玩家?哇~想想就很酷,那我们开始吧! #你将获得# 1、实践将机器学习 AI 应用到游戏的全过程 2、了解设计高质量机器学习 AI 的诀窍 3、课程中所用案例的全部源码 #课程简介# 在过去的一年里,深度强化学习技术从理论的不断革新走向了应用场景。在游戏中实际运用它,是我们今年系列的主题。 本期的课程里,我们将一起完成一款使用机器学习AI对手的卡丁车游戏(基于Unity官方免费美术资产)。游戏具有实际可玩性,玩家的对手完全通过机器学习过程创建。 课程主要分为四个部分: 1. 过去一年的发展与工作环境更新 2. 以卡丁车游戏演示 AI 开发过程 3. 优质 AI 的神经网络、观测与奖励设计 4. 将 AI 整合进入游戏里并进行总结 试玩了WebGL版本,不得不说,AI开得比我好 #关于作者# 张骋: 自动驾驶/AI算法工程师 2006年12月进入游戏行业,2017年转入自动驾驶领域。在国内自主品牌车企参与自动驾驶软件研发工作,目前仍为独立游戏开发者。 周蕴嘉: AI算法/工具开发工程师 更多精彩文章,可下载 【在理】APP 查看~ 来源: oschina 链接: https://my.oschina.net/u/4390329/blog/4462795

什么是马尔可夫决策过程

别来无恙 提交于 2020-08-10 05:23:24
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 关于马尔可夫决策过程的马尔可夫是什么? 马尔可夫是安德烈·马尔科夫(Andrey Markov),​​他是著名的俄罗斯数学家,以其在随机过程中的工作而闻名。 “马尔可夫”通常意味着在当前状态下,未来和过去是独立的。 建立Markovian系统的关键思想是无记忆。无记忆是系统历史不会影响当前状态的想法。用概率表示法,无记忆性转化为这种情况。考虑一系列动作产生的轨迹,我们正在寻找当前动作将带给我们的位置。长的条件概率可能看起来像: 现在如果系统是Markovian,则历史将全部包含在当前状态中。因此,我们的第一步分配要简单得多。 这一步是改变计算效率的规则。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。 马尔可夫决策过程(MDP) MDP由以下定义: 状态集$s\in S。状态是代理程序所有可能的位置。在下面的示例中,它是机器人位置。 一组动作$a\in A$。动作是代理可以采取的所有可能动作的集合。在下面的示例中,这些动作的下方是{北,东,南,西}。 转换函数T(s,a,s')。T(s,a,s')保持MDP的不确定性。给定当前位置和给定动作,T决定下一个状态出现的频率。在下面的示例中,转换函数可能是下一个状态在80%的时间内处于目前动作方向,而在其他20%的情况下偏离了90度

PageRank算法的思想

时间秒杀一切 提交于 2020-08-09 15:45:35
基于胜率矩阵的PageRank排序   在做博弈模型评估的时候,遇到一个问题是如何评价多个模型的优劣。例如我有训练好的三个围棋模型A,B,C,两两之间对打之后有一个胜负关系,如何对这三个模型进行排序呢?通常对于人类选手这种水平有波动的情形,棋类比赛通常计算选手Elo得分按分值排序,足球篮球等通过联赛积分或胜场进行排序,但对于固定不变的AI模型,我认为用类似PageRank的方式计算更方便也更加准确。   这篇文章先从问题来源讲起,再讲解PageRank算法的思想,最后编程实现排序方法并指出一些需要注意的地方。 目录 一、问题来源 二、PageRank算法 算法思想 数学原理 三、实例分析 对角线取值 构造不可约且正常返 完整代码及示例 一、问题来源   现在,深度强化学习更多的用在博弈模型的训练当中,比如围棋的AlphaZero,星际争霸的AlphaStar,DOTA的OpenAI FIVE。比如我们已经训练好了三个模型A,B,C,并且可以相互对打很多局,我们需要一个方法排出谁第一,谁第二。之前NeurIPS2019多智能体竞赛设计的排序方法就存在明显的bug,出现了A能胜过B,且A对C的胜率高于B对C的胜率,最后算出的排名却是B更靠前。主办方也承认了计算方式有缺陷并表示会在之后的比赛中修正,但是当前排名维持不变。   那为什么成熟的Elo值计算方式没有用在这类模型评估上面呢