强化学习

如何让游戏里的 NPC 拥有自己的意志?

只愿长相守 提交于 2020-10-25 16:32:15
让 NPC 有自己的意志 除了攻击,就是等待,游戏里的 NPC 总是直来直去没头脑。 想让 NPC 有自己的意志,通常有以下三种方式: 第一种,行为树(Behavior Tree) 。 行为树是一大串如枝叶般扩散的指令,子结点包含了角色的执行前提和具体行为。当 NPC 需要行动时,就从根节点开始向下进行搜索,最终确定的子节点将是 NPC 做出的行为。 第二种,有限状态机(Finite-State Machine, FSM) 。 有限状态机像一个更松散的行为树,由有限个状态和执行条件组成。当 NPC 遭遇一定的条件,就会从当前状态转换到对应的另一种状态。 第三种,人工智能,特别是强化学习(Reinforcement Learning,RL) 。 强化学习是让 NPC 随意做出任何行为,如果做出的行为「正确」会收到奖励,反之受到惩罚,通过不断的反馈让 NPC 学习在不同情境下该选择的行为。 行为树逻辑明确,容易修改;有限状态机清晰灵活,但同时只能执行一个状态;强化学习能适应更复杂的游戏环境,还能互相协作。 高级算法工程师,需要具备什么能力 不同算法适用的场景不同,君不见如google,Amazon,facebook,百度,字节跳动等一线大公司,笔试面试都是非常注重算法的。 在这些大公司看来, 算法能力的高低,是一个人工智能从业人员能力高低的标杆 。国内从事算法工作的工程师不少

ACL2020|使用强化学习为机器翻译生成对抗样本

笑着哭i 提交于 2020-10-14 03:00:36
     本文介绍的是 ACL 2020 论文《 A Reinforced Generation of Adversarial Examples for Neural Machine Translation》,论文作者来自南京大学、腾讯。   作者 | 邹 威   编辑 | 丛 末      论文地址:https://arxiv.org/pdf/1911.03677.pdf    1    背景介绍   对抗样本(adversarial example)是近年来用于探索深度学习系统鲁棒性的重要工具。对抗样本通过对普通测试输入进行微小扰动(以不改变人期望输出为准),并以劣化系统输出为目标得到。   当前神经机器翻译(neural machine translation, NMT)系统在实用场合常常会出现用户难以预计的错误,这些错误甚至存在消极的社会影响。而基于用户反馈进行的维护通常也是在这些错误产生后才能进行,开发者更希望在上线前就能进行大量的测试进行预防性维护。直接的鲁棒性测试通常需要专家编制大量对应的测试数据并进行标注,但对于机器翻译这类任务而言成本过高。因此我们可以通过利用已有平行句对的输入产生对抗样本的方式,沿用原本的输出,从而快速得到大量可用于鲁棒分析的平行数据。      图1: 对人名的变动影响了翻译的预期结果(此样例当前已被修复)    2    文本对抗样本及难点

清华张钹院士专刊文章:迈向第三代人工智能(全文收录)

随声附和 提交于 2020-10-12 11:17:37
来源:清华大学人工智能研究院 作者:张钹、朱军、苏航 在这篇评述文章中,清华大学人工智能研究院院长、中国科学院院士张钹教授阐述了自己对于「第三代人工智能」的看法。他认为,第三代 AI 发展的思路是把第一代的知识驱动和第二代的数据驱动结合起来,通过利用知识、数据、算法和算力等 4 个要素,构造更强大的 AI,目前存在双空间模型与单一空间模型两个方案。本文对这篇评述进行了全文刊载。 全文链接:http://scis.scichina.com/cn/2020/SSI-2020-0204.pdf 人工智能(ArtificialIntelligence,简称 AI)在 60 多年的发展历史中,一直存在两个相互竞争的范式,即符号主义与连接主义(或称亚符号主义)。符号主义(即第一代人工智能)到上个世纪八十年代之前一直主导着 AI 的发展,而连接主义(即第二代人工智能)从上个世纪九十年代逐步发展,到本世纪初进入高潮,大有替代符号主义之势。但是今天看来,这两种范式只是从不同的侧面模拟人类的心智 (或大脑),具有各自的片面性,不可能触及人类真正的智能。 清华大学人工智能研究院院长、中国科学院院士张钹教授在「纪念《中国科学》创刊 70 周年专刊」上发表署名文章,首次全面阐述第三代人工智能的理念,提出第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能, 同时利用知识、数据

学术分享丨柔软的灵巧手

天大地大妈咪最大 提交于 2020-10-09 18:53:50
  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《柔软的灵巧手》。   柔软的人手,手指关节弯曲范围更大,柔韧性更好也更加灵活。众所周知钢琴家的手就较为柔软。近几年由于软体材料的发展,灵巧手也开始柔软起来。例如柏林工业大学研制的软体、欠驱动、柔性多指灵巧手、康奈尔大学研制的软体多指灵巧手、北京航空航天大学研制的软体多指灵巧手,以及清华大学孙富春教授团队最新研制的变刚度柔性灵巧手等等。下面我们就从设计、制备及驱动几个方面来一起了解柔软的灵巧手。 1. 制备的新方法   近年来随着软体机器人研究的进步和新的制造方法的发展,人与机器人的交互方式也越来越安全,并为该技术开辟了新的应用空间。   现在已经可以直接打印出具有气密复杂结构和硬部件的软体机器人。[1] 选择了使用接触起电传感器,这种类型的组件具有高拉伸性和灵敏度,可以让机器人手指主动感知和实时感知其变形或反应。在此过程中使用3D打印也使团队能够使用多种材料,这样大大缩短了打印过程所需的时间。通过接触起电曲率传感器和可拉伸电极的组合,研究人员开发的S-TECS传感器成功地避免了与以往项目相同的集成复杂性。     

重磅!2020北京智源大会完整日程公布,4天19场高端AI论坛邀你参加

折月煮酒 提交于 2020-10-07 06:59:42
   与6位图灵奖得主和100多位专家    共同探讨人工智能的下一个十年   长按图片或点击阅读原文,内行盛会,首次免费注册:https://2020.baai.ac.cn    北京智源大会倒计时:6天    2020年6月21-24日 , 第二届北京智源大会 ( 官网:https://2020.baai.ac.cn )将带领我们回顾过去,展望未来,深入系统探讨「 人工智能的下一个十年 」。   本次大会群英荟萃,嘉宾不仅包括6位来自美国、加拿大和法国的 图灵奖得主 : Geoffrey Hinton 、 Alan Kay 、 Judea Pearl 、 Manuel Blum 、 Joseph Sifakis 、 John Hopcroft (智源学术顾问委员会委员),更有 上百位人工智能领袖 。居高屋之上以建瓴水——人工智能各领域顶尖学者将围炉而坐,共谈国际人工智能发展前沿问题。    大会日程共有4天,涵盖19个分论坛:    6月21日: 开幕式和全体大会,人工智能的数理基础专题论坛,智能体系架构与芯片专题论坛,AI科技女性专题论坛,AI对战《星际争霸》职业选手挑战赛,晚间全体大会;    6月22日: 全体大会,语音和自然语言处理专题论坛,认知神经基础专题论坛,机器感知专题论坛,人工智能伦理、治理与可持续发展专题论坛,晚间全体大会;    6月23日:

最新进展概述:澄清式提问辅助理解信息检索中的用户意图

≡放荡痞女 提交于 2020-10-06 10:07:48
©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 用户使用搜索引擎的过程中,通常很难用单一的查询表达复杂的信息需求。在真实应用的过程中,用户需要根据当前搜索引擎的展示结果反复修改查询词。这一过程极大地增加了用户搜索的负担,影响了用户的搜索体验。 近期,澄清式提问(Asking Clarifying Questions)的提出为该问题的解决提供了新的思路。该方法根据用户给出的查询提出相关问题,从而更好地理解用户意图,展示更符合用户需求的排序结果,提高用户对搜索过程的满意度。本文将概述该方向的一些最新研究进展。 从任务提出到简单实现 论文标题: Asking Clarifying Questions in Open-Domain Information-Seeking Conversations 论文来源: SIGIR 2019 论文链接: https://arxiv.org/abs/1907.06554 本文发表于 SIGIR 2019,该论文首先提出了“通过澄清式提问理解信息检索中的用户意图”的任务;然后针对已有的查询,根据搜索引擎的查询词建议或已知的不同用户意图,人工构造澄清式问题和答案;在此基础上提出了根据查询和历史问答记录检索并选择当前问题的深度学习模型 BERT-LeaQuR 和 NeuQS。 1.1 任务流程

腾讯IEG开源AI SDK:自动化测试吃鸡、MOBA类游戏

一世执手 提交于 2020-10-02 20:46:21
SDK 还能自动玩游戏?这个 SDK 有点「酷」。 近日,腾讯互娱(IEG)开源了一款名为 GAME AI SDK 的自动化测试平台,该平台封装好了多种工具供开发者使用,目前支持的游戏类型有跑酷类、吃鸡类、射击类、MOBA 类等。 项目地址:https://github.com/Tencent/GameAISDK 平台内置的「天天酷跑」示例。左图为未训练随机做动作,右图是训练好的效果。 SDK(软件开发工具包)一般是软件工程师为特定的软件包、软件框架、硬件平台、操作系统等创建应用软件时可使用的开发工具集合。 似乎有些抽象。在实际项目中,我们只需记住,SDK 是手游渠道提供的,集成了用户登录、社区功能、社交分享功能、数据后台统计功能的功能模块。接入 SDK 后,游戏厂商和渠道都要对 SDK 包进行测试,测试通过才能上线。 看了上文展示的酷跑动图效果,是不是想上手试试吃鸡类、射击类的游戏体验呢?这个开源项目可以满足你的需求,它支持使用者进行项目接入以及二次开发。 AI SDK 平台 AI SDK 平台是一个基于游戏图像来开发游戏 AI 的开源工具包。工具包主要完成了 UI 检测、游戏内元素识别、AI 算法(DQN、IM)等功能。开发者可以基于此工具包完成游戏自动化测试。 目前该平台已支持的游戏类型有跑酷类、吃鸡类、射击类、MOBA 类等。特定场景下它可以代替人工进行游戏场景的自动化

基于强化学习的期权量化交易回测系统5

拜拜、爱过 提交于 2020-10-02 13:45:34
我们现在已经可以在主循环中获取行情数据,并且传给了Agent类。接下来Agent类会调用策略类,由于决定采取的行动。在策略类做决策时,需要参考用户仓位Position信息,还有就是权利金、保证金、手续费等计算,在本篇博文中将对这些内容进行介绍。 交易费用计算 在进行期权交易时,多头买入认购和认沽期权时,需要向卖出方支付权利金,而为了保证卖方可以履约,要向卖方收取保证金。同时,券商还会收取手续费和税费,手续费和税费可能单边收取也可能双边收取,情况比较复杂。因此我们采用Commission类来进行管理。 我们首先来定义费用类和权利金的计算方法: class Commission ( object ) : def __init__ ( self ) : self . refl = 'apps.sop.exchange.Commission' def calculate_royalty ( self , price , quant ) : ''' 计算期权交易的权利金,权利金直接由买方转给卖方 参数: price 合约价格 quant 多少手,1手为10000份 ''' return price * quant * SopConfig . contract_unit # 单元测试用例类定义 class TCommission ( unittest . TestCase ) : @

腾讯IEG开源AI SDK:自动化测试吃鸡、MOBA类游戏

青春壹個敷衍的年華 提交于 2020-10-01 06:54:33
  机器之心报道    SDK 还能自动玩游戏?这个 SDK 有点「酷」。      近日,腾讯互娱(IEG)开源了一款名为 GAME AI SDK 的自动化测试平台,该平台封装好了多种工具供开发者使用,目前支持的游戏类型有跑酷类、吃鸡类、射击类、MOBA 类等。   项目地址:https://github.com/Tencent/GameAISDK      平台内置的「天天酷跑」示例。左图为未训练随机做动作,右图是训练好的效果。   SDK(软件开发工具包)一般是软件工程师为特定的软件包、软件框架、硬件平台、操作系统等创建应用软件时可使用的开发工具集合。   似乎有些抽象。在实际项目中,我们只需记住,SDK 是手游渠道提供的,集成了用户登录、社区功能、社交分享功能、数据后台统计功能的功能模块。接入 SDK 后,游戏厂商和渠道都要对 SDK 包进行测试,测试通过才能上线。   看了上文展示的酷跑动图效果,是不是想上手试试吃鸡类、射击类的游戏体验呢?这个开源项目可以满足你的需求,它支持使用者进行项目接入以及二次开发。    AI SDK 平台   AI SDK 平台是一个基于游戏图像来开发游戏 AI 的开源工具包。工具包主要完成了 UI 检测、游戏内元素识别、AI 算法(DQN、IM)等功能。开发者可以基于此工具包完成游戏自动化测试。   目前该平台已支持的游戏类型有跑酷类、吃鸡类

强化学习(二)马尔科夫决策过程(MDP)

烂漫一生 提交于 2020-10-01 03:40:44
    在 强化学习(一)模型基础 中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。     MDP这一篇对应Sutton书的第三章和UCL强化学习课程的第二讲。 1. 强化学习引入MDP的原因     强化学习的8个要素我们在第一节已经讲了。其中的第七个是环境的状态转化模型,它可以表示为一个概率模型,即在状态$s$ 下采取动作$a$ ,转到下一个状态$s'$ 的概率,表示为$P_{ss'}^a$。     如果按照真实的环境转化过程看,转化到下一个状态$s'$ 的概率既与上一个状态$s$有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态$s'$ 的概率仅与上一个状态$s$有关,与之前的状态无关。用公式表示就是:$$P_{ss'}^a = \mathbb{E}(S_{t+1}=s'|S_t=s, A_t=a)$$     对于马尔科夫性本身,我之前讲过的 隐马尔科夫模型HMM(一)HMM模型 ,