今年ICLR2020顶会有一个特别有意思的专题, 叫认知科学与AI顶会专题。 在当下深度学习愈发进入瓶颈期的时代,认知科学和AI的交叉成为大势所趋。 一方面我们希望把认知科学或心理学的知识用起来直接指导AI,另一方面我们希望用AI来理解我们的大脑和认知规律,最终进一步改善AI, 那么ICLR的这个workshop在这两个方面各有哪些建树?
1, 用AI来理解我们的大脑
Bridging AI and Cognitive Science (BAICS) baicsworkshop.github.io用深度学习模型来理解视皮层对信息的处理一直是两个领域交叉的热点, 因为视觉处理是2010深度学习革命的最大成者, 而视皮层是神经科学了解最多的区域, 两者都有充分的理由认为可以反哺对方。
From heuristic to optimal models in naturalistic visual search
根据一些研究,人眼的精度大约相当于一个5.76亿像素的数码相机, 这相比任何当下的数码相机都很可怕。但事实上这个数字对我们有所误导,因为事实上我们只有人眼的极小中心区域有很高精度, fovea是在积极工作的(这部分只相当于500到1500万像素), 而人之所以能够得到非常清晰的视觉图像,是因为人眼通过眼动把很多微小区域拼接起来理解一个整个的场景,为什么这样做是为了有效利用认知资源先抽取最核心的信息用低精度处理边缘信息。 这和当下很多一次并行处理信息的视觉模型区别很大,人的视觉感知说到底是一个权衡精度与成本的串行模型, 为了模仿这个原理, 本文介绍了使用过一个马克科夫决策框架来表达这个原理。在对一个场景的认知任务里,agent需要选择一系列的视觉目标gaze, 通过一定方法更新自己对整个场景的理解, 最终得到模型的预测。
Convolutional Neural Networks as a Model of Visual Activity in The Brain: Greater Contribution of Architecture Than Learned Weights
这个文章试图分析当下的CNN网络是否在接近人类视皮层的结构,其结果是对于AlexNet这样的网络,事实上随机的网络比训练好的网络结构更加接近人脑。 有趣的是其实验方法, 因为人脑利用的是MRI的磁共振数据, 当然不能直接和CNN的激活函数对比。我们把这个问题转化一下, 虽然人脑和神经网络无法直接比较,但是我们却可以比较它们对应同一对象的输出,来分析输出之间的关系。
当一个网络需要看大量不同的视觉物体, 那么不同物体间引起网络反应的相似度就反应了其结构本质。 这是一种度量学习的思维, 如果你的脑子里香蕉和苹果的反应比较接近, 而另一个人脑子里苹果和皮球比较接近,那么显然这两种人的脑网络可能有区别。 我们让神经网络和大脑同时注意一组物体, 然后通过对这组物体在CNN和大脑引发的不同反应进行相似度运算,最后得到结果。
这篇文章的第一个重要发现是, 深度学习网络和大脑视皮层IT区的相似度没有达到noise ceiling指示的区域(只有超过这个指示, 两者才具有显著的相似性), 说明深度学习离真正接近人类认知还相差较远。 而随机未训练的网络相比训练好的网络更接近人脑,这似乎在告诉我们其实我们大脑的学习机制与通过finetune得到的深度网络区别较大。
2, 用认知科学的常识改善AI
NLP作品 :
PUBLIC SELF-CONSCIOUSNESS FOR ENDOWING CONSISTENT PERSONA TO DIALOGUE AGENTS
Although consistency has been a long-standing issue in dialogue agents, we show best-performing persona-conditioned generative models still suffer from high insensitivity to contradiction. Current approaches for improving consistency rely on supervised external models and labels which are demanding. Inspired by social cognition and pragmatics, we model public self-consciousness in dialogue agents through an imaginary listener to improve consistency.
这篇文章里,作者试图解决智能对话系统的一个很根本的问题,就是智能对话机器人说出来的内容似是而非,看似在答话其实并不一致。 为了让机器具有和人类更接近的对话能力,这篇文章引入了类似于“社交自我意识” 的概念,通过一个虚拟的倾听者,预测对话者的个性,然后从这个个性出发最有可能接入的下一句 。
这个模型有点类似于一个不停迭代的EM算法, 倾听者预测发言者的个性(persona), 发言者把对话的历史结合发言者的预测生成可能说的下一句,以此不停迭代。从数学的角度, 这就是一个贝叶斯定律在nlp的应用, 把人的心理属性,通过贝叶斯的先验后验, 嵌入到了对话机器人里,引入的倾听者犹如我们大脑里时刻倾听和分析自己的脑区。
强化学习与探索 :
Exploring Exploration: Comparing Children with RL agents in Unified Environments
一个RL和认知科学非常前沿的研究是让儿童和强化学习agent完成类似的任务, 比如DQN所玩的3D射击游戏。 而不同年龄的儿童会展示出不同的策略, 相比强化学习agent, 儿童具有更强的探索本性, 和复杂的探索策略, 喜好探讨世界的因果, 这种探索性并非仅仅为单个游戏的成绩服务。 让儿童和强化学习agent直接玩一个游戏, 以此启发强化学习是一个有趣的方向。
直接模拟大脑工作原理改善AI
像DQN这样的强化学习模型依赖大量的存储数据,因为在训练的时候我们要把之前的和当下的数据混合在一个batch里反复训练来避免迅速的遗忘。 我们想象一下这需要把整个游戏的经历都存储在内存或硬盘等待后续读取。 如果是Atari这种小游戏, 这是可以做到的,当游戏变得足够大呢? 变成真实生活呢? 你把所有经历过的事情都高清存储,估计脑子会爆炸吧 。 那么生物是怎么解决这个问题的呢? 事实上我们并不擅长机械的存储记忆, 但是我们擅长想象和重构。 思考一下你看过一个难忘的电影后, 你会在你的梦境里合成你自己的版本。 这体现了人认知的本质, 我们通过训练一个生成模型, 把过去的经历浓缩到我们的这个能够幻想的生成器里 ,这就是我们的世界模型,是我们能思考和学习的基础。 这部分功能,通常认为是海马体提供的,它擅长进行replay和preplay, 通过生成未来可能发生的事情(一个新的事件序列)使得我们能够快速的强化学习且不遗忘过去。我们模仿这个原理, 构建了一个同时可以作生成器和判别器的反馈网络, 一边做图像分类,一边可以生成同类图像的表示, 这样生成器和判别器一起训练, 缓解灾难遗忘问题。
BRAIN-LIKE REPLAY FOR CONTINUAL LEARNING WITH ARTIFICIAL NEURAL NETWORKS
模型结构的原理:虚拟的皮层层和海马
模型的具体实现:
预测编码:
自从深度学习大牛Lecun力挺自监督学习, 基于预测模型的AI开始兴起,人们可能不知道这些原理背后的生物学机理是Karl Friston提出的自由能理论, 认为一切生物的本性在于减少自由能, 也就是使得自身与外界的互信息最高,减少系统内部相对外部的信息熵。 今年的ICLR workshop有好几篇基于这个主题的文章。
REINFORCEMENT LEARNING THROUGH ACTIVE INFERENCE
这篇可以看作一个框架性的文章,把自由能最小原理和强化学习原理完美的结合。 首先, 所谓active inference 不同于被动的inference或者以奖励为核心的强化学习,它的目标既不是最小化预测误差也不是最大化奖励,而是最大化自己所希望状态的证据。 什么意思,就是说agent需要有两个预测模型,一个是根据当下的状态,自己得到奖励的概率, 这个函数是有偏置的,给与那些有利的状态(奖励状态)更大的权重。 另一方面,agent还有一个根据当下对的状态和策略预测某种未来状态发生概率的世界模型。
我们先来看看自由能的公式, 即agent 的信仰模型和有偏的世界模型的KL散度的公式
然后,我们用贝叶斯公式展开联合概率得到, 这就自然而然的包含了两项, 一项对应强化学习的探索,一项对应对奖励的发现。 这个公式,将探索与发现完美的融合在一起。
DEEP ACTIVE INFERENCE FOR AUTONOMOUS ROBOT NAVIGATION
这一篇是对上述active inference原理在机器人领域的直接应用
理念性的文章:
LEVELS OF ANALYSIS FOR MACHINE LEARNING
这篇文章注重神经科学到机器学习的语言对接。在神经科学里, 最重要的语言体系当属Mars 的三个层次, 也就是计算层, 算法层,实现层。 对同一个方法, 计算层我们通常从信息处理的角度描述, 算法层我们通常说的是具体的实现方法, 而实现层才开始涉及工具- 比如卷积神经网络。
这个语言体系, 先前没有被很好的嫁接到机器学习里,事实上, 它对于机器学习算法有很好的描述潜力, 比如DQN算法, 在Marrs的语言系统里, 它在计算层次的对应是bellman equation这种动态优化问题,在算法层次是off-line Q learning 这种经典强化学习算法, 在实现层次则是各种神经网络。从某种角度上, 采取相同语言体系会使两个领域的人更容易沟通,也容易启发出跨领域的作品。
更多精彩文章请见
来源:oschina
链接:https://my.oschina.net/u/4301811/blog/4270419