符号主义人工智能经历过古典时期的专家系统阶段, 中期的知识图谱阶段, 和近期深度学习和符号主义的再次联姻。 那么一个很重要的问题是符号主义为什么会复兴,它对当下的机器学习又有何意义?
参考阅读:
Reconciling deep learning with symbolic artificial intelligence: representing objects and relations www.sciencedirect.com首先, 当下的深度学习有三个最主要的问题,很低的数据使用效率, 泛化能力, 可解释性,都可以从符号主义得到极大帮助。 这一点也不难理解, 所谓符号,多数指我们语言中那些经常被使用的抽象概念,这些概念再不同的任务和环境中被广泛使用组成新的概念,比如红色,圆形等,如果能够在不同任务中学习到这些最基本的元素, 那么无疑将极大的改善数据使用效率和泛化能力。同时, 从视频,声音等信息中提取出的这种符号,几乎一定是和我们的自然语言有所对应,和我们的认知概念有所对应,因此,提取这些符号将极大助力模型的可解释性。从这两个角度看, 符号的确可以解决深度学习的几个根本问题。
更加重要的是,符号的使用和我们的推理认知能力极为相关,这也是为什么在第一代的人工智能时代人们如此重视符号, 因为它是逻辑思维的载体,有了符号我们可以在符号基础上罗列各种运算,进行关系预测和推理等, 对应我们日常思维中的归纳演绎等过程。
从某种意义上看,基于符号的人工智能模拟了人类的思维, 而深度学习则模拟了人类思维的硬件。 这两种一定应该是相通的。 然而今天看来它们却成为了独立的两个方法, 这是为什么呢?
深度学习的本质是表征学习。 站在信息论的角度,它把一定的视觉听觉信息表示成高维向量,在经过若干次线性和非线性的变化抽调和任务信息无关的细节,压缩成为和任务最相关的信息表征。那么我们不禁要问这些留下的信息表征是否就是我们要的符号呢? 答案是no。即使经过巨大的CNN我们得到猫或狗的表征,但是从没有一个研究指出这些表征里哪些神经元包含猫的形状,哪些神经元包含猫的颜色,事实上每个细胞都或多或少的表达颜色或形状,也就是一种混合的信息表达, 从神经编码的角度看这叫分布表征(distributed representation), 或混合编码(mix selectivity),从信息表征的角度看这是Entangled representation,或者说耦合的表征。 这种特性是使得每个神经元可以高效的被利用(表征不同的特征),从而用有限的细胞数去区分更多的模式;但是也使得深度网络变得不可解释, 泛化性差, 鲁棒性差。 而人的神经网络经过进化和连续学习,既有深度学习这种混合编码特性,又有低维解耦的符号,这点是目前深度学习望尘莫及的。
那么有什么方法可以从深度学习里得到符合人类认知的符号系统呢? 一种方法比较直接, 可以直接把深度学习的output设计成人类已知的符号比如视觉系统里的符号,颜色等,
我觉得这里有两个关键点,一个是低维,一个是解耦。 所谓低维, 是说这个符号不可以太多, 所谓解耦, 是说它们要尽量独立的。 低维因为可以大量复用的符号本来就没多少, 解耦因为这些符号如果是可解释的且重要的,就一定要够成一个不依赖其它符号存在的独立因子。
那么在深度学习里加入符号主义的精髓? 我理解的符号主义的核心, 一是哪些是构成这个世界的正确符号, 二是该如何确定符号与符号间的关联,三是如何通过符号组合成不同的模型或场景表示。
深度学习的power在于可以通过学习的方法解决以前计算不能得到的目标, 比如这里的第一步,符号的提取。 这就必须要提自编码器。自编码器宛如一个信息瓶颈,通过若干层非线性变化,把高维的时空向量压缩成几个低维变量z(latent variable), 然后再通过一个类似解码器的部分还原回原先的高维时间和空间序列, 通过这个无监督的而学习过程,实现信息的压缩(z代表真实信息的编码)。 普通的自编码器能够实现这个高维到低维的转化但不一定能够解耦。而变分自编码器(VAE)就不同了, 它假定中间压缩得到的z变量要符合一个多元高斯的先验分布, 这样的分布本质就假定了z变量不同维度间的独立性,也就是不同因子的解耦,加上z的维度本身就要求低, 它极有可能就是我们所要的符号(进化生成的符号就是在信息论的角度就是最小冗余的编码)。 那么z是否可以真正学到抽象独立的符号呢? 这点从文章下图的实验中可以略知一二。 在这个图中,我们尽可能的保持其它变量不变,而只改变变分自编码器中的某个独立维度, 这时我们发现当改变变分自编码器学到的表示里的某个维度数字大小发生变化,另一个维度则是手写数字的风格发生变化,显然数字大小和手写数字风格是极好理解的人类符号, 也就是非常具有鲁棒性的迁移特征,这样两个维度z某种程度构成书写数字的一个解耦的低维的独立因子图, 也就是这个任务的符号表示系统(联系因果学习)。
另一个基于无监督学习得到这种低维解耦表示的方法被称为稀疏编码, 这个理论旨在直接从数据里学习到一个字典,字典里的常用词可以最好的构建真实世界且字典最节约, 事实上稀疏编码的理论就是我们大脑处理信息的重要理论基石。
还有一类值得关注的从深度学习里得到可解释的低维符号的方法来自RNN(LSTM),这类含时间的神经网络可以从数据里学习一个原系统的动力学模型,而动力学系统内的主要变量可能就是我们需要的符号。 我之前的论文用预训练的RNN进行导航,就是引导出这种低维的动力系统表示。
符号模仿的第二部涉及符号关系的建模:我们需要找到符号和符号之间的联系, 从而进一步释放符号主义的真正能力,进行关系建模和推理。 实现这一步的方法也可以使用简单暴力的深度学习,这里有两类框架已经极大的接近了这一目的,一个是图关系网络, 一个是基于自注意力的transformer。
我们来看两个风格的区别和联系:
对于关系网络, 本质上我们采用的手段是学习不同符号两两相互作用的表征, 这个工作可以暴力的使用MLP来完成, 首先我们把不同符号间的关系表示成为两两一对的矩阵(全连接图), 然后我们假定存在一个巨大的MLP,只要输入两个符号的特征,就可以得到其相互关系的表征,输出相互连接。 这样的系统本质假定了关系的类型是
这种假定特别适用于那些本来相互作用的形式就近似这种两两相互作用的全连接图的系统, 比如物理方程式, 两两相互作用力的表达式正是这样的形式。
另一类关系表达方法更加类似于自注意力网络,事实上这类网络就是各类transformer, bert, gpt等的始祖。 它得到的一个形式是:
注意这里的q, k, g之间的关系是矩阵乘法,通过query q 和 key k 的乘机我们会得到一个两两相互关系的关联矩阵。 犹如“注意力" 的字面含义, 它的本质代表的是已知内容x, 那么我们需要关注哪些和x相关的内容, 或者可以理解为通过x在整个数据提取需要的信息 ,如果提取,是由q,k的形式得到的,这里假定了这种关系可以表示成矩阵乘法。 我们注意到本质上它和图关系网络是相通的,也是为什么transformer学到的其实是一个巨大的以单词为节点,以单词间的关系为边的图网络,它对一段文字的理解,也就是把文字转化为了一个单词连接图。
从这点上看, 图关系网络和transformer都在描述同一个符号关系范式 , 那就是相互作用。 通过这个范式,单一符号组合成相互作用网络,从单元的特性到网络的整体属性(对应复杂系统涌现的概念)就是一个推理的过程。 比如对文章进行分类, 或者对物理系统的能量或动量进行计算,对物理系统的未来进行预测等。
最后看第三点可组合性, 正是因为符号可以通过不同的关系建模组成不同的整体, 它才具有它巨大的power, 也就是用少量的符号组成无限的世界, 高维的世界。 这样的组合关系可以是形式逻辑比如and, or, 也可以是计算机经典的树结构, 也可以是刚刚说的两两相互作用网络。 符号间的组合关系本身事实上也是可以学习的, 比如当下一些计算机视觉的工作会强制深度网络学习这样一个可组合的表示, 然后通过图像引擎渲染, 得到一个真实的图像。 这样我们就不仅具有图像识别的能力,而是真正可以随心所欲的操控图像生成,比如把一张图像里的狗变成灰狼。
几个值得关注的和符号相关的方向:
1, 因果推理
Judea Pearl 的三级因果推理框架强调了因果问题需要解决关联, 干预和反事实推理三个层次的问题, 而在三级因果框架的中心,是著名的结构因果模型。 这个模型的载体正是一个符号连接的图,不同的因子对应不同的符号, 这无疑说明符号的提取就是因果推理的基础。 反过来, 因果论也给符号的提取提供理论依据, 因为符号本身对独立性的要求, 就暗示了它与独立 因果假设的联系。
2, 认知框架
认知框架试图模仿人脑处理信息和完成多任务的原理绘制一个机器处理相应任务的蓝图,并用计算机实现, 自上世纪八十年代以来, 不同的派别试图改进和实现这个蓝图, 把它从计算机变得更像脑。 认知框架本身包含感知, 行为, 记忆, 推理, 元认知等不同模块。
事实上这类大脑模拟的核心就是一个从符号的提取,到推理, 到计划和行为的总体框架。 感知对应符号的提取, 推理对应符号间关系的求解, 计划和行为则对用利用这种符号关系图(世界模型)进行规划的能力。
如此看, 我们对大脑和认知科学的理解可以直接放到这个符号推理的系统里辅助我们设计实现这个系统
一些经典的符号推理框架实现:
1,
这个框架
刚刚说的这绝非相互作用的唯一范式, 比如符号和符号组成层级化的语法树结构,或者地图结构,用于强化学习和导航等任务。
如果我们得到的抽象符号是state-抽象空间的状态, 那么在其上进行的规划就是导航。
本质上,符号主义的精髓在于符号的提取,和符号到实体的variable binding过程,就如同我们的编程语言一样。
相关阅读:
许铁-巡洋舰科技:如何让机器学习关系推测 zhuanlan.zhihu.com 许铁-巡洋舰科技:AI的下个十年 zhuanlan.zhihu.com 许铁-巡洋舰科技:通常神经场景预测看生成式模型的潜力 zhuanlan.zhihu.com来源:oschina
链接:https://my.oschina.net/u/4312361/blog/4469501