很多领域都需要用知识和数据建立模型用于预测未来或认识过去。有些领域,知识很少,数据很多,数据容易获取,建立模型时主要用数据就能完成,比如图像识别、语音识别、垃圾识别,这主要针对具有人类日常知识的通用领域,数据标签获取难度低。有些领域,积累了很多知识,数据很少,公开的数据更少,数据获取费用很高,建模型时使用少量的数据,再上大量的知识,比如地下地质体地质建模、金融预测模型,这些针对专业性很强的领域,门槛较高,数据标签获取的难度大,费用高。目前流行的基于大数据的机器学习适合于数据密集型建模,不太适应缺少样本的专业领域的机器学习。基于符号学习的机器学习适合知识密集型建模,或许是专业领域智能建模的必有之路。
按照最早人工智能的发展设想,要达到强人工智能,类似于人类的智能,要先经过数据智能(学习),再经过符号(智能)学习,最后达到生物(人)智能。基于数据的学习计算量大,基于符号的机器学习计算量小,更符合人类的学习过程。而且人类知识也多以符号的形式存储和表达。因此,从这个角度说,目前处于人工智能的初级阶段。
钻井资料少、地震资料分辨率地,建立模型时往往利用大量的经验知识。目前流行的机器学习方法,主要基于统计学方法,需要用到大量数据,从数据中重建专家的经验知识。与传统的建模方法,即业务专家指导的数据空间插值方法不同。当不存在大量样本可以学习的情况下,甚至小样本也不存在的情况下,如何让业务领域的专家知识约束机器学习非常重要,这应该需要采用符号学习的方法,通常称为知识表示(knowledge representation)。
要进行符号学习,那些专家关于地质的地质表示就非常重要,知识一般通过符号表示。实际上,基于符号的机器学习比基于数据统计的机器学习发展的更早,只是一直没有取得突破,后者在互联网支撑的大数据时代获得了突飞猛进的发展。传统上,基于符号的学习要把人类的知识符号化,再把这些具有一定关系的符号通过编码的方式输入给计算机,使计算机具有特定的智能特征,这条路有很多人尝试,没有走通,但仍有少量人在坚持。或许,基于数据统计和符号关系的方法相结合才是正道。人类知识的符号化表示,自动的表示,应该是人工智能道路上不可或缺的一部。分析人类专家如何进行地质建模有利于地质建模领域的符号化机器学习。
人先经过多年学习拥有地质建模的相关知识,再拿到相关数据,才能建立合理的地质模型。这些知识包含很多,知识的多少很大程度上决定了模型的准确性,因为,当数据相同时,不同人因为知识量的不同所建立的模型会差别很大。先知道这些知识是什么,数据是什么,模型是什么,然后才能决定如何进行地质建模知识的符号化,要对那些知识进行符号化。
数据好理解,主要是野外露头观测、钻井、测井、录井、地震、岩石分析化验、动态监测、生产数据等。知识比较难理解,地质建模的专家一般都学习了地史学、古生物学、构造地质学、矿物学、岩石学、沉积岩石学、沉积学、大学数学、大学化学、大学物理、数值计算、统计学、开发地质学等专业知识。但什么是知识呢?按照通常的定义,知识人类通过实践获取的对事物规律的认识。知识具有相对正确性,可表示性&可利用性,不确定性。知识的分类:常识性知识、事实性知识、确定性知识、逻辑性知识等。有很多知识是描述性的文字,如何把描述性的知识让计算机能够识别和认识是符号机器学习的关键。这涉及要知识的表示与重建。
关于知识表示已经有很长的研究历史。知识表示是对知识的定量化描述,一种计算机可以接受的用于描述知识的数据结构。早期的知识表示方法有一阶谓词逻辑、产生式系统、框架表示方法、语义网络、逻辑程序、缺省逻辑和模态逻辑等。人们所熟悉的知识图谱就是大规模的语义网络的知识表示。常规的知识表示是人工的知识表示,是小规模的知识表示,需要花费巨大的人力物力,比如词林辞海是上万名专家花了10多年编撰而成的。大规模的知识表示是自动构建的,比如知识图谱,是在互联网和大数据的背景自动构造语义网络,比如DBpedia就是基于维基百科网站资料构建的知识图谱。
是否可以从公开的书籍和文献构建地质建模领域的后其他某个特定领域的知识呢。应该是可以的。因为它不需要大量的样本,只需要把已经有的知识抽屉出来,按照计算机能理解的方式存储,用于后续计算和推理。假设,基于大量文字和图片材料的学习,获取了这个领域比较完备的知识,具备了专家级别的专业知识,把它假设为一个机器人,问题什么专业问题都能准确回答。但是,如何把这些知识应用实际的地质建模仍是个问题。不过,可以肯定的是,真正把这样基于符号的人工智能用于地质建模,必要有大量的实际数据作为验证。
目前有很多人都在关注这个领域,以上是我最近的一些思考,欢迎一起探讨。
来源:https://blog.csdn.net/yanfeng1022/article/details/100000415