match函数

4.文本规范化处理

▼魔方 西西 提交于 2019-11-27 08:16:34
4.文本规范化处理 下文中将定义一个规范化模块以处理文本文档规范化,并在后面建立分类器时使用这个处理模块。尽管有许多可用的技术,但是将坚持简化与直接原则,以便于更容易地一步步参照这里的实现。将在模块中实现和使用下面的规范化技术。 扩展缩写词。 通过词形还原实现文本处理规范化。 去除特殊字符与符号。 去停用词。 不在更多的关注拼写纠正及其他高级的技术,但如果你感兴趣,可以集成这些之前讲述过的内容。首先从载入一些依赖的模块开始。来实现缩写词扩展。 contraction.py 折叠源码 # -*- coding: utf-8 -*- """ Created on Mon Aug 01 01:11:02 2016 @author: DIP """ CONTRACTION_MAP = { "ain't" : "is not" , "aren't" : "are not" , "can't" : "cannot" , "can't've" : "cannot have" , "'cause" : "because" , "could've" : "could have" , "couldn't" : "could not" , "couldn't've" : "could not have" , "didn't" : "did not" , "doesn't" : "does not" ,

Neo4j 第三篇:Cypher查询入门

馋奶兔 提交于 2019-11-27 05:02:15
Neo4j使用Cypher查询图形数据,Cypher是描述性的图形查询语言,语法简单,功能强大,由于Neo4j在图形数据库家族中处于绝对领先的地位,拥有众多的用户基数,使得Cypher成为图形查询语言的事实上的标准。本文作为入门级的教程,我不会试图分析Cypher语言的全部内容,本文的目标是循序渐进地使用Cypher语言执行简单的CRUD操作,为了便于演示,本文在Neo4j Browser中执行Cypher示例代码。以下图形包含三个节点和两个关系,本文会一步一步讲解如何利用Cypher语言创建以下图形。 我的Neo4j系列的文章收录在: Neo4j 一,easy,热热身 和SQL很相似,Cypher语言的关键字不区分大小写,但是属性值,标签,关系类型和变量是区分大小写的。 1,变量(Variable) 变量用于对搜索模式的部分进行命名,并在同一个查询中引用,在小括号()中命名变量, 变量名是区分大小写的 ,示例代码创建了两个变量:n和b,通过return子句返回变量b; MATCH (n)-->(b) RETURN b 在Cypher查询中,变量用于引用搜索模式(Pattern),但是变量不是必需的,如果不需要引用,那么可以忽略变量。 2,访问属性 在Cypher查询中,通过逗号来访问属性,格式是:Variable.PropertyKey,通过id函数来访问实体的ID,格式是id