同义词

中文句子相似度之計算與應用

好久不见. 提交于 2020-03-12 08:48:12
原文:http://www.aclweb.org/anthology/O05-1008 中文句子相似度之计算与应用 郑守益 梁婷国立交通大学信息科学系 摘要 近年來受惠于国内外各项语料库资源的建置及网际网路上的大量中文语料,使计算机语文辅助教材的涵盖层面日趋广泛。因此如何产生大量且具高质量之辅助教材日益受到许多自然语言处理研究者的重视。有鉴于此,本論文提出以中文句子相似度为基础的研究与应用。相似度的计算乃考虑句子的组合及聚合性。我们实作此一应用,并提出解决未知词的语意计算问题的方法。实验结果显示系统的检索 MRR 值可以提升到 0.89 且每一检索句皆可找到可堪用之例句。1. 绪論句子是可完整表达语意的基本单位[21],也是语法的具体表现。因此,在语言学习中,学童若是学会了各种句型,也就学会了隐含在句型中的语法规则。藉由语言学家的归纳整理[14],我们知道句子的结构并不是词语的随意组合,而是依照一定的「语法规则」。根据[15],语法规则可进一步分为「组合规则」及「聚合规则」。组合规则是指语法单位的横向组合,例如,「我」、「买」、「书」这三个词汇可以组合成「我买书」,但却不能组合成「书买我」。当词组合成结构之后,将具有语法意义,并使得整体结构的意义大于个别词汇的意义总和,例如:「綠」、「葉」这兩个词各自有其意义,但组合之后则形成了「綠」修饰「葉」的语法意义。至于聚合规则是指在句子中

Oracle基本对象的操作

老子叫甜甜 提交于 2020-03-09 15:13:36
Oracle对象的操作 启动Oracle 1、启动监听(想要oracle能够远程访问到必须配置监听) 2、启动数据库 1)登录服务器,切换到Oracle用户 2)打开监听服务 lsnrctl start 3)以sys用户身份登录Oracle sqlplus /nolog conn /as sysdba; 4)通过startup命令启动 关闭Oracle 1)关闭数据库shutdown 2)关闭监听器lsnrctl stop 一、用户 1、查看所有用户: select * from dba_users; select * from all_users; select * from user_users; 2、创建用户: create user 用户名 identified by 密码; 注意刚刚创建的用户是没有任何权限的,因此需要dba给该用户进行授权; Oracle中用户建立之后是无法正常登录的,只有dba对用户分配相关的权限之后用户才可以登录。 3、给用户分配权限 grant 权限 to 用户名; 权限分为系统权限和对象权限 系统权限是数据库管理相关的权限 系统权限:create session(登录权限)、create table(创建表权限)、create index(创建索引的权限)、create view(创建视图权限)、create sequence(创建序列权限)

(数据库)15_其它数据库对象

ε祈祈猫儿з 提交于 2020-03-07 04:58:30
15_其它数据库对象 目 标 一、常见的数据库对象 二、序列 1.CREATE SEQUENCE 语句 2.序列相关的两个伪列(NEXTVAL 和 CURRVAL 伪列) 3.查询序列 4.使用序列 5.修改序列 5.1.修改序列的注意事项 6.删除序列 三、索 引 1.创建索引 2.什么时候创建索引 3.什么时候不要创建索引 4.删除索引 四、同义词-synonym 1.创建和删除同义词 总 结 目 标 通过本章学习,您将可以: 创建、维护和使用 序列 创建和维护索引 创建同义词 一、常见的数据库对象 二、序列 序列: 可供多个用户用来产生唯一数值的数据库对象 自动提供唯一的数值 共享对象 主要用于提供主键值 将序列值装入内存可以提高访问效率 1.CREATE SEQUENCE 语句 CREATE SEQUENCE sequence [ INCREMENT BY n ] --每次增长的数值 [ START WITH n ] --从哪个值开始 [ {MAXVALUE n | NOMAXVALUE} ] [ {MINVALUE n | NOMINVALUE} ] [ { CYCLE | NOCYCLE} ] --是否需要循环 [ {CACHE n | NOCACHE} ] ; --是否缓存登录 实例: CREATE SEQUENCE student_stutid_seq

Oracle数据库的基本操作(三)

随声附和 提交于 2020-03-01 16:18:52
一、查询 1.查询CS系的所有学生的信息 –第一种 select * from Student where Sdept = 'CS'; –第二种 select * from Student where lower(Sdept) = 'cs'; –第一种与第二种的区别在于“CS”的大小写,第一种是正常大写,第二种为小写,此时应将Sdept改为lower(Sdept) 2.查询姓名是张三或杨三的学生 select * from Student where regexp_like(Sname,'[张杨]三'); 注:在SQL Server中的语句为 select * from Student where Sname like '[张杨]三'; 3.左外连接left outer join 3.1查询每个学生的信息及该生的选课信息,即使没有选课也要列出该生的信息 –SQL Server和Oracle中 select Student.Sno,Sname,Ssex,Sage,Sdept,Cno,Grade from Student left outer join SC on Student.Sno = Sc.Sno; –Oracle中 select Student.Sno,Sname,Ssex,Sage,Sdept,Cno,Grade from Student,SC where Student

oracle同义词创建(synonym)

假装没事ソ 提交于 2020-02-26 02:43:41
在现在的项目中会有很多接口,数据来源也可能是不同数据库或者是不同的用户下的表,给访问该表带来了一定的麻烦。这个时候就可以使用同义词来简化。 同义词的语法是:CREATE [OR REPLACE] [PUBLIC] SYNONYM [ schema.] 同义词名称 FOR [ schema.] object [ @dblink ]; 创建同义词的时候还需要赋值相关的权限: 首先是:用sys账号给DM账号赋予CREATE SYNONYM的权限 GRANT CREATE SYNONYM TO user_temp; user_temp是你要建同义词的用户。 这个时候你创建同义词的时候,如果找不到你要管理的user_res用户下的表tableA。(注:要在user_temp用户下创建user_res用户下tableA表的同义词) 这个时候还需要一个权限就是user_temp用户select tableA的权限,这个时候是在user_res用户下赋值的 grant select on tableA to user_temp; 这样就可以在user_temp用户下创建同义词了 -- Create the synonym create or replace synonym tableA for user_res.tableA; 上面说的是再同一个数据库中,不同用户下创建同义词

同义词

青春壹個敷衍的年華 提交于 2020-02-18 19:57:57
程序到半夜,疲倦难耐,突然突发怪想,想看看一个最简单的名词有多少种说法,结果: 老婆的40个同义词 1、配偶 2、妻子 3、老婆 4、夫人 5、太太 6、爱人 7、内人 8、媳妇 9、那口子 10  拙荆 11、贤内助 12、老伴 13、孩子他妈 14、孩子他娘 15、内子 16、婆娘 17、糟糠 18、宝贝 19、小甜甜 20、蜜糖 21贱内 22、达令 23、女人 24、马子 25、主妇 26、女主人 27、财政部长 28、浑人 29、娘子 30、大姐 31、家属 32、屋里的 33、另一半 34、女当家的 35、发妻 36、浑家 37、堂客 38、山妻 39、婆姨 40、中馈 俺、俺们、本人、鄙人、敝人、不肖、不才、老子、某、依、仆、乃公、人家、我等、我、 我们、我辈、我依、我曹、吾、吾们、吾济、吾辈、吾曹、小生、小人、小子、小可、小的、余、予、在下、洒家、咱、朕、寡人、孤、奴才、臣 据说一个在学中文的外国人看到"wife" 和 "I" 的同义词表,吐血而亡,我也快要吐血了,汗颜的紧了,看来中华古文常识要补补了。 来源: https://www.cnblogs.com/liangqihui/archive/2005/03/25/125602.html

Oracle中的对象详解

假装没事ソ 提交于 2020-01-22 22:50:57
学习目标 表 视图 索引 同义词 序列 表空间 宁静致远,天道酬勤 什么是表? 表是有行和列组成的结构体 什么是视图? 视图是一条select查询语句创建组成的一个虚表 示例: ``` --创建视图 create or replace view v_student as select * from test where sex='m' --性别是男的数据信息 --视图创建成功 ,基表是test表 --查询一下视图 select * from v_student --对视图进行增删修改测试 --添加 insert into v_student values(1001,'张三',‘f’) --修改 update v_student sex sname='测试' where sname='张三' --删除 delete from v_student where sname='张三' --删除视图 drop view v_student --以上都执行成功 ,查询基表 select * from test --你发现基表数据被变动了,说明在视图上进行的操作基表也会改变 --讲解一个视图的关键词 or replace --我上面也带了,意思是创建视图的时候,如果已经存在,它则会覆盖以前的视图,如果没有则创建视图,好累 --with read only 只能进行查询操作 --with

Oracle--同义词详解

非 Y 不嫁゛ 提交于 2020-01-22 07:47:41
同义词 同义词(synonym)是表、索引和视图等模式对象的一个别名。同义词只是数据库对象的替代名,与视图类似,同义词并不占用实际存储空间,只在数据字典中保存同义词的定义。在使用同义词时,Oracle简单地将它翻译成对应方案的名称。 通过使用同义词,一方面可以简化对象访问,如数据字典视图 USER_INDEXES 的同义词为IND,数据字典视图USER_SEQUENCES的同义词为SEQ;另一方面可以提高对象访问的安全性,如屏蔽对象所有者、对象名和数据库链接名。 在开发数据库应用程序时,应当尽量避免直接引用表、视图或其他数据库对象打的名称,而改用这些对象的同义词。这样可以避免当管理员对数据库对象做出修改和变动之后,必须重新编译应用程序。使用同义词后,即使引用的对象发生变化,也只需要在数据库中对同义词进行修改,而不必对应用程序做任何改动。 在Oracle中可以创建两种类型的同义词: 共用同义词(public synonym): 共有同义词是由PUBLIC用户组所拥有,数据库中所有的用户都可以使用共有同义词。 私有同义词(private synonym): 私有同义词是由创建它的用户(或方案)所拥有,也称方案同义词(schema synonym)。用户可以控制其他用户是否有权使用属于自己的方案同义词。 在创建同义词时,它所基于的对象可以 不存在

Rasa教程系列-NLU-1-训练集格式

拥有回忆 提交于 2020-01-13 23:24:40
文章目录 1. 数据格式 1.1 Markdown格式 1.2 Json 格式 2. 改善意图分类和实体识别 2.1 常见示例(Common Examples) 2.2 正则特征(Regular Expression Features) 2.3 查找表(lookup tables) 3. 标准化数据 3.1 实体同义词 4. 生成更多实体例子 1. 数据格式 NLU模块的训练可以使用 Markdown 或 JSON格式的数据。可以是单个文件也可以是某个目录下的多个文件。推荐使用Markdown格式~用起来简单。 1.1 Markdown格式 作为Rasa NLU的一种格式,Markdown最易于阅读和书写。NLU中的examples以无序列表语法的形式给出,如 -,*,+ 。examples 通过 intent 进行组合,实体和实体的名字通过 markdown 的链接形式给出,如[entity](entity name)。下面给出一个NLU数据集的Markdown实例: - what is my balance <!-- no entity --> - how much do I have on my [savings](source_account) <!-- entity "source_account" has value "savings" --> - how much

第三章 短语挖掘和实体识别

一曲冷凌霜 提交于 2020-01-12 20:30:41
一. 短语挖掘 1. 什么是短语挖掘 这个的短语挖掘指的是词汇和短语的挖掘,是一个统称。短语挖掘输入的是领域语料,输出的是领域短语。领域语料是大量文章融合在一起组成的。 2. 高质量短语的评估维度 a. 频率,一个n-gram出现的频率越高,那么它是高质量的文章的可能性就越高。 b. 一致性,n-gram中的单词的搭配是否合理 b. 信息量,高质量的短语需要表达一定的主题和概念,比如“机器学习”和“这篇文章”相比,在机器学期的语料库了,前者的质量更高 c. 完整性,高质量的短语需要是一个完整的语义单元,如“支持向量机“与“向量机”相比,完整性要更高 3.领域短语挖掘方法 无监督学习方法 1. 候选短语生成:使用n-gram切割文章(n取1-6),设定频率阈值,保留频率在30以上(经验值)的短语。 2. 统计特征计算:tf-idf,textRank,PMI(点互信息), 左右邻熵。 it-idf,textRank可以筛除一下文中出现的频率高但是不那么重要的词,如代词,副词,介词,助词等。 PMI点互信息,通过衡量短语的一致性,比较n值相同的n-gram短语,哪种分割方式更合理。处理分词越界的情况。 比如说“电影院”比“的电影”更具备一致性 左右邻熵,描绘的是一个短语左右搭配的丰富度,一个好的短语左右搭配应该是分厂丰富的。而如果一个短语的左右搭配不那么丰富,就不是一个好短语。比如,