数据检索

SQL快速入门 ( MySQL快速入门, MySQL参考, MySQL快速回顾 )

﹥>﹥吖頭↗ 提交于 2020-02-29 10:11:22
SQL 先说点废话,很久没发文了,整理了下自己当时入门 SQL 的笔记,无论用于入门,回顾,参考查询,应该都是有一定价值的,可以按照目录各取所需。SQL数据库有很多,MySQL是一种,本文基本都是SQL通用标准,有些标准很不统一的地方就用MySQL的写法了。希望本文帮你快速了解SQL的基本操作和概念。 文章格式上有些问题,可以点击 这里 获得更加的阅读体验 目录 检索 过滤检索结果 数据汇总处理 分组 给检索结果排序 表操作 插入数据 更新删除数据 子查询-迭代查询 联结-关联多个表 组合查询 视图 其它 检索 检索某表中单个列: SELECT 列名 FROM 表名; 检索某表中多个列: SELECT 列名,列名,列名 FROM 表名; 检索某表中所有列:(尽量不用) SELECT * FROM 表名; 只检索某表中某列里不重复的项: SELECT DISTINCT 列名 (如果有两列或以上,需要这些列组合起来是不重复的) FROM 表名; 检索指定行数: SELECT 列名 FROM 表名 LIMIT 5 OFFSET n; (mySQL中,选第n行后的五行。 OFFSET n 可不填写默认为0,其它 SQL 数据库中有不同写法) 过滤检索结果 寻找指定行:(举例) SELECT prod_name, prod_price FROM Products WHERE prod

Lucene全文检索系列(一)

核能气质少年 提交于 2020-02-29 10:04:28
1. Lucene简介 Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene以其方便使用、快速实施以及灵活性受到广泛的关注。它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能。 2. lucene 的包结构 1、analysis对需要建立索引的文本进行分词、过滤等操作 2、standard是标准分析器 3、document提供对Document和Field的各种操作的支持。 4、index是最重要的包,用于向Lucene提供建立索引时各种操作的支持 5、queryParser提供检索时的分析支持 6、search负责检索 7、store提供对索引存储的支持 8、util提供一些常用工具类和常量类的支持 Lucene中的类主要组成如下: 1)org.apache.1ucene.analysis语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。 2)org.apache.1uceene.document索引存储时的文档结构管理,类似于关系型数据库的表结构。 3)document包相对而言比较简单,该包下面有3个类,document相对于关系型数据库的记录对象,Field主要负责字段的管理。 4)org.apache.1ucene.index索引管理,包括索引建立、删除等。索引包是整个系统核心

【巨杉数据库SequoiaDB】巨杉Tech | 分布式数据库千亿级超大表优化实践

旧时模样 提交于 2020-02-28 17:47:54
01 引言 随着用户的增长、业务的发展,大型企业用户的业务系统的数据量越来越大,超大数据表的性能问题成为阻碍业务功能实现的一大障碍。其中,流水表作为最常见的一类超大表,是企业级用户经常碰到的性能瓶颈。 本文就以流水类的超大表,探讨基于SequoiaDB巨杉数据库存储的超大表进行的性能调优。SequoiaDB 巨杉数据库,作为新一代 OLTP 的分布式数据库,被广泛使用于海量数据存储与高并发操作场景中。对于海量数据的存储和高并发操作,分布式数据库相较于传统数据库有着天然的优势,合理利用SequoiaDB巨杉数据库多种特性,轻松解决超大表的性能问题。 02 数据存储规划很重要 对于流水类超大表,前期的数据存储规划尤为重要,合理的数据存储规划能有效利用数据库集群硬件资源,提供更高性能、更高效率的数据服务。 1. 集群规模评估与硬件配置搭配 在数据库集群规划伊始,需要通过调研数据库集群支撑应用规模、系统定位和业务长期发展规划进行摸底,用以评估集群规模以及各服务器的CPU、内存、硬盘、网卡的合理搭配。 精准的评估一个数据库集群规模,是一个宏大且复杂的综合工程,需要有的业务需求评估数据加以支持。通常情况下,由于业务需求变化快、业务增长普遍高于预期,小集群规划可以按照业务调研信息的1.5~2倍进行评估,大集群规划可以按1~1.5倍进行评估。 集群规模需要通过业务规模、数据存储规模

CiteSpace学习笔记(二)——数据的获取(科技文献检索)

旧街凉风 提交于 2020-02-27 13:43:43
科技文本数据的采集是分析的基础,当前数据的采集主要是借助科技文献数据库,并采用成熟的文献检索策略进行. 对于科技文本数据而言,索引型数据库通常收录了除正文以外的所有文献信息,而且还增加了数据库本身对论文的分类标引.不同数据库的格式 有一定的差异性.WoS和Scopus的数据结构是最为完整的,Derwent和CSSCI次之,CNKI的完整性最小.CiteSpace分析的数据是以WoS数据为基础的,其他数据库收集的数据都要先经过转换,成为WoS的数据格式才能分析.通常用户收集的文献题录数据都会包含PT(文献类型),AU(作者),SO(期刊),DE(关键词),AB(摘要),CI(机构)以及CR(参考文献). [注]:CNKI下载的数据没有参考文献信息. 一.中文数据采集 1.CNKI数据采集 (1)进入中国知网首页www.cnki.net。 (2)数据检索策略构建 点击首页右上角的”高级检索”,进入高级检索页面.例:选择”来源期刊检索”,在检索框来源期刊中输入”中国安全科学学报”,匹配方式选择”精确”,时间选择”2019”。 (3)得到检索结果并进行初步分析 CNKI检索的结果中包含新闻,会议通知等信息,因此需要在数据收集时删除(为方便手工删除,可以在下载时逐页检查)。点击”学科”、“发表年度”、“基金”、“研究层次”等,可以对数据的分布进行初步的分析。最后,选定记录。 (4

实战 Lucene2.0

别等时光非礼了梦想. 提交于 2020-02-23 11:51:07
Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。 图 1 表示了搜索应用程序和 Lucene 之间的关系,也反映了利用 Lucene 构建搜索应用程序的流程: 图 1. 搜索应用程序和 Lucene 之间的关系 回页首 索引和搜索 索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想你现在要在大量的文档中搜索含有某个关键词的文档

Mac自己搭建爬虫搜索引擎(nutch+elasticsearch是失败的尝试,改用scrapy+elasticsearch)

感情迁移 提交于 2020-02-22 15:23:21
1.引言 项目需要做爬虫并能提供个性化信息检索及推送,发现各种爬虫框架。其中比较吸引的是这个: Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎 E文原文在:http://www.aossama.com/search-engine-with-apache-nutch-mongodb-and-elasticsearch/ 考虑用docker把系统搭建起来测试: docker来源如下: https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html https://store.docker.com/community/images/pure/nutch-mongo 然而,docker下载image时实在是太慢,放弃docker! Mac 设置JAVA_HOME: vi ~/.bash_profile export JAVA_HOME=$(/usr/libexec/java_home) export PATH=$JAVA_HOME/bin:$PATH export CLASS_PATH=$JAVA_HOME/lib 2.安装Mongo Mac下直接用brew安装,此时最新版本是3.4.7。 安装好后建/data/db目录,mongod启动服务。

elasticsearch--知识点

我只是一个虾纸丫 提交于 2020-02-21 17:31:18
一、elasticsearch Elasticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。 基于lucene lucene基于倒序索引 1、倒序索引 2、正序索引 来源: https://www.cnblogs.com/jentary/p/12342034.html

sqlmap检索DBMS信

萝らか妹 提交于 2020-02-20 23:10:07
sqlmap检索DBMS信息 sqlmap检索DBMS banner 获取后端数据库banner信息 参数 --banner或者-b sqlmap检索DBMS当前数据库 获取当前数据库名 参数 --current-db sqlmap检索DBMS当前主机名 获取主机名 参数 --hostname sqlmap检索DBMS用户信息 sqlmap探测当前用DBA 探测当前用户是否是数据库管理员 参数 --is-dba sqlmap枚举DBMS用户密码 Sqlmap会先列举用户,再列举用户密码Hash值。 参数 --passwords sqlmap枚举DBMS用户 获取DBMS所有用户 参数 --users sqlmap枚举DBMS权限 参数:–privileges 当前用户有读取包含了数据库管理系统中用户信息的系统表的权限时使用这一参数可以列举数据库管理系统中用 户的权限。通过用户权限可以判断哪些用户是管理员。 若想只枚举特定用户的权限使用参数"-U"指定用户,可用"CU"来代表当前用户。 python sqlmap.py -u “http://127.0.0.1/sqli/Less-1/?id=1” --privileges U root sqlmap枚举信息 sqlmap列举数据库名 列举数据库名称 参数 --dbs sqlmap枚举数据库表 列举数据库表名 参数: --tables

ElasticSearch入门介绍一

本秂侑毒 提交于 2020-02-18 11:26:15
ElasticSearch 关于es的几个概念: 集群 :多个运行es节点可以组成一个集群,它们拥有相同的cluster.name。 节点 :运行es的实例 索引 :相当于数据库database,一个集群可以有多个索引(数据库)。 索引实际上是指向一个或者多个物理分片的逻辑命名空间 分片 :索引的子集,一个索引可以被切成多个分片。分片又分为主分片和副分片,副分片是主分片的副本。一个分片是一个底层的工作单元 ,它仅保存了全部数据中的一部分。Elasticsearch 是利用分片将数据分发到集群内各处的。分片是数据的容器,文档保存在分片内,分片又被分配到集群内的各个节点里。 当你的集群规模扩大或者缩小时, Elasticsearch 会自动的在各节点中迁移分片,使得数据仍然均匀分布在集群里。 副本分片 :一个副本分片只是一个主分片的拷贝。 副本分片作为硬件故障时保护数据不丢失的冗余备份,并为搜索和返回文档等读操作提供服务。副本分片数量可以随时更改。 类型 :相当于数据库中的(表)table,一个索引(数据库)包含多个类型(表)。 文档 :相当于表中的行(row)。 字段 :相当于表中的列(cloum)。 分配 :将分片分配给某个节点。 在es中,每个索引的主分片默认为5个,每个主分片的副本默认为1个。 一、安装运行elasticsearch: 官网下载安装包:https://www

Lucene简介

微笑、不失礼 提交于 2020-02-14 00:04:47
Lucene是一个开源的全文检索引擎工具包,最初由Doug Cutting开发。早在1997年,资深全文检索专家 Doug Cutting用一个周末时间,使用Java语言创作了一个文本搜索的开源函数库,目的是为各种中小型应用软件加入全文搜索功能,不久以后,Lucene诞生了,2000年Lucene称为Apache开源社区的一个子项目。随着Lucene被人们熟知,越来越多的用户和研发人员加入其中,完善并壮大项目的发展,Lucene已成为最受欢迎的具有完整的查询引擎和索引引擎的全文检索库。 Lucene从问世之后,引发了开源社区的巨大反响,程序员们不仅使用它构建全文检索应用,而且将之集成到各种系统软件中去,除此之外还用来构建Web应用。维基百科用Lucene建立了一个站内的强大搜索功能,用以检索站内数以千万的词条。IBM的商业软件Web Sphere也采用了Lucene作为全文索引引擎。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。Lucene的优点主要有以下3点: 1.稳定,索引性能高 现在硬盘上每小时能够索引150GB以上的数据。 对内存的要求小,只需要1MB的对内存。 增量索引和批量索引一样快 索引的大小约为索引文本大小的20%~30%。 2.高效、准确、高性能的搜索算法 搜索排名———最好的结果显示在最前面。 许多强大的查询类型:短语查询