搜索

给LUKE增加word分词器

纵然是瞬间 提交于 2019-11-28 14:07:20
word分词是一个Java实现的分布式中文分词组件 1、下载 http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar (国内不能访问) 2、下载并解压 Java中文分词组件word-1.0-bin.zip 3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹,用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar,将当前文件夹里面除了.jar、.bat、.html文件外的其他所有文件拖到lukeall-4.0.0-ALPHA.jar里面 4、执行命令 java -jar lukeall-4.0.0-ALPHA.jar 启动luke,在Search选项卡的Analysis里面就可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器了 5、在Plugins选项卡的Available analyzers found on the current classpath里面也 可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器 下载已经集成好的Luke插件: lukeall-4.0.0-ALPHA-with-word-1.0.jar

自译Solr in action中文版

喜你入骨 提交于 2019-11-27 01:54:52
目录 Part 1 初识 SOLR 1 Solr 简介 2 开始熟悉 Solr 3 Solr 核心概念 4 配置 Solr 5 建立索引 6 文本分析 Part 2 Solr 核心功能 7 发起查询 和 处理结果 8 分类索引 9 命中结果高亮 10 查询建议引导 11 结果分组 合并域 12 将Solr产品化 Part 3 Solr 高级应用 13 扩展Solr云 14 多语言搜索 15 复杂数据操作 16 相关性的调整 17 跳出思维定势 附录: A 从源代码编译Solr B 玩转Solr社区 来源: oschina 链接: https://my.oschina.net/u/1474384/blog/288564

Solr In Action 中文版 第一章(一)

我是研究僧i 提交于 2019-11-27 01:54:28
第一章 Solr 简介 本章速览: ·搜索引擎处理的数据特性 ·常见搜索引擎用例 · Solr 核心模块介绍 ·选择 Solr 的理由 ·功能概述 伴随着社交媒体、云计算、移动互联网和大数据等技术的高速发展,我们正迎来一个令人激动的计算时代。软件架构师们开始面对的主要挑战之一,便是如何处理全球巨大的用户基数所产生及使用的海量数据。此外,用户们开始期待在线软件应用永远都是稳定可用的,并且能够一直保持响应,这对应用就提出了更高的可扩展性和稳定性需求。为了满足这些需求,一些专用的非关系型数据存储及处理技术,统称为 NoSQL ( Not Only SQL )技术,开始获得越来越多的青睐。这些系统并不强制要求将所有的数据都存储在曾经成为事实上标准的关系型数据模型当中,而是共用了一个通用的设计模式,在数据存储处理引擎和特定的数据类型之间进行匹配。换句话说, NoSQL 技术为处理特定数据类型的特定类别问题做了性能优化。由于对可扩展性的需求和性能的需求不断增加,导致各种 NoSQL 技术和传统关系型数据库开始混合使用,这种跨界架构变得越来越流行。过去那种一种数据处理方案就能吃遍天下的时代已经一去不复返了。 本书主要讨论一种特殊的 NoSQL 技术,即 Apache Solr 。和她的其他非关系型兄弟们一样, Solr 也为一类特定问题的处理做了优化。具体来说, Solr 是一个可扩展的

Solr In Action 中文版 第一章(三)

非 Y 不嫁゛ 提交于 2019-11-27 01:54:17
1.1 为什么选用 Solr ? 在本节中,我们希望可以提供一些关键信息来帮助于你判断 Solr 是否是贵公司技术方案的正确选择。我们先从 Solr 吸引软件架构师的方面说起。 1.1 软件架构师眼中的 Solr 在评估一项新技术时,软件架构师必须要考虑一系列的因素,其中就包括系统的稳定性,可伸缩性,还有容错性。 Solr 在这三方面的得分都很不错。 说到稳定性, Solr 是一个由活跃的开源社区和经验丰富的代码提交者共同维护的一项成熟技术。 Solr 和 Lucene 的新用户们通常会惊讶于项目的发布方式,可能他们以前都是等待某个项目的官方 Release 版,没听说过这种从分支上直接 pull 下来的方式。不管你的公司是否接受这种方式,我们并不是建议你这么做,我们想表明的是, Lucene 和 Solr 项目中自动测试模块的测试深度和宽度是值得信任的。简单来说,如果你从分支上拿到了一个 nightly build ,如果所有的自动测试都能通过,那你就可以放心的肯定所有的核心功能都是 ok 的了。 我们在 1.2.6 节中已经接触到了 Solr 实现可伸缩性扩展的方法,在 1.2.7 节中也讨论了容错性的问题。作为一个架构师,你可能最好奇的是 Solr 的可伸缩性功能和容错性功能的局限到底在哪里。首先,你需要知道在 Solr4 中,分片功能和复制备份功能都被重写了

Solr In Action 中文版 第一章 (二)

喜欢而已 提交于 2019-11-26 15:49:35
1.1 Solr 到底是什么? 在本节中,我们通过从头设计一个搜索应用来介绍 Solr 的关键组件。这个过程将有助于你理解 Solr 的功能,以及设计这些功能的初衷。不过在我们开始介绍 Solr 的功能特性之前,还是要先澄清一下 Solr 并不具有的一些性质: 1) Solr 并不是一个像 Google 或是 Bing 那样的 web 搜索引擎 2) Solr 和网站优化中经常提到的搜索引擎 SEO 优化没有任何关系 好了,现在假设我们准备为潜在的购房客户设计一个不动产搜索的网络应用。该应用的核心用例场景是通过网页浏览器来搜索全美国范围内的房子。图 1.1 描述了这个虚拟应用的界面截图。不用太在意 UI 界面的简陋,这只是一个便于我们讨论的可视化模型。重点是通过这个例子,我们来看看 Solr 到底可以提供哪些类型的搜索体验。 让我们先快速浏览一下图 1.1 描绘了哪些 Solr 的关键特性。我们从左上角开始,沿顺时针方向看。首先, Solr 提供了强大的功能来支持关键字搜索框。正如我们在 1.1.2 中讨论的那样,一个表现出色的关键字搜索功能,需要背后强大的复杂架构的支持。好在 Solr 所提供的这个复杂架构可以迅速的安装使用。具体来说, Solr 提供了拼写检查功能、用户输入的自动补全建议功能、同义词近义词处理功能、短语查询功能、以及用于处理类似 ”buying a house“