谷歌搜索引擎

推荐几个不追踪隐私的搜索引擎

核能气质少年 提交于 2019-11-28 22:19:23
本文首发于:微信公众号「运维之美」,公众号 ID:Hi-Linux。 「运维之美」是一个有情怀、有态度,专注于 Linux 运维相关技术文章分享的公众号。公众号致力于为广大运维工作者分享各类技术文章和发布最前沿的科技信息。公众号的核心理念是:分享,我们认为只有分享才能使我们的团体更强大。如果你想第一时间获取最新技术文章,欢迎关注我们! 公众号作者 Mike,一个月薪 3000 的杂工。从事 IT 相关工作 15+ 年,热衷于互联网技术领域,认同开源文化,对运维相关技术有自己独特的见解。很愿意将自己积累的经验、心得、技能与大家分享交流,篇篇干货不要错过哟。如果你想联系到我,可关注公众号获取相关信息。 毫无疑问,在中文搜索领域,「百度」独占鳌头。但众所周知,至少在目前,与「百度」这个浪漫的命名截然相反的是,百度是个口碑极其糟糕的产品。但是对于大多数的用户,彻底避免使用「百度」是一件较为困难的事情。 为什么不用「Google 搜索」? 因为谷歌的商业模式决定了它需要收集用户隐私,当然更重要的是你在国内也是不可用的。 为什么不用「百度搜索」? 没有为什么,谁用谁知道百度是什么。 为什么不用「 DuckDuckGo」? 因为在国内同样不可用,没有其它了。 > DuckDuckGo 是一款互联网搜索引擎,其注重用户隐私以及避免个性化检索所致的过滤气泡

电商搜索引擎的架构设计和性能优化

心不动则不痛 提交于 2019-11-28 15:56:24
「 OneAPM 技术公开课」由应用性能管理第一品牌 OneAPM 发起,内容面向 IT 开发和运维人员。云集技术牛人、知名架构师、实践专家共同探讨技术热点。本文系「OneAPM 技术公开课」第一期演讲嘉宾前当当网高级架构师吴英昊的演讲整理: 首先,非常感谢 OneAPM 技术公开课举办的这次活动。首先,我想说的是电商搜索引擎和普通的搜索引擎有很大的差别,因为电商搜索引擎主要是解决用户要「买什么」,而通用搜索引擎主要是解决用户「搜什么」。比如同样搜索一个词「百年孤独」,电商的搜索肯定是给你推荐这本书的商家,而百度主要是告诉你:《百年孤独》是一本书。 电商搜索引擎的特点 众所周知,标准的搜索引擎主要分成三个大的部分,第一步是爬虫系统,第二步是数据分析,第三步才是检索结果。首先,电商的搜索引擎并没有爬虫系统,因为所有的数据都是结构化的,一般都是微软的数据库或者 Oracle 的数据库,所以不用像百度一样用「爬虫」去不断去别的网站找内容,当然,电商其实也有自己的「爬虫」系统,一般都是抓取友商的价格,再对自己进行调整。 第二点,就是电商搜索引擎的过滤功能其实比搜索功能要常用。甚至大于搜索本身。什么是过滤功能?一般我们网站买东西的时候,搜了一个关健词,比如尿不湿,然后所有相关品牌或者其他分类的选择就会呈现在我们面前。对百度而言,搜什么词就是什么词,如果是新闻的话

使用Python实现简单的搜索引擎,完整源码

ε祈祈猫儿з 提交于 2019-11-27 16:31:27
版权声明:转载请注明出处! https://blog.csdn.net/qq_35993946/article/details/88087827 这是博主我大学期间写的课程设计,希望能对看这篇博客的你有所帮助。 课程设计主要要求如下: 结合本学期《信息检索与搜索引擎技术》课程教学内容,利用网络爬虫技术、文档倒排索引技术、向量空间模型技术、检索排序技术,编写一个搜索引擎系统,系统能够实现根据输入关键词检索出与查询关键词相关的文档,并写出对应的程序设计及实现报告。具体要求如下: 利用网络爬虫技术编写程序实现从互联网中动态爬去网页数据; 利用分词工具(如ICTCLAS、结巴分词等)实现对爬取的文本进行分词,并建立倒排索引; 利用向量空间模型对分词后的文本及查询文本进行向量化表示,并计算查询向量和文档向量之间的相似性; 利用BM25算法、统计语言模型方法、或PageRank算法计算查询文本与文档之间的相关度得分,并根据相关度得分对文档进行排序。 目录 一、 系统概述 1.1搜索引擎概述 1.2本搜索引擎概述 二、 系统需求分析 2.1云南旅游业分析 2.2系统可行性分析 三、算法原理及程序实现 3.1系统架构设计 3.2网络爬虫 3.2.1网络爬虫简介 3.2.2网页分析 3.3结巴分词并建立索引 3.3.1结巴分词简介 3.3.2倒排索引原理 3.3.3程序实现 3.4向量空间模型 3