站内搜索

SEO禁用蜘蛛(爬虫)搜索收录网页(全)

夙愿已清 提交于 2020-01-15 11:50:36
手段一: Robots协议:用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。 spider在访问一个网站是,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上抓取范围。 一般屏蔽有:隐私资料,表结构 robots文件是存在于网站的根目录下,首先会检查http://www.123.com/robots.txt这个文件。 robots格式: User-agent: ( 代表所有搜索引擎) Disallow:(不允许抓取的相对路径) allow:(允许抓取的相对路径或文件) robots.txt生成器: https://robots.51240.com/ 文件用法 例: 禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: / 实例分析:淘宝网的 Robots.txt文件:访问www.taobao.com/robots.txt User-agent: Baiduspider Allow: /article Allow: /oshtml Disallow: /product/ Disallow: / User-Agent:

一个小小的站内搜索作品,坚守5年的心得体会

家住魔仙堡 提交于 2019-12-10 09:04:21
5年,50+版本迭代,不忘初心,始终为了帮助广大站长更容易实现站内搜索功能 一, 开发初衷与思路 : 基于 Lucene.net 重头开发一个站内搜索其实挺费时,且需要一定的二开能力,很多人直接组合一些第三方开源的组件,但如果需要解决好搜索质量,兼顾搜准率与召回率,依然需要做不少调整优化的工作,后来我想能否简化一下 Lucene.net 的使用,所以把分词,配置,索引,搜索等各种底层 API 等封装成更易于使用的一个中间件(就是上图的 SearchEasy.SearchEngine 类库),但是因为中间件不好用,干脆就直接把站内搜索的前端也做了,这样用户就无需做任何二次开发,直接在浏览器点点鼠标就可以解决数据导入,创建索引,然后搜索直接就能用了,这个站内搜索系统是这么演化过来的,而且在多年的实践当中,也做了很多细节优化工作。 二,核心组件: Lucene.net : 搜索引擎的核心类库,第三方开源; Newtonsoft.Json :用于处理 JSON 的第三方库; TemplateEngine :用于生成静态页面的模板引擎; 中文分词:自己开发,没有用第三方的。 三,项目架构 基于 .NET 4.0 框架,传统的三层架构,但在解决方案中的体现是两个项目: SearchEasy.SearchEngine : 搜索引擎类库,整合了 Lucene ,分词器,以及各种搜索相关的封装类库。

今天创造性实现:站内搜索

*爱你&永不变心* 提交于 2019-12-02 16:02:56
今天创造性实现:站内搜索 自己在搭建网站时候,需要 站内搜索,调查了许多方式方法 基本上没有一种让自己看上的方法,眼光太挑了吗? 因为自己有搜索工具,就想自己实现一个 从开始有这个想法到现在一个多月,思考比较累人 今天早上下决心实现,中午思考出方法,下午实践 相当简单就实现了,效果确实是自己所需要的 尤其或许是全世界最简单的实现方式 现在,这个方案可以对接全世界各种各样网站 https://www.readmorejoy.com/search 来源: https://www.cnblogs.com/pycoding/p/11753313.html