SEO禁用蜘蛛(爬虫)搜索收录网页(全)
手段一: Robots协议:用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。 spider在访问一个网站是,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上抓取范围。 一般屏蔽有:隐私资料,表结构 robots文件是存在于网站的根目录下,首先会检查http://www.123.com/robots.txt这个文件。 robots格式: User-agent: ( 代表所有搜索引擎) Disallow:(不允许抓取的相对路径) allow:(允许抓取的相对路径或文件) robots.txt生成器: https://robots.51240.com/ 文件用法 例: 禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: / 实例分析:淘宝网的 Robots.txt文件:访问www.taobao.com/robots.txt User-agent: Baiduspider Allow: /article Allow: /oshtml Disallow: /product/ Disallow: / User-Agent: