Python爬虫(三)——Robots协议
Robots协议全称为Robots Exclusion Standard,网络爬虫排除标准。它的作用是告知网络爬虫哪些可以抓取哪些不可以。通常被放在网站根目录下的robots.txt。
注:并不是所有网站都有Robots协议,如果没有默认为内容都可以爬取。
基本语法
#*代表所有,/代表根目录
User-agent:*
Disallow:/
- User-agent 限制的User-agent
- Disallow 不允许访问的目录
使用
自动或人工识别robots.tst,再进行内容爬取。
你也可以不遵守robots.txt,但会产生风险。只有当你的程序不会对服务器产生威胁或者行为类似人类的时候可以不遵守robots.txt。这时候你获取的资源不能用于商业用途。
来源:CSDN
作者:等等,还有一个bug
链接:https://blog.csdn.net/qq_18543557/article/details/104141557