Robots协议

…衆ロ難τιáo~ 提交于 2020-03-08 22:15:31

网站限制爬虫的两个办法:

  • 审查来源
  • robots告知

robots协议存放在网站根目录,并不是所有的网站都有robots协议的

基本语法:
User-agent:* 爬虫来源,*代表所有
Disallow:/ 不允许爬取的资源目录,/代表根目录

爬虫怎么遵守robots协议?
自动或人工识别robots协议,再进行内容爬取

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!