网站限制爬虫的两个办法: 审查来源 robots告知 robots协议存放在网站根目录,并不是所有的网站都有robots协议的 基本语法: User-agent:* 爬虫来源,*代表所有 Disallow:/ 不允许爬取的资源目录,/代表根目录 爬虫怎么遵守robots协议? 自动或人工识别robots协议,再进行内容爬取 来源:https://www.cnblogs.com/leerep/p/12444676.html 标签 robots协议 根目录