用python 写网络爬虫--零基础
在爬取网站之前,要做以下几项工作 1.下载并检查 网站的robots.txt文件 ,让爬虫了解该网站爬取时有哪些限制。 2.检查网站地图 3.估算网站大小 利用百度或者谷歌搜索 Site:example.webscraping.com 结果如下 找到相关结果数约5个 数字为估算值。网站管理员如需了解更准确的索引量 4. 识别网站所使用的技术 使用 python 中的builtwith 模块 下载地址 https://pypi.python.org/pypi/python-builtwith 运行 pip install builtuith 安装完成后 使用命令 I mport builtwith B uiltwith.parse( ‘ http://example.webscraping.com ’ ) 来源: https://www.cnblogs.com/mrruning/p/7624699.html