Selenium笔记
现在许多网站都不是静态网站(静态加载HTML文档),大部分使用javaScripr或者Ajax技术加载一些数据,使用普通的爬虫程序爬取不到这些数据,因为普通的爬虫程序没有能力执行javaScript程序,在javaScript程序执行之前就返回爬取到的整个页面的数据了。因此使用Selenium模拟浏览器访问网站来获取网页文档。 1.安装Selenium框架 pip install Selenium 安装谷歌浏览器的驱动chromedriver.exe,并复制到Python的scripts目录下,其他浏览器下载相对应的驱动 下载网址: http://npm.taobao.org/mirrors/chromedriver/ 2. 3.Selenium查找HTML元素 使用xpath查找主要有两个函数 : (1)find_element_by_xpath(xpath):查找xpath匹配的第一个元素,如果找到就返回一个WebElement类型对象,找不到就抛出异常; (2)find_elements_by_xpath(xpath):查找xpath匹配到的所有元素组成的的列表,每个元素都是一个WebElement类型对象,找不到就返回空列表; (3)任何一个WebElement对象都可以再调用find_element_by_xpath和find_element_xpath函数 (4