Python高级应用程序设计任务
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 易车网奥迪汽车信息的爬取 2.主题式网络爬虫爬取的内容与数据特征分析 爬取易车网奥迪汽车的基本信息(汽车名称、汽车的标题图片、参考价、厂商指导价、排量、油耗),分析汽车的性价比包含多个方面的的特征值,以下只分析汽车排量跟价格这两个特征量之间的关系进而来分析汽车的性价比。 3.主题式网络爬虫设计方案概述(包括实现思路与技术难点) 整个框架分为六个模块:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器、数据可视化 二、主题页面的结构特征分析(15分) 1.主题页面的结构特征 本文分别需要爬取奥迪汽车的列表页跟详情页,最后将详情页内的一重要数据存储在数据库中 列表页: 主要负责分析出详情页的请求地址,汽车名称,标题图片,厂商参考价 详情页: 主要负责分析其他的特征值 2.Htmls页面解析 列表页: 详情页: 3.节点(标签)查找方法与遍历方法 (必要时画出节点树结构) 使用beautifulsoup模块遍历树的方法 eg:获取标题图片的方法其他的类似 titleImgUrl = dataTag.find('div', class_='img').find('img')['src'] 三、网络爬虫程序设计(60分) 爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后面提供输出结果的截图。