Scrapy项目 - 数据简析 - 实现腾讯网站社会招聘信息爬取的爬虫设计
一、数据分析截图 本例实验,使用Weka 3.7对腾讯招聘官网中网页上所罗列的招聘信息,如:其中的职位名称、链接、职位类别、人数、地点和发布时间等信息进行数据分析,详见如下图: 图1-1 Weka 3.7分析界面 图1-2 职位数据ZeroR分析界面 图1-3 数据聚类分析界面 图1-4 数据Visualize分析界面 二、数据分析结论 由图2-1可知,随着应聘人数的不断增加,其职位的需求便越少,同时,发布应聘岗位信息的企业主要来自,如:深圳、上海和北京等一线城市。这或许也在说明,一线城市主要是以技术作为企业发展的目标和趋势。 图2-1 职位与人数、地点的关系 在众多城市的相比较之下,深圳的岗位需求人数远远高于一线城市中的人才需求,而对于岗位需求的类型而言,深圳和上海区域都呈现了极高比例的态势。如图2-2所示。 这说明深圳和上海的人才岗位需求种类庞大,就目前情况而言,其地域对人才和岗位类型的缺口在不断快速发展和完善。对于非沿海企业,其深居中原,与国外企业合作较为稀少,由此对人才的需求自然也就不大。 图2-2 人数与地域关系 三、数据集 1.tencentSpider.csv --部分数据--- 职位,链接,类型,人数,地点,时间 28966-交互设计师(深圳),position_detail.php?id=46674&keywords=&tid=0&lid=0,设计类,1,深圳