爬取链家北京租房数据并做简单分析
在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市。它无比美好,但又无时无刻不再觊觎这你薄弱的钱包。 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析。 1. 明确需求 这次爬取数据分析的目的在于,通过爬取链家发布的租房信息,发现北京各地区的租房价格差异,以及探索影响北京租房价格的主要因素。 2. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的数据选取了以下几个点: 租房价格同面积、地理位置、公共交通因素高度相关 租房价格受房屋格局、有无供暖因素影响 租房价格几乎不受楼层、朝向、看房便利等因素影响 因为分析影响租房价格因素的树形图太长,放在文章末尾。 初步分析后借鉴了这篇文章加以完善: 年轻人在租房网站找房的时候,他们在看什么? 3. 数据获取 租房数据全部来源于链家北京租房板块发布的信息,如下: 因为链家在当前分类下只最多展示100页共3000条数据,所以这里选择按照链家给出的地区分类,遍历爬取其所有地区展示的租房信息: 4. 数据清洗 1)调整格式 对房屋价格、房屋面积等字段进行调整,提取其中的数值。 2)重复值 格式调整后发现存在5182条重复数据,判断重复数据的标准为house_url字段,即每间房屋在链家上都对应唯一一个展示网页。 查看数据,发现在一对重复的数据间,除了posi_name和poai