链家

爬取链家北京租房数据并做简单分析

匿名 (未验证) 提交于 2019-12-02 23:05:13
在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市。它无比美好,但又无时无刻不再觊觎这你薄弱的钱包。 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析。 1. 明确需求 这次爬取数据分析的目的在于,通过爬取链家发布的租房信息,发现北京各地区的租房价格差异,以及探索影响北京租房价格的主要因素。 2. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的数据选取了以下几个点: 租房价格同面积、地理位置、公共交通因素高度相关 租房价格受房屋格局、有无供暖因素影响 租房价格几乎不受楼层、朝向、看房便利等因素影响 因为分析影响租房价格因素的树形图太长,放在文章末尾。 初步分析后借鉴了这篇文章加以完善: 年轻人在租房网站找房的时候,他们在看什么? 3. 数据获取 租房数据全部来源于链家北京租房板块发布的信息,如下: 因为链家在当前分类下只最多展示100页共3000条数据,所以这里选择按照链家给出的地区分类,遍历爬取其所有地区展示的租房信息: 4. 数据清洗 1)调整格式 对房屋价格、房屋面积等字段进行调整,提取其中的数值。 2)重复值 格式调整后发现存在5182条重复数据,判断重复数据的标准为house_url字段,即每间房屋在链家上都对应唯一一个展示网页。 查看数据,发现在一对重复的数据间,除了posi_name和poai

链家房产爬取

匿名 (未验证) 提交于 2019-12-02 23:04:42
链家房产的爬取 什么是爬虫,爬虫就是我们模拟浏览器向服务器发送请求获取并处理响应的一个过程。 爬取链家首先要了解链家的url 上面是第一页(忽略没有pg1) 这是第二页 这是第三页 相信大家都发现规律了,就是该url里面pg后面跟的是页数 这里我们就可以一遍又一遍的来爬取每一页的内容 就把url里面的pg后面的用.format表示表示如下 def __init__(self): self.temp_url="https://cd.lianjia.com/ershoufang/pg{}rs%E9%83%BD%E6%B1%9F%E5%A0%B0/" self.header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"} def make_url(self): start_url=[self.temp_url.format(i)for i in range(1,9)]#列表推导式 return start_url 处理完url就是发送请求了 我把代码写在了dffc类里面,在该类中定义各种各样的方法。 class dffc: 该dffc类中有make_url方法 def

利用Python对链家网北京二手房进行简单数据分析

匿名 (未验证) 提交于 2019-12-02 22:54:36
#首先我用爬虫获取到了链家二手房的一万多条信息,我在爬去的时候对空置进行了处理 本文主要讲述如何通过pandas对爬虫下来的链家数据进行相应的二手房数据分析,主要分析内容包括各个区,各个小区的房源信息情况 #然后查看是否有数据 #结果 id title link community housetype direction floor region totalprice followinfo unitprice acreage frequency 3 917 桃花岛 南北全名三居室 满五年 中间楼层 得房率93.4% https://bj.lianjia.com/ershoufang/101102706320... 桃花岛 3室2厅 南 北 6 通州 600.0 23 50113 119.73平米 0 0 914 满五年唯一南北通透大2居 板楼1层2户 全天采光视野好 https://bj.lianjia.com/ershoufang/101102810716... 天通西苑三区 2室2厅 南 北 13 昌平 499.0 25 37209 134.11平米 25 2 916 南北通透大3居+低楼层+落地窗户+生活方便 https://bj.lianjia.com/ershoufang/101102750110... 华龙小区 3室1厅 南 北 6 通州 466.0 35 37930

中介者模式——解决“依赖关系结构混乱”问题

帅比萌擦擦* 提交于 2019-12-02 06:18:50
目录 一、基础简介 1、定义 2、使用场景 3、优缺点 4、模式结构分析 二、实例实现 1、实例场景 2、房屋中介:抽象中介者(Mediator)角色 3、链家:具体中介者(ConcreteMediator)角色:维护同事的交互关系 4、链家的顾客:抽象同事类(Colleague)角色 5、委托链家卖房和找链家买房的顾客:具体同事类(Concrete Colleague)角色 6、客户端类 7、结果展示 一、基础简介 1、定义 用一个 中介对象来封装一系列的对象交互 。中介者使各对象不需要显式地相互引用,从而使 其耦合松散 ,而且 可以独立地改变他们之间的交互 。(中介者会比较复杂) 2、使用场景 1、系统中对象之间存在比较 复杂的引用关系 ,导致它们之间的 依赖关系结构混乱而且难以复用该对象 。 2、想通过 一个中间类来封装多个类中的行为, 而又不想生成太多的子类。 3、优缺点 优点: 1、降低了类的复杂度,将 一对多转化成了一对一 。 2、各个类之间的解耦。 3、符合迪米特原则。 缺点: 中介者会庞大,变得复杂难以维护。 4、模式结构分析 抽象中介者(Mediator)角色 :它是中介者的接口,提供了同事对象注册与转发同事对象信息的抽象方法。 具体中介者(ConcreteMediator)角色 :实现中介者接口,定义一个 List 来管理同事对象,

数据分析 - 链家网爬取深圳租房

自闭症网瘾萝莉.ら 提交于 2019-11-28 16:14:45
基于之前另外一篇博客爬取的链家网深圳租房信息的数据分析 背景和目标 没去过深圳、没有自己租过房。但是大四及其之后想到深圳工作租房。 深圳的房价一直是每个刚去找工作的人的热门话题,所以什么样的房子才是我所青睐的。 通过对深圳租房数据进行分析,为我后续到深圳想要租房的方便作参考 指标设计 针对先前爬取的宽表继续修改 本身不喜欢和不认识的人合租,所以剔除点出租类型是“合租”,保留“整租” 地址的考虑只在区范围考虑,更详细的地址暂不做考虑 房子朝向还不懂,不做考虑 增加一列房子的房间数量 增加一列房子每平放的月租 增加一列房子每个人的月租 增加一列是否公寓 增加一列是否近地铁 district1 size toward zone price room avg_price_size avg_price_room tag is_dep close_subway 区 大小 朝向 格局 价格 房间数 每平米月租 每人月租 标签 公寓 近地铁 数据分析 房源分析 出租房源主要在深圳的西部,判断西部的待出租房源多,相对可供的选择也多 房租分析 区域房租分布 深圳个人房租高的地方主要集中在科技园附近,大多数互联网公司附近。 基本上房租高的地方,每个人需要承当的房租也高 南山区和龙岗区的每人月租均价趋势和总月租的趋势有所差别,说明南山区多人合租的较多而龙岗区独自租房的较多 南山区、福田区