二手房

链家北京二手房数据分析

扶醉桌前 提交于 2020-01-07 04:07:27
环境: R 研究对象: 1. 二手房数据的区域特征 2. 二手房数据的面积特征 1. 导入原始数据 setwd("/Users/mac/Desktop/lianjia/") d = read.csv("/Users/mac/Desktop/lianjia/Lianjia.csv")   2. 数据清洗 - 将数据设置为数据框格式,并查看数据汇总信息 as.data.frame(d) summary(d) - 初步观察:一共有11个变量,目标变量为Price - 移除第六列ID信息,不具有分析价值。添加新的特征每平米房价 PerPrice (总价/面积),并调整列的顺序。 d <- d[,-6] dp <- d$Price/d$Size d2 <- transform(d,PerPrice=dp)    3. 数据可视化 3.1 区域特征分析 #各大区二手房每平米房价对比 means1 <- aggregate(d2$PerPrice, by=list(d2$Region), FUN = mean) #https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/aggregate means1 <- means1[order(means1$x, decreasing = T),] a1 <- means1$x

爬取58同城的二手房信息

孤人 提交于 2019-12-08 21:51:18
给定任意一个58同城的详情二手房信息.会递归爬取房源下的推荐信息,直到被封(使用代理ip即可避免) github地址:https://github.com/zhucaidong/house_anqing 抓取结果: 来源: CSDN 作者: immortal_codeFarmer 链接: https://blog.csdn.net/immortal_codeFarmer/article/details/77986578

链家二手房、租房、居民区数据爬取及分析

本小妞迷上赌 提交于 2019-12-08 21:23:31
链家二手房、租房、居民区数据爬取及分析 分析结果示例及源码见github: https://github.com/anniekorea/LianJiaCrawlAnalyze 准备工作: 1、安装anaconda,并安装以下库:requests、numpy、pandas、time、random、lxml、os、datetime、json、pymongo、re、csv 参考教程: https://www.jianshu.com/p/eaee1fadc1e9 2、安装数据库mongodb 参考教程: http://www.runoob.com/mongodb/mongodb-window-install.html 3、安装MongoDB可视化工具 Robo 3T 参考教程: https://blog.csdn.net/qq_36070288/article/details/73822101 4、申请高德api的key(WEB服务,最多可申请10个) 参考教程: https://blog.csdn.net/qq_32444825/article/details/79441900 流程图: 1、链家二手房数据爬取及分析 2、链家租房数据爬取及分析 3、链家居民区数据爬取及分析 来源: CSDN 作者: anniekorea 链接: https://blog.csdn.net

如何一键抓取全国二手房和租房数据? (全部源码)

大憨熊 提交于 2019-12-08 21:09:33
最近又要租房了,哪里的性价比更高?买房却不知道全国市场的趋势如何?程序员自有办法,抓取网络的房产交易和租房数据来分析啊! 用Python写起来麻烦,用商业软件速度慢还收费,开源的图形化爬虫Hawk,已经在其任务市场里内置了全国链家和我爱我家的工程任务。一键即可加载市场任务,一键在全国几十个城市之间切换,还能一键导出数据到Excel,txt等各种文本类型,心动了么? Hawk, 由沙漠之鹰历时五年个人业余时间开发 ,从2015年开发至今,已经经历三个版本,但是Hawk5则带来了其历史上最大的一次更新,并提供了社区化的任务市场,多国语言和更强大的调试系统。 本文将手把手地让您通过Hawk无需编程地抓取全部房产数据,并从中了解Hawk的设计思想和原理。如果你已经是Hawk的用户,可以通过本文了解Hawk5的最新功能。 本文面向程序猿同学,一些常识不再介绍,之后会对源代码进行讲解。更多的细节可参考使用文档,有包含Hawk方方面面的信息。 GitHub主页: https://github.com/ferventdesert/Hawk 使用文档: https://ferventdesert.github.io/Hawk/ 下载地址: https://github.com/ferventdesert/Hawk/releases 国内下载地址: https://gitee.com

二手房交易平台需求分析心得——字节移动小组

时光怂恿深爱的人放手 提交于 2019-12-03 09:31:30
  经过这一段时间的需求分析及确定过程,我们终于明白关于需求的一句话——变化是永远不变的。   在一段时间的摸索后,我们才明白了这个实践项目最重要的一点——满足课程需求。在完成这个项目需求的确定过程中,在小班讨论课以及和各个PM的了解下,发现了一个重要的问题:   如何在保证工作量   在和老师进行两次讨论过后,我们能够确立了本项目所需要做的内容——一个 政府承办 的满足能将二手房进行挂牌,并且能够搜索到已经挂牌的二手房信息的平台,对用户来说可以将房子信息挂牌,并且附加详细信息。个人可以对已挂牌的房子进行搜索,收藏,对房子信息进行提问。需求是清楚的,但这只是项目知道老师给我们的需求,但对本次实践课程来说需求可能略显单薄,也就是“工作量不够”。   这个时候,我们开始面临一个问题——如何增加需求。我们一开始想了两个比较大的方面:中介监管以及交易流程,也就是网签。   但是对网签流程来说,一是我们对整个二手房网签流程不太熟悉,二是整个过程牵涉到的机构比较多,随之而来的就是需要许多的确认以及核验的过程,对我们来说业务流程不太熟悉,同时可能做出来之后不太符合实际情况,也没有真实的接口给我们调用,所以这个业务被我们否决了。   既然不做交易流程,同时是一个政府主办的网站,自然而然存在中介监管这一部分的内容。我们上网搜索参考了相关的二手房交易监管网站。在看到了杭州的二手房交易监管网站之后

利用Python对链家网北京二手房进行简单数据分析

匿名 (未验证) 提交于 2019-12-02 22:54:36
#首先我用爬虫获取到了链家二手房的一万多条信息,我在爬去的时候对空置进行了处理 本文主要讲述如何通过pandas对爬虫下来的链家数据进行相应的二手房数据分析,主要分析内容包括各个区,各个小区的房源信息情况 #然后查看是否有数据 #结果 id title link community housetype direction floor region totalprice followinfo unitprice acreage frequency 3 917 桃花岛 南北全名三居室 满五年 中间楼层 得房率93.4% https://bj.lianjia.com/ershoufang/101102706320... 桃花岛 3室2厅 南 北 6 通州 600.0 23 50113 119.73平米 0 0 914 满五年唯一南北通透大2居 板楼1层2户 全天采光视野好 https://bj.lianjia.com/ershoufang/101102810716... 天通西苑三区 2室2厅 南 北 13 昌平 499.0 25 37209 134.11平米 25 2 916 南北通透大3居+低楼层+落地窗户+生活方便 https://bj.lianjia.com/ershoufang/101102750110... 华龙小区 3室1厅 南 北 6 通州 466.0 35 37930

Python3.6+Scrapy爬取58同城二手房数据,保存到MongoDB和CSV文件

一曲冷凌霜 提交于 2019-11-26 07:48:50
爬取58同城二手房数据,将爬取的数据保存在一个csv文件和MongoDB数据库。 代码见: https://github.com/wangjun1996/58tongcheng_spider (运行项目中 zhihuUser/main.py 即可开始爬虫) 本人爬取的是大连市的二手房数据,若要爬取其他城市数据,修改 tongcheng\spiders\tongcheng_spider.py 中的相应url即可 来源: CSDN 作者: wangjun0708 链接: https://blog.csdn.net/weixin_42762089/article/details/84769377