汽车之家

汽车之家数据平台架构

蓝咒 提交于 2020-11-08 18:24:44
汽车之家数据平台架构 互联网企业数据仓库构建是采用自下而上的方式,还是自上而下的方式?如果你是一个数据部门的架构师,你怎样去规划数据仓库呢?2015年中国数据库技术大会上,来自汽车之家用户智能组的高红锋为我们介绍了汽车之家平台架构。包括如何实现数据价值,数据价值的保障,实现数据价值的必经之路等。 详细解读 和小伙伴们一起来吐槽 来源: oschina 链接: https://my.oschina.net/u/856019/blog/406649

爬取汽车之家北京二手车信息

我的未来我决定 提交于 2019-12-08 22:46:17
爬取汽车之家北京二手车信息 经测试,该网站: https://www.che168.com/beijing/list/ 反爬机制较低,仅需要伪造请求头设置爬取速率,但是100页之后需要登录,登录之后再爬要慎重,一不小心就会永久封号。爬取的数据以各种类型存放,下面展示保存到mysql数据库中: 代码解析: 程序源码自提Github: https://github.com/H-Ang/carsSpider 爬虫主程序 # 汽车之家爬虫,北京二手车 import requests from lxml import etree from data_save import * import time class Car_second(): name = '' gonglishu = '' brought_year = '' location = '' img_url = '' price = '' def getInfors(url,i): print("Page %d is saving." % i) # 构造请求头 headers = { "Cache-Control":"no-cache", "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

人物-IT-李想:百科

微笑、不失礼 提交于 2019-12-06 17:26:34
ylbtech-人物-IT-李想:百科 李想,1981年10月出生于河北石家庄,80后企业家代表人物。曾先后创立泡泡网、 汽车之家 ,现任车和家创始人及CEO。 1998年还在上 高中 的李想就开始做 个人网站 ,2000年注册 泡泡网 并开始运营,仅凭借着自己对IT产品的一腔热爱和滚雪球式的资本积累,高中学历的李想让 泡泡网 在中国互联网行业中独树一帜。 2005年,李想带领团队从IT产品向汽车业扩张,创建 汽车之家 网站。目前,汽车之家现已成长为全球 访问量 最大的汽车网站,2012年底,汽车之家实现了月度覆盖用户8000万。2013年12月11日,李想带领汽车之家在美国纽约证劵交易所成功上市。 2015年6月李想卸任总裁,继续担任董事股东。 2015年7月,李想创办 车和家 。车和家 定位于未来智能交通服务商,致力于打造人人可以轻松购买、使用的智能电动车 。 李想还参与创办了电动汽车品牌蔚来汽车(NextEV),担任公司董事。 1. 返回顶部 1、 中文名:李想 国 籍:中国 民 族:汉族 出生地:中国, 河北 , 石家庄 出生日期:1981年10月5日 职 业:企业家、创业家 主要成就: 创建 车和家 创建 汽车之家 创建 泡泡网 代表作品: 车和家 、 汽车之家 、 泡泡网 教育背景:高中 目前职务:车和家创始人、CEO 性 别:男 目录 1 成长学习 2 三次创业 ▪

汽车之家社区从传统商业数据库到开源分布式数据库的架构变迁

╄→гoц情女王★ 提交于 2019-12-05 20:34:57
一、项目介绍 汽车之家社区于 2005 年上线,作为之家最老的业务之一,十四年来沉淀了亿级帖子、十亿级回复数据,目前每天有千万级 DAU、亿级的访问量,接口日均调用量 10亿+次 。期间经历过架构升级重构、技术栈升级等,但其数据始终存放在SQL Server中,随着数据的不断递增,我们在使用SQL Server 数据库方面遇到了很多瓶颈,以至于我们不得不寻找一个新的数据库替换方案。 二、使用SQL Server遇到的瓶颈 随着业务的不断扩大,汽车之家社区的访问量和发表量不断上涨,遇到的数据库问题也越来越多,下面列举两个必须很快要解决掉的问题: 历史上,之家社区回复库采用了分库分表的设计,用以解决SQL Server单表过大的时候性能下降等问题。时至今日,回复库有100+个库、1000+张表(根据帖子ID分库分表)。这本身并没有问题,代码写好了,数据该写哪里写哪里,该读哪里读哪里。但是随着应用的发展、需求的变化,我们发现在实现某些需求时,分库分表的结构难以满足。我们需要数据逻辑上在一张表里。 近些年来,随着业务加速成长,数据量突飞猛进,而硬盘容量是有限的,每台服务器上能扩展的硬盘数量也是有限的。致使每隔一段时间都要增加更大容量的存储服务器来应对,而且这个事情一开始是很复杂的,涉及到很多关联项目,即便到现在我们轻车熟路了,每次换服务器的时候依然需要关注它,并且大容量数据库服务器价格昂贵

爬取汽车之家

吃可爱长大的小学妹 提交于 2019-12-02 05:45:24
目录 依赖 简单爬取汽车之家新闻页首页 爬取新闻页前一百页 多线程爬取汽车之家新闻页前100页 线程池爬取汽车之家新闻页前100页 进程池爬取汽车之家新闻页前100页 混爬汽车之家好多页 依赖 爬取汽车之家用到了Python的两个库: requests:模拟浏览器发送请求 BeautifulSoup4:解析爬取的数据 这两个库都需要我们手动下载: pip install requests pip install BeautifulSoup4 简单爬取汽车之家新闻页首页 import os import requests from bs4 import BeautifulSoup base_dir = os.path.dirname(__file__) def spider(): '''基础版爬取汽车之家新闻页''' response = requests.get(url='https://www.autohome.com.cn/news/') # print(response) # 状态码 # print(response.status_code) # 状态码 # print(response.headers) # 响应头 # print(response.text) # 文本内容为中文内容为乱码,可以查看charset=gb2312 response.encoding =