汽车之家 | 易学教程

汽车之家数据平台架构

阅读更多关于汽车之家数据平台架构

汽车之家数据平台架构互联网企业数据仓库构建是采用自下而上的方式，还是自上而下的方式？如果你是一个数据部门的架构师，你怎样去规划数据仓库呢？2015年中国数据库技术大会上，来自汽车之家用户智能组的高红锋为我们介绍了汽车之家平台架构。包括如何实现数据价值，数据价值的保障，实现数据价值的必经之路等。详细解读和小伙伴们一起来吐槽来源： oschina 链接： https://my.oschina.net/u/856019/blog/406649

爬取汽车之家北京二手车信息

阅读更多关于爬取汽车之家北京二手车信息

爬取汽车之家北京二手车信息经测试，该网站： https://www.che168.com/beijing/list/ 反爬机制较低，仅需要伪造请求头设置爬取速率，但是100页之后需要登录，登录之后再爬要慎重，一不小心就会永久封号。爬取的数据以各种类型存放，下面展示保存到mysql数据库中：代码解析：程序源码自提Github： https://github.com/H-Ang/carsSpider 爬虫主程序 # 汽车之家爬虫，北京二手车 import requests from lxml import etree from data_save import * import time class Car_second(): name = '' gonglishu = '' brought_year = '' location = '' img_url = '' price = '' def getInfors(url,i): print("Page %d is saving." % i) # 构造请求头 headers = { "Cache-Control":"no-cache", "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

人物-IT-李想：百科

阅读更多关于人物-IT-李想：百科

ylbtech-人物-IT-李想：百科李想，1981年10月出生于河北石家庄，80后企业家代表人物。曾先后创立泡泡网、汽车之家，现任车和家创始人及CEO。 1998年还在上高中的李想就开始做个人网站，2000年注册泡泡网并开始运营，仅凭借着自己对IT产品的一腔热爱和滚雪球式的资本积累，高中学历的李想让泡泡网在中国互联网行业中独树一帜。 2005年，李想带领团队从IT产品向汽车业扩张，创建汽车之家网站。目前，汽车之家现已成长为全球访问量最大的汽车网站，2012年底，汽车之家实现了月度覆盖用户8000万。2013年12月11日，李想带领汽车之家在美国纽约证劵交易所成功上市。 2015年6月李想卸任总裁，继续担任董事股东。 2015年7月，李想创办车和家。车和家定位于未来智能交通服务商，致力于打造人人可以轻松购买、使用的智能电动车。李想还参与创办了电动汽车品牌蔚来汽车（NextEV），担任公司董事。 1. 返回顶部 1、中文名：李想国籍：中国民族：汉族出生地：中国，河北，石家庄出生日期：1981年10月5日职业：企业家、创业家主要成就：创建车和家创建汽车之家创建泡泡网代表作品：车和家、汽车之家、泡泡网教育背景：高中目前职务：车和家创始人、CEO 性别：男目录 1 成长学习 2 三次创业 ▪

汽车之家社区从传统商业数据库到开源分布式数据库的架构变迁

阅读更多关于汽车之家社区从传统商业数据库到开源分布式数据库的架构变迁

一、项目介绍汽车之家社区于 2005 年上线，作为之家最老的业务之一，十四年来沉淀了亿级帖子、十亿级回复数据，目前每天有千万级 DAU、亿级的访问量，接口日均调用量 10亿+次。期间经历过架构升级重构、技术栈升级等，但其数据始终存放在SQL Server中，随着数据的不断递增，我们在使用SQL Server 数据库方面遇到了很多瓶颈，以至于我们不得不寻找一个新的数据库替换方案。二、使用SQL Server遇到的瓶颈随着业务的不断扩大，汽车之家社区的访问量和发表量不断上涨，遇到的数据库问题也越来越多，下面列举两个必须很快要解决掉的问题：历史上，之家社区回复库采用了分库分表的设计，用以解决SQL Server单表过大的时候性能下降等问题。时至今日，回复库有100+个库、1000+张表（根据帖子ID分库分表）。这本身并没有问题，代码写好了，数据该写哪里写哪里，该读哪里读哪里。但是随着应用的发展、需求的变化，我们发现在实现某些需求时，分库分表的结构难以满足。我们需要数据逻辑上在一张表里。近些年来，随着业务加速成长，数据量突飞猛进，而硬盘容量是有限的，每台服务器上能扩展的硬盘数量也是有限的。致使每隔一段时间都要增加更大容量的存储服务器来应对，而且这个事情一开始是很复杂的，涉及到很多关联项目，即便到现在我们轻车熟路了，每次换服务器的时候依然需要关注它，并且大容量数据库服务器价格昂贵

爬取汽车之家

阅读更多关于爬取汽车之家

目录依赖简单爬取汽车之家新闻页首页爬取新闻页前一百页多线程爬取汽车之家新闻页前100页线程池爬取汽车之家新闻页前100页进程池爬取汽车之家新闻页前100页混爬汽车之家好多页依赖爬取汽车之家用到了Python的两个库： requests：模拟浏览器发送请求 BeautifulSoup4：解析爬取的数据这两个库都需要我们手动下载： pip install requests pip install BeautifulSoup4 简单爬取汽车之家新闻页首页 import os import requests from bs4 import BeautifulSoup base_dir = os.path.dirname(__file__) def spider(): '''基础版爬取汽车之家新闻页''' response = requests.get(url='https://www.autohome.com.cn/news/') # print(response) # 状态码 # print(response.status_code) # 状态码 # print(response.headers) # 响应头 # print(response.text) # 文本内容为中文内容为乱码，可以查看charset=gb2312 response.encoding =