用python爬取之后发现果然如此，都说知乎的小姐姐漂亮

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

我们用爬虫爬了下这个问题下的高赞照片。在欣赏小姐姐的美照之前，我们先来分享一下思路。

首先通过浏览器的开发者工具，找到所有回答的链接。知乎的回答都是ajax的方式加载的，一次加载一页。

我们可以通过知乎回答的url，先把回答一页一页的爬下来，存到本地数据库。随后从数据库里读取数据，筛选出高赞的回答，把回答里的图片解析出来。

思路大致就是这样。

def get_answers_by_page(page_no):
 offset = page_no * 10
 url = "<answer url>&offset={}&limit=10&sort_by=default&platform=desktop".format(offset)
 headers = {
 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
 }
 r = requests.get(url, verify=False, headers=headers)
 content = r.content.decode("utf-8")
 data = json.loads(content)
 is_end = data["paging"]["is_end"]
 items = data["data"]
 client = pymongo.MongoClient()
 db = client["beauty"]
 if len(items) > 0:
 db.answers.insert_many(items)
 return is_end

def get_answers():
 page_no = 0
 client = pymongo.MongoClient()
 while True:
 print(page_no)
 is_end = get_answers_by_page(page_no)
 page_no += 1
 if is_end:
 break

def query():
 client = pymongo.MongoClient()
 db = client["beauty"]
 items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)])
 count = 0

 for item in items:
 content = item["content"]
 vote_num = item["voteup_count"]
 author = item["author"]["name"]
 matched = re.findall(r'data-original="([^"]+)"', content)
 print("> 来自 {}\n".format(item["url"]))
 print("> 作者 {}\n".format(author))
 print("> 赞数 {}\n".format(vote_num))
 img_urls = []
 for img_url in matched:
 if img_url not in img_urls:
 print("![]({})".format(img_url))
 img_urls.append(img_url)
 count += len(img_urls)
 print("\n\n")
 print(count)

上面是3个函数。