小说

python爬虫练习

人走茶凉 提交于 2019-11-28 22:15:29
Python爬虫练习 工作需要学习Python,随手找了个小说网站,写了个下载小说的功能 小说网站: www.tianxiabachang.cn 选择第一个小说: 1、可以发现网站是使用“0_376”来标记这本小说,根据这个标号提供下载功能。 2、查看网页源代码: < div id = "maininfo" > < div id = "info" > < h1 > 斗罗大陆 IV 终极斗罗 < / h1 > < p > 作 & nbsp ; & nbsp ; & nbsp ; & nbsp ; 者:唐家三少 < / p > < p > 动 & nbsp ; & nbsp ; & nbsp ; & nbsp ; 作: < a href = "/newmessage.php?tosys=1&title=小说《斗罗大陆IV终极斗罗》错误举报!&content=举报原因如下:缺少第( )章;第( )章没内容;其他原因:" target = "_blank" rel = "nofollow" > 小说错误举报 < / a > , < a href = "javascript:;" onClick = "showpop('/modules/article/addbookcase.php?bid=376&ajax_request=1');" > 加入书架 < / a > , < a href =

Python爬虫——从笔趣阁爬小说

南楼画角 提交于 2019-11-28 22:14:25
这是一个练习作品。用python脚本爬取笔趣阁上面的免费小说。 环境:python3 类库:BeautifulSoup 数据源: http://www.biqukan.cc 原理就是伪装正常http请求,正常访问网页。然后通过bs4重新解析html结构来提取有效数据。 1. config文件 包含了伪装请求头部,数据源配置(如果不考虑扩展其他数据源,可以写死)。 #!/usr/bin/python #coding:utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') source = { 'biquge': { 'base_url': 'http://www.biqukan.cc', 'category_min': 1, 'category_max': 2, 'category_url': 'http://www.biqukan.cc/fenlei{id}/1.html' } } header = [ {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36'}, {'User

python3爬取笔趣阁小说

耗尽温柔 提交于 2019-11-28 22:14:08
爬虫第一步:确定要爬取的信息 确定要爬取的网站的URL地址: http://www.xbiquge.la/6/6818/ 第二步:分析网站信息 爬小说要获取小说章节目录名称和每一章的阅读链接 第三步:编写代码: 本次爬虫练习完整代码,存在缺陷,小说章节过多的话爬虫可能会被封Ip import requests import re from lxml import etree import os import time def get_html(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' } # 小说目录URL,改变这个URL就可以下载对应的小说 url = 'http://www.xbiquge.la/6/6818/' html = requests.get(url, headers=headers).content.decode('utf-8') return html def get_novel_url(html): ''' 获取章节名和链接 ''' pat2 = r"<dd><a href='(.*?)' >(.*?)</a></dd>"

初次尝试python爬虫,爬取小说网站的小说。

二次信任 提交于 2019-11-27 09:44:15
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说。 下面直接上菜。    1.首先我需要导入相应的包,这里我采用了第三方模块的架包, requests 。 requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,因为是第三方库,所以使用前需要cmd安装。   cmd安装方式,打开cmd,输入以下命令:                      pip install requests   2.添加相应的包后,我们需要一个小说链接去爬下这本小说也就是一个url。下面是我当时爬的小说url:http://www.shujy.com/5200/244309/   3.我们现在有了小说的链接,这时候就要模拟浏览器发送http的请求:  response=requests.get(url) response.encoding='gbk'    4.我们可以尝试获取目标小说的网页源码  html=response.text    我们把它打印出来看下:       有html基础的朋友应该对这些很熟悉。通过打印我们可以看见小说的名字,作者,以及小说章节的url。这时候我们就先通过HTML网页源码获取小说的名字: title=re.findall(r'<meta property="og:novel:book_name" content="(.*?

涵盖全网动漫、影视、小说的APP集合,手机有了他们,看遍全网

给你一囗甜甜゛ 提交于 2019-11-27 02:40:17
今天老猫给大家带来三款好用的APP。感觉老猫很久没有更新文章了,喜欢老猫的记得点赞评论转发支持老猫了哦~ 追书神器 小说软件中最强的一款,页面简洁,功能明确强大。拥有强大的搜索功能,能够迅速的查找全网的小说,而且都可以阅读的。三大功能包括书架、社区、发现。其中书架可以方便的查找你添加的书籍。社区中又具有综合讨论区、书评区、书荒互助区、女生区。发现的功能区中主要是排行榜、主题书单、分类、有声小说、随机看书等。它具备书籍的信息、缓存全本,换源、夜间模式、横屏、目录、夜间等功能,帮助我们便捷高效的阅读。 新世纪动漫 这是一款看动漫专用的软件的软件,身在二次元的朋友也对它不陌生了。它的首页包括推荐、发送、收藏(需要登录)三个功能区。推荐的是一些现在比较热门的动漫,发送时番剧每周更新的列表。它的分类型包括各个地区、动漫内容的种类,评分等。精准的分类,有助于我们快速的查找自己喜欢的内容。“我的”功能区里面有观看记录、我的收藏、我的缓存,设置等。 天天看 一款拥有全网影视的软件,当然院线的抢先版本也是有的。首页是一个近期热播的电视剧电影等的一个推荐,它包括了电视、电影、综艺、动漫、专题、片花、资讯、福利社、韩剧、直播、专题等。它的加载速度是极快的,播放器也很稳定而且资源也是丰富的,所以它是一个狠家伙。 老猫的软件分享就到这里了 来源: https://blog.csdn.net/qq

爬虫练习-爬取笔趣阁小说

梦想的初衷 提交于 2019-11-25 20:07:32
练习一下爬虫,将笔趣阁的小说根据需求目标再爬取下来,本文仅仅学习爬虫技术,大家还是要支持一下正版网站的 思路: Created with Raphaël 2.2.0 开始 输入书名 查询小说是否存在 跳转页面至小说主页 获取小说目录URL 解析小说内容并保存至word 结束 yes no 主要模块 Xpath(lxml) requests docx(Document) parse(urllib) 第一步、输入所要爬取的书名,并判断其是否存在 由笔趣阁的搜索页面可以分析出,我们输入的书名被转换为URL编码的格式。其实是按照标准, URL 只允许一部分 ASCII 字符(数字字母和部分符号),其他的字符(如汉字)是不符合 URL 标准的。所以 URL 中使用其他字符就需要进行 URL 编码。 那我们根据要求,将其转换一下格式 PS:此处,笔者为大家踩个坑,这个网页是将我们输入的书名先转换为了gbk编码,所以我们也先要转换过来 book_name = parse . quote ( book_name . encode ( 'gbk' ) ) 下面是笔者乱搜了一个书名,与此前搜索的‘《圣墟》’时有明显区别,此处的 下只有一个 li ,显然我们可以通过判断 li 里的相关值或属性的有无进而判断书的有无 if ( root . xpath ( '//div[@class="search