漫画爬虫

匿名 (未验证) 提交于 2019-12-02 23:39:01
import requests import flask ############################################# 目录网页=requests.get("https://www.36mh.com/manhua/wojiadashixiongnaoziyoukeng/") #36漫画网 目录网页.encoding="utf-8" 目录=[] a,b=[0,0] while a!=-1 and b!=-1:     a=目录网页.text.find("<li>",a+1)     while b<a:         b=目录网页.text.find("</li>",b+1)     目录.append(目录网页.text[a:b]) 完美目录=[] z=0 for x in range(len(目录)):     a=目录[x].find("href")     c=目录[x].find('"',a+7)     b=目录[x].find("<span>")     d=目录[x].find("</span>")     if a!=-1 and b!=-1:         #print(目录[x][a+5:c+1],目录[x][b+6:d])         #print(z,目录[x][b+6:d])         完美目录.append([目录[x][a+6:c],目录[x][b+6:d]])         z+=1 def 获取图片链接(a):     漫画网页=requests.get("https://www.36mh.com/"+完美目录[a][0])     漫画网页.encoding="utf-8"     b=漫画网页.text.find('chapterImages = [')+len('chapterImages = [')     c=漫画网页.text.find("]",b+1)     d=漫画网页.text.find('chapterPath = "')+len('chapterPath = "')     e=漫画网页.text.find('"',d+1)     图片路径="https://img001.yayxcc.com/"+ 漫画网页.text[d:e]     漫画图片=漫画网页.text[b:c].split(',')     图片链接=[]     for x in range(len(漫画图片)):         图片链接.append(图片路径+漫画图片[x][1:-1])     return 图片链接 app=flask.Flask(__name__) @app.route('/') def index():     mainpage=""     for x in range(len(完美目录)):         mainpage+='<a href="{}" >{}</a> '.format(x,完美目录[x][1])     return mainpage @app.route('/<page>') def 漫画页(page):     网页=""     图片链接=获取图片链接(int(page))     for x in range(len(图片链接)):         网页+='<img src="{}"> <br>'.format(图片链接[x])     if int(page)<=len(完美目录):         网页+='<h1><a href="/{}">{}</a></h1>'.format(int(page)+1,完美目录[int(page)+1][1])     return 网页 if __name__ =='__main__':     app.run(host="0.0.0.0",port=5000,debug=True) 

感觉稍微完善一下就是另外一个网站了呢

文章来源: https://blog.csdn.net/u011595866/article/details/91380354
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!