第8课:非JS 动态网站的分析
@[TOC](Html 分析目录:) HTML 和 网站是什么关系? HTML 是一种超文本语言,是用来编写前端网站的语言之一。我们也俗话把HTML 称之为 网站,网页。 如何分析网站: 在这里我们拿 上节课 《第7课: bs4 库 的 BeautifulSoup 基础学习》 的作业来做一个例子。 上节课的作业是 爬去 搜狐新闻的 文章标题。搜索网站网址: http://news.sohu.com/ 分析网站用到的第一个工具:就是浏览器自带的 调试工具。我这里默认使用的是谷歌浏览器,我建议大家也使用 谷歌浏览器。 首先,我们要打开这个网站,进入到首页后,需要 按<font color=#DC143C> F12</font> ,进入到调试模式。 按 F12 ,进入到调试模式,如下图。 然后我们可以看到一些代码,还有一个行工具栏。 工具栏中有 Elements ,Console ,Sourecs,Nerword,Perfornance,Memory,Application,Security,Lighthouse 。这些工具栏目。 爬虫需要的栏目名称 作用解释 Elements 主要是用来查看需要爬去的数据的 HTML 标签 属性等信息 Nerword 【爬虫最重要的】查看网站加载了 json文件,html 文件,媒体文件等等 其他的你们也不需要了解了,主要就是这四个,四个钟,重要的是