前面已经说了,其实学习Python的过程,很多时候就是在学习如何使用第三方模块,完成自己需要的功能。
关于Python的第三方库类库,其实网上很多很多相关资料。
其中,官网的Python库:Python Package Index,其中有N多N多的库,有需要的人,可以去那里找找。
其他的网上的N多资源中,我觉得值得看看的有:
- http://www.elias.cn/Python/HomePage中的3.3 用第三方类库的部分。
下面就来总结一下,个人对于一些第三方模块的使用心得。
Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析
先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。
这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。
但是对于工作量很大,要分析的内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。
比如我这里的想要实现博客搬家之前,想要抓取对应的博客中的内容,就需要先去打开一个URL地址,去解析其中的内容,找到第一个固定链接,然后一点点分析HTML中的内容,抓去下来,导出wordpress所需要的xml文件等。
这其中对于HTML的分析,就可以利用BeautifulSoup这个模块了。
更多内容参见"Beautiful Soup 中文文档"
其中,原先链接:
http://www.crummy.com/software/BeautifulSoup/documentation.zh.html
已失效,最新的可用的地址是:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html
想要下载的话,这是BeautifulSoup的官网,其中可以下载到最新的版本:
http://www.crummy.com/software/BeautifulSoup/
下面就介绍一些Beautifulsoup使用过程中的心得和注意事项:
在使用Beautifulsoup过程中,对于大多数html源码,通过指定正确的编码,或者本身是默认UTF-8编码而无需指定编码类型,其都可以正确解析html源码,得到对应的soup变量。
然后就接着去利用soup实现你所想要的功能了。
但是有时候会发现,有些html解析后,有些标签等内容丢失了,即所得到的soup不是所期望的完整的html的内容。
这时候,很可能遇到了非法的html,即其中可能包含了一些不合法的html标签等内容,导致Beautifulsoup虽然可以解析,没有报错,但是实际上得到的soup变量,内容缺失了一部分了。
比如我就遇到过不少这样的例子:
- 部分Blogbus的帖子的html中非html5和html5的代码混合导致Beautifulsoup解析错误
之前在为BlogsToWordPress添加Blogbus支持过程中去解析Blogbus的帖子的时候,遇到一个特殊的帖子:http://ronghuihou.blogbus.com/logs/89099700.html,其中一堆的非html5的代码中,包含了这样一段html5的代码的写法,即标签属性值不加括号的:
<SCRIPT language=JavaScript> document.oncontextmenu=new Function("event.returnValue=false;"); //禁止右键功能,单击右键将无任何反应 document.onselectstart=new Function( "event.returnValue=false;"); //禁止先择,也就是无法复制 </SCRIPT language=JavaScript>
结果导致Beautifulsoup解析错误,得到的soup中,找不到所需要的各种class等属性值。
对应的解决办法就是,把这部分的代码删除掉,然后再解析就可以了:
其中一堆的非html5的代码中,包含了这样一段html5的代码的写法,即标签属性值不加括号的:
foundInvliadScript = re.search("<SCRIPT language=JavaScript>.+</SCRIPT language=JavaScript>", html, re.I | re.S ); logging.debug("foundInvliadScript=%s", foundInvliadScript); if(foundInvliadScript): invalidScriptStr = foundInvliadScript.group(0); logging.debug("invalidScriptStr=%s", invalidScriptStr); html = html.replace(invalidScriptStr, ""); logging.debug("filter out invalid script OK"); soup = htmlToSoup(html);
- 判断浏览器版本的相关代码,导致Beautifulsoup解析不正常
之前在给BlogsToWordpress添加新浪博客的支持的过程中
遇到很多新浪博客的帖子的html中,包含很多判断浏览器版本的相关代码:
<!–[if lte IE 6]> xxx xxx <![endif]–>
由此导致Beautifulsoup解析html不正常。
- font标签嵌套层次太多,导致Beautifulsoup无法解析html
接上面那个解析新浪博客帖子的例子,期间又遇到另外一个问题,对于一些特殊帖子:http://blog.sina.com.cn/s/blog_5058502a01017j3j.html
其包含特殊的好几十个font标签且是一个个嵌套的代码,导致无法Beautifulsoup无法解析html,后来把对应嵌套的font标签删除掉,才可以正常解析。
相关python代码为:
# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html processedHtml = processedHtml.replace('<font COLOR="#6D4F19"><font COLOR="#7AAF5A"><font COLOR="#7AAF5A"><font COLOR="#6D4F19"><font COLOR="#7AAF5A"><font COLOR="#7AAF5A">', ""); processedHtml = processedHtml.replace("</FONT></FONT></FONT></FONT></FONT></FONT>", "");
遇到其他类似的问题,也可以去删除或替换出错代码,即可解决问题。
不过需要说明的是,很多时候,你未必很容易就找到出错的代码。
想要找到出错的代码,更多的时候,需要你一点点调试,一点点的删除看似可疑的一些html源码,然后最终才能定位到出错的代码,然后删除掉后,才可以正常工作的。
BeautifulSoup处理这种html源码:
<a href="http://creativecommons.org/licenses/by/3.0/deed.zh" target="_blank">版权声明</a>
后,是可以通过
soup.a['href']
去获得对应的href属性值的。
但是,想要去获得当前的某个未知的BeautifulSoup.Tag中,一共存在多少个属性,以及每个属性的值的时候,却不知道如何下手了。
比如对于如下html源码:
<p class="cc-lisence" style="line-height:180%;">......</p>
想要得知,一共有两个属性,分别是class和style,然后就可以通过上面的方法,去获得对应的属性值了。
对此问题,虽然看到了官网的解释:Tags的属性中的“你可以将Tag看成字典来访问标签的属性”
但是还是无法通过:
if("class" in soup)
的方式去判断soup中是否存在class属性,因为此时soup是Beautifulsoup.Tag类型变量,而不是dict变量。
并且,如果去强制将soup转换成为dict变量:
soupDict = dict(soup)
会报错的。
最后,还是无意间发现,原来Beautifulsoup.Tag是有个attrs属性的,其可以获得对应的元组列表,每一个元组是对应属性名和属性值:
attrsList = soup.attrs;
print "attrsList=",attrsList;
attrsList= [(u'class', u'cc-lisence'), (u'style', u'line-height:180%;')]
这样,就可以从元组列表中,自己去转换,获得属性的列表或字典变量了,就可以接着按照自己意愿去处理了。
提示 | |
---|---|
另外,此处也通过 获得了该tag的名字 而想要获得整个soup变量所有的属性和方法的话,可以用经典的dir去打印出来: 此处的打印输出为: 有需要的话,可以对这些属性和方法,都尝试一下,以便更加清楚其含义。 刚写完上面这句话呢,然后自己随便测试了一下attrMap: 然后就很惊喜的发现,原来此处的attrMap,就是我程序中所需要的属性的dict变量啊: 这样,就又省去了我程序中将attrs转换为dict变量的操作了,更加提高了效率。在次感谢Beautifulsoup的开发者。 |
在使用Beautifulsoup的find/finaAll等函数时候,常见用法都是传递字符串本身,比如:
foundIncontentTitle = lastItem.find(attrs={"class":"a-incontent a-title"});
可以找到:
<a href="/serial_story/item/7d86d17b537d643c70442326" class="a-incontent a-title" target=_blank>I/O-Programming_HOWTO(上)zz</a>
中的值。
但是却无法匹配:
<a href="/serial_story/item/0c450a1440b768088fbde426" class="a-incontent a-title cs-contentblock-hoverlink" target="_blank">为什么幸运的人总幸运倒霉的人老倒霉-1 斯宾塞·约翰逊著</a>
即,class的值是:a-incontent a-title cs-contentblock-hoverlink,而不仅仅是a-incontent a-title
此时,如果想要匹配才class,使用传统的方法,则需要写两个find去匹配,而后来得知,原来find/findAll等函数的参数中,也可以使用正则表达式的,所以就用了:
titleP = re.compile("a-incontent a-title(\s+?\w+)?");# also match a-incontent a-title cs-contentblock-hoverlink
foundIncontentTitle = lastItem.find(attrs={"class":titleP});
就可以一次性匹配,a-incontent a-title,a-incontent a-title cs-contentblock-hoverlink,以及未来更多可能的a-incontent a-title xxx了。
感叹一句,Beautifulsoup,做的的确很好用,特此感谢作者。
3.3. Python中自带模块的使用心得 | 第 4 章 crifan的Python库:crifanLib.py |
特别感谢Crifan Li对python及几个第三方库的总结,这里提供作者的网站,希望给更多的人提供帮助:http://www.crifan.com/files/doc/docbook/python_summary/release/htmls/index.html
来源:oschina
链接:https://my.oschina.net/u/259961/blog/132766