我正在考虑尝试Beautiful Soup ,一个用于HTML抓取的Python包。 还有其他我应该查看的HTML抓包工具吗? Python不是必需的,我实际上也对其他语言感兴趣。
到目前为止的故事:
- 蟒蛇
- 红宝石
- 。净
- 佩尔
- 爪哇
- 的JavaScript
- 的PHP
- 他们大多数
#1楼
“简单HTML DOM解析器”对于PHP是一个不错的选择,如果您熟悉jQuery或JavaScript选择器,那么您将发现自己在家里。
#2楼
我知道并喜欢Screen-Scraper 。
屏幕抓取工具是一种用于从网站提取数据的工具。 Screen-Scraper自动化:
* Clicking links on websites
* Entering data into forms and submitting
* Iterating through search result pages
* Downloading files (PDF, MS Word, images, etc.)
常见用途:
* Download all products, records from a website
* Build a shopping comparison site
* Perform market research
* Integrate or migrate data
技术:
* Graphical interface--easy automation
* Cross platform (Linux, Mac, Windows, etc.)
* Integrates with most programming languages (Java, PHP, .NET, ASP, Ruby, etc.)
* Runs on workstations or servers
三种版本的屏幕抓取器:
* Enterprise: The most feature-rich edition of screen-scraper. All capabilities are enabled.
* Professional: Designed to be capable of handling most common scraping projects.
* Basic: Works great for simple projects, but not nearly as many features as its two older brothers.
#3楼
好吧,如果您希望仅使用浏览器从客户端完成此操作,则可以使用jcrawl.com 。 从Web应用程序( http://www.jcrawl.com/app.html )设计了剪贴服务之后,只需要将生成的脚本添加到HTML页面即可开始使用/呈现数据。
所有抓取逻辑都是通过JavaScript在浏览器上发生的。 希望对你有帮助。 单击此链接以获取从Yahoo网球中提取最新新闻的实时示例。
#4楼
我在Perl中使用了LWP和HTML :: TreeBuilder ,并且发现它们非常有用。
LWP(libwww-perl的缩写)可让您连接到网站并抓取HTML, 您可以在此处获取模块,而O'Reilly的书似乎在此处 。
TreeBuilder允许您从HTML构造树,并且HTML :: TreeBuilder-Parser提供了建立HTML语法树的文档和源代码 。
但是,与这种方法相比,可能还有很多繁重的工作要做。 我没有看另一个答案建议的“ 机械化”模块 ,所以我很可能会这样做。
#5楼
HTML5解析算法的实现 : html5lib (Python,Ruby), Validator.nu HTML解析器 (Java,JavaScript;开发中的C ++), Hubbub (C), Twintsam (C#;即将推出)。
来源:oschina
链接:https://my.oschina.net/u/3797416/blog/3163783