jcrawl

HTML抓取的选项? [关闭]

吃可爱长大的小学妹 提交于 2020-02-28 03:53:30
我正在考虑尝试 Beautiful Soup ,一个用于HTML抓取的Python包。 还有其他我应该查看的HTML抓包工具吗? Python不是必需的,我实际上也对其他语言感兴趣。 到目前为止的故事: 蟒蛇 美丽的汤 xml文件 HTQL cra草 机械化 红宝石 能吉里 杏 机械化 scrAPI scrubyt! 袋熊 瓦蒂尔 。净 HTML敏捷包 瓦丁 佩尔 WWW ::机械化 网页抓取工具 爪哇 标签汤 HtmlUnit 网络收割 防护 so Jericho HTML解析器 的JavaScript 请求 欢乐 阿图 节点马 幻影 的PHP 古特 htmlSQL PHP简单HTML DOM解析器 使用CURL进行PHP爬取 猩红查询 他们大多数 屏幕刮板 #1楼 “简单HTML DOM解析器”对于PHP是一个不错的选择,如果您熟悉jQuery或JavaScript选择器,那么您将发现自己在家里。 在这里找到 这里也有关于它的博客文章。 #2楼 我知道并喜欢 Screen-Scraper 。 屏幕抓取工具是一种用于从网站提取数据的工具。 Screen-Scraper自动化: * Clicking links on websites * Entering data into forms and submitting * Iterating through search