不需要配置的爬虫

Crawler 不需要写代码的爬虫 不需要写正则的爬虫

青春壹個敷衍的年華 提交于 2020-04-06 21:46:59
Crawler V1.0.0 代码还没有优化 框架结构很简单 部分功能需要你们给我需求,我后期添加测试 操作指南 命令:java -jar Crawler.jar -[option] -v 爬虫的版本信息 -h 爬虫的帮助文档 -ct [url] 爬虫爬取一个网站测试 URL:测试的URL地址 -cw [url] [k,v] 测试信息抽取 | URL:测试的URL | [k,v] title,div[class=title] 如果有多个参数,使用#隔开 -ci [urllist] [k,v] <InputResult> 把抽取的信息规则保存xml中,可以使用SQL工具的导入向导导入到数据库或者转成其他格式| <InputResult> 保存结 果目录 -cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,可以用ci进行深入爬取 E.g 例子 1、-ci URL文件 爬虫规则 输出路径 2、执行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml 然后我们可以使用SQL导入向导,用xml导入的方式,然后又可以转换为XML、TXT、EXCEL、WORD等多种格式