【最新更新支持频道分页、文章分页】【抛砖引玉】抓取OSC的问答数据展现垂直爬虫的能力
更新提示(2013-03-13):最新版本更新: 支持定向抓取某频道 <!-- | name:目标名称 --> <target name="travel" isForceUseXmlParser="1"> <!-- | 限制目标URL的来源为网易旅游子频道,在spiderman里面把频道页叫做"来源url" --> <sourceRules policy="and"> <rule type="regex" value="http://travel\.163\.com/special/cjgat(_\d+)?/"> <!-- | 定义如何在来源页面上挖掘新的 URL --> <digUrls> <field name="source_url" isArray="1"> <parsers> <parser xpath="//div[@class='list-page']//a[@href]" attribute="href"/> </parsers> </field> <!-- | 在spiderman里面把详细文章页叫做"目标url" --> <field name="target_url" isArray="1"> <parsers> <parser xpath="//div[@class='list-item clearfix']//div[@class='item-top']/