lawyerscloud 2016-10-31 14:16:12
前几天在某论坛看到“ 网站文章更新工具”发现其功能非常符合自身需求,遂参照相关视频学习了一下,视频比较详细,软件操作也不复杂,对于外行人来说依样画葫芦多少能像一点。现在有个问题想请教各位,劳烦各位指导一下,拜谢。
一、测试监控网站
1、http://www.chinalaw.gov.cn/article/fgkd/xfg/fl/
二、采集区域
table align="center" class="article"——href=http://bbs.kakawz.com/333/"index.shtml" id="p1"
三、正则匹配
<td class="ardot"></td><td class="arlisttd"><a title="(.*?)" target="_blank" href=http://bbs.kakawz.com/333/"/article/fgkd/xfg/fl/(/d*)/(/d*).shtml" class="artitlelist">(.*?)
admin 2016-11-01 09:51:29
测试的时候是20条,是取全部的。监控的时候,监控的是新文章,比如上次监控了17条,第二次发现了20条文章,但是17条是老的,就不会入库,只取3条新文章。
看你图片的配置,是有问题的。
一:法制办公室列表页面不是按id排序的,第1条比第2条的id小,第2条又比第三条的大,只有id依次减小才能用比较id来判断新文章。
二:标题索引,这些都填错了。索引是从0开始,不是1.故,标题索引应该是1,而非你填的2
你可以这样写:
正则(从你正则中改的):
引用:<td class="ardot"></td><td class="arlisttd"><a title="(.*?)" target="_blank" href=http://bbs.kakawz.com/333/"(.*?)/(d*).shtml" class="artitlelist">(.*?)(.*?) (d*)