shao84314 2018-06-04 17:01:28
本帖最后由 shao84314 于 2018-6-30 10:18 编辑
感谢版主提供这么优秀的软件,使用一段时间后,总结了一点经验,有可能对新人有用,发出来。第一次录制,不太顺畅,有错误的地方请大家海涵。
制作这个主要是针对它的网站没有登录系统,在没有填写cookie的情况下,无法获取有效HTML代码。我使用的过程中碰到几个政府网站都是这样,希望对大家有所帮助。
主要流程:
1、将所需要采集的栏目的网址复制到软件中监控网址栏,点击测试规则
所出来的数据并不是我们所需要的,看页面的HTML代码没有问题,怀疑是cookie的问题,虽然没有登录,但也获取一下试试。
在页面上点击F12选择network F5刷新,双击最上面一条,选择headers 复制cookie
这次获取的就是正常的代码了,继续进行下一步。
2、现找到文章出现的区域 这里只需要注意所选择的开始标记和结束范围的代码不允许在代码中重复出现的就可以。
3、获取每篇链接的通用代码,并以相关规则替代,获取到20篇 。
视频下载地址:链接: https://pan.baidu.com/s/1OgbreOa2GXoNmMiLXb7Gbw 密码: dp2e
其实还有另外一种解决方案,通过域名查询IP,一般政府性都是一个网站一个服务器,比如举例这个就可以通过IP直接访问,然后不设置cookie的情况下也可以获取正常的HTML。
admin 2018-06-05 09:13:15
几个细节描述的很值得新人参考,具体的实例相比理论,容易理解的多{:holidayspirit:}
38722856 2018-08-02 11:37:18
不错,再加上声音讲解就更好了。
xiaojies7 2018-09-18 17:09:13
{:fireworks:}{:fireworks:}{:fireworks:}{:fireworks:}
gsxf2009 2018-11-22 08:50:04
加上声音讲解就更好了
许愿树 2018-11-23 10:29:47
不错,再加上声音讲解就更好了。
皇家礼炮 2019-02-25 09:47:19
几乎所有的政府网站都是发布与管理是隔离得,和一般商业网站不一样。