admin 2019-10-02 21:44:11
前面已经演示2个基础的例子即:
1、抓取网页中的一个元素信息
2、采集列表页的所有文章与链接
这节开始做一个软件的应用场景实例:利用万能信息采集工具来实现采集柴都导航上的所有网址,并发布到自己的网站上。
本文先说采集柴都导航并导出成表格。
一:查看网址在软件眼中的源码
将柴都导航的网址(https://www.chaidu.com/)添加到软件上,并点“配置测试”,在源码显示框中发现,源码乱码!说明我们的编码选错了,将“GBK编码”勾选掉即可
二:打开开发者工具(审查元素),并定位到任意一个需要采集的信息上面
在浏览器中按F12,打开开发者工具,然后在当前界面访问网址www.chaidu.com,在开始者工具栏最左上角,有个箭头,点一下(变蓝,如下图),并移动到任何一个网站标题上,如“麦库记事”,点一下“麦库记事”
三:在开发者工具上鼠标移动找到控制一条网址显示的完整代码
根据上节讲的方法,找到控制一条信息显示的完整代码,并在软件中找到相应的代码,取出。我们根据取出的一条信息的代码,来写规则。
四:编写采集规则。
因为我们在页面上要抓取的信息不只一条,所以在软件的“用途选择”要选择第2行“匹配多条满足条件的信息列表”
引用:直接从源码中取出的控制麦库记事显示的完整代码
-------------------------------------------------------------------------
<li><a href=http://bbs.kakawz.com/333/"http://note.sdo.com/" rel="external nofollow noopener" target="_blank" title="麦库 - 永不丢失的云中记事本!">麦库记事
使用[var]替换掉单条代码中的标题、链接、简介,结果如下:
-------------------------------------------------------------------------
<li><a href=http://bbs.kakawz.com/333/"[var]" rel="external nofollow noopener" target="_blank" title="[var]">[var]
使用[var0]替换掉无用也无特性的变量或文本
-------------------------------------------------------------------------
<li><a href=http://bbs.kakawz.com/333/"[var]"[var0]title="[var]">[var]
引用:<li><a href=http://bbs.kakawz.com/333/"h[var]" rel[var]title="[var]">[var]</a></li>
38722856 2019-12-12 08:28:02
学习了{:dog:}