[规则视频教程]网页信息批量采集:导出蝉妈妈商品列表到excel的规则写法
视频教程地址:https://www.bilibili.com/video/BV1oD4y1e7ws/
今天演示一下蝉妈妈的选品库的商品列表怎么导出
我们打开蝉妈妈这个网页
切换到选品库
我们要找到这些商品从哪个页面加载的
首先右键选择源代码,第一个商品是全国联通,我们是在代码中搜索,发现没有找到
说明这些信息不是在网页本身加载的,而是在其他的页面加载上来的
我们要找到真实加载这些信息的网页
首先右键选择检查或者是f 12切换到network,或者有一些浏览器是中文版的工具条切换到网络,这个漏斗先把这个漏斗打开或者关闭
我们打开把它切换到xhr,一般呢通过其他页面加载的都是xhr
我们选择一个品类,让数据重新加载一下,随便用食品饮料点一下,可以看到列表已经重新重新加载到新的分类了
然后这个数据是从哪个,我们要找到这个数据从哪个列表里面抓到的
我们看到有两条两条信息
首先检查第一个发现这个数据只有这么一些,再看一下
第二个切换到这个,然后展开
可以看到这些list里面有十个信息
展开以后看到它包含商品的一些列表的一些的数据
也就是说这个这个页面
这个页面是真实数据请求的网址页面
我们把网址复制下来
这是它的网址
再把这个拉拉到最下面啊
可以看到这个网址上包含哪些哪些参数
找一些这个食品饮料是分类类别的意思
这个拍解我们可以理解成应该是页面的分页
分页size就是一个页面放有多少多少条信息
我们现在可以猜测是这个意思
然后打开我们的采集工具
首先我们输入刚前面复制的这个加载这些数据的一个真实网址
从这里http复制到最后
复制下来
然后粘贴
我们测试一下看看
发现没有找到没有找到信息
那么我们再找到原因
第二步就是没有找到
说明它识别成我们是软件抓取的
而不是正正常获取
那么我们把它的协议头给它复制下来
把这些全部复制下来
大家可以看看在哪里
全部复制下来再粘贴
全选粘贴
再测试一下
可以看到右面源码显示只有一个问号
这个问号说明网页压缩了
所以说我们因为软件没有封装解压模块
所以说我们把它取消压缩
在这里找到gzip这个压缩
这个我们要删掉这一行
我们也可以直接加个1,也就是说把这个参数给它变一下,我们再测试一下哦
看到了数据已经加载出来了
但是有一个问题就是很多中文变成乱码了
那么我们把这个编码切换一下状态
再测试一下
现在可以了
我们可以看到数据已经获取成功了
第一个是pp嘴粮油
看一下网页上面的信息对吧
这个这个现在跟网页上一致了
那么我们数据抓取出来了
看一下怎么能把每一条的数据匹匹配下来
在切换到网页上
找到这里刚刚的这个列表的
我们可以看到每一个列表的是从这个开始
一共有十个列表
每个列表每一个商品的商品是从这里开始
我们先把软件识别成的源码复制到记事本里面
控制一个商品的显示的代码
从从这里开始
因为它有十个循环体
每一个循环体都是从这里开始
从这里开始
我们搜索一下
那我们找到了啊
第一个在
第一个在这里
那么到到第二个
这里是不是就是一个完整的一个数据
也就是说这里在这里
我们从
我们复制这么多
复制一个
然后新建一个给它拉出
拿出来
我们可以分析一下他这些
参数是什么意义
这个我们不需要
我们需要哪里
今天先提哪些数据呢
商品标题标题跟多少人带货
171我们搜索一下171在哪里
171
这里这里是171
说明说明这里我们把要取得171改成英特尔参数表示数数值变量
在标题
商品的标题
因为它是文本
所以说我们直接把文本改成一个v2 中括号括起来
商品店名要不要呢
店名先不要了
我们随便简单的演示一下
价格价格和佣金也匹配一下吧
价格是9.9
我们找一下9.9
查不到
那么可能是990
他可能是以分级的计单位的
那么我们把在这里改成int
佣金比例是48%
我们搜索48
在这里可能就是控制48%显示的
直接它的数值我们改成[int]
这里是啥呀
是佣金吧
475我们也我们先保留一下吧
先不管它其他的
这是我们匹配的要匹配的
那么我们把把用不到的给它清除掉
首先我们从这这哦网址
我们打开以后要有网址
我们看一下网址
它的它的网址
商品的网址是应该是这一个
我们也在我们的源码里面搜索一下
可以看到这里是显示的是网址
我们也把它给它
因为它是文本
所以说我们直接给它全替换成网址格式的
文本格式的变量好
我们就暂时取这么多信息
首先我们从第一个开始
花括号我们就不要了
因为要写转义符
我们先提取这么多
写在规则里面
我们的规则是有两种
第一个是直接截取一段文本
我们第二个是匹配信息列表
我们要现在用的是第二条
直接把这个粘贴进来
我们测试一下匹配
可以看到已经匹配出来了十条
说明我们的规则到现在是正确的
然后我们一直拓展
往后拓展到这里
这里又有一个
所以说实际上我们这里是不需要的
但是这个地方是变量
所以说我们一样需要把它改成
改成加个零吧
零加个零表示匹配它
但是我们不需要它再试一下
十条现在也出来了
说明到目前为止
规则仍然仍然是正确的
再往下拉
视频饮料我们要不要扔呢
这些是变量的
所以说我们可以把这个也给它替换一下食品饮料
那现在先保留着吧
再去匹配
为什么现在一点一点测试呢
如果直接整条去规则前进来
错误了
你找不到原因
还要重新慢慢缩减范围
去定位原因的问题
食品饮料也匹配出来了
那么我们再往后看
这个是不需要的
4.6是什么
4.6
这里好像我们不用它
需不需要它
这个酒是什么酒
我们也不要了吧
这个是图片
图片如果不要
我们也直接给它忽略掉
30天带货627
这个是不是要要啊
6.7627以下六六啊
这个我们这个不要了
零这个30天带货
66732
这个可能会需要
所以说我们也给他保留吧
那么我们再去测试一下往后这个七天的总总量
这个也要我们先去再测试一下
十条仍然可以显示出来
说明匹配到现在规则是正确的
这个我们暂时不要了吧
因为演示演示不需要搞这么详细
如果大家有需要的话
可以慢慢自己去改动
再试一下
十条现在能让他一起去
这个3000也不要
我们先全部不要了
这里都不需要不需要这个店名
我们不需要
所以说我们也不要了
这个分值也不要了吧
直接到这里
因为它全部是一个变量
所以说我们直接不要加个零
然后标题要刚刚说了
花括号括号我们因为要转加转运符
所以说我们直接不要了
不解答再测试一下
好词条已经匹配出来了
说明我们到目前为止
规则一次性完成
还没有出现问题
这个这个花括号为什么不需要呢
大家也可以保留
但是前面要加个反斜杠
它要转转一符
我们呢
列表已经匹配出来
那么我们下一步是导出点
导出到到哪一列呢
第一个是任务列表
第二个是匹配结果
我们任务列表是分发的任务
这个是结果
我们需要的是结果匹配结果
然后我们选择要哪些链来源
要a元
要不要
我们如果不确定
直接全选
拖一下全选
或者是按着ctrl键点一下
可以多选
直接全选吧
然后导出excel
然后开始导出
导出完成
我们在
现在我们就已经导出好了
那么我们如何去
把多页的匹配出来呢
我们现在是第一页
我们先复制一下网址
刚刚说了
这个是台阶水机
那么我们要匹配前五页怎么办
那么这个飞机我们改成2345再试一下
首先复制下来
然后点击工具
然后生成序列网址
把这个粘贴定理
这个需要变了
这个网址给它改成星号
一改成星号
然后生成十个
我们生成十页吧
点击生成
那么网址生成出来了
然后双击复制关掉
把这个全选粘贴进来
那么实验我们粘贴进来了
我们再测试一下
我们不需要测试
我们测试试用
直接直接刷三三行吧
点测试好了
开始匹配十条
十条好
那么我们抓抓了30条
三个页面已经抓了30条
看一下我们30条已经出来了
如果有100页
那么就是1~100就可以了
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。如果侵犯了你的权益请来信告知我们删除。