[规则视频教程]网页信息批量采集:导出微博某用户的全部微博内容列表到excel的教程
今天给大家演示一下怎么用软件导出微博某个人发表的全部的微博。然后首先我们打开他的微博,右键检查或者审查元素,或者直接按 f12 切换到 network 或者是网络,然后点击漏斗,把筛选器给它打开。现在里面是空的。那么我们刷新一下网页,可以看到下面出现了很多的很多行,网页和服务器,全部的交互信息都会显示在这里,包括图片这些东西。
那么我们在这里面怎么找到博文微博的文字?这些信息从哪个页面加载出来的?因为微博它是 JSON 形式加载的,所以说我们直接切换到 X HR 我们在这里面找首先点击第一个,我们可以看到这一行它没有包含发布的微博信息。那么我再找第二个,这一行的体积很小,所以说我们干脆直接按这个大小排序,先从最大的找。那么选择最大的这一个。点这个 39 号可以展开。前面说了这个花括号包含,这个是一个 JSON 格式的,它可以用软件的 JSON 规则来写,再展开,再往下拉物质生活。那么大家可以看得到,这已经包含了博客微博的信息,说明我们找到这个网址,它就是微博真实的加载网址。那么我们把这个网址复制到软件上测试一下,可以看到匹配的内容跟我们的网页浏览器里面不一样。那么我们现在遇到这种情况下,在软件上面模拟一下浏览器登录就可以了。复制浏览器的写一头全选,然后复制双击粘贴到软件上。那我们再测试一下软件的上面源码显示一个问号。
我们把协议头的大家可以看到这一行是以压缩的方式让服务器返回压缩格式,所以说我们软件没有封装解压的,所以说我们把这个删掉,这一行删掉再继续测试,这样服务器就已经返回来的,不是压缩格式了,是普通的文本。那么下面写规则我们的用途从选择。第二个,根据规则匹配出多个信息,大家可以看得到这个是 JSON 格式的信息文本。所以说我们有两种普通的规则和 JSON 格式的规则,我们就可以用第二个就行了。第一行放一个声明的头部文件,然后换行后面写 Jason 路径,我们需要导导哪一些呢?我们随便写两个,因为是影视,把微博的正文给它复制出来,右键复制路径,然后粘贴出来粘贴到软件。发布地也给它复制出来。在这个应该是微博的博文的ID ,我们也给它拿出来。这里应该是时间先要这四条,其他的大家如果需要的大家可以自己来取。比如这个像是图片的 ID 可以拼接成完整的图片路径。
复制图片,可以看得到这里就是图片,然后可以拼接成全部的图片路径。那么我们今天就不取图片了,我们根据刚刚写的规则,然后点击一下测试,发现有一条我们要把看一下规则,数组的序列请用星号代替。那么我们要把这个 0 改成星。
大家可以看得到这里,这个 list 里面也是数值0123,它这个是序列。所以说我们如果写 0 的话,那么它只匹配是这个值为 0 的。所以说我们要改成星号,那么 01234 是只要是有的,它全部会匹配出来。然后我们去点击测试看一下,可以看到它跟我们的规则,它匹配到了信息,我们从这个网址去加载的匹配的信息,抓取的信息。大家可以看得到这个网址的格式,这个应该是用户 ID 这个是页面的页码。我们推测一下,第二页应该这个改成2,它就是第二页我们再试一下改成2,是不是测试。我们发现改成2,它也是可以匹配出来的。这个时间从 28 号,也就是说确实是第二页的信息。好,那么我们开始批量匹配,把这个网址复制出来,从这复制,然后点工具生成序列网址,把这个网址粘贴进来,把这个页码给它改成星号,然后生成这个星号,后面会替换成实际的数据页码。我们生成 4 页,起始编号和每次递增多少?我们先生成 4 页,可以看到这个拍机后面 1234 已经生成出来了,我们双击复制,关闭,再双击粘贴。1234。我们开始测试,然后把这个间隔改成1200,就是 1 秒 2 每抓两次的页面间隔,如果频率过高,有可能会被服务器屏蔽 IP 所以说我们现在改成适当的间隔,再开始批量处理软件,现在已经开始匹配了。这个为什么是21,22呢?它大概率里面是有广告,我们导出一下,先在这上面看一下。
他现在我们先回到网页上,我们知道网址的条件筛选,然后我按 enter 让页面再加载第二。第二页它没有加载到调研,那么关注一下,再重新刷新,刷新可以看得到他这个网址开始从 2 开始大家可以看得到从 0 到21,确实到20,它是有 20 行,21行再往下再让它加载一页。那么第三页开始出来了,0到 21 是不是二十二一共有 22 行跟我们软件的显示的一致,后面我就不看不一起看了。然后我们现在已经把正确的跟网页上显示的结果一致。我们先导出,直接点这个导出,然后选择表格,我们要导任务列表和匹配结果哪一个我们要匹配结果这一个这一页。所以说我们要如果可以全选一下,或者只要我们需要的,我们知道我们需要的列。选择大家需有文本和 Excel 我们导 Excel 然后导出失败,然后我们右键点导出结果到表格。
现在大家可以看得到我们匹配的信息一共多少糖 87 也就去掉,表头是86。然后我们看一下软件 86 行。
视频教程在线观看地址:https://www.bilibili.com/video/BV1fe4y1M7w9/
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。如果侵犯了你的权益请来信告知我们删除。