网页信息批量采集:抖音用户主页发布的视频导出到excel的方法
今天给大家演示一下怎么用软件去获取抖音用户主页的视频。在浏览器打开抖音,然后随便进入到一个用户的,然后按 f12 或者是直接右键它元素打开开发者整体调切换的 network 或者是我们点一下这个漏斗,可以把筛选器打开清空一下。然后我们往下拉,可以看到浏览器下面染色了很多条目,这个网页和服服务器所有的交互信息都会在下面显示,有图片还有列表。
我们信息太多了,我们要找到哪一个网址是这些视频加载的这个网址切换到 shr 一般 JSON 的内容都是从这个格式。这里面大致有两种,先看一下可以看到它是没有信息,下面的都没有信息。然后这种长的他有内容我们看一下它的 JSON 格式切换到源码,它的源码是大括号两个发布号包围的,一般的都是 JSON 的。我们展开它看它包含哪些内容。首先可以看到它这个里面有 10 随便打开一个信息看一下,我们可以确认它包含视频的内容的信息大概率就是在一个。那么我们首先复制它一个网址的特性去粘贴,把符合条件的这些可以我们再把这个网址复制到软件里测试,没有抓取到信息。我们把协议头粘贴到软件里。大家可以看到我复制的是从哪里复制到哪里粘贴到软件的协议库里面。
然后再去再一次测试,发现内容取到了,但是我们看到他内容只有几个字。遇到这种情况可以肯定的是,软件他请求网页服务器的时候以压缩的方式去请求的,我们只要把这个参数删掉,或者直接把这个参数改掉,再测试一下,告诉服务器用不用压缩的方式去请求。因为网页的内容比较大,比如说软件卡、银卡信息已经用软件开始正常获取了。那么我们开始写怎么从这些内容匹配到视频的信息呢?
我们因为一个主页有很多条信息,所以说我们选择根据规则匹配多条信息。那么写规则上一节课我们说的是用普通的规则,它是用基本上所有的 HTM L 的页面, HTML 里面是没有打开网页的源码,他通常是以 HTML 这种开始。然后这种源码 JSON 格式的,它一般的都是这种花括号发括号开始发括号结尾,然后在浏览器里面可以展开 nothing cause 上一次是普通规则,我们这次用 Jason 格式的规则去选一下,看一下它
这次网页返回这次 JSON 格式可以推荐使用它更简单。首先把声明超市软件用的是 JSON 规则,然后回车开始进入第二行,宿主序列成了信号替代我们要取 JSON 的路径。 JSON 的路径怎么取呢?我们现在开始取一下健身路径,在浏览器随便点开一个这个,我们把这个描述给他,我们要这一行,所以说又见他,然后复制路线 and 再继续找我们需要的路径就是图片什么信息,大家可以看一下,如果你需要啥的话,可以在这里面去这个是分享的信息。那么我们把分享链接取一下。如果需要的话, one two three 需要的话就可以不用拿这是一个。看一下音乐有哪些东西?播放地址要不要呢?然后放在这里可以用,然后他继续找 you should 音乐的标题,也要不要的放在了链接的上面那个看一下,我们再继续往下走听好,如果不需要的话就不要了。 I 往下走,大家可以展开看一下有没有自己需要的信息放在这里,随便找一下看看这里。
在浏览器里面打开。哇,这把是张楠的婴儿床,开局先碰出 5 万,说明这个是视频的播放地址,也就说下载地注意一下也放在上面,这三个可能是他们的清晰度不一样,具体的大家可以看一下参数。
可以看一下后面 0 和2,大家记一下它,我们先用0。
我们先不要了,大家需要的话自己可以取一下。那么我们再继续看一下这些路径,我们需要的路径全部复制下来了,看一下它的规则再继续怎么写。把路径里面的数组序列用中括号和新赛季切换它,然后 ctrl 加 H 替换打开,然后替换成这里。 but dont hour 给它替换到中国号星,因为它是01234,它都是循环的列表的循环 ID 所以说给它替换成7。然后大家可以看一下这也是一个全部替换。
那么就切换到我们软件可以识别的规则了。每行路径最多包含一次信号 and 信号,请保证规则在第二行包含性。首先有两个问题,第一个是我们的新号在这里出现两个,那么他这是也就是说没办法用软件识别不了会出问题。然后所以说这个人要改回去,手动要改回去。
另外一个,若规则包含星,那么我们确认规则包含第二行包含星,第二行我们包含第二行实际上从这里算起,第一行发现进来了,这里是第一行,那么第二行我们的第二行是不是去包含了。那么我们继续看一下,我们把因为这个是介绍我们需要如果需要取这个 max 最大值,我们是不是也要把这个加进,那么这个这个他就没有行。如果放在这里,第二行是不是助播安心了,所以说放在这里是有问题,我们要把第二行确保它有信号,然后全部没有信号,那么就无所谓了。如果有一个带星,那么这个星号要放在第二行,这个放在这里。那么我们再测试,看一下软件就卡了 the 看到匹配出来了,我们这个不带信号的是不是要一下大家看一下。那么我们怎么因为他的视频列表这是获取视频的地址真实地址,他的网址的格式没有太集统一是大家可以去看一看一下。那么我们先不分析它了,直接把这些网址随便复制两个。
我们暂时就取三条,包含刚刚你们的一条,然后 oh my gosh 间隔改成200,在飞书上看一下大家。大家开始处理之前,最好先匹配测试一下我哪里出了问题,他任务已经跑起来了,那没问题,我们开始批量处理。
第八十条已经取出来了。
这种方式的规则是不是通用的规则。而且写起来讲到现在取得了两条两行,也就是说 20 条三个页面全部已经抓取完了,一共匹配的 30 条。那我们看一下批的结果,看到我们再看一下。
视频教程在线观看:https://www.bilibili.com/video/BV1ZD4y1a771/
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。如果侵犯了你的权益请来信告知我们删除。
上一篇:[规则视频教程]网页信息批量采集:导出微博某用户的全部微博内容列表到excel的教程
下一篇:已经是最后一篇