利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

今天春哥团队虎子给大家分享一个好东西,记录一次用爬虫利用接口漏洞扒了一个网站整站的打包数据。这个站点是做美女图片的,直接爬完,一丝不挂的把所有资源都抓取过来了。

以下为具体文章内容:

伸手党请直接滑动到文章末尾(:з」∠)

2019.01.04 百度云地址已更新,之前的被谁给举报了,2333。

2019.02.27 又被孤儿给举报了,这次直接被度娘直接封资源了,发不粗来,文尾会附上新的下载攻略,不用百度云

2019.06.05 重新分割打包上传百度云,举报司马,╭(╯^╰)╮

后续会不定期更新的哦!

明明是很和谐友爱的资源,又不是h的,凭什么把我的资源给封了,哼!

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

居然连我自己也无法下载!太过分了!

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB


启发过程:
前几天玩游戏时,lol盒子右下角有条广告,
广告大概这个样子

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

咦,小姐姐,还有cosplay,点进去看看。
哇,发现一个好玩的网站,好多漂亮的妹子,页面打开很流畅,点开后有的浏览页面还有好听的音乐,产品体验极佳。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

不过每组图片只能看前几张图,后面的图只能看到缩略图,如果想继续看或者打包下载得花银子,通常要1-5rmb。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

ctrlC+ctrlV几张后不乐意了,这么保存一来看不到全部图片,二来,麻烦,太麻烦了。
俗话说,妹子是第一生产力,鲁迅有云,懒人创造美好世界。
试试吧,看能不能发现点有趣的东东。首先习惯性的看看html源码,blabla一堆,头大,pass。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

从页面源码来看,页面应该是前端渲染出来的,直接解析爬虫爬的话会比较麻烦。既然是前端渲染,那再看看请求吧,首页肯定是加载相册列表,没啥大用处,直接看加载具体某一相册的请求结果,点开某一相册,跳过图片,看看有没有什么可用的接口,果然有。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

复制出来,浏览器走起,请求后返回如下信息

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

很明显是该相册的详细信息获取接口,可是怎么有些像是被编码过的东西。既然被编码了,解码出来瞧瞧,postman走起。postman顺利解析出结果

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

上下翻翻看,发现了一个神奇的链接,是个zip压缩包,嗯,有点意思。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

下载回来解压,哈哈,居然是该相册的所有照片。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB
看返回的结果,很明显使用了jsonp,于是接着试着减少参数,去除了返回结果中恼人的无用回掉前缀,最后简化到仅剩一个参数,id,这接口太呆萌了。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

此外还发现了网页上音乐的地址。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

至此该网站的“核心资产”已经被扒的底裤都没了,2333,下面开始批量爬吧。
有两种思路,一种是利用主页调用的获取相册列表参数接口来获得相册列表再通过列表爬压缩包地址,另外一种是直接从1开始依次尝试到首页最新的一个相册对应的id。最终决定采用第二种思路,因为这样即使首页隐藏的相册通过这种方式也能被发现。
开搞,建数据库,数据表,为方便后续追加执行,以及放在服务器上爬,所以采用springboot配合异步调用来实现。一开始使用post方式进行调用,结果尝试抓取了一两百条后到数据库一看,怎么这么多重复的啊,而且怎么同一个id和我用postman直接调得到的结果不一致?很可能开反爬了。

转变思路,postman采用的是get方式,所以程序试试也使用get方式进行调用,同时加入线程随机睡眠时间和User-Agent请求头,以此模拟普通用户的浏览器访问行为。bingo,顺利的抓取到了正确的图包名称、下载地址地址、音乐名称、音乐下载地址等信息。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

扔服务器上爬吧。等了大概十几分钟,爬完后总共获取到892条有效的图包记录,202条有效的音乐记录。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

爬到地址后可不能算结束,还得把真正的压缩包都下载回来,写个批量下载的方法,服务器走起,然后便开始吭哧吭哧的下载,速度还行,能接近7MB/S。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

从上午11点开始到晚上9点下载完成,总共耗时10个小时,从服务器上全部下载回来吧。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

经过漫长的等待后,终于下载完,写了个脚本统计结果,最终:总共获取到了46187张图片,大小36.5GB。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

又花了大半天的时间全部上传到度盘,下面重点来了


度盘地址:

链接:https://pan.baidu.com/s/1IDgkG3dzfn5Zel6B2FskiQ
提取码:5id9

其中包含每100个id为一个目录进行归档,本想以下图这样的方式放出来,方便查找和下载,却因为度娘对外链关键词过滤极其敏感,只得作罢。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

为了便于各位预览与对照查找,增加rar压缩包,内含各个相册的预览图,每个相册一张,此外还提供了对照excel文件,可通过文件名查找到对应的下载地址,如果下载地址失效可以到上述度盘对应的地址查找下载。

压缩包的解压密码是:blog.hytcshare.com

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

自力更生下载法:

1、序号为0-1285之间的资源

可直接使用url下载(工具可以用迅雷什么的,随意),下载地址包含在如下文件

tuwan0-1285资源对照表

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

想下载哪个直接戳哪个即可

2、1286及以上的资源

该部分资源由于tuwan网接口更新,无法再获取到压缩包下载地址,只能通过其他方式获取到一张张大图地址。

大图比较与前面的压缩包的图片质量要差一些,好处的占空间小了,有的看总比没有强吧,啊哈哈哈。

1)使用提供好的下载地址表

tuwan1286+资源对照表

下载的时候可以批量复制感兴趣的相册中图片的下载地址,然后到迅雷里新建批量下载,记得勾选合并为一个任务组哦,下载体验接近于下载压缩包。

利用接口漏洞爬虫抓取整站美女福力图片打包下载共36.5GB

这种方式可能无法获取最新的图包,因为我不定期才会更新一下,如需获取最新的可以采用下面的方法

2)使用程序进行下载

需要有一定的java web基础,源码都提供了,随便玩喽

运行及下载说明可以戳这里

https://github.com/jrhu05/jerryWebSpider/blob/master/README.md

 



如果对爬虫源码感兴趣的可以戳这里:https://github.com/jrhu05/jerryWebSpider ,觉得不错的话记得点个赞哦。

 


20190605度娘下载地址更新

这次学乖了,分包打包上传,每100一段,有个因为超过4GB所以拆成两个压缩包了。解压密码统一是:blog.hytcshare.com

度娘地址:

1-100

链接:https://pan.baidu.com/s/1Ed4o-4PtprwJNgg_-gbicw

提取码:ytdc

复制这段内容后打开百度网盘手机App,操作更方便哦

101-200

链接:https://pan.baidu.com/s/1sCiVdi3R3j4RfFVBHN1Z0A

提取码:imxg

复制这段内容后打开百度网盘手机App,操作更方便哦

201-300

链接:https://pan.baidu.com/s/1ysS00LAgOKfr5GNp3ZIIdQ

提取码:v6zj

复制这段内容后打开百度网盘手机App,操作更方便哦

301-400

链接:https://pan.baidu.com/s/1xdIyzNd2TeRGYVq-Mo2oGA

提取码:yhbi

复制这段内容后打开百度网盘手机App,操作更方便哦

401-500

链接:https://pan.baidu.com/s/1RU1WyGr7jheigk_cEhGmEw

提取码:ljgj

复制这段内容后打开百度网盘手机App,操作更方便哦

501-600

链接:https://pan.baidu.com/s/1fzWH33foTwsGBJKOpYcX8w

提取码:1djs

复制这段内容后打开百度网盘手机App,操作更方便哦

601-700

链接:https://pan.baidu.com/s/1AutMAorxA5iFKVjlKhUcBQ

提取码:z6no

复制这段内容后打开百度网盘手机App,操作更方便哦

701-800

链接:https://pan.baidu.com/s/1OUAJWSZzOTTRmMV_j9SYNQ

提取码:sca0

801-900

链接:https://pan.baidu.com/s/1Xl3NwEs92gumN9vN8uf6zQ

提取码:g7an

复制这段内容后打开百度网盘手机App,操作更方便哦

901-1000

链接:https://pan.baidu.com/s/1CO1d1T2rredDEoVUALi2Ng

提取码:9y6r

复制这段内容后打开百度网盘手机App,操作更方便哦

1001-1100

链接:https://pan.baidu.com/s/1tIvBGt4RSK7-l4ym326UTQ

提取码:7l9i

复制这段内容后打开百度网盘手机App,操作更方便哦

1101-1200

链接:https://pan.baidu.com/s/1myd1xHQAjWeTWr-JS5JTIw

提取码:7t0o

复制这段内容后打开百度网盘手机App,操作更方便哦

1201-1250

链接:https://pan.baidu.com/s/1AqA5RY-lMQwrZloLzWd9Yg

提取码:pk31

复制这段内容后打开百度网盘手机App,操作更方便哦

1251-1300

链接:https://pan.baidu.com/s/1lKusdxgQHsrAnUQ7q-dmrA

提取码:mcgu

复制这段内容后打开百度网盘手机App,操作更方便哦

1301-1400

链接:https://pan.baidu.com/s/1e43L_AXLHs7ZDHYZut4ehA

提取码:vlvv

复制这段内容后打开百度网盘手机App,操作更方便哦

please enjoy it!

 



来源:春哥技术博客,欢迎分享,转载请注明出处。(欢迎加春哥团队客服微信号:taike668)

本文地址:https://www.cgtblog.com/jishu/3638.html
上一篇:mysql批量删除前缀相同的数据表的语句      下一篇:您近期的资源健康度下滑,会影响指数和